详细介绍:
互联网数据分布式采集分析系统
一、 功能简介
本系统用于采集互联网上的结构化数据并进行数据清洗、入库存储,以便于后续的统计分析工作。
本系统采取分布式可扩展结构设计,包括一个主控中心系统以及可定制化开发的多个采集终端;由采集终端进行数据抓取和整理工作,主控中心通过控制指令为各采集终端下发采集任务;允许多线程、多任务调度,以达到最高效最稳定的数据采集效果。
主控中心部分包含Web操作界面,可登录后进行采集终端的管理,对任务进行调度、控制、设置抓取周期、查看当前任务执行和实时流量、查看抓取记录、历史数据、错误日志等。
采集终端需要针对所需的数据格式进行定制配置与开发才能达到最佳效果,每个终端独立运行,互不影响,拥有独立的带宽和身份验证,受主控中心统一控制。
本系统可用于采集互联网新闻资讯、社交网络、行业网站、金融证券、舆情分析等各类信息,并对接其他数据分析与管理系统进行后续工作。
本系统拥有云端服务模式和私有部署模式,小规模少量数据采集可使用云端服务,需要稳定长期进行大规模数据采集则可以选择私有部署。
二、 系统优势
- 采取统一的主控中心,可以动态管理、扩展采集终端服务器集群,可以进行状态监控和管理;
- 可弹性伸缩的分布式终端,终端拥有独立IP和带宽出口,独立计算资源。解决了信息采集抓取最常见的带宽瓶颈和IP限制问题;
- 可定制化开发抓取处理算法,针对指定网站和信息源进行抓取并按指定格式处理,提高了针对信息格式变化的适应性;
- 支持爬虫身份信息,模拟登录用户进行访问,可获取不对访客公开的内容;
- 可设置报警规则,通过短信、邮件等形式在抓取多次出错时进行通知。
三、 运行环境
本系统服务器部分使用C#语言开发,基于.net core框架,可运行于主流Windows Server与Linux发行版。推荐使用以下操作系统:
l Windows Server 2008或更高版本
l Ubuntu 14.04或更高版本
l CentOS 6.0或更高版本
前端采取HTML+Javascript,建议使用IE9、Firefox4、Chrome56或更高版本浏览器访问。
本项目已申请软件著作权。