当前位置> 首页 > 科技成果 > 其他
面向大数据精准招商的数据采集与处理系统研究及应用
类 别:其他
地 区:隆化县
单位名称:承德淇淇科技股份有限公司
联系电话:15503049801
发布时间:2024-10-15
     面向大数据精准招商的数据采集与处理系统研究及应用主要研究内容包括:①依据招商数据静态、动态不同特征以及相关网页的反爬虫手段,设计基于增量爬虫的静态数据采集与基于查询主题爬虫的动态数据采集两种模式;②针对主流的基于行块分布函数的通用网页正文提取算法对于篇幅较短、段落不连续的正文抽取效果较差,提出网页源码重构、文本行块密度统计加权等改进方式,设计带权行块分布函数网页正文提取算法,提高网页正文抽取的准确性;③针对采集的新闻文本数据聚类及话题提取问题,设计融合LDA 和 Bert-whitening的文本表示方 式,并结合 Single-Pass 动态话题中心聚类算法,有效提升文本聚类的准确性,进而增强招商大数据话题 提取的精确度;④基于上述研究重点开发并实现包括数据采集、数据处理、数据存储、数据应用的面向 大数据精准招商的数据采集与处理系统,测试系统各个功能模块,验证系统的可行性。
     本研究创新性引入网络爬虫技术、网页信息提取技术和聚类算法等技术手段搭建数据采集与处理系 统,并形成PC端和移动端的智慧招商生态服务平台,进一步丰富和完善现有招商引资方式、提高对于 现有招商引资信息的分析和利用能力,减轻招商引资工作人员信息统计和信息采集的工作压力,改善现 有的招商引资工作,实现资源的优化配置。
      本研究成功开发出1套面向大数据精准招商的数据采集与处理系统,技术性能完全满足绩效目标。
       基于研究过程申报了1项发明专利,登记软件著作权3件。项目执行期内新增销售额15万元,完成主要经济指标,应用效果良好。