大数据定向采集技术研究

2017-09-07 21:40高国连祖成浩

中国管理信息化 2017年15期

高国连++祖成浩

[摘要] 文章研究的网络素材定向采集技术课题包括定制管理、控制服务器、采集器、分析器和上载器五大部分，实现对网站的实时监控和自动采集，根据网站更新频率的变化和系统自身的负载，自动调整采集间隔，对监控站点进行增量采集，过滤垃圾信息，及时高效地采集新出现的网页信息，为业务应用系统提供基础数据。

[关键词] 大数据；出版；定向采集

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2017. 15. 074

[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194（2017）15- 0162- 03

1 背景

随着信息时代的到来，互联网技术和移动通信技术的提高和应用普及，人们阅读习惯和环境的明显变化，数字出版开始蓬勃发展。数字出版目前已经成为出版业极其重要的形态，并将继续保持高速发展。数字出版技术的发展，不断推动着数字出版产业的高速前进。电子书、AR/VR、网络期刊、网络音乐、数字教育、移动出版等数字出版产业形态逐步形成。

数字出版的快速发展，为出版数据定向采集提供了内容基础。在这一背景下，为促进传统出版与新媒体的深度融合发展，出版行业大数据的定向采集将越来越重要。

2 大数据定向采集的技术关键点

由于网络的信息的异构性，在进行互联网信息的采集时，如何采全、采准，并进行规范的整理，具有相当的难度。现有的Web搜索引擎主要采用传统的互联网信息采集技术。传统的互联网信息采集系统追求大的覆盖面，往往包含用户不关心的大量冗余信息，而且存在着效率不高、获得信息分散、数据非结构化等问题。因此，在搜索领域出现了可定制的定向互联网信息采集技术。除了传统的网络爬虫的基本功能外，定向采集技术根据既定的抓取目标，有选择的访问互联网上的网页与相关的链接，并能够对链接以及页面内容进行识别，对网页数据进行分析与抽取。

互联网按网页存在方式可分为“表层网”（Surface Web）和“深层网”（Deep Web）。表层网指传统互联网采集系统可以访问到的页面，以超链接可以到达的静态网页为主构成的Web页面。面向表层网的传统采集技术已经日臻成熟。深层网是指那些不能通过超链接访问而通过动态网页技术访问的资源集合。随着网络技术的发展，深层网中的网络信息已经占据整个网络信息容量的80%，越来越多的论坛回帖、新闻跟贴等互动式的互联网舆情信息采用动态网页发布技术，面向深层网的网络信息采集系统已经成为搜索技术发展的主要趋势之一。目前，已经有了基于领域知识、基于脚本、基于网页结构分析等动态网页抓取技术，但深层网的采集还面临着许多困难和挑战。

3 大数据定向采集技术研究内容

大数据定向采集技术既能够自动从互联网上采集多种类型的网页数据，也能够根据具体某个主题的特定需要，采集指定范围内的或单条的互联网信息，然后对采集到的内容进行自动消重、提取关键词和摘要信息、自动分析等一系列的处理。

在采集过程中，定向采集技术支持丰富的采集规则并可灵活的设定采集范围。在采集任务调度方面即可设置为定时定点采集、周期性自动下载、多时刻下载，也可以根据网站自身的内容发布规律进行自适应的采集。在内容抽取方面，既可以针对具体的网站内容根据预先定制的数据分析模板进行精确的内容抽取，也可以根据特有算法和策略自动抽取网页内容。

大数据定向采集技术最终抽取分析后输出的数据可支持多编码多格式的输出，不仅仅为已有的其他业务系统提供基础数据，也可以在将来为更多的新业务系统提供数据。

4 大数据定向采集技术架构

网络素材定向采集技术课题包括定制管理、控制服务器、采集器、分析器和上载器五大部分。

4.1 网站流程定义及分析模板定制与管理

定制管理部分主要负责对网站的抓取流程进行定制，以及根据待抓取的网站结构特征定制相应的数据分析模板。

网站定制：负责进行网站抓取流程定制，需要定制的内容主要包括采集范围定定义、抓取深度、刷新方式、数据保存方式等。

模板定制：负责进行数据分析模板的定制，需要定制的内容主要包括链接提取规则、采集区域定义、标题提取规则、正文提取规则、时间提取规则、作者提取规则、来源提取规则等。整个数据分析模板以XML格式的文件保存。

批量验证：负责针对已定制的采集任务和模板进行有效性验证，批量验证的方式可大大提高验证的效率，采用多线程的方式进行数据抓取和分析的验证。

自动分发：负责自动获取各个采集服务器上运行的任务和模板信息，自动将更新后或修改后的任务和模板详细内容更新到各个采集服务终端，节省维护成本。

4.2 采集控制服务器

控制服务器主要负责与定制管理工具的通訊以及与其他课题之间的请求接收与发送，另外还负责所有采集任务和分析模板的维护，以及根据实际采集任务的需要动态加载相应的链接库信息。

通讯管理：负责监听各个课题发送的请求信息，并将处理后的结果返回给各个课题。负责监听定制管理工具发送的请求信息，进行任务和模板的添加、修改、删除等处理，并将下载状态信息返回给定制管理工具。

任务管理：负责维护所有的采集任务。

模板管理：负责维护所有的数据分析模板。

插件管理：根据采集实际所需，动态加载相应类型的动态链接库文件，实现灵活的可扩展支持。

配置管理：负责加载所有相关的配置文件信息，并将该信息提供给采集器和分析器使用。

4.3 多形态信息采集器

多形态信息采集器主要负责原始网页数据的采集、图片、附件等的采集工作。整个采集器针对网页采集的整个流程需要，具体划分为以下模块。endprint

自动刷新：根据网站内容的发布规律，自动调整采集任务的刷新间隔时间，达到更快的下载速度。

定点采集：根据各课题的业务应用需要，定时刷新采集任务。

多层抓取：按照任务指定的采集深度，抓取一定层数的网页数据。

自动消重：自动根据链接信息对采集的网页信息进行消重，避免下载重复数据。

域名管理：负责进行域名解析，并维护已解析的域名信息，提高网络请求的效率。

列表页解析：负责对采集到的列表页网页数据进行解析，提取内容页网页的标题和链接信息等。

4.4 内容分析器

内容分析器主要负责对采集器采集到的网页数据进行内容抽取。具体包括以下模块。

基于模板的抽取：使用定制的数据分析模板对网页内容进行关键项抽取。具体的抽取按照网站类型进一步划分为各个子模块，每个子模块以动态链接库的方式存在，可灵活扩展。

自动抽取：采用自动抽取算法对网页内容进行抽取。

翻页链接处理：根据采集任务的需要，将提出出来的翻页链接信息通过控制服务器发送给采集器，让采集器继续采集这些网页信息。

多页合并：将一篇新闻的多个网页信息经过内容抽取后，合并为一份完整的正文，输出到指定目录。

数据输出：将所有抽取完毕后的数据以约定的数据格式存储到本地磁盘或指定目录。

4.5 上载器

上载器主要负责对分析器分析输出的结果文件进行入库的处理。通过调用文本挖掘技术提供的接口，进行关键词和摘要的提取，并进行自动分类和垃圾信息过滤，最终将这些内容存储到资源库管理系统中，同时将图片、附件等上傳至指定的文件服务器。

5 总结

大数据定向采集技术实现了对网站的实时监控和自动采集，根据网站更新频率的变化和系统自身的负载，自动调整采集间隔，对监控站点进行增量采集，过滤垃圾信息，及时高效的采集新出现的网页信息。大数据定向采集技术面向出版、外宣、政府等行业进行数据采集，为业务应用系统提供基础数据。

主要参考文献

[1]付华峥，陈翀，向勇，等.分布式大数据采集关键技术研究与实现[J].广东通信技术，2015，35（10）：7-10.

[2]王亮.互联网大数据采集与处理技术要点[J].大科技，2016（33）.

[3]司雨昌.网络大数据的采集与处理方式研究[J].移动信息，2016 （12）：121-122.endprint