基于文本挖掘的论坛热点问题时变分析

2017-06-05 09:35吴柳，程恺，胡琪

软件 2017年4期

吴柳，程恺，胡琪

基于文本挖掘的论坛热点问题时变分析

吴柳1，程恺2，胡琪2

(1. 江苏海事职业技术学院，南京 210070；2. 解放军理工大学指挥信息系统学院，南京 210007)

随着互联网的普及，网络论坛因其开放性和自由性成为了舆论的发源地，真实地反映了当前的新闻热点和当前民众最关心的话题。本文基于网易论坛上的网上谈兵栏目，对相关帖子进行文本挖掘，通过改进传统的网络爬虫技术对指定论坛网页进行爬取，设计了关键词权重计算公式提取关键词，依据关键词归纳总结热点话题，提出话题匹配规则对话题帖子进行定位匹配。通过分析热点话题随时间变化的趋势，把握网络舆论的动向，并对话题进一步的发展趋势做出一定预测，为相关部门及时、准确把握网络舆论动态走向提供了可靠依据。

网络爬虫；中文分词；关键词提取；热点话题；时变分析

0 引言

随着互联网的发展，网络媒体因其方便快捷、互动性强的特点，逐渐成为继报纸、广播、电视之后的“第四媒体”，成为现在人们获取信息的主要途径。同时，由于互联网的普及，越来越多的人通过互联网来表达一些自己对某些事件、现象、政策的看法和意见。网络上的舆论反应了人们真实的想法和建议，网络舆情也被越来越多的人所关注[1-3]。

其中，网络论坛发展到今天已成为互联网的重要组成部分，网民通过浏览帖子、展开讨论，表达对热点问题的看法和意见。如果能够及时分析论坛信息，对相关政府机构准确把握网络舆论的动态走向，从而进行监测、预警都具有重要意义[4-6]。然而面对网络中的海量信息，传统的人工方式分析已无应对爆炸式的信息增长，需要采用数据挖掘、大数据等先进技术手段[7-11]，对论坛中热点问题讨论的信息进行有效地采集、分析，从数据中获取有用的知识。

因此，本文研究了从网络论坛内容的获取到数据预处理以及热点话题筛选和时变分析等关键技术，实现对网络论坛热点信息的采集，进而分析热点问题在时间序列上的发展变化规律。通过对网易论坛上的网上谈兵栏目进行文本挖掘，了解各大军事热点问题在时间序列上的走势，把握舆论动向，根据得到的热度曲线图，挖掘有关话题信息，并预测下一步话题发展情况。

1 总体研究框架

基于文本挖掘的论坛热点问题时变分析主要包括信息获取、信息处理、热点话题匹配和时变分析四个步骤，其总体研究框架如图1所示。

图1 基于文本挖掘的论坛热点问题时变分析总体研究框架

1.1 网络论坛信息的获取

网络论坛信息的获取是将指定所关注的网络论坛的URL，自动地获取论坛的帖子信息，并且按照一定的格式存储这些信息。网络论坛信息的获取是数据预处理以及数据分析的前期准备工作，涉及到网络爬虫等网页自动访问和虚拟访问技术，是研究的重点内容之一。

1.2 网络论坛信息的预处理

网络论坛信息的预处理是将获取并存储得到的帖子进行进一步的分词、词频统计、提取关键词等处理。通常直接存储的帖子信息数据量过于庞大，并且论坛信息的实时性强，直接进行分析不仅耗费时间长，工作量大，而且无法及时追踪分析热点。对帖子信息进行预处理相当于用提取的关键词来代替帖子内容，减少了数据量，为后续数据分析提供方便。

1.3 网络论坛信息的话题筛选

网络论坛信息的话题筛选是基于对数据的预处理，通过对帖子关键词以及相应的权重按照权重由高到低进行人工分析，得到具有跟踪研究意义的话题系列。这一过程采用了传统的人工选择，是基于机器对于自然语言的理解能力受限考虑。在确定的话题系列基础上，分析所有话题可能包括的内涵以及在此话题中具有代表性的关键词，为每一个话题建立关键词向量，作为话题规则，从而进一步对所有帖子进行话题匹配，完成分类。

1.4 网络论坛信息的时变分析

网络论坛信息的时变分析是对话题在时间序列上的热度变化情况进行分析的过程。将选择出的话题系列从每个月抽取出来放到整个时间轴上，可以纵向观察到话题的波动情况。不同话题随时间序列的发展情况不同，依据热度曲线图，分析峰值，可以挖掘出在某一时间段话题的聚焦情况。

2 关键技术

2.1 论坛爬虫技术

网络论坛大多采用两层的结构来组织整个讨论区的帖子话题，对于帖子本身来说，需要得到的仅仅是两种类型的页面信息：话题索引页面和帖子内容页面。话题索引页面列出主帖的标题、发帖人、发帖时间、最后回帖时间等基本信息，并且链接指向帖子内容页面。论坛网页的结构如图2所示。

图2 论坛网页结构

由于只需要获取所有的帖子信息，所以不需要网络爬虫大面积的抓取网页，也正由于此原因，爬虫在话题索引页抓取回来的网页除了与帖子有关的信息外，其余的都被看作是网页噪音，需要进一步过滤。并且采用类似“宽度搜索”的爬行策略，从待抓取队列中抽取一个URL后，抓取页面上的所有链接，判断抓取的URL在等待队列和已访问队列中是否已经存在，且该链接必须以http开头，若符合，则将链接添加到等待抓取的队列中。

从初始网址开始，本文采用的网络爬虫架构如图3所示。

2.2 关键词提取技术

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词抽取出来，可以追溯到文献检索初期，在还不支持全文搜索时期，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。简而言之，关键词就是最能够反映出文本主题或者意思的词语。

关键词提取大致有两种方法：第一种为关键词分配，是给定一个关键词库，然后从词库里面找到几个词语作为将需要提取关键词的文本的关键词。第二种为关键词抽取，是从文本中抽取一些词语作为这篇文章的关键词。

另外，从结果上看关键词抽取也可以分两种。第一种仅仅把词语抽取出来，实现较简单，比如FudanNLP、jieba、SnowNLP。另一种则是连词和短语一起抽取出来，这个还需要增加短语抽取这一个步骤，这一类的实现包括ICTCLAS、ansj_seg等。可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”等短语抽取出来。对于聚类或者分类来说，很明显短语比词语更有参考价值。

关于关键词抽取的算法，目前主要有TF-IDF算法、初代KEA算法、TextRank算法和ICTCLAS等。本文采用的是基于ICTCLAS的Ansj关键词提取技术，其基本原理为依据不同词性词语的初始权重，其中标题中词权重加倍，再结合词在文中出现的位置和频率调整后，得到每个词的权重score。

由于本文需要通过关键词的热度来进一步确定当前的热点话题，故结合帖子的浏览量对关键词权重作进一步改进。具体改进的公式如下：

最后生成的关键词热度从一定程度上既反映了帖子的基本内容，同时也体现了在所有帖子中的受关注程度。

2.3 话题提取技术

网络论坛热点话题的获取是指从大量的网络论坛帖子中发现热点话题并利用关键词定位到具体的帖子的过程。本文所采用的热点话题获取方法是基于关键词热度的。热点话题获取是对所有帖子内容中出现的关键词进行的一个统计，关键词热度越高表明越受网民的关注。这种方法所发现的话题基本能够反映出当前的热点问题，话题发现的过程如图4所示。

1. 读入帖子的关键词结果。

按照数据预处理模块中对帖子信息进行的分词、关键词生成结果，依次把词语读入暂存数组keywords[m]中，其中keywords[m]是一个字符型的一维数组，用来暂时存放某一条帖子的关键词结果。例如标题为“我国运载火箭研制”的帖子提取关键词之后的结果为“运载火箭/176.81”，“研制/149.03”，“我国/53.72”， “全新/52.02”，“推力/50.14”，“现役/ 45.55”等，将这些词语按权重顺序依次读入字符数字keywords[m]中，即keywords[0]=“运载火箭”， keywords[1]=“研制”，keywords[2]=“我国”，……，依次类推。此外，在读入的同时自动去除权重较低的词语。

2. 确定进一步研究的热点问题

结合关键词结果、权重评分以及帖子浏览量的综合考虑，人工分析得出需要进一步研究的话题系列，分别设为不同的话题向量为Vector

基于文本挖掘的论坛热点问题时变分析

0 引言

1 总体研究框架

2 关键技术

3 论坛热点问题时变分析

4 结语