针对网络心理的相似性分析新闻聚类算法研究

2021-10-10 23:28苏晓雨

科教导刊·电子版 2021年22期

苏晓雨吴笛

（武警警官学院四川·成都 610200）

0 引言

互联网心理是指展示多方向的定期行动，以影响某些领域的社会舆论导向。内容聚焦于对新闻媒体的分析，研究新闻发布的模式，找出不同的热门话题，以及在网络上是否发生了任何类型的价值判断。本文提出一种对网络中大众媒体新闻进行聚类的算法。在组成聚类后分析其参数，以了解大众媒体的新闻传播过程，最终获得相应的新闻主题分布。

1 聚类算法

本文采用的聚类算法库分为：向量空间模型、k-means变化、生成算法、光谱算法、降维方法和基于短语的方法。向量空间模型是一种经典的方法，在同质主题上显示出更好的效果，并且需要知道聚类的数量。K-means算法及其扩展是历史上最流行的分层和分区聚类的方法。上述算法缺点在于，在大型数据体上的有效性下降，并且依赖于随机初始化。此外，易受到异常值和噪声的影响，并且需要知道聚类的数量。生成算法对离群值也很敏感，这使得它们在异质数据上的效果较差，并且有集群数量作为输入。当数据的向量模型可以被呈现为二叉图时，频谱聚类显示出很高的准确性。这一组的优点是它不需要聚类的数量，可以在处理过程中找到这个值。降维方法最初是为计算机视觉应用而开发的，已被有效地用于文档聚类。其主要缺点是，它们依赖于随机初始化，导致在同一数据上产生不同运行结果。然而，它们有高的性能，其中一些可以估计出集群的最佳数量。句子库方法通过编码词序信息得到改进。然而，它并不能保证比其他聚类方法有更高的准确性。在短文和新闻聚类方面，有人提出了一些具体的方法。文献[2]提出了鉴别性的双项主题模型，以进行基于新闻标题的聚类。文献[3]提出用于对社交网络中的主题进行聚类的社会网络分析。文献[4]提供了特殊的核函数来测量短文的语义相似性，应用于搜索引擎查询分析。在文献[5]中，使用维基百科的特征生成也可以提高短文的聚类精度。在文献[6]中，聚类技术可以用来实现以事件为中心的新闻聚类算法。同时，基于余弦相似度的聚类也被应用于提出一种新闻收集和聚类的方法。

2 新闻相似度估计

本文目的是通过估计基于本体的新闻数据之间的相似度来提高聚类的准确性。使用本体论可以更好地理解信息的传播和影响。本文目标是获得新闻集群，每个集群包含关于一个主题的信息，或者是关于这个主题的一个观点。

本文使用WordNet（英语词汇数据库）中的词整合到同义词集中，这些同义词集通过概念-语义和词汇关系相互联系在一起。这种结构可以快速估计单词和句子的相似性。有文献提出使用信息内容值和本体结构的测量方法，此方法与人主观相似性判断切合度较高。为此，本文使用JCN相似度指标表示两个词义的相似程度，其表达式如公式1所示。

其中，res(c1,c2)表示测量的相似性，IC(c)表示信息含量值。

由于社交网络的新闻信息常是由一个或几个句子组成。算法第一步是了解哪些消息与同一主题有关。根据文献[2,3,4]算法步骤如下：

（1）句子标记化和删除停顿词。此步骤将每个文本信息表示为标记向量由单词组成，同时删除停顿词。

（2）语义部分歧义化。每个词都有两个标签：第一个标签表示该词的句法角色（宾语、主语等），第二个标签表示该词的语义。词的句法角色（宾语、主语等），第二个标签则指向功能角色（动词、名词等）。估计名词之间的相似性，旨在通过讨论的主题揭示出相似的新闻。

（3）去除词干。词干是指去除词的共同形态和词尾。提高聚类准确性。

（4）词义辨析。既分析哪种词义在当前语境中更有价值。采用文献[6]算法。词的消歧是基于对包含每个词义的词汇表的比较。最有可能的词义是与句子中大多数其他词在同一词汇表中得出的词义。

（5）计算句子相关度。首先，构建相似性矩阵。矩阵元素Ri,j是第一个句子对应的标记vi和第二个句子对应的标记wj之间的相似度估计值。相似性矩阵是双子图，而句子相似性计算任务是计算这个双子图的最大最大总匹配权重。因此，所得到的相似性可以被计算为平均值:

其中，N、M是标记向量，Match(N,M)是通过匈牙利方法计算的标记匹配。在定义了句子的相似性计算方法后，必须估计所有收集的数据之间的相似性，并找出相关信息的聚类。

3 对数据进行聚类

来自社交网络的大众媒体新闻数据特点如下：

（1）新闻是以平均18个字的短文形式出现的。

（2）文本库可能包含数十万条新闻，甚至更多且新闻集总是在不断扩充。

图1：2016年12月至2017年5月期间的主题集群分布

（3）聚类的数量是未知的，而且在不同的时间段会有所不同。

基于上述特点，本文采用光谱聚类算法对新闻数据进行聚类。

4 实验结果及分析

本文使用网易新闻的官方大众媒体页面作为新闻来源。收集来自关注频道、视频新闻、娱乐新闻、体育新闻、财经新闻、科技新闻和文化新闻信息。检索的数据量为2014年1月至2017年5月期间的415000条新闻信息。根据JCN相似性指标计算了新闻信息之间的相似性，而后估计给定的新闻信息之间的相似度，并为新闻组成相似度矩阵S。使用矩阵进行划分和合并聚类，共发现174个聚类。

由于每个聚类代表了一部分主题，将聚类的大小解释为主题流行度，从而构成主题流行度在时间上的分布。这个结果显示所研究的大众媒体是如何积极讨论不同的主题的。即在给定的时间段内，将所有讨论过的主题都以每个主题的新闻信息数量进行比较。最终可以观察到每个主题的新闻信息数量是如何随时间变化的，并将这些指数相互比较。图1中对174个集群中的20个集群进行比较。通过这种方式，有可能了解该主题在不同的媒体来源中是否有相似或不同的覆盖面，并以此作为工具来寻找主题讨论的增长和下降的关联性。

5 结论

本文提出了一种对新闻数据进行聚类的方法，通过基于本体的相似性估计对特定大众媒体新闻数据进行预处理。此方法能够得到随时间变化的新闻集群分布。实验表明，消息可以被分组为主题集群，每个集群代表一个主题。根据新闻信息的数量组成了主题的分布。同时可以观察到在所观察的时间段内，所选的大众媒体对某一集群所代表的主题的讨论的活跃度。