微博传播趋势预测的研究

2019-07-13 09:39孙育华黄成哲黑龙李军张艳艳韩中元高佳明赵金梅
科技创新导报 2019年9期
关键词:支持向量机

孙育华 黄成哲 黑龙 李军 张艳艳 韩中元 高佳明 赵金梅

摘 要:微博快速转发的特点使得在微博传播的过程中存在着显著的时间特性。本文对这种时间特性进行分析,挖掘传播规律,对传播规律建模,并对未来的微博传播情况进行预测。本文从微博整体的角度上考虑时间特性,通过分类和回归模型,对微博传播的趋势加以判定,并对传播数量加以预测。本文获取Twitter的505万条微博数据,利用TREC公布的相关性标注,验证了方法的有效性。在预测微博未来涨跌判定的实验中,准确率达到了80%,而预测相关微博数量的实验中,准确率在50%以上。

关键词:微博传播 趋势预测 支持向量机 逻辑回归

中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2019)03(c)-0251-05

微博不但是一种信息分享和交流的社交网络平台,而且也是民众表达观点的重要社会媒体。用户可以随时随地将所见所闻发送到微博平台上,无论是好友还是陌生人都可以一起转发和评论。

因为微博具有开放性和自由化的特点,所以微博平台逐渐成为社会公众的信息传播渠道。微博传播预测的研究具有重要的理论价值和应用意义。例如,政府部门可以通过预测消息传播范围和用户观点态度,及时采取科学有效的措施以控制虚假信息在网络中的传播;公司和企业可以通过企业相关信息的传播趋势,分析用户的喜好,对用户提供更精确的个性化服务,更加准确地为用户推荐商品、话题信息等。

1 相关工作

国内外对微博传播预测的研究主要可以分为两大方向,一是基于用户特征和文本特征进行研究,二是根据转发关系建立微博转发树。

对于基于用户特征和文本特征的代表性研究包括,Suh等人[1]使用包括URL、标签、关注人数、粉丝人数等用户特征建立特征空间,通过主成分分析和广义线性模型的分析方法,研究用户特征与微博转发之间的关系,但是研究结果只能体现出哪些用户特征能对微博传播造成较大影响,并不能对用户的行为进行预测。Phuvipadaw等人[2]根据微博的文本特征,构建了突发新闻检测以及跟踪的算法。曹玖新等人[3]通过使用用户特征、社交特征和微博特征,结合分类模型对微博的传播进行预测。文献[4]采用了用户名、关注人数、微博内容词频等用户特征和文本特征结合基于概率的协同过滤模型对微博的转发进行预测[4]。Weng等人[5]提出了依靠粉丝数和发布微博数来衡量用户的影响力,从而识别出在社交网络中影响力较大的用户。Pal等人[6]采用了用户所发微博数量、收到的回复数、被转发数、被提到次数和粉丝数等多个特征来计算用户影响力。刘功申等人[7]提出了对用户影响力进行量化的算法,根据用户的特征数据来预测用户发出的微博是否会被大量转发。张旸等人[8]通过分析用户特征和文本特征提出了特征加权预测模型,将微博转发预测问题转化为二类分类问题,并且对各特征的重要性进行了分析,得出了用户粉丝数和用户被提及数对微博的转发影响较大的结论,并没有对微博未来转发的趋势和数量进行预测。文献[9]和文献[10]中笔者选取了22种特征,结合因子图模型进行对微博的传播进行预测[9-10]。

对于基于转发关系的微博预测代表性研究包括,Boyd等人[11]以Twitter为研究对象,对Twitter上用户转发的方式、转发的原因和转发的内容进行了分析。Yang等人[12]通过分析微博内容中@username来提取转发关系建立微博转发树,再结合因子图模型建立转发预测模型,一个用户是一个节点,用户之间的转发关系为边,对节点状态进行预测。但是在实际应用当中建立完整的转发树是很困难的,且计算复杂度高。Kossinets等人[13]采用聚类的方法对微博网络进行网络聚类,生成特征结构传播树,最终得到一个概率模型,也有很多研究员采用SIR、SIS等[14]经典的信息传播模型对微博的传播进行预测。

Fan等人[15]对新浪微博上的拓扑结构和微博信息进行研究,得出新浪微博的拓扑结构具有小世界及无标度特性,分布服从幂律分布。国内外研究者对不同类型的在线社交网络进行研究,比如Flickr[16]、Blogs[17]、Digg[18]以及YouTube[19]等,研究展示了信息在社交網络上所呈现出来的规律。Liben-Nowell等人[20]的研究全面地阐述了微博信息在真实社交网络中传播的特征及与规律,并且得出结论:精确的预测信息传播路径是非常困难的;使用简单的预测模型往往与真实情况相距甚远[20]。Galuba等人[21]对Twitter上URL信息在用户拓扑网络中传播的规律进行研究,提出了预测URL转发路径的预测模型。

2 本文方法

针对上述存在的问题,本文提出的方法是从整体的角度,通过在不同的时间段内用户对话题的关注程度来进行研究,并利用机器学习算法对微博数据进行分析建模。机器学习算法从数据中自动分析获取规律,并利用规律进行预测的算法。本文采用的机器学习算法主要包括支持向量机(SVM)和逻辑回归算法(LR)。从时间的角度来提取特征,根据这些特征在进行预测。另一方面,选择广泛应用的自回归差分滑动平均模型作为本次实验的baseline。

2.1 支持向量机模型

SVM(支持向量机,Support Vector Machine)于1995年正式发表。由于在分类任务中显示出卓越性能,很快成为机器学习的主流技术。分类学习的最基本思想是在样本空间中找到一个划分超平面,将不同类别的样本分开[22]。

以上为支持向量机的基本型[22]。由此可以将微博的传播预测问题转化为了多分类的问题,在训练模型的过程中就可以确定未来微博可能出现传播情况,在测试的过程中,根据训练特征来预测未来微博的传播属于哪一种情况,即微博的传播数量或涨跌趋势。

2.2 逻辑回归模型

当对数线性模型中的一个二分类变量被当做因变量并定义为一系列自变量函数时,对数线性模型就变成了Logistics回归模型。Logistics回归的因变量可以是二分类的,也可以是多分类的。

其中λ就是惩罚因子,λ的增大会使模型的拟合度变低。泛化能力增强,λ减小会使模型更加拟合现有的数据,泛化能力减弱。

逻辑回归与SVM不同之处在于,不是依靠寻找最优超平面来对样本进行分类,而是对样本数据属于哪个類别计算出一个概率,将样本数据划分到概率最高的那一类别中。在对微博传播预测的研究中,使用逻辑回归算法可以计算未来微博在传播过程中某种情况发生的概率,概率最高的情况就是要预测的结果。

3 实验

3.1 实验数据

本文采用TREC2011年发布的微博评测任务的实验数据,是业内权威、公开的实验数据集。数据内容为Twitter平台上2011年1月23日零时到2月9日零时之间的全部微博。对爬取的微博数据进行过滤之后,得到可用于实验的505万条微博。

实验中将微博数据按照不同的时段进行划分,时段的跨度包括2h、3h、4h、6h、8h、12h、24h。预测在不同的时段下微博传播的数量以及微博传播的趋势。

以2h为一个时段举例说明,1月23日到2月9日的微博数据可以划分为204个时段,提取出每个话题在各个时段的相关微博数量。Trec官方总计提供了110个查询话题,每个查询都提供了相关微博的ID。保留相关微博数量大于等于50的查询,用于实验的查询数量实际为62个。其中1~50号查询中,有24个可用,51~110号查询中,有38个可用。如查询MB004在1月27日10点到22点的相关微博数量如时段与相关微博数量表1所示。

将1~50号查询作为测试数据,51~110号查询做为训练数据。在实验数据集中取前10个时段的相关微博数量作为特征值,第11个时段的相关微博数量作为待预测值组成一组记录。由此可以得到4662组测试数据和7372组训练数据。

因为要预测微博转发的涨跌趋势,所以在微博转发的涨跌趋势实验数据中设置了三个特征:-1、0和1,如第二时段相对于第一时段的相关微博数量上涨,则标记特征为1,如不变标记特征为0,如下降则为-1。将查询MB004在1月27日10点到22点的相关微博数量处理成-1、0和1的特征形式如转换成涨跌表2所示。

在将数据按照2h为一个时段切分的实验中,无论是测试数据集中和预测数据集中包含有大量0标签,考虑到大量的0标签会使实验结果虚高,所以将测试数据集和训练数据集中大量的0标签剔除进行实验,作为实验对照组。

在处理实验数据的过程中,会有一部分异常数据。在计算过程中会得到奇异矩阵,由于ARIMA在计算系数过程中涉及到矩阵求逆,奇异矩阵无法求逆矩阵,这部分数据应该从实验数据中剔除。

具体的实验数据规模如实验数据规模统计表3所示。

对于其他时段的实验数据处理过程,同以上介绍处理步骤完全相同,这里不再赘述。

3.2 Baseline

自回归差分滑动平均模型(Auto Regressive Integrated Moving Average Model,简记ARIMA)在预测气温,股票价格,黄金价格走势等领域都有广泛的应用。微博的传播预测和预测气温和股票价格等具有一定的相似性。因此本文选用了基于时序分析的自回归差分滑动平均模型(ARIMA)作为微博传播预测研究的基线标准。

3.3 参数设置

3.3.1 SVM实验参数

对于微博数据而言,并没有明显的数据特征,所以本文选用了泛化能力较强的高斯核函数(Radial Basis Function,简称RBF)作为实验的核函数,SVM类型选择C_SVC,核参数设置为0.025,惩罚系数为1.0,可容忍偏差设置为0.001。

3.3.2 逻辑回归实验参数

逻辑回归模型主要涉及的参数包括:优化算法选择参数,分类方式选择参数。根据调参实验结果分析,优化算法选择参数为随机平均梯度下降算法,分类方式选择一对多分类算法,最大迭代次数设置为20,正则化系数C设置为100时,模型泛化能力较好,预测准确率较高。

4 实验结果

表4汇报了涨跌趋势判定的实验结果。

在以2h为一个时段预测微博传播数量的实验中,实验结果如表5所示。

由于时间跨度过短,所以有大量时段的相关微博数量为0,大量的零标签和零特征值导致了实验结果虚高,在去掉零标签之后实验结果下降到了54.6584%。这种零标签和零特征大量出现的情况在增大时间跨度的条件下得到了明显的缓解。所以接下来其他时段的实验结果并没有增加去掉零标签实验数据记录的实验对照组。

接下来又将时段划分为3h,4h,6h,8h,12h,24h进行实验,不同时段的预测相关微博数量实验准确率实验结果如表6所示。

5 结语

本文通过基于分类的方法来对社交网络中微博的转发预测进行了研究。使用了分类算法中SVM算法和逻辑回归算法,并且将基于时序分析的自回归差分滑动平均模型作为实验结果的baseline,实验结果表明,在微博的转发预测研究中,基于分类的方法性能优于传统的时序分析的预测方法,并且在时段不断增加的情况下,基于分类的预测方法也能保持良好的预测准确率。

参考文献

[1] Suh B, Hong L, Pirolli P, et al. Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]// IEEE Second International Conference on Social Computing. IEEE, 2010:177-184.

[2] Phuvipadawat S, Murata T. Breaking News Detection and Tracking in Twitter[C]// Ieee/wic/acm International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2010:120-123.

[3] Cao J X, Wu J L, Shi W, et al. Sina microblog information diffusion analysis and prediction[J]. Chinese Journal of Computers, 2014.

[4] Zaman T R, Herbrich R, Gael J V, et al. Predicting Information Spreading in Twitter[J]. Computational Social Science & the Wisdom of Crowds Workshop, 2010.

[5] Weng J, Lim E P, Jiang J, et al. TwitterRank: finding topic-sensitive influential twitterers[J]. 2010:261-270.

[6] Pal A , Counts S. Identifyingtopical authoyities in microblogs [ C ] . Proc of the 4th ACM Int Conf on Web Search and Data M ining ( WSD'11 ) , New York : ACM , 2011 : 45-54.

[7] 劉功申, 孟魁, 谢婧. 一种微博预警算法[J]. 计算机科学, 2014, 41(12):33-37.

[8] Zhang Y, Rong L U, Yang Q. Predicting Retweeting in Microblogs[J]. Journal of Chinese Information Processing, 2012, 26(4):109-108.

[9] Yang Z, Guo J, Cai K, et al. Understanding retweeting behaviors in social networks[C]// ACM International Conference on Information and Knowledge Management. ACM, 2010:1633-1636.

[10]Yang Zi.Predictive models in social network analysis[M].S. dissertation] .Tsinghua University, Beijing, 2011.

[11]HI. boyd, danah, Golder, Scott, and Lotan, Gilad. Tweet Tweet Retweet: Conversational Aspects of Retweeting on Twitter.[C]// 2010.

[12]Yang Z, Guo J, Cai K, et al. Understanding retweeting behaviors in social networks[C]// ACM International Conference on Information and Knowledge Management. ACM, 2010:1633-1636.

[13]Kossinets G, Kleinberg J, Watts D. The structure of information pathways in a social communication network[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008:435-443.

[14]Zhou Tao, Fu Zhong-Qian, Niu Yong-Wei, et al.Research on spreading dynamics on complex networks. Progress in Natural Science, 2005, 15( 5) :513-518.

[15]Fan P, Li P, Jiang Z, et al. Measurement and analysis of topology and information propagation on Sina-Microblog[C]// IEEE International Conference on Intelligence and Security Informatics. IEEE, 2011:396-401.

[16]Cha M, Mislove A, Adams B, et al. Characterizing social cascades in flickr[C]// The Workshop on Online Social Networks. ACM, 2008:13-18.

[17]Leskovec J, Mcglohon M, Faloutsos C, et al. Cascading Behavior in Large Blog Graphs[J]. Sdm, 2007, 15(1):9:3–9:56.

[18]Wu F, Huberman B A, Adamic L A, et al. Information flow in social groups[J]. Physica A Statistical Mechanics & Its Applications, 2004, 337(1–2):327-335.

[19]Szabo G, Huberman B A. Predicting the popularity of online content[M]. ACM, 2010.

[20]Liben-Nowell D, Kleinberg J. Tracing information flow on a global scale using Internet chain-letter data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(12):4633.

[21]Galuba W, Aberer K, Chakraborty D, et al. Outtweeting the twitterers - predicting information cascades in microblogs[C]// Wonference on Online Social Networks. USENIX Association, 2010.

[22]周志华, 王珏. 机器学习及其应用[M].北京:清华大学出版社, 2007.

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
基于改进支持向量机的船舶纵摇预报模型
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究