基于内容的微博兴趣度分析

2016-05-19 11:15陈磊肖基毅刘志明

电脑知识与技术 2016年7期

关键词：微博

陈磊++肖基毅++刘志明

摘要：微博用户可以将他们接收到的信息传递给他们所有的粉丝，这被称为转发。当用户发现特别有趣并且值得分享的消息时便会进行转发动作。因此，转发反映出在微博社区中人们关心的内容，并且我们可以把它作为兴趣度的一个函数。在本工作中，我们分析了几个大型微博消息集的基于内容的特征，并训练了一个预测模型，对给定的微博消息，基于内容预测它被转发的可能性。从模型学习到的参数中，我们推断出有可能引起转发的内容特征。因此我们可以了解到哪些内容特征可以使消息变得有趣和值得转发。

关键词：微博；转发；主题模型；内容特征；兴趣度

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2016）07-0154-04

A Content-based Analysis of Interestingness on Microblog

CHEN Lei， XIAO Ji-yi， LIU Zhi-ming

（University of South China， Hengyang 421001， China）

Abstract： Users can forward any messagethey receive to all of their followers on the Microblog.This is called a retweet. When users find a message particularly interesting andworth sharing with others， they will retweet. Thus， retweets reflect what the users considers interesting on microblog， and can be usedas a function of interestingness.In this paper， we analyzecontent-based features on several large collections of Microblog messages， and train a prediction model. For a given tweet， we forecast its likelihood of being retweeted basedon its contents. From the parameters learned by the model we deducefeatures that contribute to thelikelihood of a retweet. As a result we can know whatmakes a message on Microblog worth retweeting and interesting.

Key words： tweet；retweet； topic model； content feature； interestingness

1 概述

微博平台允许用户通过短消息来分享信息，发出的消息可以传递给那些订阅了作者消息的人们。在微博环境中，这种订阅被称为关注。这种粉丝-关注结构在微博用户中形成了巨大的网络，在这种网络中，消息的接收者可以将它传递给自己的粉丝，这被称为转发。通常来说，如果用户觉得一条消息有趣并且值得同别人分享，就会进行转发。

近年来，基于微博的研究工作成为国内外研究的热点。一些研究计算了基于社会网络的微博用户影响力，例如，使用PageRank算法，粉丝数量，转发和主题趋势的数量[1]。这些主要是对粉丝的数量和影响力之间的相关性方面的研究。在这种情况下，一个典型的结论就是拥有活跃粉丝的人际关系良好的用户更有可能被转发。在这种设定中，微博内容会被忽视或减小为一些简单因素。基于网络的分析可能会暗示出谁有可能会写出有趣的微博消息，但不能指出整个微博社区对什么东西感兴趣。因此在本文中，我们主要讨论微博本身的内容，并且训练了一个预测模型，单纯的根据微博本身的内容来预测它被转发的可能性。从模型学习到的参数中我们推断出导致微博被转发的内容特征，进而推断出微博环境中那些有趣的微博消息的特征。

为了实现这个目的，我们分析了一个大型微博消息集的基于内容的特征。这些特征包括是否为直接信息，URL的存在，标签，用户名，表情，疑问标记和感叹标记，以及有强烈积极或消极暗示的词组。这些特征可以直接从微博文本中提取，并且不需要进一步处理。

因此，在本文中，我们完成两个工作：

l 研究哪些微博会被转发的问题，我们主要根据一组广泛的内容特征和文本信息，这些文本信息独立于微博用户在社交网络中的位置以及微博的时间戳等等。我们证明了预测哪些微博会被转发是可行的。

l 通过分析预测模型学习到的参数，我们确定出那些对微博的转发有较强贡献的特征，这使我们可以进一步研究在微博社区中，哪些内容是有趣的。

2 研究背景及相关工作

新浪微博是成立于2009年的微博平台，它允许超过2亿用户分享微博消息：每条微博消息不能超过140个字符。用户可以关注其他用户来获取他们的微博。如果一个用户觉得一条微博很有趣，他可以把这条微博传递给自己的粉丝，这种行为被称为转发。通常用户会转发那些有趣的或与他们粉丝有关的内容[2]。按照惯例，转发会用特殊的关键字来表示，例如RT和via。转发的目的通常是向自己的粉丝传播信息。根据Kwak等人的工作[3]，不管微博的首发者拥有多少粉丝，任何被转发的微博都可以平均传递给1000名用户。

2.1 微博分析

近年来针对微博进行了许多研究，一些研究基于社交网络确定博主的影响力，例如使用PageRank算法，粉丝数，转发数，以及热门话题[4-，6]。这些研究观察粉丝数与用户影响力的相关性。

Boyd等人[2]对Twitter的转发功能retweet做了细致的分析，探讨人们如何转发，为什么转发以及转发什么的问题。

Suh等人[5]指出环境特征，包括图形结构的基本方面，例如粉丝数和关注数（用户关注的人数），账户年龄，受欢迎的微博数量，微博总数及发布频率，也会影响微博是否被转发。这种分析同时考虑了内容特征的因素，该研究证实了URL和标签的存在与微博是否被转发有很大关系。

Hong等人[7]将转发数作为衡量用户受欢迎程度的一个因素，并且提供了机器学习技术来预测新消息被转发的频率。作者分析了信息文本，时间信息，消息和用户的元数据，以及作者的社交网络图，并将这些作为预测微博是否被转发的参数。

Kwak等人[3]发现基于粉丝数的排名算法与PageRank算法非常相似，但基于微博转发数的排名算法却与PageRank算法不同，因此得出结论：兴趣度不一定与社会地位相关。在与PageRank算法的对比中，Weng等人[6]定义了TwitterRank算法来评价用户。尽管这些方法可以用来预测一条微博的受欢迎程度，但它们不能用来寻找那些有趣的微博，因为它们是基于用户排名和环境信息，而不是基于内容。Welch等[8]则改进了Weng等的做法，通过用户之间的转发关系代替关注关系。

总的来说，这些工作指出，微博被转发的可能性是基于微博所处的环境（粉丝数和关注数，微博的发布时间，账号年龄）和微博内容的基本特征（URL，用户名，标签，情感特征）。我们将会更加强调内容，并且将会分析一组基于内容的特征。

2.2 微博数据集

在我们的实验中，我们使用两个新浪微博数据集，它们已经在相关工作中被使用。表1中列出了它们的关键属性和统计数据。所有的数据集包括微博用户，微博内容，以及微博的转发数。

其中，数据集一为训练集，用来学习模型的参数。数据集二为测试集，我们使用预测模型来对微博是否会被转发进行预测。

URL，用户名和标签：如果没有进一步的分化，我们考虑微博中存在的典型的特殊条目，它们就是URL，用户名和标签。微博中使用用户名来直接提及某些用户，或是为了标出某位用户以便讨论他。标签用来标记特定主题，它们既可以写在消息行中，也可以附在消息后。URL通常用来指示被讨论文字的地址。在新浪微博中，用户名和标签可以用特定语法来标识，即@用户名和#标签的形式。我们用字符串http：来标识URL。

相关工作已经认识到URL，用户名和标签对转发行为的影响，由于这些是单纯的基于内容的特征属性，我们同样把它们考虑到我们的设定之中。

感叹和疑问标识：我们在微博的末尾使用感叹标识“！”和疑问标识“？”来作为两个二进制的特征属性。人们在交流中使用感叹标识来表示隐含的强烈情感，在一般的文本中，它用来标识感叹词。疑问标识在所有的文本中都用来表示疑问，并希望得到回应。由于这两种符号的多次使用，我们不能简单的断定，在所有的情况下，一个疑问标识都表示疑问，一个感叹标识都表示一种强烈的情感。但是，在消息末尾使用这些符号作为标识符是一种恰当且直接的方法。

任何用户收到这两种形式的消息，都会做出反应。为了扩大范围，寻求专家给出答案，问题可以被传递。用户也会转发感叹句来表示支持。

积极词汇和消极词汇：我们从表3中给出的预定义列表来寻找积极词汇和消极词汇。最近的研究发现，在新浪微博中，表示积极情感和消极情感的词汇会影响社交互动。并且我们推测，它们在影响微博兴趣度的问题上也会起到一定作用。

表情：表情是表示情感的短字符串。我们从语法上解析微博，来发现诸如：-）的积极表情和诸如：-（的消极表情，我们也给出了两个值为二进制的属性，如表3所示。

3.2 模型分析

4 结果分析

一旦我们训练好逻辑回归模型，我们就可以得到表示影响微博被转发可能性的特征权重。通过观察这些权重，我们就可以知道，在新浪微博中，哪些因素会影响转发行为，并且可以推断出用户对哪些内容感兴趣。

通过计算一条新消息的特征属性，使用公式（1）我们可以得出新消息被转发的概率。这个概率可以用于两个方面：预测微博是否会被转发，以及衡量微博的兴趣度。

4.1 权重训练

为了验证学习模型的参数，我们根据微博的时间戳，将微博数据集分为训练集和测试集。在训练集中，我们分析大量的微博内容，从而学习到每个内容特征的权重，如表4所示。

4.2 权重分析

我们建立的模型并不做简单的随机预测，而是计算给定微博被转发的概率，因此我们可以对模型的权重进行分析。表4列出了在训练数据集上对不同属性使用逻辑回归得到的权重。一个二进制属性i的权重可以表示成具有该属性的微博的对数概率：

从学习到的属性的权重中，我们可以观察到一些有趣的信息：

l 直接消息：相应属性的极大的负权重表明，直接消息不太可能被转发。这个结果符合我们的直觉，用户对私人信息不感兴趣。这些直接发送给某一特定用户的消息并不能引起其他用户的转发。

l 标签、用户名和URL：带有标签、用户名和URL的微博更有可能被转发。这个结论已经取得了相关方法，这些方法单独考虑了这些属性。

l 积极表情和消极表情：包含像：-）这种积极表情会降低微博被转发的可能性，而包含：-（这种消极表情却会增加微博被转发的概率。通过把消极表情与消极情感联系起来，可以得出结论：用户对坏消息更感兴趣。

l 积极词汇和消极词汇：积极词汇和消极词汇都会使微博更有可能被转发。在这种情况下，积极词汇具有更大影响。一个可能的解释是：用户不太愿意转发那些带有粗鲁词汇的微博。

l 感叹号和疑问号：以感叹号结尾的微博不太可能被转发，但以疑问号结尾的微博却很有可能被转发。这说明在微博社区中人们对回答问题及寻求答案有着强烈的兴趣。

4.3 转发预测

利用在训练集中学习到的权重，我们可以通过公式（1）计算特定微博的转发概率。表5列出了测试集中10条微博的预测情况及真实情况。

利用我们的学习模型，对测试集中的大量微博进行预测，对比结果可知，预测精度大约为90%，实验结果符合我们的预期。该结果也验证了我们上面的结论，即微博的哪些内容特征会提高转发率，哪些会降低转发率。

5 总结

在本文中，我们介绍并评价了一种预测微博消息转发概率的方法。这个方法基于新浪微博平台的转发功能，并把它作为衡量微博兴趣度的一个指标。为了克服环境误差，比如用户的社交网络或时间戳，我们使用了一种单纯的基于内容特征的学习方法来预测微博被转发的可能性。为了捕捉文本内容，我们使用了微博的一些内容特征属性，比如URL，标签，用户名，疑问号和感叹号，表情，积极词汇和消极词汇。

在以后的工作中，我们会把更多的特征属性考虑到本方法中来，同时我们会将情感分析的方法运用到我们的模型中，例如考虑微博文本中词条的情感度以及包含在URL网页中的文本内容。鉴于我们的观察结果，情感是一个值得深入研究的话题。运用情感分析的方法将大大提高微博转发的预测精度。同时，使用微博平台作为问答系统的适用性也是进一步研究的一个方向。

参考文献：

[1] Cha M， Haddadi H， Benevenuto F， et al. Gummadi. Measuring user influence in Twitter： the million

follower fallacy[C]. Proc. Int. Conf. on Weblogs and Social Media， 2010： 10-17.

[2] Boyd D， Golder S， Lotan G. Tweet， tweet， retweet：Conversational aspects of retweeting on Twitter[C]. Hawaii Int. Conf. on System Sciences， 2010： 1-10.

[3] Kwak H， Lee C， Park H，et al. What is Twitter， a social network or a news media？[C].Proc. Int. World Wide Web Conf.， 2010： 591-600.

[4] Romero D M， Galuba W， Asur S， et al. Huberman.Influence and passivity in social media[C]. CoRR，abs/1008.1253， 2010.

[5] Suh B， Hong L， Pirolli P， et al. Want to be retweeted？ large scale analytics on factors impacting retweet in Twitter network[C].Proc. Int. Conf. on Social Computing， 2010： 177-184.

[6] Weng J， Lim E P， Jiang J， et al. TwitterRank：Finding topic-sensitive influential twitterers[C]. Proc. Int.Conf. on Web Search and Data Mining， 2010： 261-270.

[7] Hong L， Dan O， Davison B D. Predicting popular messages in twitter[C]. WWW （Companion Volume）， 2011： 57-58.

[8] Welch J，He D， Schonfeld U，et al.Topical Semantics of Twitter Links[C]//Proceedings of WSDM11，2011.

[9] Naveed N，Gottron T.Bad News Travel Fast：A Content-based Analysis of Interestingness on Twitter[C] //Proceedings of the 3rd International Web Science Conference，2011.

[10] Hosmer D W， Lemeshow S. Applied logistic regression[M]. John Wiley and Sons， 2000.