基于用户社交网络数据的人格倾向性分析及预测模型的建立

2018-06-06 10:14娜迪热胡俊
电脑知识与技术 2018年7期
关键词:社交网络机器学习

娜迪热 胡俊

摘要:随着互联网的发展,社交网络在人们的工作生活中扮演着重要的角色,人们在社交网络中发布、分享信息和观点,这些社交行为产生大量的数据,使得社交网络成为蕴含个人信息和情感的载体。该课题在已有相关研究的基础上,提出并验证了一种根据用户社交网络数据对用户的人格倾向进行预测的方法。在实现过程中,利用爬虫技术得到微博用户的相关数据,其中包括用户在使用社交网络时产生的文本信息,以及用户的行为信息与社交关系信息,工作重点是通过提取采集数据信息的相关特征值,并对特征值进行降维处理,在建立预测模型时采用了机器学习方法以提高准确率。通过对比实验,验证了提出的预测方法在人格预测的精确度上有显著的提高。

关键词:社交网络;特征抽取;机器学习;人格倾向性分析

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)07-0006-06

Abstract: With the development of the Internet, the social networks start playing an important role in people's work and life. People publish and share information and opinions in social networks, and thus generate a large amount of data, making social networks a carrier of personal information and emotion. Based on the existing studies, this research proposes a method to predict personality tendency in the light of social network data. In the process of implementation, we use crawler technology to get the related data of micro-blog users, including the text information generated by users when using social networks, as well as their behavior information and social relationship information. The focus lies in extracting the relevant characteristics of the collected data and information and reducing the dimension of the eigenvalue. A machine learning method is adopted in the process of establishing the forecasting model to improve the accuracy. Through comparative experiments, it is verified that the proposed prediction method presents a significant improvement in the accuracy of personality prediction.

Key words: Social Network; Feature Extraction; Machine Learning; Personality Propensity Analysis

隨着各类社交网络平台的发展与兴起,越来越多的人开始在社交网络平台上发布状态、分享信息以及表达观点,从而产生大量的数据,其中蕴含着用户个人情感、性格特征等信息。社交网络改变了人类交流、通信及合作的方式,甚至可能影响我们对自身和社会的认知。社交网络的不断发展与完善使其对人们生活的渗透作用日益增大,甚至影响着现实社会关系网络的重建。

用户在社交网络使用过程中的行为和状态可以通过信息技术等来记录、获取及分析。近年来,基于社交网络数据的分析与应用方法与技术成为了研究的热点。在社会科学中,人格可以用于区分和衡量人们在社会交往中产生的个体差异。人格与行为息息相关,社交网络产生的信息在一定程度上反应相应用户的情感,即其本质上是受用户人格倾向性的制约和影响的。通过对用户在社交网络中产生的数据进行分析研究,可以对人格倾向性进行相关的预测研究。基于社交网络用户行为信息的人格分析和预测有着广阔应用前景。

Pang B, Lee L主要考虑句子间情感联系,通过对词特征进行训练以对网络文本进行情感极性分析[1]。Hatzivassiloglou V提出一种贝叶斯分类器用相似性方法对网络文本进行主观客观识别[2]。Whelan S提出人格信息可用于商品个性化推荐[3],也可根据不同的人格特征进行音乐个性化推荐[4]。通过对用户人格特征分析得出用户生活工作习性与习惯在商业上有着重要的应用价值。国外相关研究主要基于Facebook和Twitter等社交网络。Augustine等人对Facebook用户产生的11种行为特征与用户性格的相关性进行了分析和验证[5]。Golbeck提出一个数学模型,根据5.8万位美国Facebook用户的“赞”记录来预测用户相关特征和偏好,通过将模型预测结果与志愿者的Facebook档案信息,以及在线测试得出的智力、人格和生活满意度等信息进行比对,发现该模型可以准确地预测参与者的性别、种族出身和性倾向等,其中性别预测、黑人和白人识别,以及同性恋和异性恋判别的正确率分别达到93%、95%,以及88%。而对民主党人和共和党人、基督教徒和穆斯林进行正确识别率均超过80% [6]。Youyou W提出,即时准确的性格判断来自人的社会认知技能,而机器学习的发展显示出计算机模型同样可做出有效判断,其通过使用86220位完成调查问卷的志愿者例子比较人和计算机对个性的判断,得出计算机对人的判断比其Facebook好友的判断的准确率高;计算机模型显示出更高的评判者间的统一性;计算机对个性判断有更高的外部真实性:在预测生活收入、物质需求、政治态度及身体健康等方面,计算机模型比人做得更好[7]。

将社交网络用户的人格或内在潜质研究与社交网络数据的分析相结合,其主要是在于是根据用户产生的社交网络数据对其人格倾向性进行分析和预测,并将分析和预测应用到相关领域,包括商业领域等。根据用户使用社交网络产生的数据来分析用户的人格倾向存在其特有的困难,因为人格倾向是个人潜层特质,这类数据的结构复杂、噪声多,与人格相关性较弱。

本文主要研究基于社交网络数据的用户人格倾向性分析以及模型建立的方法,并对其进行验证。

首先是建立用户的社交网络数据与用户的人格倾向性的关系,从而根据二者的关系建立人格预测模型,最后最预测模型的结果进行验证。

1 人格倾向性的测量模型与测量方法

现阶段关于社交网络用户分析的重点偏向对社交用户某种行为或者某类数据的分析,然而用户在使用社交网络时不同的行为会产生不同类型的数据,所以现阶段对社交用户与用户人格倾向性的关系的研究缺乏对于不同类型行为与数据的全面探索。对于基于中文社交网络的用户的性格或人格倾向分析更是处于起步阶段。

1.1 人格倾向性测量模型

在人格心理学范畴内,对人格研究有着不同的流派,其中特质流派提供了一种相对科学可靠的分析和量化方法。对社交网络进行人格倾向性预测研究中使用的人格量表、人格模型等一般来自此流派,其中主流模型是大五人格模型(Big-Five Model),五个方面的人格特质分别为谨慎性(Conscientiousness)、神经质(Neuroticism)、开放性(Openness)、外倾性(Extraversion)以及友善性(Agreeableness)。通过这五个人格特质可以描述一个个体的人格。大五人格特质的描述如表1所示。

1.2 人格倾向性测量方法

人格测评一般分为主动自我报告和被动行为测量两种方式[8]。传统的自我报告法的形式有问卷与访谈等,其中访谈涉及专业问题,问卷法需要用户自己按照实际情况回答问题。目前大多数对于社交网络与用户的研究都是使用自我报告法,从而得到用户的人格数据。

标准大五人格量表包含60道单项选择题,每个性格维度对应12道单选题目,每道题有从非常不符合到非常符合等五种选项。

本文采用标准的大五人格量表(NEO-PI-R)作为评估目标用户人格倾向的标准。

2 社交用户数据的获取与分析处理

社交网络用户在使用社交网络中产生相关数据,因此可以通过这些数据信息来探索分析用户的人格属性。也可以说,就是从海量的数据中挖掘出能够反映用户人格的相关信息。

本文以中文社交社区新浪微博为例,对用户在使用微博时产生的大量数据进行数据筛选,进而抽取出与用户人格倾向相关联的特征,主要特征包括两方面:一是社交用户的行为特征,二是用户社交关系网络特征。两种特征分别从两类数据中提取,一是社交用户在社交过程中产生的数据,二是用户的社交关系网络数据,即用户在使用社交网络平台过程中建立的网络关系的数据,如用户与关注好友及用户粉丝之间的关系网络数据、用户某条微博的转发情况的关系数据等。对第一类数据,将通过网络爬虫工具来获取,根据用户在填写大五人格模型的问卷时提供的微博ID号得到对应用户微博主页地址,利用爬虫技术获取该地址的内容,再通过对脚本技术对网页结构的解析进行匹配,使用正则表达式解析获得用户的信息和数据,并存入用户对应的JSON文件中;对第二类数据,主要通过用戶授权在新浪微博开放平台获得。

2.1用户的社交行为数据分析

用户在使用社交网络过程中会产生大量不同类型数据,本文工作将微博用户的行为数据分为静态属性、行为特征及语言特征三方面,如表2所示。

2.2用户的社交关系网络数据分析

用户社交关系网络是指用户在使用社交平台时产生的社交关系网络,其与用户个人相关,具有不同的人格特征的用户产生的社交关系网络有其各自特征。用户社交关系网络对于分析预测用户的人格特征有着很大价值。

本文用图G表示用户社交关系网络,N表示网络中节点的个数。元素[yij]的值表示用户[i]和[j]是否关联,若两者之间有关联,则[yij=1];否则[yij=0]。

社交关系网络特征指标描述如下:

(1)网络大小(Network size):表示社交关系网络中包含的用户个数,即节点个数。

(2)网络密切度(Closer degree):表示社交关系网络中用户之间的关联度,记作:

[Cdegree=i,jyijN(N-1)]

(3)中介中心度(Betweenness centrality):值越高则该节点在图中被通过率越高,映射到社交网络中说明该用户在社交关系网络中具有的影响力越高,记作:

[Betweenness=i

其中,[Gjk]表示用户[j]与[k]间的最短路径的条数。[Gjk(i)]表示用户[j]与[k]之间的所有最短路径中经过[i]的最短路径的个数。

(4)中介者(Network size):表示社交关系网络中不相关的节点的对数。

2.3特征值抽取及处理

采用特征提取的方法对数据进行降维,以便有效地获取数据所包含的有用信息。使用基于静态词库的文本分析软件及数据库来进行数据处理。采用文心(TextMind)中文心理分析系统对文本数据进行特征值抽取,此系统可以针对中文文本进行语言分析,能够便捷地分析文本中使用的不同类别语言的程度与偏好等特点。

为对用户的信息进行更好的度量,对获得的特征值进行组合优化,将用户产生的信息与五大性格特征即人格倾向性相互对应,以便于对用户人格倾向性进行分析和预测。对于得到的特征还需要经过筛选和降维以得到更好的训练效果。

本文重点在于对用户特征与人格分值的相关性的分析,以及特征之间的冗余性的分析,为筛选出特征与人格相关性更高的特征值,本文通过相似性度量,选择基于相关性分析的特征值选择方法,对相关性较强的特征值进行筛选,即达到特征值筛选与降维的目的。

由于本文的人格分值和用户特征值都是数值,故利用皮尔森相关系数(Pearson correlation coefficient)进行相似性度量,首先通过Pearson系数评估各用户特征维度和五个人格分值的相关度,根据数据设定一定的阈值,提取出高于设定阈值用户特征作为主要特征来预测用户倾向[9]。Pearson系数的定义为两个变量的协方差和标准差的比值:

其中[Cov(X,Y)]表示变量[X]和[Y]的协方差,[σx]和[σy]分别是X和Y的标准差,[X]和[Y]分别是X和Y的均值。

通过以上方法,便可计算出大五个人格模型的调查问卷得到的人格分值及对应微博用户的特征的相关系数。

对于特征冗余,即用户特征与特征之间存在冗余,这个冗余也同样可以通过Pearson系数得到。如果两个特征间的相似性较强,即有强相关性,那么这两个特征互为冗余特征,则将二者中与人格分值的相关性较低的那个特征剔除掉。

3 社交网络用户人格倾向性预测模型

建立社交网络用户人格倾向性预测模型是本文的另一个重点,主要是根据得到的数据并且选择合适的机器学习算法。根据本文采用的数据类型以及期望预测结果,本文使用线性回归(Linear Regression, LR)、高斯回归(Gaussian process Regression, GP)和支持向量机(Support Vector Machine, SVM)三种方法对数据进行训练。

3.1 预测模型算法

选择用线性回归算法构建用户人格倾向性预测模型,要区分自变量和因变量,即将人格分值作为因变量,用户特征作为自变量。经过第二章节分析,筛选出与人格分值相关性较高的用户特征,如粉丝数、微博数及表情数等,这些特征值可以表示为n个自变量,记作[(X1,X2,···,Xn)]。对某个用户人格特征,可以用如下的回归方程表示:

高斯回归过程是由一系列符合高斯分布的随机变量组成的随机过程,且高斯回归过程回归基于贝叶斯分类方法。因为高斯回归比较适用于小样本非线性的复杂问题,根据本文的特征数据,故采用高斯过程回归。

支持向量机算法是一种监督学习的方法,其特点是可以同时最小化经验误差与最大化几何边缘区,因此可以作為最大边缘区学习分类器。选择支持向量机算法时,需要对用户的人格测试结果进行处理。本文大五人格的调查结果的人格分值的得分是介于1-100分之间的连续值,并不能直接用于用户分类,需要将数据先进行处理,处理之后的离散化结果如表3所示。

本文使用Weka机器学习软件[10]对上述的机器学习算法进行实现和使用。

4实验数据与结果分析

为建立基本事实数据,本文利用大五人格理论作为用户性格模型,主要方法是量表评估的方式,通过在线平台发放调查问卷。

通过网络爬虫获得用户在社交网络中产生的数据,采用爬虫工具Python 2.7,爬虫库urllib,以及数据处理库BeautifulSoup。数据分析及特征值抽取使用python实现算法并对数据进行计算,通过Weka机器学习软件实现预测模型。

4.1实验步骤及数据

人格倾向性分析及模型的建立,按以下步骤进行:

(1)首先通过调查问卷得到用户的人格分值,并且根据用户在问卷中提供的微博ID得到用户的微博主页;

(2)根据网页爬虫技术得到用户的微博数据,对于用户微博数据通过特征抽取及特征降维的方式得到与人格分值相关系较高的用户特征;

(3)通过Weka机器学习软件,对于步骤1)与2)得到的数据进行训练,从而建立预测模型;

(4)通过不同的机器学习算法以及不同的数据集设计对比实验并且分析结果。

分析通过在线平台得到87份调查问卷,将没有填写用户微博ID或者未完成的问卷进行剔除,得到76份有效问卷。对问卷结果进行归一化处理,并且修正对应的人格分值。人格分值区间为[0,100],值越高说明在对应人格特征上表现越明显。表4为样本案例。

通过网络爬虫获得用户在社交网络中产生的数据。本文实验工作中,利用用广度优先搜索爬虫算法获得用户2015年1月至2016年12月的微博数据。同时通过新浪微博开放平台提供的API获得用户的社交关系网络数据,并计算得出对应特征值。

对文本数据,采用“文心(TextMind)”中文心理分析系统,从用户文本数据中挖掘出文本特征。

对得到的用户数据首先进行分类,计算用户微博特征与人格分值的相关性,然后计算用户微博特征之间的冗余性,以实现降维。相关性与冗余性都通过皮尔森系数[11]得出。特征筛选主要步骤如下:

(1)根据皮尔森系数计算公式分别得到微博用户特征与人格分值的相关性。

其中:X为人格分值,Y为用户微博特征,根据实验发现,阈值绝对值定在0.15,从而对不相关和极弱相关的特征进行去除,结果如表5所示。

(2)将表5所示的筛选出的特征值相互之间同样用皮尔森系数来计算冗余度,将互相冗余的特征值其一舍去。其中:X为用户微博特征,Y为与X不同的用户微博特征。

(3)由步骤2除去冗余的用户特征值,得到每个人格特征与对应用户特征之间的相关性。

表6所示,带*的值表示两者之间存在着有意义的关联性。有许多相关度符合人们的直觉反应,如神经质人格维度与文本特征anger表现正相关[12][13],这表示神经质的用户通常会更多地表现出anger特征;外倾性与网络密切度Cdgree表现正相关,说明用户外倾性跟用户与社交好友的密切程度表现正相关,用户越外向就与他们的社交好友关系越密切;严谨性与表情数表现负相关,说明严谨的用户在社交活动中很少用表情。

4.2实验结果及分析

为了建立用户人格倾向性预测模型,将全面分析评估预测模型。本文使用Weka机器学习软件,将实验数据按软件规范以Json的数据格式存入文件,对不同算法的结果进行分析,最终以对比图的方式展现实验结果。采用线性回归(LR)、高斯回归(GP)和支持向量机(SVM)三种机器学习算法对数据进行训练学习[14][15],并应用交叉验证的测试方法对模型精度进行计算。

第一组对比实验:为验证特征降维后会获得更好的预测结果,使用两种算法分别对降维前的全部特征和降维后的特征进行训练。如外倾性,降维前对应的特征有:点赞数、表情数、@数量、Betweenness、swear、anger、Cdegree;降维后对应的特征值有:点赞数、表情数、Betweenness、swear、anger。其他四个人格特质也采用一样的方法,最终得到五个维度人格特质对应的归一化平均绝对误差[16][17]。

如图1所示,针对五个维度的人格特质建立五个人格预测模型,可以看出使用筛选后的特征的结果比使用全部特征的结果有明显下降,并且使用SVM的机器学习算法模型的精确度有明显优化,说明特征降维处理后预测模型效果更好。

第二组对比实验:为对比不同算法的效果,使用不同算法对降维后的特征进行训练,对比各个模型的归一化平均绝对误差。

从图2可看出,支持向量机算法的归一化平均误差比其他算法的归一化平均误差小,这说明采用支持向量机预测模型得到的结果相对比较准确。从图中还可以看出,预测模型对于开放性的预测效果最好,说明社交网络信息更能体现出用户的开放的人格倾向。然而,神经质的人格倾向在社交网络的体现不是很明显,说明用户在此方面会有所隐藏,不会轻易表露。

第三组对比实验:本文的特征模型中不仅包含文本信息,还包含用户行为信息及用户社交关系网络信息。经筛选发现,开放性人格特征维度都含有用户社交关系网络特征。为验证增加用户社交关系网络特征会对预测结果有贡献,开放性社交关系网络特征去除,再分别用三种算法对模型进行训练,对比未去除的特征得到模型效果。

从图3可看出,去除社交关系网络特征后开放性预测模型的效果有所下降,可以看出社交关系网络特征对预测模型有比较显著的贡献。

5 总结

分析用户在使用社交网络时产生的数据,并利用分析结果对用户的人格倾向性进行预测,这在心理学方面或商业领域都着重要的价值。本文在已有研究基础上,根据社交网络数据对人格倾向性预测提出了一种新方法,通过提取相关特征值及降维处理,使用不同的机器学习方法进行人格预测。本文采用了用户在社交网络时的文本特征,以及用户行为信息与用户社交关系网络信息进行人格分析預测,并且验证这种方法对于预测结果的精确度有一定的优化。不足之处是本文实验时采用样本数量有限,在后续的研究中将加大实验数据,以便进一步优化预测模型。

参考文献:

[1] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 271.

[2] Yu H, Hatzivassiloglou V. Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 conference on Empirical methods in natural language processing. Association for Computational Linguistics, 2003: 129-136.

[3] Whelan S, Davies G. Profiling consumers of own brands and national brands using human personality[J]. Journal of Retailing and Consumer Services, 2006, 13(6): 393-402.

[4] Rentfrow P J, Gosling S D. The do re mi's of everyday life: the structure and personality correlates of music preferences[J]. Journal of personality and social psychology, 2003, 84(6): 1236.

[5] Gosling S D, Augustine A A, Vazire S, et al. Manifestations of personality in online social networks: Self-reported Facebook-related behaviors and observable profile information[J]. Cyberpsychology, Behavior, and Social Networking, 2011, 14(9): 483-488.

[6] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 149-156.

[7] Youyou W, Kosinski M, Stillwell D. Computer-based personality judgments are more accurate than those made by humans[J]. Proceedings of the National Academy of Sciences, 2015, 112(4): 1036-1040.

[8] 張磊, 陈贞翔, 杨波. 社交网络用户的人格分析与预测[J]. 计算机学报, 2014, 37(8):001877-1894.

[9] 万丹琳. 基于中文微博的用户倾向挖掘与分析[D]. 北京邮电大学, 2015.

[10] Wald R, Khoshgoftaar T M, Napolitano A, et al. Using Twitter content to predict psychopathy[C]//Machine Learning and Applications (ICMLA), 2012 11th International Conference on. IEEE, 2012, 2: 394-401.

[11] 陈艳秋, 孙培立. 一种基于类别强信息特征和贝叶斯算法的中文文本分类器[J]. 计算机应用与软件, 2014, 31(8): 330-333.

[12] Quercia D, Kosinski M, Stillwell D, et al. Our twitter profiles, our selves: Predicting personality with twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 180-185.

[13] Amichai-Hamburger Y, Vinitzky G. Social network use and personality[J]. Computers in human behavior, 2010, 26(6): 1289-1295.

[14] Ortigosa A, Carro R M, Quiroga J I. Predicting user personality by mining social interactions in Facebook[J]. Journal of computer and System Sciences, 2014, 80(1): 57-71.

[15] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from twitter[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 149-156.

[16] Bachrach Y, Kosinski M, Graepel T, et al. Personality and patterns of Facebook usage[C]//Proceedings of the 4th Annual ACM Web Science Conference. ACM, 2012: 24-32.

[17] Kosinski M, Stillwell D, Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]. Proceedings of the National Academy of Sciences, 2013, 110(15): 5802-5805.

猜你喜欢
社交网络机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究