大数据时代下社交网络的"魅力"

2020-03-10 02:27傅扬岚

科学与财富 2020年31期

关键词：魅力

摘要：近年来，失信被执行人的数量和被执行金额都有所增加，因此案件的有效执行成为了影响社会稳定的重要因素。法院也针对该现状逐步完善了相关立法和条规，加强了对失信被执行人的惩治措施和追查力度。本文为了帮助法院提高找人的效率，提出了一种基于用户社交网络信赖度的居住地位置推测PLRU（Predict Location Based on the Reliability of Social-online Users）模型。本文根据失信被执行人的在线社交历史进行相关社交用户的信赖度估计及筛选，然后对选取的用户社交聊天文本有关居住地维度权重的内容提取并进行估计。最后，结合失信被执行人历史居住地的用户画像来筛选得到居住地预测范围。

关键词：在线社交;居住地预测;信赖度模型

随着移动设备、无线网络和社交网络的飞速发展，以聊天为主的各种软件成为社交必备。目前典型的有微信、QQ、Twitter、LINE等，在社交聊天的过程中，用户会在其朋友圈、空间中分享有关他们活动的地理位置信息，这使得地理位置数据逐渐成为一种质量极高的信息资源。同时社交网络不仅包括了传播信息，还包括用户行为。我们的社会活动是在不断地与他人联系和互动中形成，所以很多情况下人的行为只有在情景上下文中才能得到理解。因此本文假设，若一名失信被执行人在面对法院追查的情况下，最大概率行为的是向其好友寻求帮助。其中好友并不仅代表朋友，是指以聊天软件为基础得出的信赖值排名较高的用户。本文基于用户信赖度提出的PLRU模型主要分为三块内容：用户信赖度赋值、本地词语提取和历史居住地用户画像。

一、问题描述

本文的研究目标是利用与好友的社交内容来预测失信被执行人的未来居住地信息。主要有以下几个目标：①如何通过社交网络来准确得到可靠的用户信赖度权重;②如何利用好友社交互动提高地理关键词的准确性;③对居住地信息的用户画像维度权重的准确计算。

本实验以微信、QQ、Twitter和LINE为信息来源，对被研究对象的聊天软件互动信息进行研究，并进行聊天好友用户进行信赖度估计，选取高信赖度的好友聊天内容进行地理关键词提取构建本地词语。最后结合居住地用户画像的维度评分来确定居住预测地。本文的重点在于提取高质量的地理词文本，但前提是需要提高已收集到的资料中文本提取的有效性以及提取范围的可靠性。因此，本文通过以用户信赖度的计算为前提进行数据前期处理，有效缩小提取范围并在提高运行效率。

二、基于社交聊天的用户信赖度估计

面对庞大的聊天文本数据，要想提高对聊天文本中地理信息的关键词提取的运行效率以及质量，就须划分出有效的数据集，准确缩小查找范围。所以本文提出以用户信赖度为基础对数据文本划分，进行有效的内容查找提高执行效率。在测算好友信任度时，可分为直接好友与间接好友分别进行测算。Yang等提出一种基于朋友信赖圈的社会化标签推荐算法，与Ma、Wang等人都是通过给不同的好友赋予不同的权重来计算用户之间的信赖值;潘一腾等人则是提出了信任隐含相似度为基础进一步对信任度的评分进行改进。冯宇等人则是以社会学六度分割理论为基础，计算对用户的信任度。這些对信赖强度进行探索的工作，很好的挖掘了社交关系中的隐含信息，但不能很好的处理评分和信赖数据稀疏的情况。本文主要针对这些工作的以下两个不足之处进行改进，在信赖数据稀疏的情况下，也能得到有效的结果，并对每组用户间的信赖强度综合进行考量。

首先根据社交聊天收集到的实验数据，本文以对失信被执行人的社交好友进行信赖度进行估计。以聊天的频率、内容及社交时间等进行数据采集估计，得出的信赖值为（0，1）。其中，好友分为直接好友与间接好友，分别对其进行用户信赖度的计算，对间接好友的不同路径产生的信赖度进行加和。在选取的样本量较大的前提下，我们可以发现用户的信赖度总评分随好友量的增加呈半曲线性递减。选取信赖度有效并评分较高的前n个，作为有效的筛选结果。

三、基于语义的地理特征词以及情感词的提取

在传统的本地词语提取方式中，主要有LDA模型、TF-IDF算法和基于共现词的关键词提取算法等。刘江华提出了一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证，但是缺乏情感词的提取，无法反映出对不同地理词态度。和志强则对基于词共现的关键词提取算法研究与改进，提出了一种优于TF-IDF的算法，不过也没有对情感类词的提取进行优化。本文利用一种以DBSCAN聚类算法为基础结合LDA主题模型的DDA模型来对文本检索来进行本地词语R的提取以及得到相关的情感词Z来显示相关的态度，来得到情感偏好的主要地理位置。首先从文本数据集中得到相关的文本数据，然后利用通过设置邻域半径与密度阈值 DT，将满足领域半径的点分类汇集成一个中心群，能有效得将密度距离外的点进行除噪工作，其中与DT如下所示：

由于计算每份文档中每个字词的词频（Term Freqiency，TF）与计算字词的特殊性所用的文档频率（Dociment Freqiency，DF）都会导致字词的权重计算结果不同，为了解决文档的篇幅对词语权重计算的影响，以及在文档内容中被遗漏而导致缺失的词语内容，利用公式：

Wij是修正过后字词fj在文章中的权重，tfij为词于聊天内容中出现的次数，N为集合聊天文本数，nj为的字母数。maxT为文件集合中拥有最大词频的字词总数之词频数，用来解决较高词频的问题

四、基于模糊综合分析法的权重模型

经过上述实验流程之后，我们可以根据筛选出的信任用户，即本文称为的好友及与其之间的聊天内容计算得到失信被执行人常出现并情感偏好的几个主要地理位置，这将成为实验预测居住地范围的重要位置。同时，我们还需要查找失信被执行人的历史居住地资料，包括身份证地址、房产证地址、租赁信息地址以及淘宝收货地等，对其躲藏前的常驻地的居住地信息进行居住地用户画像刻画。

本文将失信被执行人的居住地的历史用户画像维度定义为U，l为维度数，。杜德斌、张小玉等人大致都将影响因素分为房价、交通、环境、就业可达性、工作地、家庭生命周期、居民社会属性和收入。本文结合众多学者从年龄段、是否为外来人口等不同角度对影响居住区选择的因素研究，采用模糊综合分析法可以避免凭经验进行目标选择所固有的主观性，使并购决策更加科学合理等。对U进行服务设施、交通条施件、环境状况、房价和归属感五个维度的权重计算。同样的，我们将得到的情感词语Z按照相同的分类准则进行以上五个维度的划分，通过各自维度的词数与总维度词数af的比值分别得到不同维度的词频率，即得

其中代表在聊天内容中展示出的对不同维度的敏感程度，敏感程度越高，其代表的WZn可靠性越高，再结合其历史居住地得到的维度权重评分Wbn，可以利用附近或类似的居住地评估报告得到相关权重评分，进行加权得到最终的权重Wn。按照我们得到的维度打分表，对已得到的几个关键地理位置进行打分，从而得到评分最高的地理位置，即最终居住地预测点。

五、结果分析

本文利用法院以往的历史案例存档数据进行了相应的实验检测。其中，用到的相关案例中的中带有位置的聊天内容共有708920条数据，占全部数据的33%。利用本文提出的PLRU模型，进行大数据实验，并将实验结果与Flap模型，UGC-LI模型进行实验效果对比，发现结果的准确率得到了提高，运行时间也相比各缩减了20%与13%，有效验证了本模型对居住地预测的有效性。对比结果如下所示：

在实验结果中选取其中部分实验结果进行准确度的对比，发现本模型下的实验准确度较高。同时，以Flap模型和UGC-LI模型为基准进行PLRU模型执行效率的对比，发现本实验模型的执行效率也都有显著的提升。

针对居住地不明的失信被执行人，本文利用网络社交聊天，提出了一种基于用户社交网络信赖度的居住地位置推测PLRU模型。该模型有效的融合了社交网络中的用户信赖度与地理位置频率，在失信被执行人的居住地位置推断预测过程中，不仅考虑了用户之间的信赖度与聊天情感词，同时引进了居住地用户画像，更具有针对性的对可能的居住地进行位置点筛选，有效得提高了结果准确性。在追踪失信被执行人的过程中，失信被执行人的用户好友会发布实时动态，这些动态能帮助我们及时更新本地词语库，更具时效性。

参考文献：

[1]潘一腾，何发智，于海平.一种基于信任关系隐含相似度的社会化推荐算法[J].计算机学报，2018，41（01）：65-81.

[2]冯宇，李爱萍，段利国.融合社交关系和位置影响的地点推荐算法[J].计算机工程与设计，2018，39（09）：2934-2940.

[3]刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学，2017，35（02）：16-21+26.

[4]和志强，王丽鹏，张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程，2018（01）：144-146.

[5]杜德斌，崔裴，刘小玲.论住宅需求、居住选址与居住分异[J].经济地理，1996，16（1）：82-90.

[6]張小玉，张志斌.兰州市居民居住区位偏好研究[J].干旱区资源与环境，2015，29（05）：36-41.

作者简介：

傅扬岚，1996年6出生，女，汉族，浙江金华人，研究生在读，浙江财经大学会计学院。

（浙江财经大学浙江杭州 310018）