社交网络中用户隐私推理与保护研究综述

2020-10-10 00:59朴杨鹤然崔晓晖
计算机工程与应用 2020年19期
关键词:标签社交节点

朴杨鹤然,崔晓晖

武汉大学 国家网络安全学院,武汉430072

1 引言

社交网络为人们在全球范围内的交流和互动提供了一种简便的平台。世界各地的用户都在使用社交网络共享信息,并通过互联网与其他人建立联系[1]。在社交网络上,用户可以与他们现实中认识或不认识的人进行交流,或者找到在政治、经济、音乐或体育方面具有相同兴趣或倾向的人。广告公司可以在社交媒体上宣传他们的产品,并在短时间内获得更多欢迎[2]。

Twitter、Facebook和其他社交媒体鼓励用户在平台上表达其思想、观点和生活中的一些细节[3]。从重大事件到看似无用的评论,都包含在其发布的推文、状态和在线互动中。大多数消息包含的信息价值很小,但是数百万条消息的聚集会产生重要的知识。例如,由于机器学习和深度学习技术的兴起,用户帖子和在线社交互动可用于准确推理出许多用户角色属性、性别、种族、年龄、政治兴趣和位置等[4-7]。

据报道,诸如联合健康集团之类的医疗保健提供者会挖掘社交媒体数据以及其他临床信息,以评估医疗保健风险和保险费。企业也越来越多地使用社交媒体在招聘前筛选候选人[8]。FBI等政府机构现在也在社交平台上监视用户发布的内容。

2 简介

2.1 社交网络

在线社交网络平台已成为现代社会人们生活中不可或缺的一部分,这些企业已经获得了大量用户。截至2020 年1 月,Facebook 已拥有24 亿用户,排在所有社交网络应用的第一位。社交网络具有消息即时传递、信息共享以及为用户发布评论的优点[9]。

最初,人们主要使用社交网络来表达他们的一些想法。随着时间的流逝,在线活动变得越来越复杂和多样化。社交网络的蓬勃发展带来了大量用户生成的内容,有66%的用户推文是关于用户他们自己的,其中大部分是免费且可公开获得的[10]。

此外,越来越多的用户加入基于位置的社交网络(Location-Based Social Network,LBSN)以享受不同的位置相关服务,例如朋友查找、兴趣位置搜索、签到、带有地理标签的照片共享等[11]。位置信息不仅代表了个人的地理位置,而且还透露了他们的生活习惯、生活方式以及个人信息,这些导致用户面临较高的隐私风险。

在社交网络中,用户总是希望共享某些信息以获取收益,而将其他信息则隐藏起来以保护隐私。不幸的是,随着机器学习的飞速发展,各种强大的推理攻击可能会推测出其隐藏的信息[12]。

2.2 隐私推理

用户留存在社交网络平台上的好友互动记录、兴趣爱好标签、签到信息、消费记录等包含了大量社交关系信息和属性信息,为定向广告、推荐系统等应用提供了丰富的数据来源。用户的需求、喜好、属性、行为以及可能具有的关系等,被用于尽可能详细地构造用户个人画像[13]。随着社交平台的发展,能够用于确定用户真实身份的信息也越来越多,用户隐私泄露的隐忧也日益严重。社交网络中的隐私推理是用户隐私泄露的一种,即根据用户帖子内容、用户之间的关联和网络互动等公开信息,来对用户社会关系、敏感用户属性进行推理[14]。

进行隐私推理的攻击者可以是对用户隐私感兴趣的任何一方,例如可能是网络犯罪分子、社交网络提供商、广告商、数据经纪人或监视机构[15]。网络犯罪分子可以利用用户隐私信息进行有针对性的社会工程攻击;社交网络提供商和广告商可以根据用户数据用于定向目标广告;数据经纪人可以将用户信息出售给广告商、银行公司和保险业等其他方来获利;监视机构可以使用这些信息来识别用户并监视他们的活动[16]。

2.3 推理攻击分类

根据攻击的目的,即想要获得到的用户隐私信息,现有的推理攻击按攻击目的大致可分为两类:针对属性的推理和针对社交关系的推理。属性推理中,针对地理位置的推理又是领域内的一大研究重点,因此在本文中单独分类介绍。

针对属性的推理可以按技术和所利用的不同类型数据分为基于内容、基于社交链接和基于用户行为等几类属性推理方法;针对地理位置的推理包括基于社交图和基于社交行为等方法;而针对社交关系的推理则主要分为基于位置和基于主题标签两种方法[17]。

3 针对属性的推理攻击

3.1 敏感属性定义

用户属性存在类似二分类的概念,可以被分为两类:公开属性和私人敏感属性,用户应确定其属性属于何种类别[18]。某些属性(例如政治倾向和种族)可以被公开显示,因为用户的关注者可能会因为他的公共属性而关注他。而其他属性(例如性别和位置)是私人的且敏感的,用户不希望将其显示出来。

可以将属性推理视为从用户的在线发布和互动的信息中推理出用户不希望为他人所知道的一组敏感属性的方法[19]。

推理出的用户属性可以用于各种安全敏感活动,例如鱼叉式网络钓鱼和个人信息的身份验证[20]。此外,攻击者可以利用推理的属性在多个站点上识别同一用户或使用离线记录(例如,公开的选民登记记录)形成综合性的用户个人画像,给用户带来更大的安全和隐私风险[21]。

3.2 基于内容的属性推理

基于内容的攻击主要利用主题、个人信息和推文文本等对用户的敏感属性进行推理。

Georgiou 等[22]引入了一种基于社区趋势主题的属性推理攻击,从统计角度利用这些公开的社区感知趋势主题来推理在线社交网络用户的敏感属性,因为每个主题中的参与用户形成同质的组(社区),即使他们没有直接链接也是如此。

趋势主题是指与暂时流行的主题相关的一组单词或短语,用于理解和解释信息和模因如何通过具有数亿个节点的庞大社交网络传播[23]。

社交平台的用户表示为集合U={ui,u2,…,un}。每个用户u 与具有k 个敏感属性(例如位置、年龄等)的向量v 相关联。用户u 的属性ai可以采用一组可能的值{ai1,ai2,…,aimi}中的一个,其中mi是相应属性的唯一值总数。属性的值形成一个层次结构,对于某些属性,该层次结构可以具有很大的深度(例如对于城市、区域、国家、大洲乃至整个世界范围的位置信息)。

社交平台上的内容表示为推文的数据流P。每个推文p ∈P 有一个唯一的作者(用户)p.u,并且包含任意数量的主题关键字p.T={t1,t2,…,tk}。 将社区定义为属性中具有相同值的一组用户,但不一定存在社交连接。 例如,居住在武汉的年龄为25岁的男性用户可以形成一个同质社区,包含这些值为属性组合{位置,年龄,性别}标识的所有用户。纽约的用户形成了由单例属性组合{位置}定义的另一个同质社区。

趋势主题算法向攻击者返回提到了所提供主题的一组用户。攻击者对每个属性的先前分布有一般的了解,例如此类知识可能包括基于人口普查的位置分布、基于社交媒体服务发布的统计数据的年龄分布、基于公开此信息的用户的性别分布等[24]。不断增加的知识使攻击者可以针对给定用户的敏感属性逐渐提高其推理置信度。

给定主题和社区元组后,攻击者可能会尝试推理出至少提到一个主题ti的用户的敏感属性。假设L 是用户的敏感属性(例如位置)之一,用户提到了一些主题t1,t2,…,tk,则L 的概率分布为:

P(L)是属性L 的先验多项式分布,可以基于攻击者对此类信息的一般知识而假定为已知。在给定L ,Pt1,t2,…,tk|L 的情况下,提及主题t1,t2,…,tk的用户的概率分布等于提及所有k 个主题并具有L 特定值的用户u 的数量,该值等于L的用户总数。例如,对于L=a:

其中u.v.L 是用户的属性v 的向量中的属性L。类似的,先验概率P(t1,t2,…,tk)等于在用户总数中提及这些主题的用户数。

虽然攻击者可能知道属性的多项式分布,并且能够计算任何主题组合的先验概率,但他们无法计算出具有特定属性值L=a 的用户集:{u|u.v.L=a}。取而代之的是,他们可以从趋势主题算法得到的元组来获得概率分布Pt1,t2,…,tk|L 的近似值。

如果对于L=1 的任何值,概率PL=1|u.T 变得大于阈值θ,则认为该用户的隐私L 受到侵犯。攻击者可以通过使用这些涉及用户的相应社区特征来提高其推理的可信度。

Thomas 等[25]使用多标签分类方法来使来推理属性,并且提出了多方隐私来防御属性推理。Zhang 等[5]表示,用户推文中的主题标签可以单独用于精确推理用户的位置,准确度为70%到76%。

Otterbacher[26]使用用户的写作风格研究了性别推理。Narayanan 等[27]展示了一个更强的结果,即作者身份可以通过写作风格分析而被去匿名。Adali 和Golbeck等[28-29]使用用户的推文研究如何推理出个性。

3.3 基于社交链接的属性推理

He 等[30]将属性推理转换为使用用户之间的社交链接构建的贝叶斯网络上的推理,使用具有合成用户属性的LiveJournal 社交网络数据集评估了他们的方法。并讨论了通过先验概率、影响力和社会开放性对属性推理的影响。

假设仅考虑直接朋友Y1的属性值来推理X 的属性,知道Y1的所有属性值后进行了朴素贝叶斯假设。

对于具有最大深度i 的朴素贝叶斯网络,令X 的值x 是在给定观察到网络中其他节点的属性值的情况下具有最大条件概率的属性值(即最大后验概率):

由于推理仅涉及彼此独立的直接朋友Y1,因此可以使用贝叶斯网络中编码的条件独立性进一步降低后验概率:

Lindamood 等[31]修改了朴素贝叶斯分类器,以社交链接和用户的其他公开属性来推理某些属性,例如,为了推理用户的专业使用了用户的其他属性(用户的雇主、用户居住的城市、用户的社交朋友及其属性)。但是,他们的方法不适用于根本不共享任何属性的用户。

Bhagat 等[32]利用基于ICA 框架的K 最近邻算法来推理LiveJournal数据集的属性,提出了一种局部迭代算法,通过选择在用户节点的本地邻居中出现频率最高的值来推理属性,这可以称为本地邻居的多数投票。

Macskassy 和Provost[33]提出了一种邻居关系模型,并提出了两种算法,即迭代关系邻居和概率关系邻居来进行属性推理。

Mo 等[34]提出了一种基于图的属性推理模型,该模型使用好友关系、组成员身份和网络关系进行相似性计算,并将其作为转换矩阵来执行标签传播。

Yin等[35]使用随机游走并重新启动基于社交属性的网络(Social Attributes Network,SAN)来进行属性排名。他们将属性建模为节点,并在用户节点和属性节点之间建立链接。但在推理过程中不考虑属性相关性,随机游走会使标签在网络中传播,并在最接近的节点处停止。基于投票分配的方法与此类似,都使用转移矩阵在标签中进行标签传播,并最终选择最接近的属性值。

Misolve等[36]提出了一种基于社区属性的属性推理方法。他们根据同一社区中用户的公共属性来推理用户的敏感属性。在Facebook数据集上进行了实验,以推理用户的工作部门等。

Traud等[37]将社区结构与基于Facebook的给定类别的分区进行了比较,以检查在二元级数据上公共属性的影响。

3.4 基于用户行为的属性推理

用户行为包括点赞、关注、转发评论等行为,以此对属性进行推理。

Kosinski[38]提出的方法可以轻松使用用户行为中的点赞(Facebook Likes)来自动、准确地预测一系列高度敏感的个人属性,包括:性取向、种族、宗教和政治观点,人格特质、智力、家长离异情况、年龄和性别等。用户和他们的点赞表示为稀疏的用户相似矩阵,如果用户和点赞之间存在关联,则将其项设置为1,否则设置为0。使用奇异值分解(Singular-Value Decomposition,SVD)可以减少像用户一样的矩阵的维数。使用线性回归模型预测年龄或智力等数字变量,而使用逻辑回归预测诸如性别或性取向等二分变量。在这两种情况下都应用了10倍交叉验证,研究的设计如图1所示。

图1 基于点赞行为的推理模型设计

Weinsberg 等[39]使用用户对不同电影给予的评分来调查性别的推论。特别是,他们为每个用户构造了一个特征向量。特征向量的第i个项是:如果用户查看了第i个电影,则用户对第i个电影给予的评分分数,否则第i个项为0。他们比较了一些分类器,包括逻辑回归[40]、支持向量机[41]和朴素贝叶斯[42],发现逻辑回归胜过其他方法。具体来说调查了用户看的哪些电影可以最大程度地提高推理准确性,但是此方法可能不适用于现实情况。

Chaabane 等[43]的研究证明用户的行为数据也可以是用户喜欢或共享的页面或列表。攻击者(例如,社交平台提供商、广告商或数据经纪人)可以使用机器学习分类器来推理目标用户的私人属性(例如,性别、居住城市和政治倾向)。

3.5 基于多类型的属性推理

Mao 等[44]等提出一种基于社交链接和属性关联的高效社会属性推理方案,方法包括三个主要阶段:预处理、构造社交属性相关性网络(Social Relevance Attribute Network,SRAN)图和推理属性,方法如图2所示。

第一阶段:预处理将社会数据作为输入,其中包括三个组成部分:社会结构抽象(PI-ss)、用户属性抽象(PI-ua)和属性相关性分析(PI-ar)。PI-ss用于提取用户之间的社交链接并输出社交节点(用户)图Gs。PI-ua用于建立用户(社交节点)与社交属性值之间的映射,并输出属性矩阵A。PI-ar 测量两个属性值之间的相关性,并输出属性邻接矩阵R。

第二阶段:以社交图Gs构造SRAN图,以属性矩阵A和属性邻接矩阵R为输入,并输出SRAN图。SRAN图具有两种节点:社交节点和属性节点,其中社交节点代表用户,属性节点是目标社交网络中包含的属性值。

定义了三种类型的边来描述这些节点之间的关系。具体而言,社交边代表两个社交节点之间的社交链接;社交节点与属性节点之间的用户属性边由该社交节点是否具有该属性值确定;属性相关性边由两个属性值(即SRAN中的属性节点)之间的相关性加权,该值在第一阶段由PI-ar量化。

第三阶段:以从第二阶段获得的SRAN 图作为输入来推理未知属性,进行具有重启的随机游走(Rndom walk with Restart,RwR)以执行基于相关性的属性推理,并在结果中输出目标用户的所有未知用户属性链接。

图2 基于社交链接和属性关联的推理方法

Gong 等[45]通过友谊和行为联系来推理用户雇主和城市等属性。

3.6 其他

Mei等[46]提出了一种新的基于图像和属性的卷积神经网络属性推理攻击框架,框架集成和修改了现有的最新CNN 模型。如图3,它包含三个主要部分,分别是RCNN 面部识别器、基于图像和属性的CNN 年龄分类器以及基于属性的FCNN 年龄分类器。但是其仅考虑一个目标的敏感属性,即年龄范围。

图3 基于图像和属性的推理攻击系统

Labitzke 等[47]通过面向情感的挖掘来推理用户对Facebook页面的兴趣程度。Zamal等[48]使用移动通信来推理性别和年龄,并考虑其特征以及节点属性值之间的联系。Chen 等[49]提出了ChiSquare,基于卡方统计来计算用户和属性值之间的相关性。

4 针对地理位置的推理攻击

4.1 基于社交图的位置推理

文献[50]显示社交图分析可以从朋友和关注者的位置揭示用户位置。

将用户v的位置图定义为从目标用户Gv的社交网络获得的加权图Lv=<Iv,Sv>,如下所示:

节点集Iv是τv的解释集以及v朋友的地名集合。定义链接集Sv,以便在下列情况下在i1∈Iv和i2∈Iv之间存在双向链接:

i1和i2为同一地区的一部分或者同一地区,该链接的权重为wco。

i1和i2是同一省/州(或其他等效的地区行政区划)或者它们属于同一州和国家/地区,该链接的权重为ws。

i1和i2是同一城市,该链接的权重为wci。

与链接相关联的权重指示解释之间关系的强度。例如认为如果i1和i2代表同一城市,则两个解释i1和i2之间的关系要强于它们代表同一状态下的两个不同城市。

出于相同的原因,与i1和i2对应于同一地区相比,i1和i2对应于同一省/州(或等效的行政区划)。链接(i1,i2)的权重衡量的是i1和i2共享的地区规划的粒度,粒度越细,重量越大。基于此有wco<ws<wci。

4.2 基于社交行为的位置推理

在基于位置的社交网络中,用户的互动主要是通过签到和照片共享进行的。文献[51]提出了一种基于历史签到和照片的空间分布的推理模型,并表明通过对包括签到和照片在内的多个事件进行时空分析,可以高精度地推理出用户的位置。

这是一种内容遗忘的推理模型,该模型不会以处理照片的内容来查找用户的位置,而是仅考虑不同的位置签到和照片共享概率。

Ilaria 等[52]提出了一种基于视觉技术的位置推论模型,该模型使用Twitter 签到数据,表明人们仅使用一小部分位置点就可以推理出人们最常在的和最私人的位置,例如工作和家庭。Souza 等[53]研究了用户在Instagram上共享自拍照的集体行为。

4.3 其他

在移动应用中,Michalevsky等[54]表明攻击者可以使用机器学习根据用户的智能手机的总功耗来推理用户的位置。Narain等[55]的研究中发现,攻击者可以使用用户智能手机上的陀螺仪、加速度计和磁力计数据来推理用户的位置。

5 针对社交关系的推理攻击

5.1 基于位置的关系推理

诸如Foursquare 之类的基于位置的社交网络以及诸如Uber 之类的基于位置的在线服务的广泛普及,为人们带来了大量的人类轨迹数据。事实证明,了解基本的人员流动模式对于各种应用(例如下次访问位置预测)具有重要价值[56]。

Hsieh 等[57]使用用户的离线地理活动(例如签到记录和会议事件)来推理在线社交关系。首先构建了一个共址图,其中节点是用户,边是用户之间的共址,边权重是组合的特征值。具有较高的紧密度、概率和共同位置相似性的两个节点彼此相识的可能性很高。其次,如果会议活动的位置对两个节点都更有意义或更重要,则应为此类共址分配更高的权重,有较高的开会频率的两个人倾向于存在社交关系。

该模型是一种基于图的半监督学习方法,可以使用节点对的提取特征来推理社交联系。中心思想有三个方面。首先,具有相似特征分数的节点对往往具有相同的联系(即是否具有社会纽带)。构造一个链接图(Link Graph,LG),以表示节点对之间的特征相关性[58]。其次,由于不同的特征对社交联系的推理有多种影响,因此针对每个特征分别学习与LG中每个边相关联链接的值,以建模节点对的特征差异与成为朋友的可能性之间的关系。最后使用算法迭代地计算节点对与LG中相邻节点成为朋友的概率,接着确定每个特征的重要性,从而可以推理出节点对之间的社会关系[59]。

Zhang 等[60]通过将用户对的空间、时间和社交属性视为有效用户链接的不同视图,研究了给定LBSN中社交关系推理的问题。

如图4,通过将3 个因素中的每一个视为任何目标用户对的一个视图,设计了一种新颖的多视图匹配网络(Multi-View Matching Network,MVMN)。MVMN 包括位置匹配模块、时间序列匹配模块和关系匹配模块。每个模块都学习特定视图的匹配表示,而MVMN 将它们融合以进行最终的关系推理。

图4 时空轨迹多视图匹配网络

Backes等[61]从用户所在位置推理社交关系,采用深度学习方法来学习用户的移动功能并将其用于社交关系推理。诸如文献[62-66]此类的工作可以从同一时空推理出社会联系,为其中两个用户共享共同的朋友或位置。

Wu等[67]从用户轨迹数据推理社会关系在诸如好友推荐和乘车共享等现实应用中具有重要价值。模型利用图卷积网络(Graph Convolutional Network,GCN)以无监督的方式学习用户在用户移动异构图上的嵌入。

Olteanu等[68]研究同位置信息对位置隐私的影响。最近,Zhou等人[69]从好友和流动性数据推理出社交联系。

5.2 基于主题标签的关系推理

Zhang[70]使用用户主题标签二分图嵌入模型来推理关系,以学习每个用户画像的主题标签,并根据两个用户画像的余弦距离进行无监督的关系预测。

具体来说,即将用户和主题标签组织成一个加权二分图。对于连接用户和主题标签的边,其权重等于用户共享主题标签的次数。在图上模拟了从每个用户开始的随机游走,从每个节点到下一个节点的过渡概率遵循相应边的权重。每次游走都有一定的长度,留下了一组随机的行走轨迹。然后,分别依靠下面的优化目标函数来学习每个用户的主题标签:

这里,N(v)表示节点v的邻域,而θ(v)是节点v的学习结果。此外,p(v|N(v);θ)使用softmax 函数建模。目标函数本质上是连续词袋(Continuous Bag-of-Words,CBOW)模型[71],采用负采样方法来加快学习过程。

最后对于任何两个用户,会计算他们学习到的余弦距离,并在余弦距离低于所选阈值时预测他们的社交关系[72]。

5.3 其他

Rahman等[73]提出了一种推理社交关系的多模式方法,利用用户的5 个不同维度特征,即图像、推文文本、主题标签、地理位置和(不完整的)社会关系评估了一个真实的数据集,该数据集包含从Instagram 收集的2 200万用户帖子。使用数据集的特征向量训练5 个随机森林分类器,然后使用5个训练过的分类器各自的AUC值(Area Under the ROC Curve),即ROC 曲线下的面积为每个分类器分配置信度a。他们将这些AUC值用作目标集上5 个分类器预测的强度或可信赖性的指标。结果证明,当多种模式组合在一起时,社交关系推理攻击的成功率将大大提高。

Gupta等[74]研究了社交网络用户所发布视频中人们的社交关系推理,使用视听特征和运动轨迹来计算视频中每个场景的社交关系的度量,同时利用人脸识别来计算每个场景中人物的出现。

Zhao 等[75]提出一种基于多源信息的两阶段的深度学习框架TDFI,用于社交关系推理,这种方法可以在拥有低复杂度的同时利用多源信息。应用扩展邻接矩阵(Extended Adjacency Matrix,EAM)来表示多源信息,然后采用改进的深度自动编码器网(improved Deep AutoEncoder Network,iDAEN)为每个用户提取融合的特征向量。TDFI框架还提供了一种改进的深度孪生神经网络(improved Deep Siamese Network,iDSN),用于推理来自iDAEN的用户是否存在社交关系。

6 相关防御方案

6.1 针对属性推理的防御

6.1.1 基于文本的防御方法

(1)隐藏:隐藏(也称为删除)[76]建议用户选择属性关键字或主题标签Hp的子集(共有2Hp-1 个此类子集),可以通过阈值th限制要删除的关键字或主题标签的数量,以优化运行时间。将所有生成的主题标签的子集发送到推理模型以验证它们是否满足位置隐私约束,然后发布推文。

(2)替换:该机制用一组主题标签H中的其他主题标签替换了原始标签以误导攻击者[77]。为了保持合理的搜索复杂度,必须限制一组潜在的标签以替换每个原始标签。 固定了一个阈值ts,并集中在ts上在语义上最接近原始主题标签的主题标签,这确保了候选主题标签的集合将损失降至最低,将搜索空间限制为(ts+1)Hp-1。与隐藏机制一样,可以通过用类似于th 的阈值限制要替换的标签的数量来进一步降低时间复杂度[78]。

(3)泛化:这种机制将每个原始主题标签概括为一个语义上更广泛的类别。由于并非所有主题标签都可以泛化(例如#love),因此将给定推文中可泛化主题标签的子集表示为v。为降低时间复杂度,还可以固定要泛化的最大标签数的阈值[79]。

(4)混淆:即基于噪声的扰动,以在发布数据之前对其进行掩盖[80-81]。BlurMe 会对用户的电影分级进行模糊处理,以减少泄露其性别信息的风险[39]。根据项目与除i 之外的属性值之间的相关性将项目分类到列表Li中。具体来说,对于每个属性值i,通过使用学习逻辑回归分类器数据向量作为特征向量;将逻辑回归分类器中某项的负系数视为与i 以外的属性值的相关性。Attri-Guard利用对抗性机器学习技术将噪声添加到用户的公共数据中,以防御属性推理攻击[82]。

6.1.2 基于博弈论的防御方法

Chanthaweethip等[83]提出了一种博弈论的方法来防御属性攻击。这些方法具有理论上的隐私保证,但是它们难以解决应用于属性推理攻击时在计算上的优化问题。Shokri 等[84]提出的方法对于防御属性推理攻击是很容易处理的,因为这样的问题本质上是一维的公共数据向量。防御者将位置混淆,以保护用户免受最佳推理攻击。

Salamatian 等[85]提出了量化概率映射(Quantization Probabilistic Mapping,QPM)来解决Han 等人提出的博弈论优化问题。具体来说,他们聚集用户的公共数据,并使用群集代表他们,然后使用聚类近似解决优化问题。由于使用了量化,因此QPM 没有理论上的隐私保证,即QPM 不一定能防御最佳属性推理攻击,但是QPM使其在实践中更易于防御。

6.2 针对位置推理的防御

6.2.1 基于k 匿名的防御方法

k 匿名性的概念是文献中基于位置的系统最广泛使用的隐私定义。已用于保护用户的位置,要求它在一组k 个点之间是无法区分的(通常需要共享某些位置属性)[86]。

一种实现此目的的方法是使用虚拟位置[87-88]。该技术涉及使用实际和虚拟位置生成k-1 个正确选择的虚拟点,并向服务提供商执行k 个查询。实现k 匿名性的另一种方法是通过隐藏[89-91]。这涉及到创建一个包含k个点的共享区域,这些共享点共享一些感兴趣的属性,然后向服务提供商查询该隐藏区域。

Sun 等[92]解决了身份披露问题,并通过确保至少有k 个朋友对共享相同的数量,提出了一种新颖的k-NMF匿名性。

6.2.2 基于差分隐私的防御方法

差分隐私[93]是统计数据库领域的隐私概念。其目标是在发布有关数据库的汇总信息时保护个人数据。差分性隐私要求修改单个用户的数据对查询结果的影响可以忽略不计。更确切地说,它要求将查询应用于数据库D 时返回值v 的概率与应用于相邻数据库D′时相同值的概率相比,同用户在D ,D′中的值应该在e范围内[94]。实现此概念的一种典型方法是向查询输出中添加受控的随机噪声,例如从拉普拉斯分布中提取的随机噪声[95]。

差分隐私已在位置隐私中被使用。Machanavajjhala等[96]的研究表明可以使用合成数据生成技术以差分隐私的方式发布有关通勤模式的统计信息。Ruan 等[97]使用四叉树空间分解技术来确保具有位置模式挖掘功能的数据库中的差异优先权。Dewri等[98]使用了k 个位置的匿名集,以求从k 个位置中的任何一个推理出相同混淆位置z 的概率为相似(范围e 内)。

6.2.3 其他防御方法

Cheng 等[99]提出了一种位置隐蔽机制,并着重于基于位置的范围查询。隐私的程度由隐蔽区域的大小(也称为不确定区域)和敏感区域的覆盖率来衡量,覆盖率是隐蔽区域的面积与用户认为敏感的区域的面积之比。PrivCheck[100]通过混淆基于位置的社交网络中用户签到行为的数据,来最大程度地减少用户私人数据的泄露。

在文献[101]研究中,基于特定的传感技术或环境条件,假定用户的真实位置具有某种程度的不精确性。然后使用不同的模糊处理技术来增加这种不精确性,以达到一定程度的隐私级别。此隐私级别定义为应用模糊处理技术前后的准确度之比。

6.3 针对社交关系推理的防御

郭耀[102]提出了一种基于关键节点与连接关系的社交网络隐私保护方法KLPP,可以保护社交网络中关键节点和连接的隐私,且通过随机度扰动算法对网络中的关键节点施加更多保护。同时通过对节点进行聚类,将网络划分为子图,并在子图内部扰动网络中的连接,可以减少扰动过程对网络结构的影响。

黄海平等[103]设计了带权社交关系网络中的节点和边的扰动策略,采用改进的单源最短路径约束模型构建边权值噪音。

Shahabi等[104]提出一种名为PLACE的可扩展框架,并提出了4个新颖的隐私保护基块,包括位置邻近度、共现向量、位置熵和跟随度。陈伟鹤等[105]提出L-intimacy隐私保护模型,该模型能够根据用户与好友的亲密度级别进行隐私保护。

7 总结与展望

社交网络中的推理攻击与保护技术处于不断的对抗中,双方技术都在提升。目前攻击者所掌握的知识越来越多,攻击能力越来越强;社交网络数据包含的内容也越来越复杂,既包含用户的各种属性,也包含用户之间的关系等多种敏感信息[106]。

在属性推理方面,未来攻击者可以通过对抗性机器学习得到更强大的分类器,利用它们来进行推理[107];收集更多的用户信息,包括跨平台的数据,利用属性之间的相关性执行更好的属性推理。针对位置的推理则可以利用计算机视觉技术更好地识别推文中照片的位置,考虑更多的连续社交行为之间的时空相关性等[108]。对于社交关系推理,未来工作的一些方向包括加强对社交图模型链路权重的学习[109],扩展投票分配攻击以推理用户之间的隐藏社交关系等[110]。

而在防御方面未来主要分为两大方向:其一是以服务为中心的方法,即依靠可信机制来阻止社交网络服务发布揭示有关用户信息的内容,例如使用点对点的社交网络增强用户的匿名性[111]。其二是以用户为中心的方案,即通过用户部署的防御框架将用户信任从社交网络提供商转移到本地计算机,例如使用内容自动生成对抗文本进行混淆[112];自动生成社交行为来创建无法区分的网络,从而对隐私推理攻击进行预防。

猜你喜欢
标签社交节点
CM节点控制在船舶上的应用
社交牛人症该怎么治
聪明人 往往很少社交
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
社交距离
你回避社交,真不是因为内向
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
抓住人才培养的关键节点