马静
摘 要:伴随着网络化与信息化的发展,信息呈“爆炸式”增长,大数据时代正悄无声息到来。大数据在影响人们吃穿住行的同时,也让人们陷入了隐私危机。匿名化技术是在数据发布过程中进行隐私保护的一项重要技术。文章通过查阅大量文献,首先简要地概述了大数据隐私危机现状;接着总结了常见的隐私攻击方法及与抗衡的匿名模型及其实现方法与技术;然后讨论了匿名化质量的度量方法;最后总结并说明下一步的研究方向。
关键词:大数据;隐私保护;匿名化
随着互联网及云计算等技术的迅猛发展,全球数据呈现指数级增长。预计2020年全球数据将会增加50倍以上。在大数据时代背景下,通过人工智能与数据挖掘发现事物运行规律与趋势,可以很好地帮助管理者进行决策。与此同时,个人数据能被更容易地获取和更广泛地传播,而侵犯个人隐私权的行为却难以察觉。这一“易”和一“难”,导致通过电子信息渠道泄露隐私的事件在全球范围内层出不穷,事件涉及的公司既有拥有大量的大数据IT行业巨頭,也包括某一领域的新兴大数据服务公司[1]。如何在保证数据高可用性的情况下,不泄露数据主体的隐私信息,已引起国内外研究人员的关注。
1 大数据隐私概述
1.1 大数据隐私的定义
传统隐私是指一种同公共利益、群体利益无关,个人不愿外界干涉的个人私密和个人不愿意外界介入或不便介入的个人领域[2]。大数据隐私是对传统隐私的一种继承与发展,以数据化形式存在,与公共或群体利益无关的,在未被告知的情况下不愿被他人利用的个人信息[3]。
1.2 大数据隐私危机
1.2.1 “隐私”将不再“隐私”
随着大数据云服务推广及应用,人们已习惯将数据存于云端,自己也不清楚数据的存储位置[4]。在社交网络上,人们越来越多地主动公开发表自己的观点,甚至包括那些他们曾经不愿公开的事情,使得公开个人数据成为用户自愿并且日常化的行为[5]。移动应用使个人数据信息高度个人化,数据信息的收集无所不在。互联网的开放性及高速传播性,使得一条误发信息在一秒钟被成千上万人看到成为可能。
1.2.2 “隐私”产生经济
据华尔街日报报道:许多公司通过各种应用软件收集用户的个人数据,并被用作进一步跟踪和预测用户行为;一些微博会收集微博用户发布的信息,如关注、偏好、地理位置等信息,以便于在用户个人页面投放相应的广告。在大数据时代,正如斯皮内洛所说:“信息已然成为一种商品”,这必然会促使相关的企业采用先进的大数据技术对海量个人数据进行采集和挖掘。
1.2.3 大数据技术加重隐私危机
“在互联网上没有人知道你是一条狗”[6]的时代已经一去不复返,大数据应用技术充分实现了海量数据的使用价值,但在发挥其作用的同时也加重了隐私危机。数字化全面监控使隐私日趋透明化。数据在深度挖掘过程中,通过二次甚至多次数据利用,在获得更多数据价值的同时,网络用户的个人隐私将被更大范围地披露。大数据预测造成隐私被预测。
2 大数据生命周期的隐私风险分析及挑战
大数据处理生命周期包括了数据发布、数据存储、数据挖掘、数据使用4个阶段,而每个阶段都存在隐私泄露和被使用的高风险。
2.1 数据发布
在大数据时代,各方发布的数据有着动态、针对同一用户的数据来源众多、数据信息量大等特点,因此,如何在数据发布时,在保证数据可用的同时,能够高效、可靠地去掉可能泄露隐私的数据信息是一项巨大的挑战。
2.2 数据存储
大数据时代的数据存储一般采用云存储。云存储的特点是把数据放到不确定的存储池里,而没有放到本地数据中心或专用远程站点[7]。因此,大数据的存储者和拥有者是彼此分离的,各云存储服务提供商的信用度参差不齐,用户的数据面临着被不可信的第三方偷窥或篡改的风险。
2.3 数据挖掘
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中的有价值信息的过程。虽然数据在数据发布时会进行匿名化等技术处理,但数据挖掘技术通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别诸多方法,依然可以分析出用户的隐私[8]。
2.4 数据使用
通过数据挖掘,大数据更多有价值的信息被提炼出来,它们用来改善人们的生活,为企业增加利润,但是它们又面临着4W风险,即何时(When)、何地(Where)、何人(Who)、能访问什么样性质的数据(What)的风险。
3 大数据匿名化隐私保护技术
3.1 匿名化概述
匿名的概念由Samarati等[9]于1998年首次提出,匿名化技术是指在数据发布阶段,通过一定的技术,将数据拥有者的个人信息及敏感属性的明确标识符删除或修改,从而无法通过数据确定到具体的个人。使用数据匿名技术有效地实现了大数据发布隐私保护(Privacy Preserving Data Publishing,PPDP)[10]功能,其匿名化流程如图1所示。
传统数据发布中数据表可归纳为如(1)所示的关系R,其中UID是显示标识符,可具体指示所属个体,标志着个体的身份信息。QID是准标识符,是一个可以潜在确认个体属性的集合,它虽然无法唯一标识个体身份,但可被攻击者利用链接攻击或背景知识攻击等多种方式推断出个体身份。SA是敏感属性,是信息所有者不愿意公开的私密信息,是不能被泄露。NQID是普通标识符,而NSA是非敏感属性。
R(UID,QID1,QID2…..,NQID,NQID2…..,SA1,SA2…..,NSA1,NSA2…..) (1)
匿名化技术处理主要从两方面进行隐私保护,一是去掉显式标识符,二是将准标识符匿名化,也就是将关系R修改为:
R(QID1,QID2…..,NQID,NQID2…..,SA1,SA2….. ,NSA1,NSA2…..) (2)
综上所述,“匿名化”过程其实质就是对准标识符匿名化,对能够直接暴露身份的显示标识符直接隐匿掉。
3.2 常见的隐私攻击方法
隐私攻击(Privacy Attack)是指攻击者通过掌握的背景知识和一些攻击技术,盗取用户敏感信息,并通过敏感属性取值确定其对应的个体。通常有以下几种类型。
(1)链接攻击[11]。链接攻击是数据发布中最为常见同时也是攻击性最强的一种攻击,攻击者通过对发布的数据和其他渠道获取的外部数据进行链接操作,以推理出隐私数据,从而造成隐私泄露。
(2)同质性攻击[12]。同质性攻击是指攻击者利用敏感信息取值的同质化特征进行攻击。
(3)背景知识攻击。背景知识攻击是指攻击者根据窃取的QID、敏感信息、实现匿名的模型和算法等各种背景知识,结合处理后的数据集排除一些干扰值,推断出用户与敏感信息之间的关联的攻击[13]。
(4)近似攻击。近似攻击是指攻击者利用敏感属性值相似性而获得敏感屬性在某一较小范围内的信息的攻击。
3.3 基于匿名技术的隐私保护模型
为了对抗各种隐私攻击,专家学者们提出了一系列匿名保护模型。在1998年的PODS国际会议上,Seweney等提出了K-匿名模型,它是最早也是最具影响的隐私保护匿名模型。后来Seweney在K-匿名基础模型上又提出了基于泛化和隐匿技术的改进版K-匿名隐私保护模型。Kisilevich等学者提出了通过抑制技术、采用分类树的 K-匿名模型。Abul等学者提出了基于定位技术的K-匿名模型。为了解决 K-匿名模型属性泄露问题,2006年,Machanavajjhala等[14]提出了L-多样性模型。为提高L-多样性的灵活性,提高匿名数据的个性化保护能力,Li等[15]提出了(k,l)-匿名模型。Wong等学者在第12届ACM SIGKDD(Knowledg discovery and Data Mining)国际会议上提出了(a,k)-匿名模型。2007年,Li等[16]针对L-多样性模型不足又进一步提出了T-近似模型(T-Closeness),2009年,又有专家提出(alp,dif)个性匿名模型。后来(k,e)-匿名模型,基于多维属性泛化的K-匿名,基于聚类的K-匿名等模型也相继被提出[17-18]。为了适应社交网络的快速发展,基于图修改的K-neighborhood[19]、K-Degree[20]、K-Isomorphism[21]、K-Automorphism[22]及基于聚类的Partitioning[23]、SANGREEA[24]以及 Generalization[25] 等匿名保护模型相继被提出。在众多的模型中,K-匿名模型(K-anonymity)、L-多样性模型(L-Diversity)及T-近似模型(T-Closeness)是经典的3种隐私保护模型,许多模型都是以它们为原型进行优化及改进而产生的。它们的各自特点及抵御功击能力对比如表1所示。
3.3.1 K-匿名(K-anonymity)
K-匿名模型是指对数据进行泛化处理,使得有多条纪录的准标识列属性值相同,这种准标识列属性值相同的行的集合被称为相等集,相同准标识符的所有记录称为一个等价类,K-匿名模型要求对于任意一行纪录,其所属的相等集内纪录数量不小于K,至少有K-1条纪录标识列属性值与该条纪录相同。当攻击者在进行链接攻击时,对任意一条记录攻击的同时会关联到等价组中的其他K-1条记录,从而使攻击者无法确定与用户的特定相关记录,从而保护了用户的隐私。K-匿名模型实现了以下几点隐私保护:(1)攻击者无法知道攻击对象是否在公开的数据中。(2)攻击者无法确定给定某人是否有某项敏感属性。(3)攻击者无法找到某条数据对应的主体。K-匿名在一定程度上避免了个人标识泄露的风险,但依然有着属性泄露的风险,攻击者可通过同质属性及背景知识两种攻击方式攻击用户的属性信息。K-匿名模型在实施过程中随着K值的增大,数据隐私保护增强,但数据的可用性也随之降低[14]。
3.3.2 L-多样性(L-Diversity)
如果一个等价类里的敏感属性至少有L个“良表示”的取值,则称该等价类具有L-Diversity。如果一个数据表里的所有等价类都具有L-Diversity,则称该表具有L-Diversity。其中“良表示”有3种形式:(1)可区分良表示。同一等价类中的敏感属性要有至少L个可区分的取值。(2)熵良表示。记S为敏感属性的取值集合,p(E,s)为等价类E中敏感属性取值s的概率,entropy L-Diversity要求下式成立:Entropy(E)=-∑s∈sp(E,s)logp(E,s)≥logl。(3)递归良表示。设等价类E中敏感属性有m种取值,记ri为出现次数第i次取值的频次,如果E满足:r1 3.3.3 T-近似(T-Closeness) 如果等价类E中的敏感属性取值分布与整张表中该敏感属性的分布的距离不超过阈值T,则称E满足T-Closeness。如果数据表中所有等价类都满足T-Closeness,则称该表满足T-Closeness。T-Closeness能够抵御偏斜型攻击和相似性攻击,通过T值的大小来平衡数据可用性与用户隐私保护程度。T-Closeness由于其标准要求较高,在实际应用中也存在不足:(1)T-Closeness只是一个概念或者标准,缺乏标准的方法来实现。(2)T-Closeness需要每个属性都单独泛化,加大了属性泛化的难度及执行时间。(3)T-Closeness 隐私化实现起来困难且以牺牲数据可用性为代价。(4)不能抵御链接攻击。
3.4 实现匿名化的方法和技術
3.4.1 泛化技术
泛化[28-31]:通常将QID的属性用更抽象、概括的值或区间代替。泛化技术实现较为简单,图2展示了电话号码的一个泛化过程。泛化分为全局泛化和局部泛化两类。全局泛化也称为域泛化,是将QID属性值从底层开始同时向上泛化,一层一层泛化,直至满足隐私保护要求时同时停止泛化。局部泛化也称为值泛化,是指将QID属性值从底层向上泛化,但可以泛化到不同层次。单元泛化及多维泛化是典型的局部泛化。单元泛化只对某个属性的一部分值泛化。局部泛化可以对多个属性的值同时泛化。
泛化技术的优点是不引入错误数据,方法简单,泛化后的数据适用性强,对数据的使用不需要很强的专业知识。其缺点是预定义泛化树没有统一标准,信息损失大,对不同类型数据的信息损失度量标准不同。
泛化技术使用注意事项:(1)连续数据发布不适合泛化技术。(2)泛化过程是一个耗时过程,计算并找到合适泛化结果需以时间为代价。(3)筛选及确认合适的泛化子集是工作难点,但也是工作重心。(4)过度泛化会导致数据损失。(5)要科学合理地使用全局和局部泛化。
3.4.2 抑制技术
抑制[16,27-29]又称为隐藏,即抑制(隐藏)某些数据。具体的实现方法是将QID属性值从数据集中直接删除或者用诸如“*”等不确定的值来代替原来的属性值。采取这样的方式可以直接减少需要进行泛化的数据,从而降低泛化所带来的数据损失,保证相关统计特性达到相对比较好的匿名效果,保证数据在发布前后的一致性、真实性。抑制可分为3种方式:记录抑制、值抑制及单元抑制[30]。其中,记录抑制是指将数据表中的某条记录进行抑制处理;值抑制是指将数据表中某个属性的值进行抑制处理;而单元抑制是指将表中某个属性的部分值进行抑制处理。
抑制技术的优点表现为泛化前使用可减少信息损失,缺点是不适合复杂场景,发布数据量太少,会降低数据的真实性和可用性。
抑制技术使用注意事项:(1)抑制的数据太多时,数据的可用性将大大降低。(2)抑制是一种精粒度的泛化,泛化与抑制技术配合使用是达到较好匿名效果的一项重要举措。
3.4.3 聚类技术
聚类[31-32]是将数据集按照一定规则进行划分从而形成不同组,同一组中的对象彼此相似,它们构成一类,也称为簇,与其他组中的对象相异。当前广泛使用的聚类方法有5种:(1)基于层次的聚类(hierarchical methods)[33]。它是根据数据类之间相似程度,对不同的类采取合并或者分裂操作,直到完成所有数据集的聚类分配。具体又可分为“自底向上”和“自顶向下”两种方案。(2)基于划分的聚类(hierarchical methods)[34]。它与基于层次聚类的方法相似,不同之处在于基于划分的聚类以样本和类原型之间的距离为基础,给定一个有N个元组或者记录的数据集,采用分裂法构造K个组,每一个组就代表一个聚类,K 3.4.4 分解技术 分解[38-39]是在不修改准标识符属性和敏感属性值的基础上采用有损连接的方法来弱化两者之间的关联。具体做法是:先根据敏感属性值对原始数据表进行拆分,将准标识符(QID)与敏感属性(SV)分别拆分到不同的子表中,同时给两张子表中分别增加一个公共属性“组标识符”GroupID,并用GroupID值来标识属于同一组内记录的两个子表中的数据,以实现拆分后子表的有损链接。 3.4.5 数据交换技术 数据交换[38-39]是按照某种规则对数据表中的某些数据项进行交换,首先将原始数据集划分为不同的组,然后交换组内的敏感属性值,使得准标识符与敏感属性之间失去联系,以此来保护隐私。 3.4.6 扰乱技术 扰乱是指在数据发布前通过加入噪声、引入随机因子及对私有向量进行线型变换等手段对敏感数据进行扰乱,以实现对原始数据改头换面的目标。这种处理方法可以快速地完成,但其安全性较差,且以降低数据的精确性为代价,从而影响数据分析结果,一般这种处理手段仅能得到近似的计算结果。 4 匿名化质量的度量方法 数据可用性是度量匿名化质量的标准,好的匿名化方法是确保隐私得以保护的前提下提高数据的可用性。许多专家和学者都投身于此项技术的研究,并从不同的角度、不同应用场景给出了不同的度量方法。 4.1 基于K-匿名模型的数据可用性度量方法 4.1.1 基于泛化层级度量法 该方法由Sweeney[40]提出,它通过Precision公式比较泛化前后数据表各准标识符的泛化层次来计算,Precision公式如(3)所示,其中Na是准标识符属性的数目,RT是数据集的总元组数目,Hij是准标识符属性,h表示标准标识符属性i泛化的层级数。根据公式我们可以发现,数据可用性直接受泛化层级影响,它不能随意设定及改动,而需要根据需求及数据设定。 (3) 4.1.2 DM度量法 DM法是基于惩罚值的可辨析度量法(Discernibility Metric),它对泛化后满足K-匿名的元组赋予惩罚值EC,对泛化后不满足K-匿名的元组赋予惩罚值D,根据公式(4)计算数据可用性。它是从全局的层面度量数据可用性的方法,不适用于非单调态势,而适用于数据均匀分布的场景[41]。
(4)
4.1.3 基于熵度量法
基于熵的度量法又细分为熵度量、单调熵度量、非均匀分布熵度量。其中,非均匀分布熵度量是最常用的一种,它的计算公式如(5)所示,D是给定的数据集,n是元组个数,r是准标识符的个数,g(D)是泛化后的数据表,是准标识符j中的第i个元组的值在泛化后数据表中的概率[42]。该方法因其计算量大,而不适用于数据集较大的场景。
(5)
4.2 标准数据可用性度量方法
标准数据可用性度量方法NCP(Normarlized Certainty Penalty)定义如(6)所示。其中,d代表属性的个数,Ai是属性,ωi是权重,NCP的值越大,数据改动越多,信息损失也就越大[43]。
(6)
4.3 针对图结构的数据可用性度量方法
针对图结构的数据可用性度量方法采用RCE(Ratio of Changed Edges),其公式如(7)所示。其中,|E|表示图的所有边数,|CE|表示使用了匿名化算法后的边的总数。RCE越大,即代表改动的边越多,信息损失也就越大。
RCE=|CE|/|E| (7)
5 结语
基于数据匿名化的隐私保护技术在隐私保护中占据着重要的地位。本文通过大量国内外文献的学习,发现基于数据匿名化的隐私保护技术有着成熟的匿名化模型,实现技术以及不断改进的度量方法,但它也有着一些面临诸多挑战的研究热点:如何在保护隐私的同时提高数据的可用性;如何制订出个性化隐私保护策略;如何使匿名化质量的度量标准化。
[参考文献]
[1]王融.大数据时代数据保护与流动规则[M].北京:人民邮电出版社,2017.
[2]王利民.人格权法新规[M].长春:吉林人民出版社,1994.
[3]徐乐.大数据时代隐私安全问题研究[D].成都:成都理工大学,2016.
[4]PAUL O.The future of digital evidence searches and seizures: the fourth amendment in a world without privacy[J].Misssissippi Law Journal,Symposium,2012(2):67-69.
[5]OMER T,JULES P.Big data for all: privacy and user control in the age of analytics[J].Journal of Technology and Intellectural Property,2013(6):239.
[6]STEINER P.On the Internet, nobody knows youre a dog[J].The New Yorker,1993(20):61.
[7]百度百科. 云存儲[EB/OL].(2018-06-08)[2018-12-07].https://baike.baidu.com/item/%E4%BA%91%E5%AD%98%E5%82%A8/8326238?fr=aladdin.
[8]百度百科. 数据挖掘[EB/OL].(2018-11-08)[2018-12-07].https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/216477?fr=aladdin.
[9]SAMARATI P,SWEENEY L.Generalizing data to provide anonymity when disclosing information[C].New York:Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems,1998:188 .
[10]LI T C,LI N H,ZHANG J,et al.Slicing: a new a proach for privacy preserving data publishing[J].IEEE Transactions on Knowledge and Data Engineering,2012(3):561-574.
[11]何贤芒.隐私保护中K-匿名算法和匿名技术研宄[D].上海:复旦大学,2011.
[12]MEYERSON A,WILLIAMS R.On the complexity of optimal K-anonymity[M].Paris:ACM Press,2004.
[13]张国荣.社会网络数据的隐私保护[J].网络安全技术与应用,2009(7):42-44.
[14]MACHANAVAJJHALA A,GEHRKE J,KIFER D.1-diversity:privacy beyond K-anonymity[C].Atlanta:Proceeding of the 22nd Internaional Conferenceon Data Engineering,IEEE Computer Society,2006:24-35.
[15]LI Z D,ZHAN G,YE X.Towards an anti-inference (k,l)-anonymity model with value association rules[M].Krakow:Springer-Verlag,2006.
[16]LI N H,LI T C,SURESH V S.t-Closeness: privacy beyond K-anonymity and L-diversity[C].Istanbul:2007 IEEE 23rd International Conference on Data Engineering,2007:106-115.
[17]刘沬萌.面向聚类算法的隐私保护技术研究[D].西安:西安电子科技大学,2013.
[18]刘明,叶晓俊.个性化K-匿名模型[J].计算机工程与设计,2008(2):282-286.
[19]ZHOU B,PEI J.Preserving privacy in social networks against neighborhood attacks[C].San Francisco:Proceedings of Proceedings of the IEEE 24th International Conference on Data Engineering(ICDE),2008.
[20]LIU K,TERZI E.Towards identity anonymization on graphs[C].Vancouver:Proceedings of Proceedings ofthe ACM SIGMOD International Conference on Management of Data,2008.
[21]CHENG J,FU A W C,LIU J. K-isomorphism: privacy preserving network publication againststructural attacks[C].Indianapolis:Proceedings of Proceedings of the 2010 ACM SIGMOD International Conference on Management of data,2010:459-470.
[22]ZOU L,CHEN L,OZSU M T. K-Automorphism: a general framework for privacy preserving network publication[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2009.
[23]BHAGAT S,CORMODE G,KRISHNAMURTHY B,et al.Class-based graph anonymization for social network data[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2009.
[24]CAMPAN A,TRUTA T M.A clustering approach for data and structural anonymity in social networks[C].London:Proceedings of Proceedings of the 2nd ACM SIGKDD International Workshop on Privacy,Security,and Trust in KDD(Pin KDD),2008.
[25]HAY M,MIKLAU G,JENSEN D,et al.Resisting structural reidentification in anonymized social networks[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2008.
[26]xff1994.數据脱敏:k-anonymity,L-Diversity,T-Closeness[EB/OL].(2018-10-18)[2018-12-07].https://blog.csdn.net/xff1994/article/details/83149116.
[27]YANG X C.k-anonymization approaches for supporting multiple constraints[J].Journal of Software,2006(5):1222-1231.
[28]PEI J,XU J,WANG Z B,et al.Maintaining K-anonymity against incremental pdates[C].Banff:Proceeding of the 19th International Conference on Scientific and Statistical Database Management,2007:5.
[29]WUCHKWU T,NAUGHTON J.K-anonymization as spatial indexing: toward scalable andincremental anonymization[C].Vienna:Proceedings of the 33rd International Conference on Very Large Data Bases,2007:746-757.
[30]刘湘雯,王良民.数据发布匿名技术进展[J].江苏大学学报,2016(5):562-571.
[31]CHANG C C,LI Y C,HUANG W H.TFRP: an efficient microaggregation algorithm for statistical disclo sure control[J].System Software,2007(11):1866-1878.
[32]DOMINGO F J.Microaggregation for database and location privacy[C].Kibbutz:Proceeding of Next Generation Information Technologies and Systems,2006:106-116.
[33]SU C,BAO F.A new scheme for distributed density estimation based Privacy-Preserving clustering[C].Las Vegas:RES 2008-3rd International Conference on Availability,Security,and Reliability,Proceedings,2008:112-119.
[34]FUNG B C M,WANG K.A framework for privacy-preserving cluster analysis[C].Taipei:IEEE International Conference on Intelligence and Security Informatics,2008:46-51.
[35]STANLEY R,OLIVEIRA O,ZAIANE R.Privacy preserving clustering by data transformation[C].Manaus:In Proceeding of the 1sth Brazilian Symposium on Databases(SBBD),2003:304-318.
[36]WEI Q,LU Y,LOU Q.Privacy-preserving data publishing based on de-clustering[C].Melbourne:Proceedings 7th IEEE/ACIS International Conference on Computer and Information Science,IEEE/ACIS ICIS 2008,In conjunction with 2nd IEEE/ACIS Int. Workshop on e-Activity,IEEE/ACIS IWEA 2008,2008:152-157.
[37]JAGANNATHAN G,WRIGH R N.Privacy-Preserving distributed k-means clustering over arbitrarily Partitioned data[C].Chicago:In Proceedings of the 2005 ACM SIGKDD on knowledge Discovery and Data Mining,2005:593-599.
[38]王波,楊静.数据发布中的个性化隐私匿名技术研究[J].计算机科学,2012(4):168-171.
[39]岑婷婷,韩建民,王基一.隐私保护中K-匿名模型的综述[J].计算机工程与应用,2008(4):130-134.
[40]SWEENEY L.Datafly:asystemforprovidinganonymityinmedicaldata[j].1998.
[41]赵建龙,曲桦,赵季红.基于K-近邻域中心偏移的鲁棒性异常检测算法[J].北京邮电大学学报,2017(4):54-59.
[42]穆强.基于熵的K-匿名属性泛化算法研宄[D].南京:南京信息工程大学,2011.
[43]XU J,WANG W,PEI J,et a1.Utility-based anonymization using local recoding[C].Philadelphia:The 12th ACM SIGKDD Intenational Conference on Knowledge Discovery and Data Mining. Philadelphia,2006:785-790.