浅谈大数据发布隐私保护技术

2019-09-10 06:15顾宏久

教育周报·教育论坛 2019年11期

关键词：等价攻击者数据挖掘

顾宏久

随着大数据时代的到来，大数据中蕴藏的巨大价值得以挖掘，同时也带来了隐私信息保护方面的难题，即如何在实现大数据高效共享的同时，保护敏感信息不被泄露。

数据安全是信息安全的重要一环。

大数据发布隐私保护技术

匿名技術：数据持有方在公开发布数据时，这些数据通常会包含一定的用户信息，服务方在数据发布之前需要对数据进行处理使用户隐私免遭泄露。一般的，用户更希望攻击者无法从数据中识别出自身，更不用说窃取自身的隐私信息。

数据发布匿名：在确保所发布的信息数据公开可用的前提下，隐藏公开数据记录与特定个人之间的对应联系，从而保护个人隐私。实践表明，仅删除数据表中有关用户身份的属性作为匿名实现方案是无法达到预期效果的。现有的方案是静态匿名技术（以信息损失为代价，不利于数据挖掘与分析）、个性化匿名、带权重的匿名等。后两类给予每条数据记录以不同程度的匿名保护，减少了非必要的信息损失。

一、大数据中的静态匿名技术

在静态匿名策略中，数据发布方需要对数据中的准标识码进行处理，使得多条记录具有相同的准标识码组合，这些具有相同准标识码组合的记录集合被称为等价组。

k-匿名技术就是每个等价组中的记录个数为k个，即针对大数据的攻击者在进行链接攻击时，对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录，从而保护了用户的隐私。

l-diversity匿名策略是保证每一个等价类的敏感属性至少有l个不同的值，l-diversity使得攻击者最多以1/l的概率确认某个个体的敏感信息。

t-closeness匿名策略以EMD衡量敏感属性值之间的距离，并要求等价组内敏感属性值的分布特性与整个数据集中敏感属性值的分布特性之间的差异尽可能大。在l-diversity基础上，考虑了敏感属性的分布问题，要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。

这些策略会造成较大的信息损失，有可能使得数据的使用方做出误判。

二、大数据中的动态匿名技术

针对大数据的持续更新特性，有的学者提出了基于动态数据集的匿名策略，这些匿名策略不但可以保证每一次发布的数据才能满足某种匿名标准，攻击都也将无法联合历史数据进行分析和推理。这些技术包括支持新增的数据重发布匿名技术、m-invariance匿名技术、基于角色构成的匿名等支持数据动态更新匿名保护的策略。

支持新增的数据重发布匿名策略：使得数据集即使因为新增数据而发生改变，但多次发布后不同版本的公开数据仍然能满足l-diversity准则，以保证用户的隐私。数据发布者需要集中管理不同发布版本中的等价类，若新增的数据集与先前版本的等价类无交集并能满足l-diversity准则，则可以作为新版本发布数据中的新等价类出现，否则需要等待。若一个等价类过大，则要进行划分。

m-invariance匿名策略：在支持新增操作的同时，支持数据重发布对历史数据集的删除。

三、大数据中的匿名并行化处理

大数据的巨规模特性使得匿名技术的效率变得至关重要。大数据环境下的数据匿名技术也是大数据环境下的数据处理技术之一，通用的大数据处理技术也能应用于数据匿名发布这一特定目的。分布式多线程是主流的解决思路，一类实现方案是利用特定的分布式计算框架实施通常的匿名策略，另一类实现方案是将匿名算法并行化，使用多纯种技术加速匿名算法的计算效率，从而节省了大数据中的匿名并行化处理的计算时间。

使用已有的大数据处理工具与修改匿名算法实现方式是大数据环境下数据匿名技术的主要趋势，这些技术能极大地提高数据匿名处理效率。

通过大数据审计技术

当用户将数据存储在云服务器中时，就丧失了对数据的控制权。为了防止数据在用户不知情的情况下被修改，可以采用云存储中的审计技术。云存储审计指的是数据拥有者或第三方机构对云中的数据完整性进行审计。通过对数据进行审计，确保数据不会被云服务提供商篡改、丢弃，并且在审计的过程中用户的隐私不会被泄露。

可证明的数据持有模型（PDP）：该模型可以对服务器上的数据进行完整性验证，该模型中挑战应答协议传输的数据量非常少，因此所耗费的网络带宽较小。

可恢复证明模型（POR）：利用纠错码技术和消息认证机制来保证远程数据文件的完整性和可恢复性。该模型面临的挑战在于需要构建一个高效和安全的系统来应对用户的请求。

大数据挖掘隐私保护技术

隐私保护数据挖掘，即在保护隐私前提下的数据挖掘，主要的关注点有两个：一是对原始数据集进行必要的修改，使得数据接收者不能侵犯他人隐私;二是保护产生模式，限制对大数据中敏感知识的挖掘。

1、关联规则的隐私保护

这种保护有两类方法：

（1）变换：修改支持敏感规则的数据，使得规则的支持度和置信度小于一定的阈值而实现规则的隐藏。

（2）隐藏：不修改数据，对生成敏感规则的频繁项集进行隐藏。

2 分类结果的隐私保护

分类方法的结果通常可以发现数据集中的隐私敏感信息，因此需要对敏感的分类结果信息进行保护。这类方法的目标是在降低敏感信息分类准确度的同时，不影响其他应用的性能。

3 聚类结果的隐私保护

一个较好的方案是：先对原始数据进行几何变换，以对敏感信息进行隐藏，然后是聚类过程，经过几何变换后的数据可以直接应用传统的聚类算法进行聚类。73AA3564-244F-4259-BDF2-5A63E320D57C