数据共享模式下个人档案数据隐私泄露研究及仿真

2022-10-11 07:37鲜娅静
电子设计工程 2022年19期
关键词:网关总体服务器

鲜娅静

(西安医学院,陕西西安 710021)

随着大数据、档案管理、人工智能等技术不断发展,高质量、易敏感的个人档案数据共享需求[1,2]也越来越迫切。数据共享技术是一把双刃剑,一方面为人们的生活带来了诸多便利,另一方面也导致个人档案数据泄露的隐患不断增加[3-4]。

为了有效应对数据共享中隐私泄露的问题,国内外众多学者对去识别技术[5-6]进行了研究,并取得了丰硕成果。一种有效思路是将法律引入数据共享方案[7],即只有遵循协议或法律保护的数据才能共享。另一种方案是研究技术理论,如文献[8]提出了一种基于GRUs 和深度上下文词表示的去标识系统;文献[9]提出一种基于约束聚类的k-匿名隐私保护方法。然而k-匿名隐私保护方法无法保证数据记录的唯一性,这将严重影响数据质量。

为保护共享数据不受隐私侵犯,该文提出将受控的数据共享与数据去识别技术相结合,在提供高质量数据和可扩展性的同时,能够应对受限访问环境的隐私泄露问题。

1 受控数据共享技术

1.1 网关设计和威胁分析

该节着重分析网关,并使用数据流图(Data-Flow Diagram,DFD)和威胁树(Threat Tree,TT)[10]分析重新识别攻击。

图1 所示为数据共享网关的数据流图。网关将请求发送到分析解决方案的接口,该接口运行在包含敏感信息的数据存储的顶部。为简洁起见,该文重点讨论隐私问题,并假设系统已包含信息安全的相关措施,即假设持有敏感数据的所有系统都已安装防火墙,远程服务器之间的通信始终加密,并且每个用户都要经过正确的身份验证和授权。

图1 数据共享网关的数据流图

图2 所示为数据共享中攻击的威胁树模型,可分为链接攻击和直接泄露两部分。链接攻击核心为重识别数据技术,该技术要求对手将数据集的记录与附加信息相关联。该过程可远程执行,并将包含识别信息的数据集上传到数据分析平台;或进行本地执行,将敏感研究数据下载到对手控制下的系统。当用户从给定的记录中简单地识别出一个人时,就会发生直接泄露。这种威胁的典型例子是意外披露或内部好奇,该情况经常发生在研究人员没有主动和故意实施攻击的情况下。

图2 数据共享中攻击的威胁树模型

1.2 实施和缓解策略

受控数据共享的主要目标是防止接收者执行链接攻击。为此,必须反击远程和本地链接的攻击向量,并关闭多个侧通道。

如图3 所示,数据共享网关通过使用远程帧缓冲区(Remote Frame Buffer,RFB)协议[11],通过虚拟网络计算(Virtual Network Computing,VNC)[12-13]公开其前端控制分析员和分析软件之间的交互。VNC 客户机接受用户输入,并将用户输入(即鼠标和键盘事件)传输到VNC 服务器。VNC 服务器将这些事件重定向到X 服务器,X 服务器还提供VNC 服务器公开的帧缓冲区。作为网关和分析软件之间的桥梁,X 服务器的配置为以Web浏览器方式显示分析平台的界面。

图3 受控数据共享环境

进一步,需要关闭各种潜在的威胁通道。首先,必须确保用户在浏览器中的安全。用户不能执行其他程序,浏览器只能与服务器通信,并且分析软件不能用于访问外部数据。其次,必须将VNC 服务器配置为不支持客户端和服务器之间的复制和粘贴操作,以防止用户传输结构化数据。接着,为了防止用户通过模拟鼠标和键盘交互上传大量数据,必须为这类操作设置速率限制。最后,应记录用户的键盘和鼠标交互过程,并在交互会话期间录制包含屏幕内容的视频,捕获和存储所有网络信息。

2 数据去识别策略

受控数据共享环境可防止数据收件人执行链接攻击。为了防止直接泄露,必须确保在数据主体身份方面引入足够程度的不确定性。为此,该文开发了一种定制的数据去识别方法。

2.1 总体唯一性模型

如前文所述,该节引入某种程度的不确定性,即记录是否对应于特定的个人。当总体唯一性(Population Uniques,PU)模型的数量(即数据集中具有总体内唯一特征的记录)受到控制时,样本唯一性(Sample Uniques,SU)的记录(即数据集内唯一的记录)也会引入不确定性。因此,只有数据集模型中唯一记录的子集具有总体唯一性。样本中的唯一记录对应于总体中给定个体的概率为若|PU|=|SU|,则说明系统提供了足够的保护。

令n表示数据集中要取消标识的记录数,N表示从中提取记录的总体大小,u表示数据集中的记录组数。每个组由具有相同特征的记录组成,si表示包含i个记录组的数目。总体唯一性的估计如下:

其中,Γ(·)表示伽玛函数,是阶乘函数对实数的扩展。θ和α是以下二元非线性方程组的根:

2.2 算法过程

在评估给定的去识别策略时,首先将数据集利用泛化方案转换成一组不可区分的记录;其次,利用k-匿名隐私模型计算风险概况,并将其作为总体唯一性模型的输入;再次,如果总体唯一性的数目不低于给定的阈值,则具有最低信息内容的记录组被抑制;接着,针对修改后的数据集评估隐私模型;最后,重复此过程,直到达到阈值。

该算法计算了输出数据集的质量,并继续执行下一个策略。当处理完所有候选解后,输出质量最高的解。然而,总体唯一性模型计算过程复杂且时效性较低。为了使这个过程在现实环境中可行,该文实施了一些优化策略,其一是减少候选策略的数量;其二是降低风险计算的复杂性,具体描述如下。

2.2.1 减少候选策略数量

该策略主要基于数据质量模型的通用剪枝策略来减少候选策略的数量。其基本思想是通过测量两种类型的转换所导致的数据质量降低,来考虑将数据通过属性泛化和记录抑制进行转换。随着泛化程度的提高,仅泛化数据所导致的质量下降单调增加。这可用于排除仅使用泛化生成的数据集质量已经低于当前已知最佳解决方案质量的所有直接和间接策略。

2.2.2 降低风险计算的复杂性

计算风险需要用牛顿法[14-15]求解一个二元非线性方程组。这个迭代解算器从一个初始猜测开始,然后通过反复计算目标函数及其四个偏导数,朝着根方向搜索可行解。

为降低风险计算的复杂性,首先修改了解算器计算对象函数以及单个方法调用中的导数。将函数分解成常用的块,然后在不同的计算中进行融合和重用。例如,考虑以下两个函数:

其中,p1(α,θ)是标函数f1(α,θ)(式(2))的第一项和,p2(α,θ)是标函数f2(α,θ)(式(3))的第一项和。由于这些函数可以在单个循环(循环融合)中进行计算,且p2(α,θ)的和可以通过p1(α,θ)的和乘以i得到。

然而,评估函数仍然需要多次迭代。由于这两个函数都是有理函数的有限和,因此可以用Digamma函数ψ来代替,其为Gamma 函数的对数导数。则有如下递推公式:

因此,p1(α,θ)可更新为:

推导过程有3 个重要步骤。首先,需确保索引变量i没有因子。这可通过从总和中分解出α-1 来实现;其次,将索引变量从0 开始,而不是从1 开始;最后,将式(5)中描述的等式代入Digamma 函数ψ,并进行公式简化。

同理,p2(α,θ)可推导如下:

可以看出,p1(α,θ)和p2(α,θ)共享Digamma 对相同输入的评估,因此它们可以相互融合。

3 仿真与分析

该节利用健康数据去识别工具ARX 对所提方法进行仿真分析。仿真环境为四核3.1 GHz Intel core i5 CPU、运行64 位Linux 3.2.0 内核和64 位JVM的服务器。

3.1 数据集

仿真所用数据集均来自互联网上的开源数据集,包括交通事故死亡分析报告数据集(FARS)、美国时间使用调查数据集(ATUS)、美国人口普查数据集(ADULT)、综合健康访谈系列数据集(IHIS)和知识发现与数据挖掘数据集(KDD)。对于所有数据集,选择8~9 个准标识符,其中包括传统的人口统计数据(如年龄、性别),这些数据经常用于重新确认身份的攻击,以及可能导致意外重新确认身份的其他属性,如婚姻状况和教育程度等。

3.2 结果节分析

表1 所示为不同数据集下,该文所提算法和使用k-匿名算法[16]时数据去识别的数据质量和执行时间统计结果。可以看出,随着k值变化,数据质量有提升,约为9%。相比之下,使用该文所提的总体唯一性模型,得到的数据质量明显高于使用k-匿名时的数据质量,质量提高约40%。

表1 不同数据集下各算法性能对比

对比执行时间可以看出,在某些情况下使用总体唯一性模型的时间较慢(如KDD、FARS、IHIS),而在其他情况下较快(如ADULT、ATUS)。分析原因在于所涉及的不同优化过程的相互作用。例如,减少候选策略数量方法的有效性随着最优解的质量提高而减弱。因此,对总体唯一性模型的限制可能比k-匿名算法更多,导致寻找最优解的过程更加复杂。

图4 所示为不同数据集下剪枝和无剪枝策略时间对比,可以看出,所提排除候选策略的方法删减了大部分搜索空间,在ATUS 数据集下执行时间缩短了倍。图5 所示为不同数据集下优化和无优化策略的时间对比,可以看出,在ADULT、KDD、FARS 数据集下效果不明显,但在ATUS 数据集下其运行效率提升47 倍左右,IHIS 数据集下运行效率提升3 倍左右。

图4 不同数据集下剪枝和无剪枝策略时间对比

图5 不同数据集下优化和无优化策略时间对比

4 结论

为了有效应对数据共享中隐私泄露问题,对个人档案数据隐私泄露问题进行了研究与分析,并提出一种将受控的数据共享与数据去识别技术相结合的模型。受控数据共享环境可防止数据收件人执行链接攻击。为了防止直接泄露,必须确保在数据主体身份方面引入足够程度的不确定性。为此,开发了一种定制的数据去识别方法。为保证该过程在现实环境中可行,实施了一些优化策略,其一是减少候选策略的数量,其二是降低风险计算的复杂性。

未来可将能耗、资源受限制等条件引入模型,进一步增强系统的实用性。

猜你喜欢
网关总体服务器
智能燃气表物联网运行体系网关技术研究
基于FPGA的工业TSN融合网关设计
基于ARM架构的工业物联网网关研究与实现
2018年全球服务器市场将保持温和增长
宪法修改的重大意义总体要求和原则
直击高考中的用样本估计总体
水下爆炸载荷作用下圆柱壳总体动态响应分析
基于ENC28J60的嵌入式以太网/CAN网关设计
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵