基于本地差分隐私的Wi-Fi指纹定位隐私保护方法

2023-10-18 00:52蔡利平何文涛周绪川
关键词:差分指纹扰动

刘 浪,蔡利平,何文涛,周绪川

(1.西南民族大学信息与现代教育技术中心,四川 成都 610041;2.西南民族大学计算机系统国家民委重点实验室,四川 成都 610041)

随着卫星定位[1]、基站定位[2]、Wi-Fi 定位[3]、RFID 定位[4]等技术的高速发展,基于定位技术的服务受到广泛应用.同时,定位技术进步所带来的隐私安全问题也饱受争议.位置信息作为极度隐私的个人数据,一旦泄露,恶意攻击者们可以通过定位数据轻而易举地获取用户的运动轨迹,生成用户画像,继而推导出用户的生活习惯、财富状况、社会地位、健康状况等信息,从而诱发具有高度针对性的违法犯罪行为,后果不堪设想并且难以防范.因此,位置信息的隐私保护技术变得尤为重要.

当前位置隐私保护方案主要分为匿名化技术[5-6]、加密协议[7-9],以及差分隐私[10]三类.然而,匿名化技术不足以抵抗背景知识攻击[11],加密协议则需要承担大量的计算和通信成本.差分隐私则需要一个绝对可信的服务器来收集个人的原始数据.本地差分隐私(local differential privacy,LDP)的特性可以很好地解决上述问题[12],它在传统差分隐私的基础上,将数据扰动的操作迁移到了本地端,从而避免了服务器不可靠而造成的隐私泄露风险.

同时,相较于其他的定位方法,由于其覆盖广、交互性强、精度高等特点,基于Wi-Fi 指纹的定位技术便成为室内定位的研究热点.本文根据本地差分隐私的特点,结合室内定位场景的应用需求,提出了一种基于RAPPOR 算法[13]的室内位置隐私保护方法.并设计相关实验证明该方法高效性.

1 相关背景知识

1.1 本地化差分隐私

本地化差分隐私可以不信任数据收集方,所以它可以为用户提供比传统差分隐私更为周密的隐私保护,其严格定义如下:

根据定义1,本地化的差分隐私是对单一的数据进行扰动,外界无法通过输出的扰动值来判定真实值究竟是x 还是x′,并且整个扰动过程都在本地,服务器方仅考虑如何收集用户扰动数据和进行统计查询操作,并不涉及用户原始的隐私关键信息,因而不必担心服务器不可靠造成的隐私泄露问题.

1.2 Wi-Fi指纹定位

指纹定位是一种高精度的定位技术,主要应用于室内环境.其主要思路为预先构建好室内环境的无线电地图,然后在用户设备接入室内Wi-Fi 时,根据其自身的无线电特征来匹配预先构建的接入点信息,从而达到高精度的定位效果.Wi-Fi指纹定位方法可以分为离线阶段和在线阶段两个部分.离线阶段:需要收集室内的各个接入点(access point,AP)在预先设置好的位置的指纹数据(received signal strength indicator,RSSI),称之为参考点(reference point,RP).在线阶段:用户将从各个AP 收集到的RSSI 信息发送给服务器,然后由服务器将用户的RSSI 信息和离线阶段收集到的信息进行匹配,以此来估计用户的位置.与其他定位方法相比,指纹识别的主要优点是不需要知道距离或角度等物理参数,即可获取高精度的位置信息.图1 是Wi-Fi指纹定位方法的示意图.

图1 Wi-Fi指纹定位Fig.1 Overview of indoor location fingerprinting

此外,每个RP 处的指纹信息可以表示为:

其中(x, y) 是该参考点RP 的位置坐标,RSSIi∈R是从不同接入点AP 收集到的参考点RP 的指纹信息.

1.3 RAPPOR 算法

RAPPOR 算法是一种非常具有代表性的频数估计方法,在满足本地差分隐私的前提下可以得到很好的频数估计值,Google 的Chrome 浏览器早在2014年就开始使用RAPPOR 算法来统计劫持用户设置的恶意插件[13].原始的RAPPOR 算法的主要步骤由编码、永久性随机响应、瞬时性随机响应、上传四个部分组成.

1.3.1 编码

通过布隆过滤器(Bloom Filter)[14]将用户的敏感数据的映射成长度为h 的二进制向量B.

1.3.2 永久性随机响应

使用随机响应技术[15]对编码数据向量B 进行第一次扰动,获得的扰动结果记录为B′并且永久保存,其中扰动的概率应满足:

1.3.3 瞬时性随机响应

与第2 步相似,对B′进行第二次扰动得到向量S,扰动概率满足:

由于位置信息基本不需要纵向隐私保护,符合One-time RAPPOR 的应用条件[13],故可以根据情况来选择是否省略瞬时随机响应的操作,本文的实验部分将会对其进行讨论.

1.3.4 聚合

将S 上传至服务器,服务器将所有用户上传的扰动向量S 拼接成映射矩阵,然后统计每一位上1 的数量,最后使用lasso 回归得到每一位敏感数据的频数估计.算法过程如图2所示:

图2 RAPPOR 算法示意图Fig.2 RAPOR algorithm process

2 室内定位隐私保护模型

为方便表示,本文中各个符号的含义由表1 列举:

表1 符号及其含义Table 1 Notations

2.1 问题描述

在传统的室内定位场景中,用户需要将其指纹向量发送到服务器,服务器将用户指纹数据与离线数据进行匹配,从而得到用户的准确坐标,这期间很容易产生隐私泄露的问题.

2.2 室内位置保护模型

为了保护用户的位置隐私信息,本文结合RAPPOR 算法提出了一种适用于室内位置隐私数据的频数估计方法.方法由公共信息、客户端、服务器端三个部分组成.

公共信息:首先,服务器需要利用指纹数据将室内环境划分为L 个不同的区域.以各个RP 点从AP中收集到的RSSI 信息的作为划分条件,即对任意不同的RP 点,只要存在M 个相同的最强AP,那么这些RP 应该被划分到同一区域.

用户端:用户首先测量所有可用AP 的RSSI 值,然后找到M 个RSSI 值最强的AP.通过从公共信息中得到的各个RP 信息进行对比,用户可以确定其相应的唯一区域,使得每个用户都生成长度为L 的二进制向量Z,即向量Z 仅有一位为1,其余的L-1 位都为0,然后将Z 作为RAPPOR 算法的输入得到Z*,并将扰动后的向量Z*发送到服务器端,其中Z 的取值应该满足:

服务器端:服务器收集来自所有用户的扰动向量Z′,并估计用户在各个区域中的人口数量.算法1 提供了该机制的伪代码.

算法1.室内定位隐私保护模型输入:隐私预算ε,公共信息T.输出:每个区域的人口频率.①for each Ui∈U do:②测量从N 个AP 收集到的用户指纹信息Ri={RSSI1,RSSI2...RSSIN}.③根据T 和Ri信息确定当前用户的区域.④生成长度为L 的位向量Z,如果用户在j 区,令Z[j]=1,否则为0.⑤将向量Z 作为RAPPOR 算法的输入,得到输出Z*.⑥将扰动向量Z*提交至服务器.⑦End for⑧服务器将聚合所有的Z*,并且使用lasso 回归得到每个区域的频数估计.

3 实验及结果分析

3.1 数据集

本文实验均在Windows10 操作系统,Python 3.8版本的环境下实现.为验证模型的有效性,使用了以下两个真实数据集:1)CWIP 数据集:芬兰Tampere 的一座5 层大楼中收集到的数据集,建筑面积约为22 570 m2.包括该数据集中有992 个AP 点,4 000余条RSSI 数据[16].2)JUIndoorLoc 数据集:该公共数据集包含一栋4 层建筑中收集到的RSSI 指纹信息[17].本文使用其中一层的数据,面积约为882 m2,由36 个AP 和1 588 个用户组成.表2 展示了数据集的参数信息.

表2 数据集信息Table 2 Datasets information

同时,为验证模型效果,本文引入均方根误差(RMSE)来作为评估指标:

其中Z=(z1,z2...zL)为真实指纹信息,Z′=(z1,z2...zL)为扰动后的指纹信息.

3.2 隐私预算ε 对估计精度的影响

图3 隐私预算对估值精度的影响Fig.3 The impact of privacy budgeting on valuation accuracy

3.3 数据集对估计精度的影响

通过对比图3 中的两幅小图可以看出,算法在CWIP 数据集上的表现明显要优于JUIndoorLoc 数据集,这主要是因为区域数量之间的差异而导致的.因为CWIP 数据集的区域数和数据量都要更大,根据本地差分隐私的定义,数据规模越大,其估值的误差就会越接近理论值.此外,AP 的数量及其相对位置和环境特征(即墙壁和其他物体的放置)也会导致估值的误差.

4 总结

对于室内定位中存在的用户位置隐私保护的问题,本文对现有位置隐私保护方法进行研究,提出基于本地差分隐私的Wi-Fi指纹定位方案,根据RSSI信息对室内环境进行区域划分,从而使得用户的位置数据满足RAPPOR 算法的使用条件,使得整个过程能够满足本地差分隐私,可以有效地保护用户的位置数据.

由于缺少数据集的平面图,所以没有对室内环境特征对区域划分及估值精度的影响进行进一步讨论,下一步的工作将围绕如何更加细致地划分区域标准进行展开.

猜你喜欢
差分指纹扰动
Bernoulli泛函上典则酉对合的扰动
数列与差分
像侦探一样提取指纹
为什么每个人的指纹都不一样
(h)性质及其扰动
小噪声扰动的二维扩散的极大似然估计
基于自适应稀疏变换的指纹图像压缩
用于光伏MPPT中的模糊控制占空比扰动法
可疑的指纹
基于差分隐私的大数据隐私保护