基于Wi-Fi信道状态信息的人员身份合法性认证

2022-09-07 03:20魏忠诚焦壮兴张新秋赵继军
计算机应用与软件 2022年8期
关键词:合法性合法系数

魏忠诚 焦壮兴 张新秋 王 巍 赵继军

(河北工程大学信息与电气工程学院 河北 邯郸 056038)(河北工程大学河北安防信息感知与处理重点实验室 河北 邯郸 056038)

0 引 言

身份识别在日常考勤、设备认证、安防应急等领域有着广泛的应用。生物特征由于其普遍性、唯一性、稳定性和不易复制性等使得生物特征识别技术成为当前研究的热点。常用的生物特征包括虹膜、静脉、指纹、脸像和步态等,其中依据虹膜、静脉、指纹等进行识别所需专用设备的部署成本较高,且需要用户的主动配合。而基于新兴起的可穿戴设备进行步态身份识别,又会引起用户佩戴的不适感。因此,无接触的被动式生物特征识别技术越来越受到学术界和工业界的广泛关注。

基于现有工作设备,在完成既定功能的同时实现对身份的感知与识别得到了研究者们的青睐,如基于视频监控设备、无线通信设备的身份识别技术等。基于视觉设备可通过人脸、步态等实现身份的有效识别,但视觉设备对光线有一定的依赖性,存在视觉盲区并且容易造成用户隐私泄露。

近年来,研究人员发现Wi-Fi技术在用作通信的同时还可以进行特定信息的感知。如利用接收信号强度指示(Received Signal Strength Indicator,RSSI)和信道状态信息(Channel State Information,CSI)能够实现室内定位[1-3]。CSI是细粒度的物理信息,对环境变化敏感,感知效果更好,利用CSI能够进行检测心跳和呼吸频率[4-6]、肢体活动[7-8]和身份识别[9-10]等,本文在先前的工作中对人体活动持续时间进行了估计[11]。由于Wi-Fi设备成本低,不需要用户接触和佩戴任何感知设备,克服了视觉设备和可穿戴设备的缺点,并且不易侵犯用户的隐私,增强了用户使用的舒适度和安全感。随着基于CSI的活动识别技术的发展,Zhang等[12]首次将CSI引入到身份识别中。但是该身份识别系统缺乏对身份合法性认证的考虑,容易遭到非法人员入侵,降低了该系统的实用性。在后来的工作中,部分研究人员考虑到身份合法性认证问题,但是识别率较低,并且需要引入非法人员数据,或者需要知道用户群体中非法人员的百分比,在现实中不易实现。

针对上述问题,本文提出一种基于Wi-Fi信道状态信息的身份合法性认证系统。首先利用Hampel滤波器、主成分分析(Principal Component Analysis,PCA)和巴特沃斯低通滤波器对CSI数据进行降维和去噪;随后利用第2主成分的短时能量进行人体检测;然后,根据人体检测的结果,提取有效活动片段,提取离散小波变换的近似系数作为特征;最后利用K-means算法,将身份认证问题转化为相似度比较问题,实现人员身份合法性认证。

1 相关工作

区分人员身份和判断人员身份合法性是身份识别系统中两个重要功能。本节就基于Wi-Fi信道状态信息的身份识别和基于Wi-Fi信道状态信息的身份合法性认证进行文献综述。

1.1 基于Wi-Fi信道状态信息的身份识别

2016年,Zhang等[12]首次提出基于CSI的身份识别系统的Wi-Fi-ID系统,该系统利用连续小波变换提取中与人员行走相关的CSI信息,提取用户行走时CSI幅值的最大值、最小值和熵等特征,实现了身份的有效分类和识别,在区分2~6个人身份时识别率分别为93%~77%。同年,Hong等[13]提出WIFD系统,提取子载波幅度频率作为特征,利用支持向量机(Support Vector Machine,SVM)算法进行分类,实现身份识别。Zeng等[14]提出WiWho系统,通过提取人员的步态特征和行走特征,实现身份识别。Xin等[15]提出FreeSense系统,提取离散小波变换的近似系数作为特征,将动态时间规整与KNN算法结合实现身份识别。随着深度学习算法的发展,Nkabiti等[16]利用DBD-LSTM-RNN模型进行身份识别,该模型可以识别出人员走路的开始和结束,并且可以根据行走时身体对CSI的影响来判断人员身份。Pokkunuru等[17]提出NeuralWave系统,利用深度卷积神经网络自动获得步态特征,并通过Softmax分类器对其进行分类。

上述的身份识别系统中,分类器中的类别是事先明确的,当出现非法人员时,非法人员的类别与分类器中所有分类类别均不相符,但分类器会将其当作训练过的人进行分类。因此系统无法对人员身份的合法性做出判断,容易遭到非法人员的入侵。

1.2 基于Wi-Fi信道状态信息的身份合法性认证

尽管现在的身份识别技术的精确度很高,但是无法识别非法人员限制了这些系统的应用性。考虑到人员身份合法性认证问题,部分研究人员在身份识别系统中增加了这一功能。Wang等[18]设计了WifiU系统,从CSI频谱图中提取步行速度、步态周期、躯干和腿部运动速度的特征,将训练数据分为基准人员和目标人员两个类别,利用支持SVM分类器计算出未知步态实例属于目标人员的概率,将概率值高于阈值的步态实例视为合法人员;文献[19]提出Wii系统,在实现身份识别的同时将一部分训练集划分为合法人员和非法人员,构建合法人员和非法人员两个高斯模型进行区分合法人员和非法人员;Lin等[20]通过两个专用损失函数来识别合法用户身份和验证非法用户。上述系统在进行人员身份合法性认证时,训练集中需要引入非法人员数据,或者需要知道用户群体中非法人员的百分比,在现实场景下,该条件不易满足。Shi等[21]为每个合法用户构建一个支持向量模型,通过比较未知人员样本与合法用户样本的支持向量的距离来判别未知人员身份的合法性,其存在模型中合法人员个数较少,识别率偏低的问题。本文针对人员身份合法性认证问题,利用聚类算法,将人员身份合法性认证过程转化相似度比较,避免在训练过程中引入非法人员数据,实现了对人员身份合法性的高精度认证。

2 信道状态信息(CSI)

近CSI描述了信号在发射机和接收机之间的传输变化。这些变化包含信号的散射、衰弱和功率随距离衰减等信息。无线信号在传输过程中会沿不同路径进行传播,产生多径效应。信道的多径效应可以用信道冲击响应(Channel Impulse Response,CIR)描述。在线性时不变的条件下,CIR可表示为:

(1)

式中:αi、θi和τi分别为第i条路径的幅值衰减、相位偏移和时间延迟;N为传播路径总数;δ(τ)为狄克拉函数。

在频域上,信号的多径效应可以用信道频率响应(Channel Frequency Response,CFR)来描述。在带宽无限的条件下,CFR与CIR互为傅里叶变换。CFR可表示为:

(2)

CSI属于无线通信协议中的物理层信息,无法直接获取。近年来,研究人员通过修改固件,使得一些普通IEEE 802.11n标准的无线网卡(如:Inter 5300、Atheros AR9382等)能以CSI的形式提供不同子载波详细的幅度和相位信息。本文使用Atheros AR9382网卡对Linux系统下的网卡开源驱动程序进行修改,可以得到CSI矩阵H:

H=[H(1),H(2),…,H(k)]NT×NR

(3)

式中:NT与NR分别为发射天线和接收天线数目,k为子载波序号。

3 人员身份合法性认证方法描述

本系统通过对CSI幅值进行分析实现人员检测和人员身份合法性认证。首先,采用Hampel滤波器去除原始数据的离群点,PCA提取CSI幅值主成分,降低数据维度,利用巴特沃斯低通滤波器进行去噪处理;然后,进行人员检测截取包含人员行走的有效片段;最后,在有效片段中提取特征,作为人员合法性判断的依据,实现人员身份合法性的判断。

3.1 数据预处理

由于硬件设备存在缺陷,工作过程中发射功率和传输速率等的变化,使得提取到的CSI幅值出现异常值[22]。为了保证后续工作不受异常值干扰,本文选用Hampel滤波器去除异常点[23]。计算CSI幅值任意点与其邻近的6个点的中值μ与标准差σ将不在区间[μ-3σ,μ+3σ]内的值作为离群点去除,并且用中值代替。

在正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)调制下,接收到的CSI包含114条子载波。为降低后续工作的计算复杂度,利用PCA对CSI幅值进行降维处理。PCA是将n维特征映射到k维(k

图1 CSI第1-3主成分序列

由于周围环境的影响,接收到CSI包含大量噪声,而典型的人类活动只会影响300 Hz以下频率的CSI变化[24]。在之前身份识别的工作中得以验证,截止频率为30 Hz时滤波效果最好。本文采用截止频率为30 Hz的巴特沃斯低通滤波器去除CSI数据中的高频噪声。图2(a)为滤波前CSI主成分的波形,图2(b)为滤波后CSI主成分的波形。

(a) 去噪前的CSI第2主成分变化

(b) 去噪后的CSI第2主成分变化图2 去噪前后的CSI第2主成分

3.2 人员检测与有效片段提取

设备工作过程中,接收端会不断地接收CSI数据,因此需要检测感知范围内是否有人员存在,确定人员行走的有效区域,提取行走的有效片段,用于后续的人员身份合法性验证。如图2(b)所示,当有人在LOS行走时CSI主成分波形变化最明显。短时能量是滑动窗口内平方信号的总和,对人体活动更敏感。如图3为CSI第2主成分的短时能量序列,当LOS上没有人行走时,第2主成分的短时能量值接近于0,当有人穿过LOS时短时能量值变化很大,这为确定行走的有效区域提供了依据。因此,本文通过短时能量进行人员检测。

图3 CSI第2主成分的短时能量序列

Emax=max(E)

(4)

(5)

式中:J为短时能量序列的长度。

实验发现,短时能量序列的最大值与均值的比值可以作为人员检测的条件。即:

(6)

如果θ不小于设定的阈值则认为环境中有用户行走,反之亦然。本系统中阈值为10。

3.3 特征提取

特征提取是对信息提炼的过程,目的是提取出具有鲁棒性的特征,使系统在不同的环境下具有稳定身份识别效果。离散小波变换(Discrete Wavelet Transform,DWT)可以对波形进行压缩,变换后的波形能够保留原波形大多数的时域和频域信息[15]。因此,本文采用Daubechies D4小波对第2主成分波形进行处理,使用近似系数来表示原波形的形状特征。

3.4 人员合法性识别

在判断人员身份合法性的过程中,非法人员的数据样本往往不确定,因此不适合用分类算法。本文采用聚类算法进行分析。

具体可分为以下步骤:

(1) 将近似系数进行归一化处理。

(2) 将10名志愿者特征数据分为2组,1~5号志愿者为合法人员,6~10号志愿者为非法人员数据集。

(3) 从合法人员数据中抽取若干合法人员,每名合法人员随机选取30条数据作为合法人员的训练集,剩下70条数据作为合法人员的测试集。

(4) 利用Hampel滤波器去除训练集中每条特征向量的离群点。采用K-means算法对处理后的训练集进行聚类,将聚类错误的数据删除,并且得到第i类的中心坐标Oi和第i类中的第j点到Oi的距离lij。

(5) 通过式(7)、式(8)得到第i类中各点到中心坐标Oi的距离Li。设置距离系数c,使得距离半径Ri=cLij。

(7)

Lij=max(Li)

(8)

式中:N为每类包含的数据个数。

(6) 计算每个测试数据到各个聚类中心Oi距离P,若P

4 实验分析

4.1 实验设置

本文使用和文献[11]一样的实验室场景对系统的性能进行了评估。图4为实验场景平面图。使用TP-Link 802.11n无线路由器作为发射机,配备Atheros 9382 NIC和开源工具Atheros-CSI-Tool的戴尔笔记本电脑作为接收机,运行Ubuntu 14.04 OS。发射器和接收器被放置在离地面约1 m的地方,彼此相距1.5 m。本文提取了发射机和接收机的第一根天线的主天线对之间链路的CSI幅值。此外,在数据采集过程中,由于设备处理能力有限,数据采样频率设置为500 Hz。

图4 实验场景平面图

本次实验招募了10名年龄相仿的健康志愿者,他们的基本信息如表1所示。在数据采集过程中,志愿者的行走速度和行走方式不受限制,自然地行走穿过一次收发机的LOS即可,每名志愿者行走100次。为了更接近现实的场景,在数据采集过程中有四个干扰人员在实验室内正常工作。

表1 志愿者信息

4.2 评判指标

为了验证各个指标对系统性能的影响,本文采用以下评判指标。

真阳性(TP):TP指系统将合法人员正确识别为合法人员的事件。

真阴性(TN):TN指系统将非法人员正确识别为非法人员的事件。

假阳性(FP):FP指系统将非法人员错误识别为合法人员的事件。

假阴性(FN):FN指系统将合法人员错误识别为非法人员的事件。

真阳性率(TPR):TPR指系统对合法人员做出正确判断的概率,如式(9)所示。

(9)

真阴性率(TNR):TNR指系统对非法人员做出正确判断的概率,如式(10)所示。

(10)

正确率:正确率指系统对合法人员和非法人员做出正确判断的概率,如式(11)所示。

(11)

用户TNR需求度下识别率(PTNR):PTNR指用户TNR需求度为P⊂(0,1)下的系统识别率,如式(12)所示。

PTNR=(1-P)×TPR+P×TNR

(12)

4.3 近似系数层数

本节将验证不同分解层数下的近似系数对系统正确率的影响。此次实验中,训练集中包含1~5名合法人员,每名合法人员随机选取30条数据。每名合法人员剩下70条数据作为合法人员测试集,非法人员测试数量与合法人员测试数量相同,每次实验重复5次。实验结果如图5所示,随着分解层数增大,正确率逐渐减小,这是由于离散小波变换的不同分解层数对波形的压缩程度不同,使得近似系数包含波形信息不同。因此,本文使用第一层近似系数来评估后续实验。

图5 不同层数的近似系数正确率对比

4.4 训练集中合法人员个数与距离系数

本节将验证训练集中不同合法人员个数与距离系数c对TPR和TNR的影响。由式(9)和式(10)可知,TPR和TNR的结果不受测试集中合法人员和非法人员数量比例的影响。此次实验中,训练集中包含1~5名合法人员,每名合法人员随机选取30条数据。每名合法人员剩下的70条数据作为合法人员测试集,500条非法人员数据作为非法人员测试集。每次实验重复5次。实验结果如图6所示,训练集中包含1~3个合法人员时,TPR和TNR的交点处超过0.95,训练集中包含4~5个合法人员时,TPR和TNR的交点处超过0.8。随着训练集中合法人员个数增多,系统TPR和TNR有所下降。这是由于合法人员个数增多,通过K-means算法处理后,得到的不同人员的类别增多,使得合法人员的判定范围变大,容易将非法人员识别为合法人员。因此,训练集中合法人员个数是评判系统性能的重要指标。

(a) 训练集中包含1名合法人员

(b) 训练集中包含2名合法人员

(c) 训练集中包含3名合法人员

(d) 训练集中包含4名合法人员

(e) 训练集中包含5名合法人员图6 训练集中合法人员个数与距离系数对TPR/TNR影响对比

随着距离系数的增大,TPR值变大,TNR值变小。这是由于距离系数c越大Ri越大,致使合法人员判定范围变大,从而容易将测试数据识别为合法人员。因此,用户可以根据不同应用场景的需求来选定距离系数进行人员合法性认证。

4.5 用户TNR需求度

根据用户对不同TNR的需求倾向,本文为用户提供了一个基于TNR需求度的选择方案。本节将验证不同距离系数下5种需求度的PTNR。此次实验中,训练集中包含5名合法人员,每名合法人员随机选取30条数据。每名合法人员剩下的70条数据作为合法人员测试集,500条非法人员数据作为非法人员测试集。每次实验重复5次。实验结果如图7所示,不同需求倾向的PTNR极值所对应的距离系数分布点随着P值的减小而增大。因此,当用户对TNR的需求高时,距离系数应设置小一些,当用户对TPR的需求高时,距离系数应设置大一些。此外。5条线在c=1.05处相交,这是由于该点的TPR和TNR相等。

图7 不同距离系数对PTNR影响对比

4.6 测试集中合法人员数量比例

本节利用测试集中不同合法人员数量比例验证系统稳定性。图8(a)为测试集中不同合法人员数量比例下正确率随距离系数的变化,此时训练集中包含5名合法人员。由图可知,随着距离系数增大,测试集中合法人员数量越多,正确率越大,这是由于随着距离系数增大,TPR逐渐增大。图8(b)为测试集中不同合法人员数量比例下正确率随训练集中合法人员个数的变化,随着训练集中合法人员个数增多,系统正确率有所下降。这也再次验证了图6的结论,即训练集合法人员个数是影响系统性能的重要指标。

(a) 训练集中包含5名合法人员

(b) 训练集中不同合法人员个数图8 测试集中不同合法人员数量比例对正确率的影响

5 结 语

人员身份合法性认证是实现入侵检测的重要一步。本文针对现有方法存在防伪性和隐私性较差的问题,提出了基于CSI的合法人员认证系统。该系统在训练集不引进非法人员数据的情况下,利用聚类方法实现高精度合法人员认证,并在典型的实验室场景中进行系统评估。实验表明,系统中合法人员为1到5人时,TPR和TNR可达到80%以上,通过调节距离系数能够满足不同应用场景的安全需求。在未来的工作中,将根据不同安全等级提供更为详细的用户选择方案,并且在非视距路线下实现人员身份合法性认证。同时,将进一步探索训练集大规模合法人员个数情况下的身份合法性认证问题。

猜你喜欢
合法性合法系数
Westward Movement
西班牙推动废除合法卖淫
小小糕点师
苹果屋
嬉水
合法性危机:百年新诗的挑战与应战
关于政治合法性研究的文献综述
报告
谨防“合法”干预司法
待定系数法在分解因式中的应用