增强高斯混合模型与集成学习的室内定位方法

2021-06-19 08:15韩学法
导航定位学报 2021年3期
关键词:参考点定位精度离线

胡 锐,吴 飞,朱 海,鄢 松,韩学法,金 霄

(上海工程技术大学 电子电气工程学院,上海 201620)

0 引言

随着无线局域网(wireless local area networks,WLAN)、智能终端的高速发展以及惯性传感器的普及,人们对于位置信息的需求正在逐步增加。位置信息的需求推动了基于位置服务(location basedservices, LBS)的高速发展,其中定位技术是LBS的核心。在室外定位中,定位方法相对完善,主要采用全球卫星导航系统(global navigation satellite system, GNSS)进行目标的位置定位和授时,其中GNSS主要包括全球定位系统(global positioning system, GPS)和北斗卫星导航系统(BeiDou navigation satellite system, BDS)。人们日常活动大部分在室内,由于室内 GPS信号弱缺,导致GNSS进行室内定位不现实,因此,人们提出了众多室内定位方法,主要有:基于无线保真信号(wireless fidelity, WiFi),低功耗蓝牙(bluetooth low energy, BLE)、地磁、超宽带(ultra wide band,UWB)等技术[1-3]。

由于WiFi进行室内定位不需要部署设备,因此,近年来许多学者研究利用WiFi进行室内定位,其中对于如何在现有的指纹匹配定位模型上改进,成为研究的热点,考虑到在参考点接收接入点(access point, AP)的接收信号强度(received signal strength, RSS)存在波动和无规律,文献[4]提出建立高斯模型,对RSS的统计特性进行分析,并利用卡尔曼滤波对 RSS信号进行滤波,滤波完成后,结合隐马尔科夫模型对定位轨迹进行纠正,在定位精度上较传统的指纹定位方法要高。文献[5-6]认为,在参考点测量的RSS信号是由多个高斯分布混合而成的,所以提出利用高斯混合模型(Gauss mixture model, GMM)来对RSS进行建模,利用期望最大值(expectation maximization, EM)算法求解模型参数,同时在同一个参考点接收到来自同一个AP的RSS,是由几个高斯混合而成,即对于分模型如何选取,文中采用试错法。文献[7]中利用GMM对RSS信号进行纯化,目的是为了抵消部分由于多径效应造成的 RSS信号的不断衰落,但外部环境复杂多变,文中算法无法分清哪一部分是由于多径效应造成的。

在在线定位中,传统定位算法诸如k近邻算(knearest neighbor, KNN)法,支持向量机(support vector machine, SVM)法,朴素贝叶斯(Naïve Bayes,NB)法[7-9],但这些方法的解算精度往往达不到要求,文献[10-11]利用随机森林(random forest, RF)算法,获得的定位精度比文献[7-9]中的定位算法精度要高。

本文提出利用贝叶斯信息准则确立高斯混合模型中分模型的个数,称为增强高斯混合模型(enhanced gaussian mixture model, EGMM),并通过EM算法求解模型参数,将模型参数融合进指纹数据库中重构指纹数据库,在在线定位中,将KNN、SVM、NB模型集成在一起,构成集成模型进行实时定位,以此增加定位准确性。

1 算法流程

本文采用WiFi位置指纹来进行室内定位,主要可分为离线阶段和在线阶段。离线阶段需要移动终端,获取待定位区域的 RSS信号值,搜集到的RSS数据发送至后台,形成初步的指纹数据库,在后台利用增强高斯混合模型对 RSS数据库进行建模,通过EM算法求解模型参数,分别代表分模型的均值、协方差以及分模型的权重,并将模型参数与初步指纹数据库融合,形成重建数据库,由于每个 RSS可以属于多个分模型,但各自权重占比不同,因此在每个分模型下训练集成模型;在线定位阶段,移动终端搜集到 RSS信息,先将得到的RSS数据清洗,然后将过滤后的信号经EGMM模型,可以得到当前 RSS所属分模型,此时将数据送进分模型所训练的集成模型中,得出最终的位置,其中介质访问控制(media access control,MAC)为每个AP的唯一标识。图1为算法流程。

图1 算法流程

2 增强高斯混合模型重建数据库

2.1 GMM理论

考虑到室内环境中参考点收到来自AP的信号强度的无规律性,因此须建立高斯混合模型。高斯混合模型可以看做由K个高斯模型按照不同权重组合而成,它的表达能力十分强,任何分布都可以用GMM来表示[12],高斯混合模型将每一参考点上信号强度分布看作多个高斯函数的加权和,即

式中:sij为第i个参考点第j次测量得到的RSS向量;θi为分模型参数,即θi={μik,σik,wik},μik、σik、wik分别为均值、协方差矩阵和分模型权重;N(μik,σik) 为 分模 型中单 个高 斯分布 的概 率密度函数(probability density function,PDF),即

式中:H为RSS向量维度,也可以认为是AP的数量;k表示分模型的数量。

针对式(2),需要计算模型参数,并确定分模型的数量。

2.2 EM算法求解模型参数

对于单个参考点而言,采集到来自AP的RSS,利用最大似然估计(maximum likelihood estimation,MLE)估计其中参数,即

式中:θ*为根据最大似然估计得到的最优估计;θ= {θ1,θ2,…,θk}为 每 个 分 模 型 模 型 参 数 的集合;S= {S1,S2,…,SN}为在参考点上所测量的 RSS集合,其中Si表示在参考点上某一次所采集的RSS信号。

高斯混合模型求解模型参数的方法有很多,例如 EM[13]和加权最小二乘法。由于式(3)无法获得闭式解,因此本文采用 EM 算法进行参数的估计。EM算法可分为第一步和第二步,在第一步中,首先需要根据给定观测数据S,求于未知数据Y的数学期望,即

式中:θt为在给定当前观测数据下的参数估计;Y= {y1,y2,…,yn}为RSS未知数据集。

在第二步中,要根据第一步估计的参数θt迭代求出当前观测下的θt+1,即

重复第一步和第二步至收敛,则可以得到高斯混合模型的参数估计[13]结果θi={μik,σik,wik}。

2.3 增强高斯混合模型

在利用 EM算法求解出 GMM模型参数的过程中,对于分模型的数量K值的选取,本中采用试错法,即先选定K值,当在在线阶段时,求取在该K值下的定位性能,如此反复确定定位性能最优时的K值。本文利用贝叶斯信息准则对GMM中的K值进行选取,仅依赖初步离线数据库中 RSS数据即可,以数据为驱动确立K值,因此提出EGMM法。

贝叶斯信息准则基于贝叶斯定理,在给定的RSS数据S= {S1,S2,…,SN}下,最大化模型的后验概率为

式中:Mi为分模型;P(s1,…,sn|Mi) 为给定模型下的似然概率,在给定RSS数据时,P(s1,…,sn)是相同的,且P(Mi) 为定值,此时最大化后验概率等价于最大化给定模型下的似然概率。

离线阶段选择K时,根据初步离线数据库RSS信息,利用EM算法所解析出来的模型参数,选择在该模型参数下最大的似然概率。

2.4 重构指纹数据库

初步指纹数据库构建过程为:离线阶段在n个参考点,各参考点的坐标为Li(i∈ { 1,2,…,n}),采样的过程则是在第i个参考点采集来自H个AP的m组测量数据Sij= {s1ij,s2ij,…,sHij}(j∈ {1,2,…,m})。

由式(1)建立第i个参考点上 RSS的高斯混合模型,即

式中:fi(sij)为第i个参考点上的PDF,确定了PDF后,利用EM算法求解模型参数,每一个参考点的位置Li与其所对应的模型参数θi,构成了新的指纹数据库,记为F= {F1,F2,…,Fn},其中Fi={Li,θi},N为分模型的数量。

3 集成模型的建立

在离线阶段重构出指纹数据库,根据所确定的K,训练K个集成模型,其中第i个集成模型训练数据为:根据重构数据库中的模型参数w,其中模型参数的维度均为K维,找到所有在第i维度权重不为0的样本,根据样本位置信息,再从初步指纹数据库中找到对应的 RSS信号作为训练数据。

在离线阶段训练模型时,采用集成模型的方式,由于在在线定位过程中,本质上是完成多分类的任务,因此离线阶段将KNN、NB、SVM集成在一起,在实时定位阶段,用户发来数据经过 EGMM建模后,进入集成学习模型中,所有的基分类器产生预测结果,最终按照EGMM建模后得出的模型参数的权重加权得出结果,如图2所示。

图2 集成模型

集成学习模型流程为:

1)输入数据。初步离线数据库中的样本和位置标签作为初始训练集,记为D;

2)开始训练。对初始训练集D,根据重构的数据库中模型参数,选择第i维度下所有权重不为0的样本,即生成分类器的对应的训练集Si;

3)使用KNN、NB、SVM训练数据Si;

4)当分模型个数不等于K时,返回步骤2),否则进行步骤5);

5)在线阶段,发送RSS经EGMM模型求出模型参数,根据模型参数中的权重,选择离线阶段中的集成模型进行预测,最终位置信息是每个分类器分类结果乘以模型参数中的权重参数而获得的。

6)输出。对于待测样本xt,输出最终移动终端的位置。

4 实验验证与分析

4.1 实验环境

本文的实验场地选在上海工程技术大学现代交通工程中心 4楼,本实验实验环境不会发生变化,测试环境周围的AP不会随意更改,其中测试区域结构如图3所示。

图3 测试区域结构

信号采集所用的装置为华为手机P20,采用的AP是学校已有的 AP,通过自主开发的软件采集RSS信息,其中每个网格点大小设置为1.2 m×1.2 m,并在每个网格点东、南、西、北四个方向共采集150组信号,采集的频率为1 Hz,采集频段为2.4 GHz和 5.0 GHz。

实验中,采样点共有 205个,为将定位结果量化,利用真实值与测量值之间的距离定义为误差,即

式中:测试点的实际物理位置为(xi,yi);测试点的估算位置坐标为。

4.2 可行性分析与K值选择

在某参考点测量来自AP的RSS值,如图4所示,可以发现 RSS的概率分布不是一般的均匀分布和高斯分布,RSS的分布无法用单个高斯模型拟合,可以通过GMM来对RSS进行拟合。

图4 RSS概率分布

从图4中无法看出究竟是由多少个高斯进行混合而成的,因此提出利用贝叶斯信息准则,基于贝叶斯定理和RSS数据为驱动选择K值,为了可视化的方便,做式(9)变换

式中:K为模型的个数;L是根据 2.3计算出来的似然函数;samples为采样的样本数;BIC仅仅是记号。图5展示BIC与K之间的关系,从图5中可以看出K值应为16,即分模型的个数为 16。

图5 分模型选取

4.3 实验结果分析

本文提出利用EGMM模型确定模型参数和K值,并通过集成模型进行预测得出位置,将EGMM和本文集成模型、EGMM和随机森林、未经EGMM模型和本文集成模型相对比,来说明本文所提算法的有效性。实验中选取AP数目为6个,采集频段2.4 GHz和5.0 GHz,因此在固定参考点所采集的信号维度为AP数目的两倍。

为直观显示算法的定位性能,采用累积定位误差的方式显示本文算法的有效性,如图6所示。

图6 各种算法的定位误差累积概率分布

整体而言,EGMM 和本文集成学习模型优于另外两种算法。从图6中可以看出:EGMM和本文集成模型,定位误差不超过2 m的概率为92.34%;EGMM和随机森林模型,定位误差不超过2 m的概率为89.55%;未经EGMM和本文模型,定位误差不超过2 m的概率为88.63%,即EGMM和本文集成模型比EGMM与随机森林模型高出2.79%,可以说明,在同等条件下,本文集成学习模型优于随机森林模型,同时EGMM与本文集成学习模型得到的结果与未经增强高斯混合模型和本文集成模型处理得到的累积概率分布相比高出0.92%,进一步说明增强高斯混合模型的有效性。

表 1展示在在线阶段采集的 512个测试样本中,各算法的平均定位误差、最大定位误差、定位误差小于1 m的概率和均方根误差。

表1 512个测试点定位误差统计结果

从表1中可以看出,EGMM和集成模型的平均定位误差较另外两种算法分别低了 9.4%和21.8%,为了进一步衡量定位性能,利用均方根误差统计不同算法的定位误差,EGMM 和集成模型的均方根误差最小,表示数据偏离中心的程度最低,定位精度高,且EGMM和集成模型的均方根误差较另外两种算法分别低了14.2%和19.3%。

表2展示在在线阶段采集的1 024个测试样本中,各算法的平均定位误差、最大定位误差、定位误差小于1 m的概率和均方根误差。

表2 1 024个测试点定位误差统计结果

从表2中可以看出,EGMM和集成模型的平均定位误差较另外两种算法分别低了 9.3%和21.2%,为了进一步衡量定位性能,利用均方根误差统计不同算法的定位误差,EGMM 和集成模型的均方根误差最小,表示数据偏离中心的程度最低,定位精度高,且EGMM和集成模型的均方根误差较另外两种算法分别低了13.7%和31.6%。

在在线定位阶段,分别采集512个测试样本和1 024个测试样本进行定位时间的测试,在这里定义定位时间为从接收到数据到解算出位置信息的时间,如图7所示。

图7 各模型的定位时间

从图7(a)可以看出,本文集成模型定位时间最长,进行位置估计的定位时间在三者中是最长的,平均定位时间大约为160 ms,采用EGMM与集成模型的定位时间次之,平均定位时间大约为49 ms, 定位时间最短的是直接利用随机森林模型进行位置预测,平均定位时间大约为35 ms,从表 1可知,虽然定位精度差异不大,但可以考虑在定位时间差距较小的情况下,尽可能提高定位精度,即在定位精度和定位时间上折中,EGMM和集成模型以14 ms的定位时间换取0.22 m的定位精度,但在平均定位时间差 14 ms的情况下,定位精度提高了0.22 m。

从图7(b)可以看出,在1 024个参考点上,本文集成模型、EGMM和本文集成模型以及随机森林模型的平均定位时间分别约为210、122 、104 ms。从表2可知,EGMM和本文集成模型在定位时间和定位精度上均比本文集成模型更好,EGMM 和本文集成模型在定位精度上比随机森林模型的精度高,但定位时间上却高出16 ms。虽然定位精度差异不大,可以考虑在定位时间差距较小的情况下提高定位精度,EGMM和集成模型以16 ms的定位时间换取0.21 m的定位精度,但在平均定位时间差16 ms的情况下,定位精度提高了0.21 m,是可以接受的。

5 结束语

本文提出了EGMM与集成学习模型进行室内定位的算法。利用EM算法求解模型参数,通过贝叶斯信息准则确定分模型个数,重构数据库,并在每个分模型中训练集成模型。在在线阶段,经EGMM对RSS建模确定模型参数,通过离线阶段的集成模型预测结果,根据模型参数中的权重,将多个预测结果按权重分配得出位置信息。实验结果表明,本文提出的方法平均定位误差为0.96 m,定位误差小于1 m的概率为92.34%,与增强高斯混合模型与随机森林和本文集成学习模型相比,定位精度提高2.79%和0.92%。

猜你喜欢
参考点定位精度离线
北方海区北斗地基增强系统基站自定位精度研究
小米8手机在城市环境下的单点定位精度研究
基于卷积神经网络的离线笔迹鉴别系统
新版Windows 10补丁离线安装更简单
数控机床回参考点故障诊断及维修
GPS定位精度研究
GPS定位精度研究
好进难出 应对迅雷“口袋战”
简析线性电路电位与电压的关系
离线发文件 不是会员也能用