基于多元高斯混合模型的离线指纹数据库

2021-06-24秦宁宁孙顺远

电子与信息学报 2021年6期

关键词：离线高斯分区

秦宁宁王超杨乐孙顺远

①(江南大学轻工过程先进控制教育部重点实验室无锡 214122)

②(南京航空航天大学电磁频谱空间认知动态系统工信部重点实验室南京 211106)

③(坎特伯雷大学电气与计算机工程系克赖斯特彻奇 8011)

1 引言

全球卫星导航系统在室外环境下已被广泛应用于为人们提供位置服务，但信号的缺失也导致该系统无法在复杂的室内环境下发挥作用[1，2]。WiFi设施的广泛铺设和智能手机的普及，使得基于接收信号强度(Received Signal Strength， RSS)值的室内定位系统，得到了大批研究人员的密切关注。然而，由于无线通讯设施的设计初衷并非为人们提供室内导航，因此如何降低环境波动对无线信号的不确定干扰导致的定位影响，已成为现有研究不得不面对和解决的难点。

基于已有无线设施的定位系统，其常见商用装置不具备自主可编辑功能，仅能提供室内通用RSS测量值，这使得传统基于到达时间差[3]和到达距离差[4]等方法，无法直接平移应用。利用测量信号与实际位置间匹配运算的指纹定位算法，弥补了无线设施所发送信号在时间和空间特性上的缺失，可有效实现信号环境与实际场景的映射，为基于RSS值的室内定位提供了可能。

离线指纹通过对目标区域做网格划分，在选定参考点处做多次RSS信号采集，以实现对室内RSS信号分布的拟合。由于墙壁对电磁信号的衰减和反射导致天线的辐射模型并非定向均匀[5，6]，基于辐射全向所构建的信号分布模型如PL模型[7]仅适用于相对开阔的室外环境，面对复杂室内环境模型无法准确地刻画信号强度在室内空间中的分布状况。针对此问题，传统方法常假设信号室内环境下的分布符合高斯模型[8]，但据文献[9]分析可知，所得信号分布更趋于左倾模型，故此类假设在相对复杂环境下常导致定位失效。文献[10]则通过核函数，改进原有关于信号分布的估计算法，以提升定位精度。基于箱型模型的概率方法无需假设信号分布模型，仅通过离散化连续测量值便可实现对信号分布的近似拟合[11]。然而，该方法过度依赖于箱数目与箱宽度，且当测量数据维度过大时，算法的运行过程将变得极为低效。Zhao等人[12，13]则利用高斯过程(Gaussian Processes， GP)模型拟合室内环境下的信号分布，但模型需要假设不依赖于测量数据的高斯噪声。

面对大型室内场景，上述方法将耗费大量人力物力，且易受环境因素影响，所构建的离线指纹库与实际场景中信号分布的映射关系也会因时间变化而减弱，需不断修正离线指纹库，以降低时间积累所造成的映射误差累计。针对大型室内场景下采样数据量大及维护成本高等问题，本文通过分区操作精确维护区域，并根据分区内信号间的耦合关系提出一种分区多元高斯混合模型(MultiVariate Gaussian Mixture Model， MVGMM)以提高对信号分布的拟合程度。模型根据信号接入点(Access Point， AP)位置与物理连通结构对目标区域进行划分，并通过1对多支持向量机模型实现分区操作。在相对狭小的分区区域内，利用信号间存在的相互干扰分别建立多元高斯混合模型，以强化信号的拟合程度，最终达到改善分区定位精度的效果。当环境发生变化时，算法以信息熵作为分区数据更新判据，以及时响应分区变化对指纹库的影响，降低维护成本。从而在室内定位应用中，实现少量数据支撑高效可维护指纹库的构建。

2 构建离线指纹库

2.1 指纹收集方案

随着目标区域的增大，区域内参考点(RP)数量随之增加，这将极大影响在线定位速度，且由信号衰减模型可知，信号RSS值随与AP距离的增大而减小。目标区域过大常产生极端信号值，也会导致在线定位结果出现大偏移现象。根据墙壁对AP信号的遮挡影响以及信号的有效辐射距离，划分区域可对应于几个房间或一段走廊，本文将目标楼层区域分为3类：房间，走廊与楼梯口，走廊区域根据物理连接距离分割为几段，以表征相应区域内AP放置的不同。

区域划分后，使用训练阶段收集的样本数据为每个区域创建分区指纹库，区域训练数据包括区域标记、RP位置及其采集各AP的RSS值。

2.2 分区模型构建

综合考量区域分类的精确度与效率，以1对多方式设置支持向量机概率分类模型，可有效解决根据AP位置与物理连通所设置分区的分类问题[14]。对于预先设置的各分区，以目标是否位于本分区进行二分类标识，通过训练数据构建各分区SVM模型。对于给定K个分区，设立K个SVM模型，取各分区内所有参考AP 的测量信号组成当前观测数据r =[r1，r2，···，rM]，其中M为目标所接收到区域内AP数量，对于未接收到的信号值取为—100 dB。针对当前观测数据，各分区SVM模型可给出目标是否位于相应区域内的分布概率p(yk=1|r)，其中yk为分区标识，表示目标位于分区Ωk内，k ∈{1，2，···，K}。通过各分区SVM模型给出的分布概率p(yk=1|r)，可对目标所在分区做初步判断，并作为1级判断依据。

算法采用基于概率SVM的分区操作，将离线阶段所获取参考点观测数据划分为训练集与测试集，对分区判断模型进行训练。通过K个SVM模型可获取目标位于相应分区的概率值，但分区交界处信号分布复杂，易造成分区模型的1级判断失误，且当目标位于分区交界处时，其受两分区的影响程度相当，1级判据无法给出符合精度要求的判别结果。由此，算法通过设置2级判断依据[15]，以克服对于分区交界附近的测试点误判断问题。选取被判定区域内2个最大概率的分区区域，即p(yi=1|r)与p(yj=1|r)， i，j ∈{1，2，···，K}，且p(yi=1|r)＞p(yj=1|r)，其差值可表示为

当Δyp＞Δy 时，说明i分区对测试点影响力远大于j分区，可将参考点判定于i分区，其中 Δy为2级判断阈值。对于Δyp＜Δy，则将两区域均判定为目标区域，可分别做相应的区域匹配运算，并将各自分区所得目标位置做概率平均，以求取最终位置估计。

2.3 多元高斯混合模型构建

在给定分区内，可通过分区指纹库与实时观测数据的匹配结果，确定目标位置。传统指纹库构建方法通常需在参考点处进行过饱和信息采集，以频率分布近似区域内各AP信号强度值的概率分布，分布模型假设与实际分布的映射偏差，会直接导致离线指纹库的整体偏移。为解决这种苛刻的“精准”化分布模型假设要求，论文跳脱RP与所获取RSS信号间的单一映射关系，将目标区域内的RP位置与其RSS值做联合分布假设。

考虑到划分后狭小分区内信号间的相互干扰，可利用不同AP信号的相关性建立多元高斯混合模型(MVGMM)，通过不断增加高斯元素个数，以利用不同参数的概率密度函数加权和近似分区内RP位置与所获取各AP信号间的联合概率密度分布[16]，弥补常见工作中对AP信号间耦合关系的忽略。多元高斯混合模型的概率分布函数可表示为

基于式(2)，利用分区 Ωκ内RP位置与RSS信号值联合分布的后验概率可将多元高斯混合模型表示为

在现在这个越来越进步的国家，国家对于学生的教育也越来越抓紧，因此，小学的教育就显得尤为重要。对于农村小学来说，更是要建设好学校，构建和谐校园，提高教学质量，只有让学生在教育上不输给城市的学生，才能够向着更好的未来前进。同时，农村的教学也需要更好，才能够让学生对比城市的学生有更大的竞争力，为他们走出农村打下基础。每一位教师身上都肩负着神圣的使命，只有提高教学的质量，才能给学生带来更好的教学。

对不同的 Ck值重复聚类与EM估计过程，如表1所示，对比不同 Ck值的拟合效果得到最优分量数的多元高斯混合模型。

采用EM算法更新高斯组成成分时，易产生具有奇异协方差矩阵的组成元素，为避免奇异矩阵的出现，算法通过在协方差矩阵中加入单位矩阵以保证其非奇异性。由于不同室内环境中AP数量与位置具有较大差异，MVGMM模型需根据具体环境选取合适 Ck对相应区域内的信号分布情况进行拟合。考虑目标区域多为大型室内场景，样本数据复杂且在线匹配运算存在实时性要求，故算法采用贝叶斯信息准则优化MVGMM模型的过拟合状况，以确定最优高斯组成成分个数，避免出现维度灾难现象，数量选取规则可表示为

3 在线阶段：目标定位

表1 MVGMM模型的参数估计

4 在线阶段：指纹库更新

基于短期过饱和信息采集所构建的离线指纹库，很难及时有效地跟随场景内信号变化，从而导致系统需对时变区域进行必要的信息更新和指纹修正。对于非分区定位系统而言，信息片段的局部变化都会导致指纹库的集体失效。本文给出的区域分类模型，将目标区域按AP位置分布与物理连通原则进行划分，使得小范围的区域异动仅对所在子分区的指纹库产生修正影响，从而降低后期定位系统的维护成本。

4.1 分区判别标准

4.2 分区模型维护

表2 分区MVGMM模型的自适应更新算法

5 仿真分析

5.1 数据处理

试验场景为江南大学物联网工程学院C区某层环形走廊环境，选取移动运营商在学院内均匀铺设的WiFi路由器作为AP信号源。由于AP信号源主要铺设于走廊中，且单侧走廊区域相对开阔，信号受墙壁影响的差异性较小，故将物理结构相对连通且接收AP信号差异较小的单侧走廊区域划分为对应分区，则试验区域可划分为K=4个分区。RP位置采用网格拓扑，并以走廊宽幅居中形式排列，相邻RP间隔1 m，共计368个RP点，AP信号源与RP点排布平面图如图1所示。根据各分区内AP信号源的稳定性，选取区域1-4内AP信号源数量分别为{4，5，4，4}。为降低设备差异性对定位算法的影响，实验使用统一型号智能手机进行信号收集。

在所有参考点处采集所有分区所选用共计12个AP的信号强度值，采样间隔为1.2 s，共采集4.8 s(避免因频率原因所导致的数据缓存)，根据第2.1节所述过程构建离线指纹库。测试阶段，实验员手持同款智能手机沿试验区域行走一圈，行进至测试点处通过操作获取实时观测数据，并标记当前位置，测试过程中共获得184个测试点，间隔1 m。

5.2 分区效果和RSSI地图构建效果

目标区域划分完毕后，可对采集参考点做分区标识，通过采样数据与分区标识构建分区模型，构建过程如第2.2节所述。基于分区模型，可对测试数据进行分区操作，算法将需要启动2级判别准则的测试点划分为区域5以表示信号复杂区域，各分区模型的判别精度如表3所示，各分区的分区精度都在95%以上，已达到后期相应分区内定位操作的精度要求。

5.3 在线定位精度分析

图1 实验场景图

表3 分区判别精度(%)

基于已获取MVGMM模型与测试数据，将本文算法(SMVGMM)分别与传统WKNN算法，GP算法做对比，分析算法的定位精度。用户在目标区域内行进1圈，3种算法的位置估计对比图如图4所示。由图4可知，本文算法所得目标行进轨迹预测更为平滑，且相较于GP算法，其全程定位精度有所提高。图5则给出了3种算法在各测试点的误差值箱型图。由图可知，对于目标轨迹的预测，相比于GP算法，本文算法的全程定位精度提高了20%以上，近一步地印证了本文算法所得目标预测轨迹的平滑性。

由于WKNN算法与其余两种算法在定位精度的巨大差异，图6仅给出本文算法与GP算法位置估计误差的累计概率对比图。由图可知，本文算法初始的误差累计速度相比于GP算法较慢，整体效果优于GP算法，也从另一方面体现出本文算法通过狭小分区内AP信号间的相关性全面提升了传统算法的定位效果。

图2 RSS指纹地图构建效果对比图

5.4 指纹库的更新测试

为验证指纹库在线更新的效果与价值，本实验分两次对目标区域进行数据采集(间隔7 d时间)，利用第2次所采集数据对原始数据所构建MVGMM模型参数进行自适应更新。通过两次采集的测试数据，比较参数更新前后MVGMM模型对AP3信号的拟合效果。图7给出了参数更新前后模型对AP3信号的拟合状况及其误差。从图中可以看出，两次采集的测试数据在区域4存在较大差异，参数更新后模型对最新测试数据的拟合效果优于前次模型的拟合状况，尤其体现于区域4内。

图3 分区1内AP3信号的拟合效果对比图

6 结束语

图4 目标运动的轨迹预测对比图

图5 轨迹估计误差箱型图

图6 误差累计函数对比图

图7 指纹库更新前后AP3数据拟合效果对比图

针对室内环境中样本数据与采集位置间映射关系的波动变化，本文利用区域间的物理连通特性对目标区域进行划分，进而构建基于参考点位置与所采集数据联合概率分布的分区多元高斯混合模型。算法通过分区操作精确室内环境中AP信号的变化区域，强化分区内信号间的耦合程度，以此建立基于分区内信号间相互干扰关系的多元高斯混合模型，并且分区采集也在一定程度上降低了指纹数据库的后期维护成本。实验结果表明，算法可在少量样本数据下拟合信号在室内环境下的分布情况，其定位精度相较于与传统算法也有一定程度提高。