智能手机音频信号与MEMS传感器的紧耦合室内定位方法

2021-03-10陈锐志郭光毅徐诗豪

测绘学报 2021年2期

陈锐志，郭光毅，叶锋，钱隆，徐诗豪，李正

武汉大学测绘遥感信息工程国家重点实验室，湖北武汉 430079

高精度高可用的室内定位技术对人们未来的生活起着至关重要的作用，是推动大众创新、万众创业的科技源动力，是支撑新型基础设施建设，乃至国家战略需求的重要组成部分。日前，北斗三号全球卫星导航系统正式开通，在天基、地基增强技术的辅助下，精度已可以满足绝大部分室外定位需求。但由于卫星信号的遮挡、衰减和屏蔽，GNSS定位技术在室内无法提供可靠的位置服务。据统计，人们有70%～90%的时间是在室内度过，同时随着城市化的不断加速，室内空间的面积总和飞速增加，基于位置的服务(location based service，LBS)的大量需求与应用已经从室外转向了室内。因此,高精度室内定位技术具有非常广阔的应用前景和重要的社会价值[1-2]。

随着智能手机飞速发展，其计算能力也越来越强劲，搭载的传感器也越来越丰富，其中可用于室内定位的包括：射频传感器、麦克风、摄像头、磁力计、运动传感器等。基于智能手机的室内定位技术也多种多样，根据信号物理类型可分为：射频信号(蜂窝信号[3]、WiFi[4-7]、BLE[8-9])、音频信号[10-11]、图像[12-13]、地磁场[14]、运动信号[15-16]。表1对比了基于智能手机室内定位技术特点及典型精度。不难看出，表1中总结的室内定位技术都有各自的优势以及局限性[17]，单一的定位技术难以做到像室外环境的GNSS一样的普适性。此外，新款智能手机支持的室内定位技术(UWB、WiFi RTT、5G、BLE 5.1)均有着不错的商用推广潜质，但到目前为止室内定位技术尚未明了，其主要受制于：①室内建筑隔绝GNSS信号，绝大部分情况下无法定位；②室内环境拓扑复杂，定位场景多样；③室内声、电信道环境复杂；④用户行为复杂多变，运动轨迹难以预测；⑤智能手机的搭载的传感器性能有限。

表1 基于智能手机的室内定位技术特点及其精度

基于音频信号的室内定位技术，具有成本低、精度高、兼容性好的特点，非常适合消费级智能手机的室内定位场景，直接使用智能手机内置的麦克风，无须增加额外的设备。但是，相比于无线射频信号，音频信号无法获得很高的更新频率，进而无法获得单位时间内具有统计意义的观测值。因此单次的信号到达时间估计精度，直接影响了定位系统的精度及可用性。由于室内环境复杂，衰减、混响效应严重，直接造成直达经的能量大幅度衰减甚至消失，造成较大的误差[18]。在行人动态定位导航场景中，由人体或物体遮挡引发的“漏检测”，使得到达时间差(time difference of arrival,TDOA)数量无法满足定位最低要求，导致定位失败。此外，分时播发的策略和声速的缘故，使得运动状态下的行人检测到的到达时间时是异步的，同时与声源的相对运动会造成多普勒效应，在到达时间估计中引入一个或正或负的偏差，需要进行补偿。针对以上问题，本文提出了一种两步音频信号到达时间检测算法，利用行人航迹推算(pedestrian dead reckoning，PDR)和音频信号的互补性，开展了音频TDOA和PDR紧组合定位研究，并给出了基于预测状态的多普勒补偿改正和异步到达时间补偿的方法。

1 音频信号到达时间估计

1.1 音频信号设计

Chirp信号[19]是当前应用最广泛的脉冲压缩信号，是典型的非平稳信号，具有较大的能量带宽，较好的自相关特性和较强的抗干扰能力，同时对多普勒频移不敏感。选取Chirp信号作为发射的定位信号，其定义为

(1)

式中，f0为Chirp信号起始频率；k0为Chirp信号调频率；T为Chirp信号的持续时间。Chirp信号的抗干扰能力可以用持续时间T×B来度量，B为带宽，乘积越大抗干扰能力越强。

通常，人耳的听觉范围约为20 Hz～20 kHz，且绝大部分的人对大于16 kHz的高频声音不敏感[20-21]，一方面，考虑到用于定位的信号应当尽可能不产生噪声，选取16 kHz作为起始频率，另一方面，为了尽可能适配消费级智能终端，选取44.1 kHz作为大采样率，因此依据奈奎斯特(Nyquist)采样定理选取21 kHz作为截止频率，具体参数见表2。

表2 Chirp信号参数

在室内，音频定位基站播发的声波会通过不同路径反射到达智能手机的麦克风。由于传播路径、反射面，反射路径长度各不相同，智能手机接收到的声音信号可以看作是不同能量与时延信号的叠加，可定义为

(2)

1.2 到达时间估计

本文提出了一种两步法到达时间估计方法，首先对滤波后的数据进行短时傅里叶变换(short-time Fourier transform,STFT)，计算求得当前窗口的时频矩阵。利用已知的Chirp信号的调频率，对矩阵进行旋转变换，求得矩阵在水平轴上的能量累计，计算相邻能量累计的变换量来粗略地估计音频信号的到达时刻；然后以粗检测的时刻为基准，前后截取滤波后的数据，与模板信号求解互相关运算，再利用最高峰向前倒序进行峰值搜索，选取第一个超过阈值的时刻，作为最终的到达时刻估计。

STFT通过在时域给信号加窗口的方法获得信号的局部频谱。对于信号s(t)，其STFT定义为

exp(-j2πft′)dt′

(3)

式中，γ(t)为窗函数。

时频矩阵旋转角度θ可由调频率k0计算得到

θ=arctan(k0)

(4)

由此，可得变换后的时频矩阵TFθ(F′,T′)表达为

(5)

构建统计量旋转能量累积量Π(F′)，即变换后的时频矩阵投影在F′轴上的能量累积量为

(6)

计算旋转能量累积量Π(F′)的变化量ΔΠ(F′)来进行波谷检测，最后通过逆旋转变换，来实现对Chirp信号到达时间Tc的快速粗略估计

(7)

(8)

式中，α(0<α≤1)为阈值系数，本文选取α=0.3。

2 行人航迹推算

PDR是针对行人定位导航场景的相对定位算法，图1表述了其基本原理：利用三轴加速度计和陀螺仪，实时解算航向角，同时检测行人行走状态，用步长模型估计步长；基于上一步的位置，结合航向角与步长，推算当前脚步的位置。

图1 行人航迹推算原理Fig.1 The principle of pedestrian dead reckoning

基本公式[23]如下

(9)

步长模型选取文献[5]提出的经验线性模型，模型如下

(10)

式中，SF和H分别代表步频和用户身高；a、b和c为模型参数，可以通过预先的标定和数据拟合获得。

四元数是一个具有4个元素的矢量表达形式，各个元素为矢量方向和转动大小的函数[24]，相比方向余弦矩阵具有较低的冗余度，并且不存在不确定性，因此选取四元数作为PDR系统中姿态的表示方法，当进行位置推算时，将四元数转化为欧拉角的形式进行计算。

惯性传感器的更新率是极高的(本文设定为100 Hz)，PDR的输出是按照用户步频来进行输出(正常步频1～3 Hz)；相比而言，绝对定位源的更新频率通常不高，甚至是不固定的。为了实现PDR结果与音频TDOA更新时间配准，本节将对脚步内位置进行插值，转换为行人行走速度

(11)

3 音频TDOA和航迹推算组合导航

卡尔曼滤波器(Kalman filter，KF)[25]由R.E.Kalman博士于1960年提出，KF的显著特点是对状态空间的估计，即状态空间的一阶矩(期望)和二阶矩(方差或协方差)。KF以一种“预测-更新”的模式对状态空间进行估计。在预测阶段，依靠系统状态预测方程，递推预测状态向量及其时变的不确定误差。在量测更新阶段，计算Kalman增益矩阵对观测信息和预测状态向量值加权平均，得到状态向量的最优估计值。然而，在实际应用中的很多问题是无法用线性微分方差表述的，扩展卡尔曼滤波(extend Kalman filter，EKF)通过对非线性函数进行一阶线性化，忽略高阶项，在牺牲部分精度的前提下，将非线性问题转化为线性问题。在Kalman最优估计条件下，EKF是最小方差准则下的次优滤波器，适合于非线性度较低的系统[26]。本文基于EKF滤波框架，充分利用音频TDOA和PDR的互补性，以PDR短时间内提供准确的相对增量作为纽带，研究了一种基于音频TDOA和PDR紧耦融合定位算法，并给出了基于预测状态的多普勒补偿改正和异步到达时间补偿方法，提高了系统的定位精度和可靠性。

3.1 系统模型

选取东北天框架下的位置矢量[enu]T以及PDR解算的航向与导航的绝对航线之间的夹角α作为系统估计状态，α由两部分组成，一部分为真实航向与PDR解算航向的夹角，系统启动后，当安装角不发生改变时，该夹角是一个常量；另一部分则是由传感器累积误差造成的角度，这部分角度变化与MEMS传感器的性能及导航持续时间相关

(12)

(13)

3.2 量测模型

本文提出的音频定位系统采用时分多址(time-division multiple access，TDMA)策略，如图2所示，完整的播发周期为1000 ms，4个音频基站分别交替播发。为了保证信号播发的顺序在定位范围内，不存在信号“后发先至”的情况，相邻播发的信号设置200 ms的间隔时间。则到达时间差TDOAi,j表示为

图2 时分播发策略Fig.2 The strategy of time-division broadcast

TDOAi,j=TOAi-TOAj+200(i-j)i≥j

(14)

3.2.1 多普勒效应改正

多普勒效应是指，当接收端与声源之间发生相对运动时，接收到的声波频率发生变化的现象。多普勒频移的大小与相对运动的速度相关，而频移的正负由相对运动的方向决定，向声源方向移动频移为正，反之，远离声源方向频移为负。它们之间定量的关系表达为

(15)

(16)

(17)

因此多普勒频移产生的时间补偿Δt可以表达为

(18)

式中，F和T分别代表Chirp信号的频率范围和持续时间。则第k个基站补偿后的到达时间表达为

(19)

3.2.2 PDR辅助的TDOA量测补偿

(20)

将多普勒效应改正和异步观测补偿后的距离差作为观测量构建量测方程

(21)

(22)

通过泰勒级数展开并忽略高阶误差，量测矩阵Hk可表示为

(23)

4 计算与分析

4.1 试验描述

本文设计了两组试验来评价定位精度，测试场地为武汉大学诗琳通中心大厅。如图3(a)所示，现场测试区域约为203 m2，部署4个音频基站，基站间通过433 MHz无线模块进行时间同步。音频信号播发的策略如图2所示。测试用手机型号及操作系统版本为华为Mate 20(Android P)，OnePlus 6(Android P)和Google Pixel 3(Android P)，手机搭载的运动传感器(加速度计、陀螺仪)采样率设置为100 Hz，音频信号的采样率为44.1 kHz。本文试验中，静态测试的参考真值由Leica Nova TS60全站仪测量；动态测试是由测试人员背着360°全向棱角，全站仪自动跟踪棱镜并每0.15 s提供3 mm精度的真值参考。

图3 测试场景Fig.3 Experimental site

4.2 静态定位试验

本文试验评价了定位算法的静态精度，图3(a)在现场测试区域中设置了30个静态测试点，并使用Leica Nova TS60全站仪测量的位置作为真值基准，测试人员使用3部手机分别在测试点上采集1 min的数据。本文试验从定位精度的角度出发，利用最小二乘算法，对比了粗检测TOA和两步检测TOA的定位表现；并且对比了提出的融合定位算法和最小二乘算法的结果。图4给出了静态定位试验的误差累计百分比，LS(粗检测)定位结果的50%、95%和最大误差分别为0.646 m、 1.142 m和1.865 m。 EKF(粗检测)融合定位结果的50%、95%和最大误差分别为0.521 m、0.943 m和6.999 m。LS(两步检测)定位结果的50%、95%和最大误差分别为0.273 m、1.146 m和2.016 m。EKF(两步检测)融合定位结果的50%、95%和最大误差分别为0.133 m、0.885 m和1.546 m。

图4 室内静态定位误差累计百分比Fig.4 Cumulative error percentages of static localization errors

从静态测试结果来看，由于基于STFT的粗检测无法兼得时间和频率的精度，只能粗略地给出Chirp信号的到达时刻，解算出的TDOA结果存在“精度瓶颈”；提出的两步检测则在粗检测的基础上，加入了优化互相关方法，提高了TDOA估计精度。试验结果表明，基于最小二乘定位方法，两步检测算法比粗检测算法定位精度提升了38.72%，详细统计结果列于表3中。由于PDR速度信息的约束，融合算法的平均定位精度相较LS又提高了38.66%，方差降低了35.05%。静态测试中不存在手机与基站的相对位移，因此多普勒效应和异步观测带来的误差修正将在下个试验重点讨论。

表3 静态定位误差统计结果

4.3 动态定位试验

本节试验评估了提出的融合算法的动态定位性能，以及误差补偿与修正算法的有效性。图3(b)中的动态测试轨迹由Leica Nova TS60全站仪实时测量。测试开始后，测试人员以端平手机的姿势，沿着预先设置好的轨迹匀速行走并记录下传感器数据和实时解算的TDOA数据。图5给出了3款手机的定位测试轨迹结果，黑色实心点代表音频定位基站，绿色实线为参考真值轨迹，青色虚线为预先初始化的PDR轨迹。同静态试验一样，图5给出LS(粗检测)、EKF(粗检测)、LS(两步检测)、EKF(两步检测)定位结果。此外还对比了EKF/多普勒补偿(蓝色实线)、EKF/延迟修正(黄色实线)和EKF/延迟修正/多普勒补偿(红色实线)的轨迹。

图5 动态测试轨迹结果Fig.5 Trajectory of dynamic localization

从轨迹结果可以看出，一方面，两步检测数据的定位结果依然在整体上优于粗检测数据，同静态测试结果一致；提出的方法融合了PDR的相对变化信息以及音频TDOA的绝对位置信息，定位轨迹连续，且定位精度明显高于音频TDOA的LS定位结果。另一方面，基于预测状态的多普勒补偿和异步观测延迟修正方法，进一步提高了定位的精度。特别的，当用户的运动方向平行于观测站-参考站连线时，此时多普勒效应引入的误差最大。综合对比而言，补偿算法对动态位置估计性能有明显的提升。此外整体来看，3部手机的融合定位结果差别不大，由此可知音频信号检测算法和融合定位算法对设备的差异性不敏感。3部手机的3组动态定位误差的详细统计结果列于表4。

表4 动态定位误差统计结果

续表4

从整体结果来看，标准EKF的平均定位误差和方差分别为0.709 m和0.688 m2，较LS的平均定位误差和方差(1.026 m、0.133 m2)降低了30.89%和80.67%，由于PDR信息的融入，定位的精度和稳定性都大幅得到了提高。提出的基于状态估计的多普勒效应改正方法和异步观测延迟补偿方法，分别将EKF方法的平均定位误差降低为0.615 m (13.26%)和0.590 m(16.78%)。最终音频TDOA和PDR组合定位的平均定位误差和方差分别为0.513 m和0.104 m2，相比于未做修正补偿的EKF定位性能分别提高了27.64%。表5给出了本节试验总体误差的统计结果。

表5 动态定位

5 结论

本文研究了基于消费级智能手机的音频室内定位技术，提出了一种基于时频分析和优化互相关方法的实时到达时间检测算法，实现了良好的TOA估计；利用PDR和音频TDOA的互补性，研究了的音频TDOA和PDR紧组合定位方案，并给出了基于预测状态的多普勒补偿改正和异步到达时间补偿方法，进一步提升了系统的定位精度。试验结果表明，提出的紧组合定位方案有效地提高了定位精度：静态试验中，取得了0.238 m的平均定位精度，相比最小二乘方法提高了38.66%；动态试验中，提出的基于估计状态的多普勒效应改正方法和异步观测延迟补偿方法，定位精度分别提高了13.26%和16.78%。本文方法最终的平均定位误差和方差分别为0.513 m和0.104 m2，相比于未做修正补偿的标准组合算法定位精度提高了27.64%，测试的3款手机定位性能相当且无明显差异。基于音频信号的室内定位技术，具有成本低、精度高、兼容性好的特点，为基于消费级智能手机的室内定位提供了一种解决思路。