基于时－距包围盒目标截取的超宽带雷达多人步态识别∗

2021-08-28周金海周世镒吴耿俊

传感技术学报 2021年6期

周金海，常阳，周世镒，吴耿俊，雷雯

(浙江大学信息与电子工程学院，浙江杭州 310027)

在环境辅助生活(Ambient Assisted Living，AAL)领域，识别人体身份是AAL系统为特定用户提供针对性服务的基础，而步态特征是识别身份的一种有效手段[1]。相较于摄像头这种传统步态特征捕捉设备，雷达同样可以捕捉步态特征[2]，且具有隐私泄露风险小、不受光照条件限制等优点.在多种体制的雷达中，超宽带(UWB)雷达是工作带宽大于或等于其中心频率20%或瞬时带宽大于500 MHz的一种新型雷达[3]，抗干扰能力强、目标检测能力高，更适合用于捕捉人体目标自由行走时在回波信号的主频率周围产生的额外频率分量[4]，即步态特征。因此，超宽带雷达是家庭场景中较为理想的步态特征采集设备。

目前开展的雷达步态识别研究一般由数据表示与识别算法建模组成，例如Saho K等人使用短时傅里叶变换(short-time Fourier transform，STFT)获取雷达信号的频域表示——时频图(Time-Doppler Maps，TDM)，再计算TDM的速度参数来识别健康的年轻人和老年人[5]；Tivive F H C等人同样利用STFT表示信号，再使用视觉模式分类算法区分自由臂摆动、单臂摆动和无臂摆动三种行走动作[6]。这些方法所采用的数据表示TDM丢失了目标的距离信息。周金海等人提出了基于慢时间分割信号的表示方法，获取一组距离－多普勒图像(Range-Doppler Maps，RDM)来保留目标距离信息，并使用长短期记忆网络(LSTM)进行建模[7]。

上述研究侧重于单目标情况的步态识别，RDM、TDM等数据表示不具备多人情况下分割目标的能力，但在实用场景中人体目标数量不一定唯一，多人步态识别更具实用意义。因此，本研究提出一种基于时－距包围盒(Time-Range Bounding Box，TRBB)的数据表示方法来分割多人，并结合卷积神经网络(Convolutional Neural Networks，CNN)一起实现了一种多人步态识别框架。

框架中，TRBB是从包含多人的UWB雷达信号矩阵中由TRBB截取算法截取出的子矩阵，一个TRBB仅含有一个人体的步行回波。相应的TRBB截取算法包括人体目标检测与快、慢时间分割，前者通过k-means聚类方法获取人体HRRP几何中心，称之为量测，后者利用量测作为参考点，通过截取TRBB目标子矩阵实现多目标分离。可以看出，TRBB蕴含人体的快、慢时间信息，可以用于步态识别，进一步的，因为目标检测是无标签感测跟踪系统中获取观测值的常用手段[8]，而TRBB包含了目标检测结果，所以TRBB还适用于目标跟踪。

截取TRBB后，还需要选择与之适配的算法进行识别建模。考虑到SIFT算法等传统特征分析方法从TRBB提取步态特征的能力有限，而CNN可以接收未经处理的图像作为输入，自动提取特征，因此本研究采用CNN实现识别建模。

1 数据表示

为从雷达回波中提取“感兴趣”的信息，需要特定的数据表示方法。本研究希望从含有多个步行人体的雷达回波中分别提取每个人的步态特征，而STFT、慢时间分割等现有表示方法不能分割目标，因此提出基于TRBB的数据表示方法。

1.1 信号矩阵

检测域中人体、物体的UWB雷达回波组成了信号矩阵，信号矩阵是最原始的数据表示域，下面介绍其原理。

Tsao等人提出的时变超宽带多径信道模型(time-evolving UWB multipath channel model)[9]指出，单站超宽带雷达的接收信号可以表示为:

a i是第i条多径的幅值，p(·)是基本波形，t与τ分别为慢时间、快时间.τi(·)表示路径到达时间(Time of Arrival，TOA)。接收器在对回波进行相参积累后，通过快时间上的高速采样扫描得到一个雷达帧S[n]，S[n]是脉冲UWB雷达回波的基本单元。雷达进行连续扫描，多个S[n]组成一个信号矩阵R，R是一种时距图(Time-Rang Maps，TRM)，每个元素记为R[m，n]，R[m，n]可以表示为:

式中:N代表人体数量，στ是快时间采样间隔。“＋”前的部分表示人体目标在第m帧中第n个距离单元的回波幅值，Δ则表示非人体目标的回波幅值。

1.2 距离像序列

距离像序列(Human Range Profile Sequence，HRPS)是信号矩阵R存储人体步行回波的数据结构，蕴含步态特征，所以HRPS是R中我们“感兴趣”的信息。

人体目标的尺寸远大于雷达距离门Tr，满足多散射点回波模型[10－11]。人体的散射中心在S[n]上产生投影，所有散射中心的投影分布图被称为一维距离像(High Resolution Range Profile，HRRP)[12]。HRRP反应了在当前帧人体目标的回波幅值、快时间信息。然而，行走是一个连续的过程，某一帧的HRRP不足以描述步态特征，需要连续的d个HRRP来描述，理想情况的d为:

Tw T s分别代表人体目标一次迈步的时间与慢时间采样间隔。考虑到人类迈步时间各不相同，T w取人类平均迈步时间，计算得到d′，允许d的取值在d′周围浮动。

综上所述，步行回波存储在d个HRRP组成的二维连通图中:

d称为HRPS的慢时间维跨度，m0为起始帧。不同人体目标的HRPS在快时间维跨度、如式(2)所述的回波幅值等方面差异明显，这些差异就是步态特征的一种反映，CNN等算法可以学习这些差异实现步态识别；进一步地，不同人体目标的HRPS分布在不同的快时间维区间，通过分别抽取这些HRPS就可以解决目标分割问题。

新的问题是，HRPS形状复杂难以直接从R中抽取。该问题有多种成因，如HRRP随人体步行动态变化、路径损耗、随机噪声等。可以观察到HRPS存在以下几何特点:HRPS的轮廓由四条边界rll、rlr、rlt、rlb组成。rll、rlr是平行于快时间轴的线段；rlt、rlb是不规则曲线，如图1所示。

图1 HRPS几何特点

1.3 TRBB

1.2节指出，HRPS形状复杂难以直接抽取，针对这一问题，本研究提出一种基于TRBB的数据表示方法，利用形状简单的矩阵包含HRPS，通过从R中截取此矩阵，实现对HRPS的间接抽取。该方法中以简单代复杂的思想类似于碰撞检测领域中的包围盒[13]，所以将这种矩阵命名为TRBB。

下面以图2中的目标a为例，介绍TRBB与HRPS的几何关系:HRPS边界线:rll、rlr、rlt、rlb；TRBB顶点:Blb、Blt、Brb、Brt。

图2 TRBB原理图

BltBlb与rll重合，BrtBrb与rlr重合，BlbBrb长度为d；BltBrt沿快时间减小方向逼近rlt，BlbBrb沿快时间增大方向逼近rlb，尽量使TRBB紧密地包含HRPS，从而降低与目标b的TRBB碰撞的概率、提高HRPS在TRBB的面积占比。

可以看出，TRBB能紧密地包含HRPS，而HRPS蕴含步态特征，所以TRBB可用于步态识别；进一步地，通过分别截取人体目标a、b的TRBB，可以实现目标分离，如图2所示，TRBB截取算法的具体实现将在第2节介绍。

下面比较基于TRBB的表示方法与现有方法。慢时间分割是文献[7]提出的数据表示方法，解决了STFT方法丢失目标快时间信息的问题。该方法沿着慢时间轴对R进行分割，对于每个子信号，在距离单元上分别计算快速傅里叶变换(Fourier Transform，FFT)得到RDM。本研究提出的TRBB是R的子矩阵，是一种TRM，与RDM、TDM等频域表示相比，具有以下优点:①上述频域表示缺乏对多目标分割的讨论，实际上，由于频域变换存在频谱泄露问题，各目标的界线较为模糊，也是不易分割的。在R中，各目标HRPS界线明显，易于使用TRBB包含，实现目标分离；②在R上直接表示时间、距离信息是本研究选用的雷达的优点之一，FFT抑或韦格纳分布(Wigner-Ville Distibution，WVD)、快速傅里叶变换(Short Time Fourier Transform，STFT)等频域变换方法需要压缩R的快时间维、慢时间维之一，反而限制了数据表示的特征表达能力。HRPS则不会损失目标的慢时间或快时间信息。

2 多人步态识别框架

本研究提出的识别框架由两部分组成，如图3所示，第一部分使用TRBB截取算法表示数据，第二部分使用卷积神经网络(Convolutional Neural Networks，CNN)进行建模。

图3 多人步态识别框架

2.1 TRBB截取算法

2.1.1 算法原理

本算法截取出信号矩阵R中所有TRBB目标子矩阵，下面以求解其中一个TRBB为例，介绍本算法原理。

截取TRBB，就是沿快、慢时间轴分割信号矩阵R，使得分割线包围的子矩阵能够包含HRPS，如1.3节所述。分割线交点即为TRBB顶点Blb、Blt、Brb、Brt。

首先沿慢时间轴分割，即选取HRPS的起始帧m0与慢时间维跨度d。实际上，只要人体目标维持行走，慢时间任意一帧都可以作为m0，且1.2节阐述了d是允许浮动的，因此沿慢时间轴的分割并不需要严格的限制，算法可以任意选取m0与符合1.2节所述条件的d。

然后沿快时间轴分割，即确定Blb、Blt、Brb、B r的坐标。为了使TRBB满足紧密性，理想情况下的BltBrt与BlbBrb应该分别为rlt、rlb的平行于慢时间轴的切线，然而1.2中已经描述了rlt、rlb是不规则、难以获取的，因此，本算法用以下参数推理Blb、Blt、Brb、Brt.:始末帧HRRP的几何中心c l、c r，HRRP最大宽度w(构成HRPS的d个HRRP中，必然存在一个宽度最大的HRRP，w即为它的宽度)。推理方法为:以cl、cr为参照点，分别沿快时间增大、减小方向移动个距离单元，如图4所示。

图4 推理TRBB顶点

使用cl、cr、w推理的TRBB是满足紧密性的，理由如下:由于人体位置在一次迈步的时间内不会突变，可以近似认为d个HRRP的几何中心的快时间坐标都在c l、c r确定的快时间维区间内；在推理过程中，如果移动的距离单元小于，则可能存在无法被TRBB完全包含的HRRP，破坏紧密性。

由上述结论推得，TRBB截取可以转化为两个关键问题:①获取cl cr；②估计w。

目标检测常被用于解决雷达的目标位置获取问题，适合用于解决问题1。同时，目标检测还能帮助本算法解决目标分割问题。需要提到，“量测”通常是指在每个雷达帧上采用目标检测选取的可能存在目标的距离单元，不具有慢时间信息，本文则用“量测”指代具有慢时间、快时间坐标的目标检测结果。

对于问题2，由于w依赖于距离门T r与人体各散射中心与雷达的相对距离，而后者是难以获取的，因此采用经验值设置w。

综上所述，TRBB截取算法流程为:第一步，人体目标检测:获取各人体目标在始末帧的量测；第二步，快、慢时间分割:利用量测作为参考点，结合w推理Blb、Blt、Brb、Brt。

2.1.2 人体目标检测

传统目标检测通过相似性度量，将人体目标退化成点目标。例如CLEAN算法通过互相关和阈值对比搜索最大值[14－15]，量测偏向与波形模板相似性最高的散射点而非HRRP的几何中心。

本研究提出一种基于k-means聚类的人体目标检测算法，k-means[16]是一种经典聚类算法，在雷达领域已有一些应用[17－18]，其具体实现不再赘述。在本研究中，k-means基于人体目标信号分布划分簇，因此簇的质点更接近于HRRP的几何中心，步骤如下。

预处理在脉冲雷达中，常用MTI(Moving target indication，MTI)方法，即

帧间差分滤除杂波，仅保留运动目标的信息[19]，此举可以消除R中桌椅、墙壁等静目标的回波。

降低畸变程度待分类簇的畸变程度越低，代表簇内成员越紧密，聚类效果越好。本研究采用图5所示的操作降低畸变程度，获取边界平滑的连通图R c。

图5 降低畸变程度

每步操作解释如下:

①灰度拉伸是图像增强的一种，它把分离的灰度集中化:

式中:g表示灰度，m表示截止门限。

②自适应阈值二值化:滤除残留的白噪声，获取标准化二值图像。

③形态学处理:在人体目标行走接近雷达覆盖域远端时，可能会出现像素点稀疏的现象，该现象可以用无线电路径损耗与多普勒效应解释:无线电波在自由空间传播时，其信号功率会随着传播距离的增加而减小；人体目标反射波频率f′可用以下公式计算:

式中:f是雷达波的发射频率，V是行走人体的径向速度分量，v是光速。在人体行走接近远端时，会降低速度，改变方向并重新加速，此时人体多普勒效应不明显，易出现回波损失.稀疏像素点之间的空洞可以通过闭操作补齐。闭操作由形态学的腐蚀、膨胀实现:

分割子图沿慢时间分割R c为一系列子图设置间隔为d′，这样慢时间维跨度d将在其周围浮动，符合1.2节的描述。

k-means聚类设置K值为雷达检测域中的目标数量N，N可以人工设置，或使用elbow算法获取。用k-means获取内各个簇的质心其中，代表中，距离雷达第j远的目标的量测，分别代表慢、快时间坐标。

2.1.3 快慢时间分割

遮掩状态判别多目标同时出现在检测域内可能出现临近目标遮掩现象[20]，假设有两人体目标发生遮掩，则HRPS出现重叠，截取TRBB也无法实现目标分离。

在雷达步态识别领域，遮掩问题可以解决.由于身份不会突变，假设时间段t m发生遮掩，t m与临近时间段t m－1内的目标身份是一致的。综合考虑，本方法只生成未处于遮掩状态目标的TRBB.内，当满足:

则该量测处于未遮挡状态.一般来说设置w′→w。

数据关联随着目标在检测域自由行走，不同子图内第j远的目标可能会发生改变，因此要考虑量测分配问题，即数据关联问。本研究采用一维观测系统，且着重关心未发生遮掩时的数据关联，因此并不需要使用联合概率数据互联算法(Joint Probabilistic Data Association，JPDA)、多假设跟踪算法(Multiple-Hypothesis Tracking，MHT)等传统关联方法，只需执行下述逻辑判断。

①单目标情况:K为1，仅产生一个量测属于同一个目标。

②多目标情况:K为3或更多的推理逻辑可由K为2的情况推理，因此本节介绍检测域中存在目标a、b时，如何关联数据:当由与产生的量测不满足式(9)，两者之间x张子图的量测均满足式(9)，则这x张子图拥有同一上标j的量测属于同一目标.数学表达式如下:

Tracea表示目标a的轨迹，Traceb表示目标b的轨迹。

将四个顶点确定的子矩阵从信号矩阵中截取出，该子矩阵即为单个TRBB。接下来，截取算法对下一组量测执行“快慢时间分割”，直至截取出信号矩阵中所有TRBB。双目标情况的TRBB截取如图6所示。

图6 双目标情况的TRBB截取

2.2 识别算法建模

在雷达目标识别领域，机器学习正受研究者们关注，一些常见算法，如支持向量机(SVM)[21]、LSTM[7]等被广泛应用。

卷积神经网络是一种类似于人工神经网络的多层感知器，常用来分析视觉图像[22－23]。TRBB是源于信号矩阵的表示，SIFT算法等传统信号分析方法难以提取TRBB包含的步态特征。CNN可以接收未经处理的图像作为输入，避免了复杂的特征提取和数据重建的过程，在二维图像的处理过程中有很大的优势。CNN在基于TRBB截取的步态识别算法建模中可以发挥上述优势。

CNN基本单元由卷积(convolution)、激活(activation)、池化(pooling)三种结构组成。CNN所用的卷积是一种2-D卷积，kernel在x，y上滑动位移，实质是二维空间滤波:

卷积之后，通常会添加非线性激活函数(activation function)以向网络引入非线性表达，激活函数如下:

池化(pooling)，是一种降采样操作，主要目标是降低feature maps的特征空间，因为参数过多不利于高层特征的抽取。CNN模型的分类器一般为全连接网络(fully connected network):

全连接网络末端一般采用softmax函数将结果分为L类，在本研究中，L代表身份信息库中包含的人数。利用CNN对TRBB训练与分类的过程如图7所示。

图7 TRBB输入卷积神经网络

在容量较为有限的数据集上，适合利用卷积、池化等CNN基本单元定制模型结构，通过实验对比多种模型结构来获取较优的模型。实验对比过程将在第3章介绍。

3 实验

3.1 数据采集

实验在空旷的实验室内进行，环境如图8(a)所示，使用挪威Novelda公司生产的Xethru X4M03脉冲超宽带雷达模块进行数据采集。该雷达是一种单发单收雷达，发射中心频率为7.25 GHz左右，带宽为1.5 GHz的脉冲波。雷达安装高度为1.40 m，位置布局如图8(b)所示。由于该雷达的－3 dB波束宽度为130°，因此覆盖域为图8(b)中的深色区域。出于对典型行走动作的多普勒频率和采样定理考虑，帧率设置为250 frame/s。

图8 实验环境与雷达位置布局

实验使用的身份信息库包含3名志愿者的步态信息。考虑到本算法研究面向实际应用，实验没有刻意挑选外形差异明显的志愿者，也没有对志愿者穿着服饰进行严格限制，如表1所示。为验证本框架在多人情况的目标分割与识别性能，实验对象是多个志愿者组成的目标组，如表2所示。

表1 志愿者物理特征

表2 目标组

每次雷达扫描时，有一目标组在雷达覆盖域中自由行走，记录时长为6 s的信号矩阵。

3.2 实验结果

3.2.1 TRBB截取结果

本节介绍了TRBB截取算法的运行结果。2.1节介绍了算法中的参数w与w′需取经验值，针对本实验室场景下采集的信号矩阵，设置w为150，w′为125。

4组目标组典型的TRBB截取结果如图9所示。

图9 TRBB截取结果

从图9可以看出，在双人情况下(目标组A、B、C)和三人情况下(目标组D)，TRBB截取算法均能有效分割目标。同理，本算法可以推广到更多目标。

进一步可以看出，与三人情况相比，双人情况不易发生遮掩、能截取更多TRBB，考虑到后续CNN建模依赖于一定容量的数据集，选择双人情况构建数据集。对目标组A、B、C各记录150个6 s的信号矩阵，共截取3125个TRBB样本。

3.2.2 识别算法建模结果

本文在1.3节中指出了在时间－距离域表示数据的TRBB与传统频域表示相比具有两种优点。3.2.1 节的实验结果已经体现了其优点1，本节对优点2进行证明，同时得到本研究提出的多人步态识别框架的识别性能。

文献[7]提出的慢时间分割＋LSTM算法是近年提出的基于频域表示的步态识别算法中具有代表性的一种，本研究选择该算法与上述识别框架进行对比，以指出频域表示可能丢失特征、对识别性能产生反效果的问题。

问题在于，文献[7]算法是一种单人识别算法，不具备多人情况下的运行能力，为了完成对比实验，本研究将文献[7]原算法与TRBB相结合，得到一种TRBB＋慢时间分割＋LSTM的算法，具体步骤为:先使用TRBB截取算法分割目标，再使用慢时间分割方法计算TRBB的RDM序列，提取HOG特征，使用LSTM进行时序建模。由此一来，文献[7]算法同样具有了在多人情况下的运行能力，可以进行对比实验。

值得一提的是，上述步骤体现出TRBB的另一优点——可扩展性。具体来说，因为TRBB是信号矩阵的子矩阵，所以TRBB兼容绝大部分以信号矩阵为输入的方法，例如慢时间分割、STFT。这种性质决定了，在未来研究中，即使有效果更佳的数据表示方法被提出，TRBB截取算法依然不会被淘汰，它可以帮助新方法完成目标分割预处理。

下面对两种建模实验结果进行分析。对3.2.1节截取的3125个TRBB样本，使用5折交叉验证获取较优的CNN模型，TRBB尺寸调整为100×100输入模型进行训练，5次迭代得到的平均性能作为评价指标。设置优化器为Adam，训练时期(epoch)为250，学习率(Learning Rate，LR)为1×10－3，CNN模型参数配置及其性能如表3所示。

表3 CNN模型性能对比结果单位:%

可以看出较优模型参数的评估准确率为89.3%，F1-score为0.89。因此，本研究所用CNN模型包含3层卷积层，每层分别有4、8、16个3×3的卷积核，每个卷积层连接一个2×2的最大池化层。输出层采用softmax函数将结果分为3类。

交叉验证法同样被用于获取较优的LSTM模型，得到的模型包括64个隐藏神经元、层数为2。CNN模型与LSTM模型的性能对比结果如表4，5，6所示。如果未经特别注明，表格内每格的正斜杠前的结果属于TRBB＋CNN，正斜杠后的结果属于TRBB＋慢时间分割＋LSTM。

表4 识别准确率单位:%

表5 精确率、召回率、F1-score 单位:%

表6 混淆矩阵单位:%

可以看出，基于CNN的模型的各项指标大部分高于基于LSTM的模型。该结果表明，即便慢时间分割方法尽量保留了TRBB的距离、频率特征，但依然存在频谱泄露、栅栏损失等问题导致特征丢失，降低了LSTM模型的识别性能。

进一步观察实验结果，还可以发现基于CNN的模型对目标a、c有较为理想的识别效果，目标b的F1-score、召回率较低。为寻找原因，本研究对误判样本进行溯源，发现这种误判主要出现在目标b接近雷达覆盖域远端进行转身时。人体在转身时会速度放缓、改变方向并重新加速，又因为无线电衰减现象的存在，两者共同作用使得目标b的TRBB被CNN误判为步行节奏较为缓慢的目标c，导致目标b的召回率下降、目标c精确率下降。目标a未出现这种现象，是因为其步行速度较快、动作幅度较大，在远端转身时依然维持了较高的区分度。

虽然基于LSTM的模型总体上性能较低，但目标b转身误判问题略有缓解。一种可能的原因是，慢时间分割方法对分割出的每一个RDM都执行了独立的归一化操作，使得RDM序列对步行信号频率的突变较为敏感。这证明慢时间分割的思想在转身等特殊行走状态下有可取之处，但对于一般的人体行走状态来说TRBB＋CNN框架识别效果较优。

总得来说，本研究提出的多人步态识别框架可以有效分割目标并进行识别，准确率可达89.3%。本方法具有很大应用潜力。

4 结语

本研究提出了一种基于TRBB截取与CNN的UWB雷达多人步态识别算法框架。框架中，TRBB是本研究独创的数据表示，与RDM、TDM等传统表示相比，TRBB不仅解决了多人情况的目标分割问题，而且避免了目标快、慢时间信息的损失。为了从雷达信号矩阵中自动截取TRBB，本研究提出了TRBB截取算法，该算法包含人体目标检测与快、慢时间分割，前者使用k-means聚类检测目标，较于CLEAN等传统方法，所得量测更加贴近人体HRRP的几何中心；后者则利用量测推导所述TRBB。可以看出，TRBB截取算法不仅能应用于步态识别，而且能应用于目标跟踪。框架采用CNN挖掘TRBB所含步态特征，识别目标身份，在实验中，上述框架的识别准确率达到了89.3%。本研究推进了超宽带雷达在智能照护领域的实用化进程。

未来的研究一是探索在多雷达阵列、多覆盖域布局下的高维TRBB表达，将本算法由步态识别单一应用场景推广到包含动作识别、身份识别和目标跟踪等多种应用的复合场景。二是深入分析TRBB的数据结构，设计更为匹配TRBB的CNN网络，从而获取具备更高实时性与准确性的步态识别模型。