基于RDATM数据集的毫米波雷达动态手势识别系统设计

2022-07-12张宇成陈金立

中国电子科学研究院学报 2022年5期

张宇成, 陈金立

(南京信息工程大学，江苏南京 210044)

0 引言

自古以来，手势就一直是人们生活中一种重要的沟通途径，通过手势这种利用手部关节在特定位置做出特定动作的方式，人们就可以相互交流理解，传达想法[1]。近年来，随着人机交互技术的发展，动态手势识别技术也正逐渐成为国内外研究的热点之一[2-3]。动态手势识别技术将人与人之间特有的手势沟通方式转嫁到人与机器之间，让人和机器间的交互化繁为简，仅用手部动作就可以控制设备，大大提高了人机信息交互的有效性和安全性。

传统的动态手势识别技术可分为两大类：接触式和非接触式。接触式的手势识别技术利用可穿戴设备检测手部动作并收集手势信息[4]，该种设备通常配备有大量传感器，使用时极其不方便。而传统非接触式手势识别技术通常是利用摄像头采集并处理图像，从而对动态手势进行判别。该手势识别方法无需过多复杂的穿戴操作，但受光照强度的影响较大，在强光干扰或亮度较低的环境中可能会无法正常工作，而且还存在用户隐私泄漏的隐患。基于这些缺陷，可采用调频连续波(Frequency Modulated Continuous Wave，FMCW)毫米波雷达来进行动态手势识别的研究工作。文献[5]通过 60 GHz FMCW 雷达收集了10种手势的信号数据，利用长短期记忆网络(Long Short-Term Memory，LSTM)网络模型实现手势识别。文献[6]利用77 GHz毫米波雷达构建了一种新型驾驶员动态手势辅助识别系统，将雷达手势微多普勒信号送入卷积神经网络后分类，运用动态手势对车内仪表盘进行远程控制。在美国谷歌公司与德国英飞凌公司合作的Soil项目中[7]，研究人员提取毫米波雷达手势回波信号中的距离、多普勒信息构建距离-多普勒图数据集，送入联合神经网络对手势进行特征提取和分类。文献[8]对从LFMCW雷达获取的手势信号进行快速傅里叶变换和相干累积后得到RD谱图并构建数据集，输入卷积神经网络进行手势分类。文献[9]利用FMCW雷达获取原始手势回波信号，分别从二维距离图和距离-多普勒图中提取距离-时间谱和多普勒-时间谱，并建立数据集，最后构建双通道卷积神经网络训练手势数据集。提取手势的维度信息越全面，对手势特征的描述就更充分。而文献[6]仅提取了手势信号的多普勒信息，文献[7-9]仅提取了手势的距离和速度信息，都缺少对手势角度信息的描述，且对手势分类准确率都需要进一步提高。

针对现有毫米波雷达手势识别研究中手势信息提取不充分的问题，本文提出一种基于RDATM三维数据集的手势识别方法。该方法首先对手势回波信号进行预处理，提取动态手势目标；然后，通过对回波信号的时频分析构建距离-时间图(Range-Time-Map，RTM)，多普勒-时间图(Doppler-Time-Map，DTM)和角度-时间图(Angle-Time-Map，ATM)；接着，将RTM、DTM和ATM作为图像R、G、B三颜色通道构造RDATM图并建立手势RDATM数据集，该数据集从手势距离、速度和角度三个维度充分描述了手势特征；最后，对VGG16网络的超参数改进后得到单分支卷积神经网络，并对手势数据集进行特征提取和分类。实验结果表明，利用RDATM数据集对手势的分类准确率高于RTM、DTM和ATM数据集，多维度数据集相较于单维度数据集对手势特征的描述更充分。

1 毫米波雷达原理

1.1 毫米波雷达信号模型

毫米波雷达的组成通常包括发射天线(RX)、接收天线(TX)、射频信号模块、混频器和模数转换器(ADC)等。射频模块产生连续调频信号，倍频后通过发射天线射出,发射信号遇到遮挡物体后反射被接收天线捕捉,将接收信号与发射信号进行混频后得到中频信号,最终对获取的中频信号进行模数转换和后续信号处理。毫米波雷达发射信号可表示为

(1)

式中：AT为发射信号幅值；fc为调频信号起始频率；B为调频信号带宽；Tc为调频信号周期。雷达接收信号为

(2)

式中：AR为接收回波信号幅值；td为调频信号从发射到接收的时延；Δfd为多普勒频移值。接收信号和发射信号混频后的中频信号为

(3)

对毫米波雷达中频信号进行时频分析可估计手势距离、速度和角度值。毫米波雷达的系统架构以及信号模型如图1所示。

图1 毫米波雷达架构与信号模型图

1.2 FMCW测距、测速、测角原理

FMCW雷达利用信号飞行速度以及信号传播时延间的关系测算目标距离，为

(4)

其中，

(5)

式中：R为雷达与目标间的距离；c为光速；fB为中频信号频率。

将式(5)带入式(4)中得到毫米波雷达距离测算公式为

(6)

式中：fB可通过对中频信号进行1DFFT和频谱分析获得。

FMCW雷达对速度的估计则需要借助回波信号中多个扫频脉冲(chirp)的信息，单个chirp进行1DFFT后可估计距离值，而在同一距离的不同chirp间具有不同的相位，根据这些相位信息可进行速度估计：

(7)

其中，

Δω=2πΔfdTc

式中：Δω为chirp间的相位差；λ是信号波长。

毫米波雷达角度参数可由多个接收天线的回波信号相位差和信号入射角之间的关系所得到。

(8)

式中：θ是需要获取的角度信息；ΔΦ是不同接收天线的回波信号相位差；L是同一水平面接收天线间的距离。

2 系统设计

毫米波雷达手势识别系统，主要包括动态手势检测、数据集建立和手势分类这三个部分。动态手势检测部分用于探测雷达感知环境中的移动手势目标；数据集建立部分根据检测的手势目标建立包含距离、速度、角度信息的三维数据集；手势分类部分利用基于VGG16网络改进的单分支卷积神经网络对手势数据集进行特征提取和分类。

2.1 雷达信号动态手势检测

为达到动态手势检测的目的，需要从三个方面对实验手势动作进行约束：1)雷达探测环境中仅出现一种动态手势动作，即移动目标仅有一个，但静止目标可以有多个；2)检测到的移动目标即是手势目标；3)手势活动范围在雷达前方0 m～1 m内。

雷达信号动态手势检测分为数据预处理、目标检测和手势目标检测三个部分，流程示意图如图2所示。

图2 雷达信号动态手势检测流程图

2.1.1数据预处理

将手势样本的原始一维回波数据先按通道数(本实验通道数为4)、帧数Nf、扫频脉冲数Nc、ADC采样点数Ns排列[10]，如图3所示。然后将4个通道的手势回波数据取平均，最后通过均值归一化和背景帧差法分别抑制回波信号中的直流量和背景噪声。

图3 一维手势回波数据预处理

2.1.2目标检测

经过回波数据预处理后会得到Nf个(帧)Ns×Nc大小的矩阵，对每个矩阵在快时间维做FFT(1DFFT)后得到距离维矩阵。设第t(1≤t≤Nf)帧距离维矩阵中第j(1≤j≤Nc)列距离谱的第i(1≤i≤Ns)个频点数据为p(t,j,i)，则距离谱可用向量为

pt,j=[p(t,j,1),p(t,j,2),…,p(t,j,Ns)]T

(9)

分别取出每帧距离维矩阵最后一列距离谱，拼接获得大小为Ns×Nf的帧-距离谱矩阵，矩阵每列包含一帧手势数据的距离信息。帧-距离谱矩阵可表示为

(10)

利用CA-CFAR算法检测帧-距离谱矩阵中每列距离谱中是否有目标。若有目标的列数大于设定阈值，则认为雷达前方出现目标。该目标可能仅是静止的物体，也可能是移动手势。若雷达探测范围内没有任何目标，则无需建立该样本数据的特征图谱。

2.1.3手势目标检测

手势目标检测的目的是判断前一步检测中目标的类别是静止物体还是移动手势，该检测包含距离维动态手势检测和速度维动态手势检测两部分。

距离维动态手势检测通过手势距离信息检测手势目标。在目标检测中，利用CA-CFAR算法还可得到帧-距离谱矩阵中每列距离谱的目标数，通过比较获取目标数最小值Ntmin，将帧-距离谱矩阵中目标数不为Ntmin的列(帧)去除，这些列的距离谱受噪声干扰较大，实际没有目标的频点被误认为目标频点，影响手势目标的判断。然后根据矩阵保留列(帧)中距离谱的目标距离信息判断目标类别，若在同一个距离处始终存在目标，则该目标为静止目标，否则为手势目标。

实验中手势距离分辨率为3.75 cm，距离维手势目标检测仅能甄别移动距离范围超过3.75 cm的手势动作，而移动幅度小于3.75 cm的手势需要进一步进行速度维动态手势检测。对每帧距离维矩阵在慢时间方向做FFT(2DFFT)得到距离-多普勒(Range-Doppler-Map，RDM)矩阵。提取距离-多普勒矩阵中对应目标距离处的多普勒谱，对多普勒谱进行谱峰搜索后获取本帧手势速度信息。若每帧手势速度值始终不为0，则检测到手势目标。

2.2 数据集建立

2.2.1RTM数据集

本文通过帧-脉冲选取的方式构建RTM。该方法通过选取每帧距离维矩阵中估计信噪比最小的距离谱，并依次拼接得到RTM。以一帧数据为例，首先利用多扫频相干累计法[11]对距离维矩阵进行噪声抑制，并合并矩阵每列距离谱中相邻距离处的手势目标频点。第t帧距离维矩阵中第j列距离谱的估计信噪比为

(11)

式中：p(t,j,g)为手势目标频点。在每帧距离谱矩阵中，搜寻使SNRt,j最大的一列距离谱来构建RTM矩阵。对RTM矩阵每列数据进行归一化后得到原始RTM灰度图。然后将原始RTM灰度图中的非手势目标像素灰度值置0，从而去除非手势目标，突出手势目标的距离变化。最后为令手势距离变化曲线更加平滑，对图像中的曲线进行曲线拟合得到RTM图。上述过程如图4所示。

图4 RTM构建过程

2.2.2DTM数据集

首先，对每帧距离-多普勒矩阵同样利用多扫频相干累计法进行噪声抑制，并根据RTM图中的手势距离变化信息，提取每帧距离-多普勒矩阵中手势距离单元处的多普勒谱向量；然后，对其转置并按帧拼接后得到DTM矩阵；最后，重复RTM图构建中归一化、非手势目标去除等处理步骤得到DTM灰度图，DTM图反映了观测时长内手势速度的变化。

2.2.3ATM数据集

将同一帧雷达数据下4个通道的距离-多普勒矩阵在深度方向拼接，并为其补上大小一致但数值全为0的矩阵[11]。根据本帧手势的距离值和速度值在对应深度处取出一向量，对该向量做FFT处理后转置得到角度谱，将多帧角度谱向量依次拼接获取ATM矩阵，如图5所示。重复RTM、DTM矩阵的后续处理得到ATM图。

图5 ATM构建示意图

2.2.4RDATM

将RTM，DTM和ATM作为图像R、G、B三颜色通道拼接构造手势RDATM图。本文选取的手势动作有前推、后拉、后拉前推、下压、上提、上提下压6种。各手势RTM，DTM，ATM图尺寸为64×64×1，RDATM为64×64×3。经前文所述处理，最终得到所有手势特征图，如图6所示。

图6 手势特征图

2.3 单分支卷积神经网络设计

为对手势动作进行分类，本文利用卷积神经网络对手势特征图进行特征提取。实验挑选了6位志愿者，对每位志愿者分别采集100份手势样本数据，共计600份。并按前文方法为每类手势构建RTM、DTM、ATM和RDATM数据集，4类数据集特征图总数达2 400个。

综合考虑数据集特征和训练速度等因素，本文对VGG16网络[12]进行改进得到单分支卷积神经网络，通过该网络对数据集进行训练和验证。VGG16网络有13层卷积层和3层全连接层，在本文中，保留原网络的第1、3、5、6和8～10层的卷积层，仅保留1层全连接层并对所有选取层的神经元数量做出调整。卷积核的行列尺寸和原网络保持一致。

本文设计的基于VGG16网络构建的单分支卷积神经网络结构如表1所示，表中当Input层输入为RTM，DTM，ATM时，深度数为1，当输入为RDATM时，深度数为3。

表1 单分支卷积神经网络结构

3 实验结果

3.1 实验环境

本实验FMCW雷达选用TI公司的IWR 1443-BOOST开发板和DCA1000数据采集卡。该毫米波雷达调频范围为77 GHz～81 GHz，最大理论调频带宽可达4 GHz，实测最大带宽为3 999.78 MHz，具有2个发射天线和4个接收天线。雷达调频信号的起始频率设定为77 GHz，其余雷达参数设定如表2所示。采用MATLAB 2021b对算法进行仿真。通过配置为AMD R7 5800H CPU和NVIDIA RTX 3060 显卡的PC机进行网络训练和测试验证。

表2 FMCW雷达参数

3.2 单分支卷积神经网络验证

在单分支卷积神经网络验证中，将各类数据集的60%作为训练集，40%作为测试集。网络训练过程中利用带动量的随机梯度下降算法(Stochastic Gradient Descent Momentum，SGDM)进行优化。训练轮数为50，每次迭代的样本Batch size为128。初始网络学习率设定为0.001，学习率更新方法采用固定步长衰减，每经过5轮训练学习率衰减0.1。图7给出了在该网络中个类测试集的准确率随迭代步数变化的曲线。

图7 各类数据集准确率变化曲线

由图7可知，4类数据集中RDATM数据集的最终准确率最高，RTM和ATM次之，且这三者的测试集准确率均在95%以上，而DTM数据集准确率最低，在85%～90%之间。导致这种差异的原因是：实验中在采集各手势样本时，志愿者手部的移动速度通常固定，导致手势样本间描述手势速度信息的DTM图特征区分不明显，分类准确率低。而各手势动作的距离、角度变化幅度较大，因此在RTM和DTM数据集中能较好的区分不同类型的手势，获得更高的分类准确率。RDATM数据集融合了手势距离、速度和角度信息，从三个维度充分描述了手势动作特征，拥有最高的分类准确率。

3.3 算法对比与分析

为更好地验证本文改进的卷积神经网络，实验中也将各类数据集在原VGG16网络中进行了训练和测试。VGG16模型中的优化算法、训练轮数、学习率等网络参数设定均与前文单分支卷积神经网络验证部分一致。两种网络的准确率对比曲线图如图8所示。

图8 不同网络下准确率对比图

由图8可知，本文设计的网络在RDATM数据集和DTM数据集上的准确率均高于原VGG16网络。表3中给出了更具体的网络模型对比结果。由表3可知，相较于VGG16网络，本文网络对各数据集的分类准确率均有提升，提升幅度在0.18%～1.67%内不等，而且在训练参数量、时间复杂度和训练时长等方面均优于原VGG16网络。

表3 网络模型对比表

4 结语

本文提出了一种基于RDATM数据集的毫米波雷达手势识别方法。该方法首先利用雷达回波信号进行动态手势检测；然后，通过频谱信号分析构建手势RTM，DTM，ATM灰度图；最后，联合3类特征图构建RDATM数据集，送入基于VGG16改进的单分支卷积神经网络对手势进行分类。实验结果表明，利用RDATM数据集对6种手势的平均分类准确率可高达99.17%，且本文改进网络在训练参数量、时间复杂度等方面优于原VGG16网络。