基于涡旋电磁波雷达回波时频图像的动态手势识别
2022-09-16孙梦轩杨志晓郑戍华
王 硕,孙梦轩,杨志晓,王 辉,郑戍华
(1.河南牧业经济学院能源与智能工程学院,郑州 450044;2.英国杜伦大学,英国 DH1 3LE;3.北京理工大学自动化学院,北京 100081)
0 引言
动态手势包含一系列的手部动作,拥有更丰富的指令信息,是人机交互领域研究的热点问题之一。现有的基于计算机视觉的手势识别技术,受光线影响较大,并存在隐私泄露的安全问题。而基于雷达的手势识别技术有着全天时、全天候的优势,可在恶劣天气状况下正常工作,并且利用雷达信号进行手势识别可有效保护用户隐私。现有基于雷达的手势识别技术,往往针对雷达回波中的多普勒效应进行分析,将时频特征输入到深度学习模型中,从而获得分类结果。Kim 等通过对载频为24 GHz 的雷达回波进行分析,并将深度学习模型作为分类器,实现了对3 种目标手势的识别,其识别准确率达到99%。Choi 等利用60 GHz 的调频连续波雷达,获取了10 种动态手势的回波数据,并将长短期记忆网络作为分类器,获得了99.10%的识别准确率。上述动态手势识别方法均针对时频特性有着显著差别的目标(如左划、右划、顺时针旋转、逆时针旋转等)。例如,当手部位于偏离雷达视线中心时,手指左划和右划分别会在起始和结束段造成较大的多普勒频移,其出现时间可作为特征识别目标。但考虑手指往4 个方向划动时,手指上划和右划所产生的多普勒效应相近,现有方法难以准确识别目标。
传统电磁波仅能反映目标到雷达径向上的投影,难以为识别提供更丰富的信息。与传统电磁波不同,涡旋电磁波携带有轨道角动量,其波前相位呈螺旋形。当目标在三维空间中运动,涡旋电磁回波中蕴含线多普勒效应和角多普勒效应。线多普勒效应与传统平面波中的多普勒效应一致,反映目标投影到径向上的运动信息,角多普勒效应反映目标投影到垂直于径向的平面上的运动信息。通过结合线多普勒和角多普勒,可获得更丰富的目标信息,提高识别准确率。已有学者将涡旋电磁波引入人体步态精细识别中,通过发射单频涡旋电磁波,将回波时频图像作为特征输入到深度学习模型中,取得了较好的识别效果。但基于涡旋电磁波雷达的动态手势识别技术较少,仍处于发展阶段。本文构建了包括8 种动态手势的涡旋电磁回波仿真数据集,分析了不同手势之间的差异;再利用时频变换对回波进行处理,获得目标时频图像;将时频图像的幅度值作为特征,输入到轻量级卷积神经网络模型中,获得分类结果。仿真结果表明,涡旋电磁回波中含有更丰富的目标信息,利用该信息可有效提高识别效能。
1 涡旋电磁波雷达回波数据集
随着涡旋电磁波研究的不断深入,学者提出了多种涡旋电磁波产生方法(如阶梯相位法、均匀圆环阵法、超材料介质等)。由于均匀圆环阵法有着模态数可调、装置构成简单等优点,本文选用涡旋电磁波作为涡旋电磁波产生装置。
1.1 涡旋电磁波雷达
图1 涡旋电磁波产生装置
球坐标为
式中,T 为转置操作,点目标P的涡旋电磁回波为
线多普勒的大小主要由雷达载频、运动矢量决定。角多普勒效应为
角多普勒主要由模态数、起始位置、速度矢量决定。涡旋电磁回波中的线多普勒效应与传统电磁波中的多普勒效应一致,通过分析线多普勒,可获取与传统电磁波相同的信息量。由于涡旋电磁回波中额外含有角多普勒效应,可以反映目标在垂直于雷达径向方向的运动信息,所以综合利用线多普勒和角多普勒信息,更全面地反映目标运动特征,从而提高识别效能。
1.2 动态手势数据集生成
由于现有动态手势识别数据集均基于传统平面波,尚无公开的涡旋电磁回波动态手势数据集,所以在本节中,参照文献[15],利用骨骼模型近似代替手部模型,生成数据集。人手模型如图2 所示,图2(a)为标准的手部模型。图2(b)为手部骨骼模型,每个数字代表骨骼节点。根据手部骨骼长度比例,设置多个等散射系数的散射点模拟手部。每根手指骨骼由18 个散射点组成,根据长度比例,将散射点均匀分布在手指骨骼上。除大拇指外,每根手指的前部可自由运动,后端(1-5、1-9、1-13、1-17)为手掌部分,与根节点1 保持相对静止。大拇指全段可自由运动,但后端(1-2)的运动范围较小。
图2 人手模型[15]
在此基础上,模拟8 种常见的动态手势(食指双击、食指单击、食指上划、食指下划、食指左划、食指右划、食指顺时针绕圈、食指逆时针绕圈),其运动过程如图3 所示。图3 中,手部的手势为食指和拇指自然延伸,其余手指紧握。双击为手部主体静止,食指以一定幅度上下摆动2 次;划动同样为手部主体静止,食指以一定幅度向特定方向划动;绕圈为手部整体,沿着某个方向运动。不同的动态手势会在时频域中的不同时刻,形成差异化的波形,该差异可作为识别的重要特征,通过利用该特征可有效识别目标。通过调整手指长度、手指运动幅度、绕圈半径、手部位置等信息,模拟不同人的手部动作,可获得涡旋电磁回波动态手势数据集。
图3 动态手势
2 深度学习模型
图4 轻量级卷积神经网络
S的值越接近1,代表第j 个目标为真的可能性越大。该层输出的向量长度代表目标类别数,若为向量长度为1×8,则可对8 类目标进行预测。为指导模型训练,衡量输出与标签间的差异,寻找最优结果,将选择交叉熵作为损失函数
3 仿真与分析
文中利用单频连续涡旋电磁波照射目标,雷达参数如表1 所示。雷达位于空间直角坐标系原点,雷达视线指向X 轴正半轴。
表1 雷达参数
3.1 模型输入
涡旋电磁回波数据集由2 000 个样本构成,8种动态手势各包含250 个样本。每个样本的时频图由多个参数直接影响,8 类样本的手势参数范围如表2 所示。所有手势参数都随机生成,其概率服从均匀分布。8 种手势的手指长度范围为8 cm~15 cm;单击和双击的摆动角度是食指由平行于XOY 平面的状态,以食指根节点5 为原点,向Z 轴正半轴方向摆动的角度。单击是摆动一次,双击是摆动两次。上划、下划、左划、右划同样为食指由平行于XOY平面的状态,以食指根节点5 为原点,向指定方向摆动的角度。在划动的过程中,手掌保持相对静止,食指摆动,规定Z 轴正半轴方向为上,Y 轴正半轴为右。绕圈为从Z 轴正半轴方向看向XOY 平面,手部整体沿指定方向以规定半径绕行一圈。手掌根节点0 的初始位置为(2,2,2)m,随机生成时,其xyz 坐标均与一个在[-1,1]之间的随机值相加。
表2 手势参数范围
为更直观的展示不同动态手势的时频图差别,选取了手掌位置为(3,3,3)m、手指长度为12 cm 的8 种微动手势数据,其时频图像如图5 所示。线多普勒指采用传统电磁波照射目标,利用短时傅里叶变换获得的时频图像。线+角多普勒指利用涡旋电磁波照射目标,通过短时傅里叶变换获得的时频图像。与传统电磁波雷达相比,涡旋电磁波雷达回波时频图像中额外含有角多普勒,蕴含更丰富的目标信息。与图5(a)、图5(b)相比,图5(e)、图5(f)中食指摆动带来的多普勒频移更为明显。其原因为:食指开始摆动时,线多普勒达到最大,但摆动到最大角度时,线多普勒较小;而角多普勒在开始时刻较小,摆动到最大角度时,角多普勒较大。线多普勒和角多普勒叠加,表征了更丰富的目标运动信息。顺时针绕圈和逆时针绕圈带来的多普勒效应基本一致,其区别主要在于多普勒频移最大值出现的时间,两者相差半个周期。对于划动,线多普勒难以完整地表征目标运动信息。由于食指左划和上划、右划和下划的运动过程中,雷达与目标的距离变化一致,线多普勒基本一致,其线多普勒时频图如图5(c)与图5(i)、图5(d)与图5(j)所示。角多普勒可表征目标在垂直于雷达径向上运动。食指左划和上划、右划和下划在距离变化上一致,但其方位角的变化不相同。通过对比图5(g)与图5(m)、图5(h)与图5(n),可分辨左划与上划、右划与下划。
图5 八种动态手势的时频图像
3.2 训练与分类
根据输入动态手势时频图像的大小,将网络输入层的尺寸设置为100×100×1,采用动量梯度下降优化器,选取80%的数据作为训练集,20%的数据作为测试集。将时频图像作为特征输入到深度学习模型中,其分类结果如表3 所示。“线+角多普勒”为将涡旋电磁波的时频图像输入到模型中;“线多普勒”为将传统电磁波的时频图像作为模型输入。为了与线多普勒对比,“角多普勒”为只输入目标角多普勒时频图像。在无噪声的情况下,利用线多普勒和角多普勒,可获得99.23%的准确率。而由于传统电磁波的信息获取能力不足,只利用线多普勒,其分类准确率为74.71%。与线多普勒相同,只利用角多普勒,未能取得很好的识别效果,其准确率为78.35%。为更贴近实际,测试不同信噪比下,涡旋电磁波与传统电磁波的识别效能,回波中加入高斯白噪声。随着信噪比的减小,只利用线多普勒与角多普勒作为输入特征的识别准确率迅速下降。信噪比从10 dB 下降至5 dB 时,由于噪声已使模型对易混淆的目标(左划与上划、右划与下划)失效,其准确率下降幅度减小。在5 dB 的信噪比下,综合利用线多普勒和角多普勒的方法,其识别准确率仍能达到90.43%,显示出更好的鲁棒性。
表3 分类结果
为更好地说明识别结果,传统电磁波的识别混淆矩阵如下页表4 所示。模型对双击、单击、顺时针绕圈、逆时针绕圈的识别准确率较高,其原因在于这类动态手势的多普勒效应差别较大,时频图像较易区分。对于划动,由于上划和左划、下划和右划的线多普勒效应相似,其时频图像较难区分,模型对划动的识别准确率极低。涡旋电磁波的识别混淆矩阵如表5 所示,与表4 相比,模型可以较为准确地识别划动,证明了综合利用线多普勒和角多普勒可提高识别效能。
表4 传统电磁波的识别混淆矩阵
为更贴近实际情况,引入误差和模糊性,加入新的变量(手掌倾斜角度),并增大手掌位置的变化范 围。新 的 手 掌 位 置 变 化 范 围 为:(0,0,0)±(2,2,2)。手掌位置会导致手势的多普勒效应发生改变,导致手势间的差异变大或者变小。当手掌位于或较为接近Z 轴正半轴时,左划和右划在线多普勒和角多普勒上基本一致,该情况下算法难以准确识别。同时,将手掌平行与XOY 平面的角度设置为0°,手掌与XOY 平面的夹角为手掌倾斜角度。手掌倾斜角度的变化范围为0°~45°。与手掌位置类似,手掌倾斜角度同样对识别结果产生显著影响。当倾斜角度较大时,该样本的划动与其余样本的划动会产生较大的混淆,识别准确率降低。引入误差和模糊性后的识别混淆矩阵如表6 所示。与表5 相比,绕圈的识别准确率略微下降,仍能较为准确的识别双击、单击,划动的识别准确率下降较大。
表5 涡旋电磁波的识别混淆矩阵
表6 引入误差和模糊性后的识别混淆矩阵
4 结论
本文提出了一种基于涡旋电磁波雷达回波时频图像的动态手势识别方法。仿真生成了动态手势涡旋电磁回波数据集,利用仅有7 个卷积层的轻量级卷积神经网络,对8 类动态手势数据集进行训练和测试。分类结果显示,综合利用线多普勒和角多普勒,可提高识别准确率,平均分类准确率为99.23%,证明了与传统电磁波时频图像相比,涡旋电磁波回波时频图像能有效提高识别效能。