超宽带雷达人体姿态识别综述
2021-02-04李俊侠郑桂妹
李俊侠,张 秦,郑桂妹
1.空军工程大学 研究生院,西安710051
2.空军工程大学 防空反导学院,西安710051
近年来,人体姿态识别在安防监控、人机交互、安全驾驶、医疗健康和体育健身等领域都有着重要的意义和广泛的应用前景[1-3]。根据传感器的种类,现有的人体姿态识别方法可分为可穿戴式和非接触式两类。可穿戴式传感器的常见类型有手环、脚踝监视器等[4],必须贴身佩带,存在普适性小、便携性差、损坏率高、功能单一、误报率高等问题。摄像头作为传统的非接触式传感器,对存储空间和信息处理能力要求较高、对光照等条件敏感,存在视力盲区和易泄露个人隐私等缺点,而以雷达为代表的传感器的使用,能够有效解决光学系统的以上问题。尽管基于雷达的人体姿态识别系统仍处于发展初期,但已有众多学者验证了其在该领域的良好性能及其鲁棒性、隐私性和安全性。
文献[5]中,Kim等人利用连续波雷达提取多普勒特征,训练支持向量机(SVM)以识别七种有节奏的人体运动,分类结果的准确率为92.8%。文献[6]中,Hong等人利用调频连续波雷达提取人体动作的动态范围多普勒轨迹(DRDT),结合机器学习分类方法,将连续运动分离为单个事件进行处理,平均准确率为91.9%。文献[7]先将深度卷积神经网络(DCNN)应用于基于微多普勒特征的人体活动分类,并将其转化成图像分类问题。文献[8]在文献[7]的基础上,利用多普勒雷达并结合DCNN方法和转移学习方法,进行五种常见的人体水上活动的分类识别,达到了SVM近两倍的精度。综上,基于雷达的人体姿态识别可以在简单架构中实现高度相似动作的分类识别,具有较高的可行性。利用超宽带雷达(UWB)进行人体姿态识别,由于其高分辨率、强穿透性和功耗低等特点,能有效克服摄像头存在的光照和隐私问题;保证全天候、全天时进行工作,还能够有效解决光学系统因遮挡而无法工作的问题,因而具有较为广阔的应用前景。
本文聚焦于UWB 雷达人体姿态识别的研究,结合超宽带雷达的特性,基于智能化处理方法,将人体姿态识别方法按照特征提取的不同分成基于传统机器学习的识别方法和基于深度学习的识别方法。通过分析对比不同识别算法的基本原理、性能特点以及其局限性,为超宽带雷达人体姿态识别技术的研究提供重要参考。
1 超宽带雷达及其信号特征
1.1 定义与组成
超宽带(Ultra-Wideband,UWB)雷达的概念是美国Los Alamos 国家实验室在1990 年3 月召开的超宽带雷达会议上首次提出的[9]。超宽带是就信号的相对带宽而言的,当信号的带宽与中心频率之比大于25%时称为超宽带(UWB)信号,在1%与25%之间为宽带(WB),带宽与中心频率之比小于1%成为窄带(NB)[10],即:
或满足:
式中,fh和fl分别是信号的上限频率和下限频率,单位为MHz。
典型的超宽带雷达由波形产生器、发射机、接收机、收发天线和信号处理器等部件组成[11]。由波形产生器产生超宽带信号波形,超宽带信号波形有极短的持续时间或有复杂的波形(包含许多频率分量)[11-12]。目前广泛采用的超宽带雷达信号主要有两类:非冲激信号和冲激信号。其中,非冲激信号主要是线性调频信号(LFM)、随机噪声等。冲激信号是一种无载波信号,主要通过采用基带波(Baseband Waveform)、单周波(Monocycle)、多周波(Polycycle),来发射脉冲宽度为纳秒量级的信号,从而获得超宽带。冲激体制的超宽带雷达的系统结构比较简单,无需任何变换和放大,信号处理系统也较为简单,因此在实际应用中被广泛采用。
1.2 超宽带脉冲信号
目前,基于脉冲形式的无载波信号是超宽带雷达系统中采用最多的信号,其中常见的超宽带雷达脉冲信号形式主要有多周期脉冲信号、升余弦脉冲波形、高斯脉冲等。
(1)多周期脉冲信号
多周期脉冲信号是最直观的一种超宽带脉冲信号。它是用一个矩形信号或窗函数与正弦函数相乘,然后截取N个周期的正弦信号,即:
其中,f0是正弦波频率;T是正弦波周期;u(t)是阶跃信号。该信号优势在于以正弦波频率为中心,频谱配置较为灵活;但载波调制形式对于频率稳定性要求较高,不利于系统简化。
(2)升余弦脉冲波形
升余弦脉冲信号的频域特性满足:
其中,B为脉冲带宽;fΔ=B-f6dB,f1=f6dB-fΔ,f6dB是-6 dB频率点。假设系统带宽7.5 GHz,f6dB=3.75 GHz,故fΔ=3.75 GHz,f1=0,可以得到相应的时域信号:
对h(t)进行搬移,设搬移后的中心频率为fc=6.85 GHz,则最终传输形式为:
(3)高斯脉冲
基本的高斯信号表达式为:
其中,σ控制脉冲有效宽度是高斯信号的均方差,也称脉宽因子。
对式(7)进行傅里叶变换:
相应的功率谱密度为:
基本高斯脉冲的微分形式:
则其对应功率谱密度为:
高斯信号具有以下特点:微分形式相对简单,利于建模分析;在时频域都有较好分辨率;通过调整σ和微分次数n就可调节发射信号的中心频率和带宽;物理实现相对简单,可近似表示多种超宽带信号。因此,高斯脉冲是在人体姿态识别中采用最多的超宽带信号。
2 传统机器学习方法
基于雷达的人体姿态识别与基于计算机视觉领域的人体姿态识别区别较大,但本质都是提取人体姿态特征。在雷达领域的目标特征量不如视觉图像领域丰富,所以更侧重于对特征提取算法和分类识别算法的研究与改进。如图1 所示,根据特征提取方法的不同,将超宽带雷达人体姿态识别方法分为传统的机器学习方法和深度学习方法。
图1 超宽带雷达人体姿态研究方法分类图
早期的人体姿态识别方案主要采用传统的机器学习方法,如支持向量机(SVM)、K近邻法(K-NN)、随机森林(RF)等。这些分类识别方法基于统计学理论,主要依靠从原始回波数据中提取的浅层特征如均值、方差、欧氏距离、傅里叶变换和短时傅里叶变换(STFT)等[13]。而后根据采用的特征提取方案如主成分分析(PCA)法、离散余弦变换(DCT)法等,来选择突出的浅层特征进行识别。其中,最为常用的是经典的SVM识别方法。
2.1 SVM基本原理
SVM 是Vapnik 等人根据统计学习理论提出的[14],主要思想就是确定正确划分样本的参数w和b并且使得分类间隔ρ最大,需要通过对训练数据集的处理来完成,如图2所示。
图2 最优分类面示意图
假设训练数据集为:
其中,N为训练样本数,y是样本类别标号。w为权重向量,b为最优分类面偏移,那么d维空间的分类面判别函数为g(x)=w·x+b,构造最优分类面等价于:
但是在线性不可分的情况下,通过引入核函数K(x,xi)代替最优分类面中的点积,将原输入空间变换到新的高维特征空间,在新的特征空间构造线性分类超平面。这个特征空间是由φ(x)来决定,其内积运算用核函数K(x,xi)代替,即:
在这样一个新的特征空间中,有些样本数据点会偏离正常位置而无法满足约束条件,这时,可以通过引入惩罚因子C,同时增加松弛项ξi≥0,放宽对线性可分的约束条件,使得线性不可分变成线性可分,如图3 所示。这时,公式(13)就变成:
图3 原始数据非线性映射到特征空间
这是一个凸二次优化问题,该优化问题的拉格朗日函数为:
通过求解与原问题等价的对偶问题得到原问题的最优解:
这样,就将线性不可分问题转化成线性可分问题,只需求解Q(α)最大值即可。在选择合适的核参数σ值的前提下,增加惩罚因子C能使数据的可分性趋于稳定,反之将会导致泛化能力下降。因此核参数σ和惩罚因子C的选择是SVM的关键。表1中给出了几种常见的核函数的相关表达。
表1 核函数的相关表达
2.2 基于SVM的人体姿态识别
基于SVM的人体姿态识别方法的研究大体上有两个侧重点:一是侧重于对特征提取方法的改进;二是侧重于对SVM 模型的优化。文献[15]使用超宽带雷达研究对不同人体活动进行分类识别的可行性,分别采集8位参与者的8种典型的人体活动,然后利用主成分分析(PCA)提取回波信号的主要分量。首先对回波矩阵去平均化记为XT,然后计算X·XT的协方差矩阵W的特征值和对应的特征向量,最后将矩阵投影到新的特征空间达到降维的目的,即:
式中,k是频谱图中的多普勒指数;w(p)是一个窗函数。然后将频谱图与加权系数相乘并在有效范围内累加就得到每个姿态的频谱图:
式中,σm就是加权系数,根据能量分布特征定义:
式中,Em就是第m个距离门的能量。然后利用PAC计算矩阵特征值,将特征值降序排列,选择了占比99.07%的前60 个的特征值对应的特征向量作为有效特征,输入SVM 模型进行学习,得到原位运动的平均准确率为89.7%,非原位运动的平均准确率为90.5%。
在进行姿态识别时,还可以结合小波变换进行处理。文献[17]利用UWB雷达提取人体姿态回波的时间-距离维特征信息,对二维信号进行离散小波变换,将每个二维图像分解为多个离散子图像,使其更多地体现细节信息。为了避免小波分解带来的信息冗余问题,采用奇异值分解法进行有效特征提取,选取最大的奇异值作为特征对SVM 模型进行训练,使其对9 种人体姿态识别率超过90%,但是该方法同样存在个别动作识别混淆的问题。
针对利用传统时频分析方法实现人体姿态识别时存在的实时性差,识别率低等问题,有不少学者在改进特征提取方法的同时对SVM模型参数进行优化。北京邮电大学的江进等人[18]通过小波包分解法提取8 种人体姿态的超宽带雷达信号的能量分布特征,利用改进的混沌自适应遗传算法(ICAGA)对SVM 的参数C和σ进行优化,能达到97.6%的识别率。文献[19]则提出了基于PCA 和DCT 变换的特征能量概念,在模型训练阶段,利用网格搜索算法(CS)优化SVM 的参数C和σ,最终验证当时识别率为96.09%,当时识别率为98.04%,平均识别率达到96%以上。
基于传统机器学习方法的人体识别方案为了确保识别的效果通常会提取大量的浅层特征,而不去管这些特征是否最终真的有益于识别。而浅层特征的多样化会潜在地增加不同特征之间的冗余度,未必能够提高识别的精度。因此,对回波信号的分析、特征提取和选择使这些方法奏效的关键。从表2 中很容易看出特征选择和提取方法好坏会直接影响到分类器识别的准确性和效率。在实际应用中,这些特征处理方法可能仅限于特定问题,很难具有普适性。此外,传统的人体姿态识别方案对于涉及到过渡动作的复杂人体姿态的识别效果一般。
表2 基于传统机器学习的人体姿态识别方法汇总
3 深度学习方法
基于深度学习的方法为UWB雷达人体姿态识别开辟了一条全新的道路,它能够有效避免传统机器学习方法中手工特征提取和选择的繁琐,并带来性能的改善。深度学习[20]源于人工神经网络的研究领域,其概念最早由Hinton 等人于2006 年提出,主要是通过构建很多隐藏层的机器学习模型和海量的训练数据,来自动学习隐藏的有用特征并生成用于识别的虚拟特征,从而提升分类识别的自动化和准确性,这些由深度神经网络探索的虚拟特征被称为深度特征。深度学习[21]在学习执行分层任务、特征提取以及识别等方面具有较大优势,尤其是卷积神经网络(CNN)是深度学习中最常用的模型,已成为图像处理和识别领域的主流方法。与传统机器学习方法相比,它通过数据自动学习有效特征提取方法的机制,无需人工设计特征提取环节,在减少处理环节的同时还能识别复杂的人体活动。因此,其同样可应用于UWB雷达的人体姿态识别。
3.1 CNN基本原理
经典的CNN 一般包含输入层、卷积层、池化层、全连接层和输出层,它的训练过程是将处理好的数据在卷积层与池化层的作用下交替训练,逐步提取出特征,形成最后抽象的深度特征[22]。
假设CNN 模型的原始输入为S0,则第i层卷积层输出为:
式中,Ki为第i层卷积核权值向量。式(23)表示第i-1层的输入特征图与卷积核进行卷积,输出结果与第i层的偏置项bi相加,然后通过激活函数f(x)的非线性映射得到第i层的输出特征图。使用CNN 模型的一个重要问题是加快网络训练速度,可以采用ReLU函数来实现,其具体形式为:
池化操作是一个降维和下采样过程,用于减少网络训练参数,加快训练速度,同时增强模型的泛化能力。一般做法是将前一层的局部区域值映射为单个数值,即在滤波器算子滑动区域内取最大值或平均值,最常用的就是最大池化和平均池化。
全连接层将学到的深度特征映射到标记空间,得到输入S0隶属于不同类别的概率矢量Y,即:
式中,li为第i个标签。
通过以上分析可见,CNN 实际上将原始输入S0经降维和下采样等变换映射到一个新的特征空间Y的过程。
3.2 基于CNN的人体姿态识别
2012年,Krizhevsky等[23]人提出了基于CNN的分类识别算法,在此之前,SVM在分类识别问题上一直占有绝对优势。CNN 具有强大的特征提取能力,无需经过繁琐的手工特征提取,能够识别雷达图像的潜在特征,在UWB 雷达人体识别领域引起了众多学者的关注,并由此产生出大量的衍生网络模型。
文献[24]利用UWB雷达采集人体手势的微多普勒特征,然后结合改进的深度卷积网络(DCNN)对10种手势进行识别,如图4所示为该研究所采用的DCNN结构图。在训练环节采用5 重交叉验证法来提高模型的泛化能力,达到了90%以上平均识别率,但仍存在对距离和方位角变化敏感的问题。针对这一问题,文献[25]从手势回波的预处理信号中提取3个具有鲁棒性的特征,即幅度直方图的pdf 分布,频率和到达时间(TOA)方差。文中将基于TOA 的距离信息作为K-means 聚类算法的附加参数,使得算法对距离方位变化更具有鲁棒性,还定义了一种数据拟合算法,通过检测手势运动的周期性来消除手或身体产生的意外运动。即使在车内不同环境下,改变手势方向仍达到95%的准确率。文献[26]则使用3个置于不同方位的脉冲超宽带(IR-UWB)雷达获取手势轨迹,利用MNIST 数据集训练CNN 模型。实验通过采集5 位受试者从不同方位以不同速度产生的样本进行验证:该方法对于方向、距离、速度和用户更具有健壮性,且能满足实时处理的需求。但若室内环境杂乱无章,可能会使雷达数据失真。针对大规模神经网络容易过拟合的问题,文献[27]在CNN结构中添加Dropout 层和局部归一化层(LRN)来防止模型过拟合,提高模型的泛化能力。通过SIR-20高速探地雷达获取8种典型人体动作的回波信号,然后提取回波中距离随时间变化的特征信息生成距离-时间二维特征矩阵,并将特征矩阵输入到改进后的CNN 进行训练识别,最终达到99.2%的识别率。在此基础上文献[28]增加动作的复杂度,设计了9种经典的体育动作,利用UWB雷达获取高分辨率距离信息,在对人体回波构成的时间-距离像进行灰度处理后,根据灰度图的明暗信息来对改进的DCNN 进行训练,达到了96.67%的识别率,远高于常用的传统机器学习方法如RF、K-NN、SVM。文献[29]同时进行人体姿态和身份的多任务识别,构建基于CNN的多任务识别模型。利用压缩激励(SE)模块将输入特征维度将为原来的1/16,通过多尺度特征融合进行两个相关识别任务的共享特征表示,然后在各自的特定任务层完成识别。文中还引入中心损失函数与均方误差损失函数,与传统的交叉熵损失函数相结合,共同优化模型。该法有效地提高模型的泛化能力,平均识别率达到99.3%。文献[30]首次提出利用UWB 雷达进行人体睡眠姿态监测识别,提出一种名为SleepPoseNet 的方法,利用多视角学习(MVL)组合来自时域和频域的特征信息,然后通过DCNN 进行分类识别,最终能对6 种睡眠姿态实现73.7%的识别率。但是受限于雷达性能,无法识别相同范围不同角度的对象。
图4(a) 具有3层隐藏层的DCNN结构
图4(b) 单个隐藏层结构
网络层数的增加可以在一定程度上提高分类精度。但随着层数的增加易出现网络过拟合的问题。针对复杂的CNN 结构易过拟合的问题,有不少学者提出了新思路。文献[31]受GooLeNet架构的启发,提出基于Inception模块的3D-CNN模型:首先提出将雷达信号转换成灰度图像,然后再映射成3D RGB 图像,使得每个姿态的特征更加直观突出。该模型不是传统的线性堆叠各层,而是利用Inception 模块来增加网络的复杂性,每个Inception模块由3个卷积层和1个最大池化层级联而成,将7 个Inception 模块串联在一起,就能获得不同抽象级别的深度特征,从而提取更多输入特征图的细节特征,该方法对8 种手势识别精度达到了95%,分类效果好于GooLeNet 和常规的CNN 模型。该方法的主要缺点是待识别的手势必须在指定区域和时间段内完成,并且识别的精度也会受到手势角度的影响。文献[32]认为上述方法均未对人体微多普勒特征的长期稳定性进行研究,因而对人体姿态进行长期间隔观察,同时提出平行的双通道网络:一个基于Xception 模块的CNN通道,在ImageNet 上进行了预训练;一个包含2 个长短期记忆网络(LSTM)层的独立LSTM 通道,用于提取与时间相关的特征以确保长期稳定性。Xception 模块作为Inception-V3 模块的改进,用深度可分离卷积代替了原始卷积运算,从而在不增加网络复杂性的情况下提高了模型的效果,避免模型过拟合。
一个完整的人体姿态应该被记录在指定帧内,但是很难识别在相对较长的测试频谱图中传达的短时间动作如拳击和踢球等。因此,上述研究中都将输入的人体姿态回波数据调整为固定大小,并假设仅包含单一人体姿态的时变信息,这就导致大多数模型的时间分辨率受输入时间窗口大小的限制。针对这一问题,文献[33]将微多普勒频谱图看作特殊的时间序列数据,提出分段卷积门控递归神经网络(SCGRNN),将CNN 和门控递归单元(GUR)组合在一个模型中,分别定义了GUR 的更新门、复位门、隐藏状态和权重矩阵,其学习示意图如图5所示,卷积层和池化层用于提取局部特征。GRU将多个相邻元素的CNN特征作为输入来检测每个时间步长的动作,并将GRU递归细胞的隐藏状态反馈到Softmax层来获得每个时间步长的概率分布,从而避免固定训练样本大小造成的限制,甚至可以检测动作的开始和结束时间点,最后引入留一法(LOO)交叉验证该模型在噪声鲁棒性和泛化性能方面的优势,如表3所示。
图5 微多普勒频谱图的局部特征学习示意图
表3 留一法(LOO)交叉验证方案的分类识别率 %
表4为文献[42]介绍的在视觉领域的人体姿态识别公开的数据集,按复杂程度将人体活动类型划分为简单动作、交互行为、群体活动以及复杂事件。不难看出,视觉领域的人体姿态识别的数据集较为丰富,从简单动作到复杂的事件都有所涵盖,样本容量也都足够大,这就为视觉领域的人体姿态识别提供了很好的基础。相比视觉领域,基于UWB 雷达的人体姿态识别的研究尚处于起步阶段,其公开的数据集较少。表5为文中提到的基于深度学习的人体姿态识别模型的汇总。同样可知,当前利用UWB雷达进行人体姿态识别的研究基本都是基于自测数据集。图6 为视觉领域以及文中部分文献采用的数据样本量大小进行对比,可以很直观地得出:基于UWB雷达的人体姿态识别研究普遍存在样本量偏小的问题。而训练有效的深度神经网络需要大量的样本数据,样本量不足可能会导致训练深度网络时产生严重的过拟合问题。
表4 人体姿态公开数据集汇总表
表5 基于深度学习的人体姿态识别模型汇总
图6 样本量对比图
针对深度学习时样本量不足的问题,不少学者提出了针对性的解决方案。文献[43]中提出了迁移学习优化模型,首先利用大样本对CNN进行预训练,然后用超限学习机(ELM)取代CNN 中的全连接层,用小样本数据集对ELM 层进行训练,最后降低网络对样本量的需求。实验表明,该方法在使识别率达到94%的同时,能够大大缩短网络训练时间。文献[44]提出了新的全卷积网络(A-ConvNets),它用稀疏连接层取代全连接层,实验结果表明,在仅有10个样本的条件下,采用该方法可以达到99%的准确率。度量学习也常用来解决小样本下的分类识别问题,它可以将分类识别问题转换为判断两个样本是否属于同一类别的二分类问题。假设每个类型有10 个样本,那么就会有个正样本对个负样本对,正负样本对数量的不平衡会导致网络倾向于输出两个样本来自不同类别的预测。为了解决这个问题,文献[45]尝试用两个权重相同的CNN构成的孪生卷积神经网络实现度量学习,如图7(a)所示,首先利用孪生网络提取样本的特征向量,比较样本特征域的差异,然后通过全连接层将向量差异映射为标量,由其代表两样本之间的距离度量,通过计算其相似度来判断其来自同一类型。这种方式需要计算测试样本与每个训练样本的样本相似度,非常耗时。因此,文中在单支孪生网络后面再训练一个分类网络,将单支孪生网络用作特征提取,仅仅需要区分输入两个样本的距离大小即可完成分类识别,如图7(b)所示。即使在仅有少量训练样本的情况下,该网络的识别性能仍优于A-ConvNets。总的来说,基于深度学习的UWB雷达人体姿态识别方法除了要从根源上扩充样本数据集,还可以通过迁移学习、度量学习等方法来优化模型实现小样本下的人体姿态识别。
4 超宽带雷达人体姿态识别模型
图7 文献[45]采用的网络架构
从以上的研究不难推知,基于UWB 雷达人体姿态识别系统应包含人体回波数据采集、回波数据处理和特征提取、识别算法这三个关键部分,详见图8。其中,回波数据处理和特征提取方法可分为四类:(1)基于传统统计学的方法,包括雷达回波包络的均值、方差、最大值、最小值等统计学特征;(2)基于时频变换的方法,主要包括短时傅里叶变换、傅里叶变换(STFT)、伪维格纳分布(PWVD)、小波变换等;(3)基于组件分析的方法,主要包括主成分分析法(PCA)和独立成分分析法(ICA)等;(4)基于深度学习的方法,主要包括卷积神经网络、递归神经网络、深度置信网络等。目前,主流研究认为深度学习方法是一种识别分类算法,但其本质上也是一种特征提取方法[46]。它通过多层卷积、池化等操作来提取特征,然后将提取的特征通过全连接层类似Softmax分类器来进行分类识别。
图8 超宽带雷达人体姿态识别通用模型
5 结束语
本文根据超宽带雷达信号特性和识别框架,对超宽带雷达人体姿态识别方法中的传统机器学习方法和深度学习方法进行了总结和分析。重点对两类方法中具有代表性的SVM和CNN进行原理分析和介绍,并结合具体文献分析了其各自的优势与局限性,最后提出了超宽带雷达人体姿态识别的通用模型。
从识别姿态种类和识别率两个方面,图9给出部分文献所采用模型的性能对比,可以很明显地看出深度学习方法的识别准确率普遍高于传统机器学习方法。表6中对比了两类识别方法的性能,可以得出:传统机器学习方法提取人工设计的浅层特征,对于特征的提取方法和选择要求较高,但是模型训练相对简单,检测速度快且对硬件设备要求较低。而深度学习方法可以自动学习生成深度特征,特征灵活性高,系统鲁棒性好,但是模型训练难度较大,计算更加复杂,检测速度慢,这就意味着对硬件设备的要求更高。如何综合利用这两类方法,在兼顾运算成本的同时提高模型性能,仍需进一步研究。
图9 部分文献中模型性能对比图
综合现有研究,当前利用UWB 雷达来实现人体姿态识别面临的主要困难包括:
(1)相比于计算机视觉领域的人体姿态识别有着数目庞大的公开数据集,雷达领域的人体姿态鲜有公开的数据集,研究基本都是基于自测数据或者仿真数据,这已成为利用UWB雷达实现人体姿态识别迈向实用化的一大障碍。
(2)深度学习的网络模型训练基于数量巨大的数据库,在无法满足数据需求的情况下,如何在小样本数据量的基础上实现对识别系统的训练,并保持较高的识别率是当前研究的难点。
表6 两类识别方法性能对比
(3)人的肢体复杂且灵活,当频繁出现相似复杂动作时很难避免识别的混淆,如何通过算法设计有效降低错误率,是当前UWB 雷达人体姿态识别的又一挑战。除此之外,当前基于UWB 的人体识别的研究多限于单个人体姿态的识别,对于交互动作或团体动作的识别研究几近空白。
综上所述,本文认为未来的发展趋势和研究方向可能有以下几点:
(1)当前研究多局限于室内或者干扰较少的环境中,在应用中,由于环境的复杂性可能会引起回波的特性的变化而导致算法失效;此外,雷达图像与光学图像的差异性也使在雷达图像信息提取和目标解译过程具有特殊性,对电磁散射机理的理解和分析将至关重要[47]。因此,结合电磁散射特性开发新的算法来解决具体应用场景下的特征损失和噪声干扰等问题将会是未来的一个重要研究方向。
(2)由于鲜有公开的基于雷达的人体姿态数据集,当前基于UWB 雷达的人体姿态研究多基于自测数据集,很多研究成果可复现性差。而样本数据集对于模型的训练、优化是十分重要的,因此构建基于雷达的人体姿态识别专门数据集和评测标准将尤为重要,这也是支撑未来研究工作的重要基础。
(3)针对小样本问题,除了从根源上增加样本量,扩充数据库外,通过迁移学习、度量学习、无监督学习以及半监督学习能较好的解决这一问题,因此,对小样本学习方法的研究,也是未来该领域研究的一个重要方向。
(4)深度学习无疑会成为未来UWB 雷达人体识别领域的主力军。当前的模型研究逐渐聚焦于速度和准确度的权衡,网络模型正在从巨型网络向轻量化网络演变[48],如文中提到的用Inception模块及Xception模块代替多个卷积层来降低网络模型的复杂性。因此加强对网络模型基础框架的创新和优化,在降低训练复杂度的同时确保识别准确率也是未来研究的重要内容。
(5)要想将UWB 雷达人体姿态识别从真正意义上实用化,仅仅对单一人体姿态的识别是不够的。区分不同人体目标且提取各自有效特征,从而实现多人姿态识别,将是拓展该领域应用的重要研究课题。