基于时频组合特征的PSO-SVM手势识别方法
2021-09-04王亮张安元李佳佳李奇
王亮,张安元,李佳佳,李奇
(长春理工大学 计算机科学技术学院,长春 130022)
表面肌电(sEMG)信号是肌肉收缩过程中多个活跃神经单元发放出的动作电位序列,经过脂肪组织容积导体滤波后,在皮肤表面上的综合叠加效应[1]。不同的肢体运动对应不同的肌肉收缩方式,相对应动作的sEMG信号特征也会有不同程度的差异[2]。通过提取sEMG信号特征可以确定其对应肌肉的收缩状态,从而识别出人体所对应的动作模式[3]。在基于sEMG信号的动作模式识别中,只需将电极放置在肌肉表面,无需侵入人体内,再通过蓝牙等传输设备将电极采集的信号传输到终端进行特征提取及动作分类识别。因此,sEMG信号作为一种安全、无创、简单的肌肉功能检测手段,在人工智能控制等领域研究中得到越来越广泛的应用。
sEMG信号的特征提取是手势识别中的关键步骤之一。目前,在识别人体的多种手势时,通常从时域、频域、时频域三方面对信号提取特征,例如,时域特征:过零点数(ZC)、斜率变化数(SSC)、自 回 归 系 数(AR5、AR4)、绝 对 均 值(MAV)、均方根值(RMS)、方差(VAR)、波形长度(WL)等。频域特征:平均功率频率(MPF)、中位频率(MF)等。时频域特征:小波系数能量特征(EWC)、小波系数极大值特征(MWC)、小波包系数能量特征(EWPC)、小波包系数极大值特征(MWPC)等,然而这些特征提取方法有各自的优缺点[4]。例如,时域分析较为形象直观,而频域分析则更为简练,分析问题更加深刻,但在时间或频率上描述sEMG信号时,二者对信号细节表征缺少灵活性,比较单一、片面[5-6]。因此,单纯从时域或频域上描述sEMG信号特征具有一定的局限性。对于时频域特征分析来说,它虽然兼顾了信号的时域和频域信息,但此方法用于多手势识别时,获取到的动作信息不是十分显著,所以时频域特征分析用于多手势识别时,也有一定的局限[7]。
另外,分类器对于手势识别也十分重要。对于小样本数据来说,支持向量机(SVM)分类器通常有着良好的分类性能。但SVM分类器在分类前,需要针对不同样本数据对分类器参数进行优化。粒子群(PSO)算法在参数优化上有着良好的性能,可以在短时间内找到参数,完成SVM分类器的优化,从而提高分类器的分类性能。
本文提出了基于时频组合特征和粒子群算法优化支持向量机(PSO-SVM)相结合的手势识别方法。首先,提取8种时域特征、2种频域特征、4种时频域特征,将14种单一特征作为分类特征对手势sEMG进行分类。然后,将8种时域特征和2种频域特征进行线性组合,组合的16种时频组合特征作为新的分类特征对手势sEMG特征进行分类,来解决单一时域或频域特征分类准确率不高和时频域特征对多手势识别时分类信息不显著的问题。最后,采用PSO算法优化SVM分类器参数,来解决SVM分类器分类性能的问题,以期来提高手势识别的准确率。
1 实验和方法
1.1 数据获取
本文采用NORAXON公司生产的NORAXONDTS无线肌电采集系统(采样频率1 500 Hz)采集sEMG信号,采集了日常生活中具有代表性的八类手势:(a)掌面向上;(b)掌面向下;(c)内翻;(d)外翻;(e)握拳;(f)展拳;(g)上切;(h)下切。如图1所示。
图1 八种手势动作示意图
sEMG信号数据来自五名健康大学生(男5名,右利手,平均年龄23.0±1.5岁),均无神经肌肉功能疾病史。所有被试在sEMG信号数据采集前均接受过训练,掌握了实验的基本流程和注意事项,能够正常完成实验操作流程。实验前,待测肌肉的皮肤表面需用酒精擦拭干净,然后将肌电传感器的双电极放置在肌肉的肌腹处,两电极间隔为20 mm[8]。在sEMG信号数据采集过程中,实验环境应避免电磁干扰,减少人员走动,让被试的干扰减到最小。被试坐在电脑屏幕前,放松手臂,根据电脑屏幕上的指令,完成相应的动作。
被试每种手势动作连续执行5次,每次之间停歇5秒。一个动作执行完后,让手臂处于放松状态,休息3分钟,执行下一个手势动作。然后,肌电采集软件(NORAXON MR)对采集的手势sEMG信号进行滤波(20~ 450 Hz的带通滤波,50 Hz的陷波滤波),最后保存。
1.2 特征提取
本文采用滑动窗口来处理记录的手势sEMG信号,并在各窗口中提取手势sEMG信号特征。每个窗口中,特征向量由五通道的手势sEMG信号组成。窗口长度为300 ms(450个数据点),步移长度为100 ms(150个数据点)。本文对采集的手势sEMG信号分别提取8种时域特征、2种频域特征、4种时频域特征。
1.2.1 单一特征
本文提取的8种时域特征分别是:过零点数(ZC)、斜率变化数(SSC)、自回归系数(AR5、AR4)、绝对均值(MAV)、均方根值(RMS)、方差(VAR)、波形长度(WL)。2种频域特征分别是:平均功率频率(MPF)、中位频率(MF)。各特征提取公式如下:
(1)过零点数(ZC):
其中,n是窗口中样本数;xi是窗口中第i个样本点;δ是阈值。
(2)斜率变化数(SSC):
其中,n是窗口中样本数;xi是窗口中第i个样本点;β是阈值。
(3)自回归系数(AR5 AR4):
式中,AR为模型数学表达式;xi是窗口中第i个样本点;wi为噪声残差;p是模型阶数;ak是模型的第k个系数。当p=4时,所得的系数即为AR4系数,同理p=5时,所得系数为AR5系数。
(4)绝对均值(MAV):
其中,n是窗口中样本数;xi是窗口中第i个样本点。
(5)均方根值(RMS):
其中,n是窗口中样本数;xi是窗口中第i个样本点。
(6)方差(VAR):
其中,n是窗口中样本数;xi是窗口中第i个样本点。
(7)波形长度(WL):
其中,n是窗口中样本数;xi是窗口中第i个样本点。
(8)平均功率频率(MPF)、中位频率(MF):
其中,p(x)是信号的功率谱密度函数。
本文提取的4种时频域特征分别是:小波系数能量特征(EWC)、小波系数极大值特征(MWC)、小波包系数能量特征(EWPC)、小波包系数极大值特征(MWPC)。
小波分解示意图如图2所示,其中,S为原始信号,进行 3层小波分解,cA3、cD3、cD2、cD1为小波系数。所以,EWC特征为小波系数cA3、cD3、cD2、cD1的能量值组成的数组。MWC特征为小波系数cA3、cD3、cD2、cD1的极大值组成的数组。
图2 小波分解示意图
小波包分解示意图如图3所示,其中S为原始信号,进行3层小波包分解,cA31、cD31、cA32、cD32、cA33、cD33、cA34、cD34为小波包系数。所以,EWPC特征为各个频段小波包系数的能量值组成的数组,MWPC特征为各个频段小波包系数的极大值组成的数组。
图3 小波包分解示意图
1.2.2 时频组合特征
本文将8种时域特征和2种频域特征成对线性组合,合成16种时频组合特征,作为新的手势识别特征。时频组合特征的组合过程如下:
假定,时域特征X=(x1,x2,x3,…,xm),m为时域特征X的维数。频域特征Y=(y1,y2,y3,…,yn),n为频域特征Y的维数。则时频组合特征Z=(z1,z2,z3,…,zm,zm+1,zm+2,zm+3,…,zm+n),m+n为 时频组合特征Z的维数,其中,Z的前m列为时域特征X,Z的后n列为频域特征Y。
本文提出16种时频组合特征:ZC-MPF、SSC-MPF、 AR5-MPF、 AR4-MPF、 MAV-MPF、RMS-MPF、VAR-MPF、WL-MPF、ZC-MF、SSCMF、AR5-MF、AR4-MF、MAV-MF、RMS-MF、VAR-MF、WL-MF(注时频组合特征ZC-MPF是时域特征ZC和频域特征MPF的组合特征)。
2 PSO算法优化SVM参数
为了让SVM分类器有更好的分类性能,本文采用PSO算法来优化SVM分类器的惩罚参数C和核函数参数g。
SVM是常见的非线性分类器,它的思想是将输入的样本通过非线性变换把样本映射到高维空间中,在高维空间中找到输入样本与输出样本之间的非线性关系[9]。即选择合适的核函数,将样本投影到高维空间,找到最优的分类超平面,使得样本与分类平面距离最大。最优超平面即决策函数如下:
其中,ai为训练样本的拉格朗日系数;C为惩罚因子;m为阈值;p(xi,x)为径向基函数的核函数。
其中,g为核函数(径向基函数)参数。
PSO算法是一种基于全局的优化算法,最优解是通过粒子本身及周围粒子的经验进行搜索,并在搜索过程中不断调整粒子的位置和速度,找到最优解[10]。粒子的位置和速度的迭代更新公式如下:
其中,w是惯性权重;d是空间维数;i∈(1,n)是粒子数;m看是迭代次数;v表示粒子速度;x表示粒子位置;p为最优解;c为学习因子;r为[0,1]区间的随机数。图4为PSO算法流程图。
图4 PSO算法流程图
(1)初始化参数,通过优化学习因子C和权重系数,确定粒子的权重和位置。
(2)计算粒子的适应度并进行评估。
(3)根据公式(12)更新粒子位置和速度。
(4)看是否满足终止条件,若不满足执行步骤(3);若满足,则得到最优的参数C和g,并用选择的参数对SVM分类器进行训练模型。
实验中设定PSO的参数如下:学习因子c1=1.5,c2=1.7,粒子迭代的终止次数为100,种群数量为 pop=40[11]。
3 实验结果及分析
3.1 基于单一特征的手势识别
本文分别选取上述的8种时域特征、2种频域特征、4种时频域特征作为分类特征,采用经PSO优化参数后SVM分类器对8类手势进行识别,5位被试对8类手势的平均识别率如表1所示。
由表1可知,对于时域特征而言,基于AR4系数特征的手势平均识别率最高,为91.54%。基于WL特征的手势平均识别率次之,为91.49%。基于ZC特征的手势平均识别率最低,仅为76.23%。对于频域特征而言,基于MPF特征的手势平均识别率为88.90%,基于MF特征的手势平均识别率为78.96%。
表1 单一特征的手势平均识别率
可以看出,单一时域特征和单一频域特征的手势平均识别率都不高,均未达到95%。因此选取单一时域或频域特征作为手势识别的特征进行分类,分类效果并不理想。
对于时频域特征而言,基于MWC特征的手势平均识别率最高,为93.78%。基于MWPC特征、EWPC特征的手势平均识别率次之,分别为93.62%、92.57%。基于EWC特征的手势平均识别率最低,为92.07%。可以看出,4种时频域特征的手势平均识别率均高于单一时域特征和单一频域特征的手势平均识别率,但4种时频域特征的手势平均识别率均未达到95%。因此,时频域特征在进行多手势识别时效果并不显著。
3.2 基于时频组合特征的手势识别
本文选取了16种时频组合特征作为分类特征。表2显示的是基于16种时频组合特征的手势平均识别率。在16种时频组合特征的手势平均识别率中,8种时频组合特征的手势平均识别率达到95%。其中基于RMS-MPF时频组合特征的手势平均识别率最高,为97.29%。所以时频组合特征的手势平均识别率相对于单一特征的手势平均识别率来说有了比较明显的提高。
表2 时频组合特征的手势平均识别率
由表2知,时域特征与MPF频域特征的组合特征中,有7种时频组合特征的平均识别率达到95%,时域特征与MF频域特征的组合特征中,没有时频组合特征的手势平均识别率达到95%。所以,与MF频域特征相比,MPF频域特征和时域特征的组合特征有更好的手势平均识别率。
为了进一步研究时频组合特征与单一时域特征和单一频域特征手势识别率之间的关系,本文将时频组合特征与它对应的时域特征和频域特征分别做配对t检验,t检验p值如表3所示。由表3可知,表中(除AR5-MPF与AR5、AR4-MPF与AR4、MAV-MF与MAV的p值)时频组合特征和单一时域特征的所有p值均小于0.05,表明时域特征与频域特征组合之后,时频组合特征的手势识别率有显著性提高;由表3可知,表中(除ZC-MF、VAR-MF与MF的p值)时频组合特征和频域特征的所有p值均小于0.05,表明频域特征与时域特征组合之后,时频组合特征的手势识别率有显著性提高。所以,除个别特征外,时频组合特征与它对应的时域特征和频域特征相比,时频组合特征有更好的手势识别率。
表3 时频组合特征与它对应的时域特征和频域特征配对t检验的p值
为了进一步研究时频组合特征与时频域特征手势识别率之间的关系,本文将时频组合特征与时频域特征做配对t检验,t检验p值如表4所示。
表4 时频组合特征与时频域特征配对t检验的p值
由表2和表4可知,时频组合特征RMS-MPF的手势平均识别率在16种时频组合特征手势平均识别率中最高,与时频域特征EWC、EWPC的P值为0.02、0.023(p<0.05)。可以看出时频组合特征RMS-MPF的手势识别率相对于时频域特征EWC、EWPC的手势识别率有显著性提高。
由表2和表4可知,时频组合特征RMS-MPF与时频域特征MWC、MWPC的p值分别为0.065、0.082,虽然它们的p>0.05,但是它们的p值与0.05非常接近,并且p值均小于0.1,所以,可以认为时频组合特征RMS-MPF的手势识别率相对于时频域特征MWC、MWPC的手势识别率有显著性提高。所以,可以认为时频组合特征RMSMPF的手势识别率相对于时频域特征的手势识别率有显著性提高。
同理,结合表2和表4可发现,时频组合特征MAV-MPF与RMS-MPF有相似特性。所以,可以认为时频组合特征MAV-MPF的手势识别率相对于时频域特征的手势识别率有显著性提高。
4 结论
由于单一特征描述手势sEMG信号的片面性,所以仅靠单一的时域特征、频域特征、时频域特征去识别多种手势时,往往手势识别效果不是很理想,为了提高手势识别的准确率,本文提出了基于时频组合特征的PSO-SVM手势识别方法,对8类手势进行识别分类。结果显示,时频组合特征RMS-MPF、MAV-MPF相对于它对应的时域特征、频域特征有更好的手势识别率,同时对时频域特征也有更好的手势识别率。可以看出,基于时频组合特征RMS-MPF、MAV-MPF的PSO-SVM识别方法对手势识别有良好的分类效果。
下一阶段的研究内容是采集更多的手势SEMG信号,对更多的手势进行分类识别。以及提取更多单一的时域特征、频域特征、时频域特征,进行更多时频组合特征的实验分析。并且PSO算法在对SVM分类器参数优化时运行耗时较长,还需要不断的优化PSO算法本身,在不影响算法性能的前提下,极大的缩短PSO算法的运行时间。