融合表面肌电和加速度的手势动作识别*
2020-01-02罗志增席旭刚李文国
鲍 磊,罗志增,席旭刚,李文国
(杭州电子科技大学机器人研究所,杭州 310018)
根据所用传感器的类型,手势识别可分为基于计算机视觉和基于运动测量这两种主流方法[1]。计算机视觉存在遮挡,采用数据手套尽管解决了视觉遮挡问题,但一定程度上限制了使用者手指的灵活性,且硬件装置复杂[2],这两种手势动作感知方法己无法满足人们对人机交互可靠性和便捷性的进一步要求。由于肌电采集传感器的微型化,基于表面肌电信号(surface Electromyography,sEMG)的手势识别技术由于其自然的交互方式引起研究者的关注,成为手势识别领域中的研究热点之一[3]。
sEMG信号是肌肉活动产生的非平稳生物电信号,从手臂关联肌肉采集的sEMG信号可以反映手腕、手指的精细动作,文献[4]将源分离和基于模型的技术相结合,以减少sEMG传感器的数量,对截肢患者对11种手部姿势中的五指屈伸想象动作进行分类,准确率达到90%以上;文献[5]建立了一个双通道sEMG信号模式识别系统应用于假肢控制,对握拳、伸食指、伸拇指和伸四指四种手势取得94%识别率;上述成果均关注于手部精细动作,获得了良好的识别率,但复杂手势动作涉及手臂和手部两部分姿势的动态变化过程,如手语手势动作,需要同步识别手臂和手部的联动。李云等人针对30个中国手语字母提出一套基于sEMG识别的手语手势动作规范方案[6],使基于sEMG的手势识别率有所改善,这种改善是基于特定用户的手势识别率,而关键的用户无关识别率并不高,反映出使用单一sEMG信息源进行识别时,手部姿态的区分性并不理想。如果将加速度传感器用于手势中手臂部分姿势的动态变化识别,则具有特别的优势。谢仁强等利用加速度信号对上、下、左、右、右上、左下、左上、右下8个基本手势及由多个基本手势组成的复合手势取得97.3%的平均准确率[7];同样,文献[8]对加速度信号使用动态时间规整算法识别横、竖、画圆、打钩、画叉等5种手势,平均识别率在97%以上。显然文献[7-8]成果可以很好地识别手臂运动轨迹,但无法识别腕、指的精细动作。尽管目前也有将sEMG与ACC信号结合进行手势识别的研究,但多为相对简单的自定义动态手势[1,9],限制了其使用范围。
本研究以中国手语手势为研究对象,利用固定于小臂前端背部的加速度计ACC捕捉复杂动态手势中手臂部分的运动信息,记录手势全局信息;选择性放置的多路sEMG信号则捕捉手腕、手指等精细动作,记录手势细节特征,结合ACC和sEMG形成优势互补,提高复杂动态手势识别的性能。在信号处理方法上,则将一个完整手势分割为三个特征区段,对不同区段的ACC提取反映手臂宏观运动的平均波形长度MWL、绝对值均值特征MAV,并融合反映指、腕精细动作sEMG样本熵特征组成特征向量,选择SVM分类器完成识别。
图1 手势识别框架图
1 手势识别算法
利用表面肌电sEMG和加速度ACC进行动态手势识别的框架如图1所示,包括sEMG和ACC信号采集、活动段和特征区段分割、特征选择、分类识别四个部分。
1.1 实验数据采集
本文设计的实验中,采集仪器使用DELSYS Trigno无线sEMG信号采集系统,用于采集与指、腕动作密切相关的拇指伸肌、指总伸肌、桡侧腕伸肌与尺侧腕屈肌四路sEMG信号,其位置如图2(a)所示,其中桡侧腕伸肌与尺侧腕屈肌主要与腕部动作相关,拇指伸肌和指总伸肌则与手指动作相关。为了捕捉到更能体现手臂挥动幅度和轨迹的ACC信号,将ACC传感器设置在靠近手腕的背部固定,见图2(b)CH5位置,用于采集复杂动态手势中手臂挥动的信息。表面肌电信号采集频率为2 000 Hz,加速度信号采集频率为150 Hz。
图2 信号采集位置与传感器分布
本文以中国手语中“你,好,大家,可以,说话,加油”等6个手势动作为动态手势识别对象。对4名(年龄为23~25岁,三男一女)均为右利手且未患有任何神经肌肉系统或关节疾病的健康人进行手势实验的数据采集。信号采集时,受试者坐在稳固、高度合适的椅子上,手臂自然搭于膝盖,静息状态时ACC和sEMG无输出。实验过程要求受试者执行上述6种中国手语中的手势动作,每种动作执行80次,每次执行时间尽可能相同。每次手势动作的数据采集以一个完整手势执行完毕为限,执行后回复原位,以便执行下一个完整的手势动作。
1.2 动态手势的区段分割
图3为手语“你”的手势动作图及其手势信息采集界面。图4为“你”的ACC信号,其中,图(a)为X、Y、Z三轴ACC信号,图(b)为三轴ACC信号之和SUMACC,SUMACC与虚线框交点为手势起点A、止点D;A、D两点表示手臂挥动时ACC的起止点,动态手势活动段A-D通过信号的差分并比较阈值后确定。
图3 手语“你”的手势动作
图4 手语“你”的ACC信号
图5为“你”的sEMG信号,sEMG1-sEMG4为四路肌电信号,SUMsEMG为四路sEMG信号之和,SUMsEMG与虚线框交点为sEMG活动段的起点B、止点C,B、C两点表示腕、指活动时sEMG的起止点,包含于ACC的起止点A、D之内,活动段B-C通过信号的移动平均并比较阈值后确定。
在动态手势各特征区段的检出和划分中,基于ACC的信息划分选用的是差分阈值法,基于sEMG信息的划分是移动平均阈值法,在文中统称为阈值法区段划分。
A-D,B-C确定之后,本文将一个完整动态手势分割为三个区段:起始段A-B、主特征段B-C和收尾段C-D,如图6所示。B-C是主特征段,该区段对应指、腕执行动作时sEMG的起止点。
图5 手语“你”的sEMG信号
图6 手语“你”的SUMsEMG+SUMACC信号
特征提取前,需对所采集的sEMG与ACC进行动态手势活动段提取,因此起止点的判断尤为重要。采用基于阈值的方法确定ACC的活动段起止点A、D与sEMG的活动段起止点B、C,其中B、C在逻辑上包含于A、D之中。
ACC起止点判断:将三轴ACC信号求和得到SUMACC,其信号幅值图如图4所示。手势动作前后ACC较为平稳或无输出,手势执行中ACC变化剧烈,通对SUMACC取后向差分并移动平均可反映剧烈程度:
(1)
式中:m为窗口长度,m=5,asum(i)为SUMACC幅值。
设置阈值th1,若从A点开始A(n)大于th1则视A点为起始点,若从D点开始A(n)小于th1则视D点为终止点。th1取值方法可由式(2)确定:
th1=ασ
(2)
式中:σ为手势执行前SUMACC信号的标准差,α为增益系数,α=2。
sEMG起止点B、C的判断:将四通道sEMG求和得到SUMsEMG,其信号幅值图如图5所示。肌肉激活伴随sEMG的能量变化,对SUMsEMG的绝对值进行移动平均处理以反映sEMG的能量:
(3)
式中:w为窗口宽度,w=30,l为步长,l=16,ssum(i)为SUMsEMG幅值。
设置阈值th2,若S(k)大于th2,则视为发生肌肉激活,将该段视为活动段,若S(k)小于th2,则忽略该节段。th2取值方法可由式(4)确定:
th2=μ+βσ
(4)
式中:μ为静息状态下SUMsEMG均值,σ为标准差,β为增益系数,此处取值为1.5,如需活动段检测更加可靠,可适当取大如1.8。
1.3 特征选择
样本熵是一种用于度量时间序列复杂性的信号特征,很适合对sEMG等生理信号的复杂性表达[10],样本熵用于衡量时间序列中产生新模式概率的大小,样本熵值越大,表示时间序列中产生新模式的概率越大,序列的复杂度也更高,这一性特性恰好表达了动态手势变化过程中按时间序列的腕和指等动作的变化及多样性。
设sEMG采集信号的时间序列为x(i)(i=1,2,…,N,N为采样点数),计算其样本熵的步骤如下:
①将序列按顺序组成m维矢量:
Xm(i)=[x(i),x(i+1),…,x(i+m-1)]
(5)
式中:i=1,2,…,N-m。
②定义矢量Xm(i)和Xm(j)之间的距离为两个矢量对应元素差值中最大的一个:
(6)
式中:i,j=1,2,…,N-m,且i≠j。
(7)
(8)
⑤将序列按顺序组成m+1维矢量,重复步骤①~步骤④得到Bm+1(r).
⑥序列的样本熵为:
(9)
⑦实际应用中,由于序列长度有限,因此采样点数为N的序列样本熵的估计值为:
(10)
绝对值均值(Mean Absolute Value,MAV)是一个算法简单、物理意义明确的特征信息,适合总体层面的特征表达,用于本文ACC信号的分段信息描述是一个既简单又有效的特征。ACC的波形长度(Waveform Length,WL)[11]作为另一个总体特征,可用来表示信号的波形复杂度。在具体处理方面,为排除数据长度的影响,在原有波形长度基础上提出平均波形长度特征(Mean Waveform Length,MWL),它更能反映ACC信号的变化规律。
(11)
式中:a(i)为ACC采集信号的时间序列,i=1,2,…,L,L为采样点数。
一个复杂的动态手势,若以活动段(AD)作为一个整体考虑提取其特征,往往会埋没手势的细节,难以反映手势执行过程的详细信息。本文将复杂动态手势分解为三个相对独立的区段:起始段、主特征段和收尾段,如图6的AB、BC、CD三个区间。根据ACC和sEMG信号的特点,有针对性地选择其分区段特征,能更好地将动态手势的宏观信息和微观细节特征有机地结合起来。
一个动态手势不同区段的特征提取方法如下:
①在起始段A-B,仅有ACC为活动状态,sEMG是静息的,它反映了ACC在手势起始过程的宏观信息,对起始段A-B的ACC选取MAV作为其特征。
②在收尾段C-D,仅有ACC为活动状态,sEMG是静息的,它反映了ACC在手势终止过程的宏观信息,对收尾段C-D的ACC也选取MAV作为其特征。
③B-C区间是主特征段,包括sEMG与ACC双重信息,sEMG信号蕴含了指、腕在动态手势执行过程中的细节信息,期间有ACC的相对变化并伴随sEMG的丰富信息,两者的信息融合对手势的识别起到了决定性作用。对ACC提取MAV与MWL特征;同时对sEMG则提取描述信号复杂度的SampEn特征以体现手势的细节变化。
综上,针对动态手势采集的传感信号ACC、sEMG,提取的全部特征有:SampEnBC-sEMG、MWLBC-ACC、MAVBC-ACC、MAVAB-ACC、MAVCD-ACC,其中第一下标表示区段,第二下标是传感信号。用特征组合方法进行特征融合,构造特征向量用于分类器识别。
1.4 分类器
支持向量机(Support Vector Machine,SVM)的主要思想是建立一个分类超平面作为决策面,使不同类之间的隔离边缘被最大化,从而实现分类[12]。
SVM算法最初是为二值分类设计,处理多类问题时需要构造多类分类器,构造多类分类器主要有两类:一类是直接法,直接法修改目标函数,将多个分类面参数求解合并到一个最优化问题中,通过求解最优化问题实现多分类,该方法计算复杂度高,实现困难。另一类是间接法,组合多个二分类器来实现多分类器的构造,主要方法有一对多(one-versus-rest)和一对一(one-versus-one)两种[13]。由于一对多方法分类精度相对较低,本文采用一对一法构造SVM分类器。以3分类为例,在任意两类间设计SVM:SVM1,2,SVM1,3,SVM2,3,对测试样本A分类时,3个SVM分别对A进行分类投票,得票最多的即为A的类别,如图7所示。因此,n分类问题需设计[n(n-1)]/2个SVM,对一个未知样本分类时,得票最多的类别即为该未知样本的类别。
图7 一对一SVM识别原理
2 实验分析
2.1 特征提取分析
BC区间是主特征段,sEMG与ACC的信息融合对手势识别起决定性作用,本文在此重点分析主特征段特征的一些特点。以受试者1为例,图8为MAVBC-ACC的特征散点图,图9为MWLBC-ACC特征散点图,可知ACC信号受外界干扰小,整体具有较好的可分性,这是因为不同手语挥动轨迹通常具有较明显的差别,但是“好”与“你”的ACC特征具有重叠现象,尤其是MWLBC-ACC特征,这是因为它们在执行中具有相同的抬臂动作,运动轨迹具有一定的相似性,因此对运动轨迹大致相似的手势,如采用单一ACC信号,在动态手势区分上的不确定性就显现出来了,此时需要进一步能反映指、腕精细动作的sEMG信息作为补充;另一方面,不同的受试者做同样的动作也会存在细微差异,甚至同一受试者在做同一动作时也会有所区别。
图8 受试者1的三轴ACC信号MAV特征
图9 受试者1的ACC信号MWL特征
取受试者1执行“你”,“好”时拇指伸肌的肌电信号sEMGBC,加窗口长度N,求出SampEn,然后每移动1个数据点就求出该窗的SampEn,进行比较,此处取N=200。
由图10和图11可见:SampEn可以反映肌电信号特征,肌电信号从静息状态到激活再到静息状态,SampEn的变化显著,呈现不同的规律性。而且“你”与“好”肌肉激活段的SampEnBC-sEMG变化规律不同,表明SampEn特征的选择能支持腕和指的精细动作区分。
图10 “你”的sEMG与SampEn
图11 “好”的sEMG与SampEn
2.2 分类识别
为探究表面肌电与加速度传感在手势识别中各自优势,将不同特征组合构造成特征向量用于识别率的对比分析,如表1所示。
表1 不同特征组成的特征向量
上述特征均使用SVM进行分类,从每名受试者的样本数据中,取50组样本作为训练集,其余30组样本作为测试集进行交叉验证,识别结果如表2所示。
表2为四名受试者采用不同信号组成特征向量的平均正确识别率,融合sEMG与ACC的F3特征向量对所有受试者识别率均是最高,其中受试者4可获得最高91.2%的识别率。
表2 不同特征向量平均正确识别率 单位:%
3 结论
本文提出一种融合sEMG和ACC的复杂动态手势识别方法,用阈值法将复杂动态手势分割形成起始段、主特征段和收尾段,根据不同区段的特点,有针对性地对ACC提取MAVAB-ACC、MAVCD-ACC、MWLBC-ACC、和MAVBC-ACC特征,对sEMG提取SampEnBC-sEMG特征,构造特征向量F3,使用SVM对6种中国手语手势进行分类。实验结果显示最高可达91.2%的识别率,表明以全局传感信号ACC和体现腕部和手指变化的多路sEMG信号相结合的动态手势方法能够很好地选择手势的有效特征,对复杂动态手势的识别效果良好。进一步的研究工作将拓展手语中动态手势的种类,构成常用手语的识别体系和方法。