APP下载

基于标签几何化与特征融合的sEMG 手势分割分类∗

2023-11-29周丙涛

传感技术学报 2023年10期
关键词:手势频域时域

周丙涛,朱 黎,向 勉

(湖北民族大学智能科学与工程学院,湖北 恩施 445000)

表面肌电信号目前广泛应用于人机接口,最为常用的是手势的识别。国内外对于基于肌电的手势研究多是集中于手势的识别,即通过特征提取、智能分类的手段将已知的肌电信号序列进行分类。从实用意义出发,对于连贯的数据进行分割,是信号分类的前期工作,同样重要。目前国内外对于肌电数据的分割方法往往采用阈值分割等比较简单的方法[1]。肌电数据不同于其他可穿戴设备中的传感器如惯性传感器、压力传感器,往往数据并非线性且稳定性较差,需要提取时域、频域的特征再进行分类[2]。

要在一长段含有不同手势的肌电信号中识别出特定手势,首先需要找到动作在信号流中的起始点,郑楠等[3]提出了一种利用sEMG 信号瞬时能量结合阈值分割的方法,利用特定手势瞬时能量的变化来划分起始点,这种方法简单、快捷,但是在处理个别瞬时能量变化幅度较小的手势动作时不够精确,同样使用该方法的还有冯凯等[4]。在阈值分割法中,有一些研究使用了双阈值分割法[5-7],双阈值法主要原理是设置两组阈值,第一组是开始测量的标志,第二组和第一组的阈值进行对比,然后再进行分割,这种方法比单阈值更精确。阈值分割的方法受到肌肉疲劳、肌表面出汗等因素影响,阈值可能需要进行动态调整。Wang M 等[8]提出了一种基于信号包络和积分肌电图的sEMG 分割算法,对于连续信号进行积分处理形成包络线,后进行阈值处理,对于步态进行分割,能够达到91.42%的准确率。Wang Y等[9]提出的分割方法是在对sEMG 信号流进行傅里叶变换后再进行隐马尔科夫计算,该方法很好地运用在高频sEMG 信号处理中。Park 等[10]的研究使用了一个双层的隐马尔科夫链结构,第一层表示运动的类型,第二层表示运动阶段,很好地使用sEMG数据预测了步行、跑步、反向跳跃和坐立动作,做到了端到端的分割加识别。目前对于分割算法,国内外方法还是以阈值法为主,缺乏对于复杂信号进行分割的能力。

对分割后信号的处理,国内外的方法非常丰富,常用的特征提取算法有时域法、频域法、时频域法等[11-13],主要原理是提取出sEMG 信号流中的特征。特征提取方法有小波变换[14]、选择时域特征、均方根比和自回归模型[15]、SSDs[16]等。反向传播神经网络、自适应增强算法[17]、KNN[18]和深度学习被用于对sEMG 信号进行分类,结合多维度的分类器近年来出现得较多。卫文韬等[19]采用了双流卷积神经网络对离散小波变换系数和原始表面肌电信号两个分支进行高层特征学习,效果比单特征有所提升。Shen 等[20]提出了一种基于多级卷积神经网络(Convolutional Neural Network,CNN)分类器,对时域、频域和时频域数据分别进行训练,将三个一级分类器的分类结果组合起来,作为特征向量训练二级分类器。融合多维特征也能够提升分类的精度。Wei 等[21]提出了一种多视图卷积神经网络框架,对于不同维度特征进行视图重构,然后通过网络融合特征完成分类。Li 等[22]利用多特征融合的长短时记忆卷积神经网络(MFFCNN-LSTM),提出了一种基于前臂表面肌电信号时域和时频谱特征的连续手部运动识别方法。该方法可以识别包括休息动作在内的10 个基本手部动作。Wang 等[23]提出了一种基于特征融合的改进胶囊网络,将表面肌电信号信息与特征数据结合在一起,形成新的特征作为输入。通过以上的研究中可以看出,分类的工具目前主要是深度学习,以CNN 和LSTM 为主,而对象多是经过时域、频域提取后的特征。

本文基于目前国内外对于整段sEMG 手势信号的分割研究不足的情况,提出了一种基于深度学习的空闲段识别方法分割整段信号,使用滑动窗以及标签几何化的方法提升精度。同时提出了一种新的识别方法,在分割后的数据中使用深度学习特征层融合的方法融合时域与频域的特征。

1 数据分割算法

1.1 数据集介绍

本文所采用的的数据集是NinaPro database,是目前认可度较高的基于表面肌电的手势数据,其中的DB1 库使用了10 通道布置在前臂上的sEMG 传感器的数据,测试了27 人次,52 个动作,动作主要分类三组,简单基本手势(手腕运动)、抓握以及手指的屈伸。数据采集频率为2 kHz,采集方法为单个人进行连续采集,动作持续5 s 后过渡时间为3 s。

1.2 数据分割算法

对于连续数据流的动作分割,常规的方法是阈值法,对于动作复杂、多人次的数据,个体与动作之间的体表特征、表面肌电的基础水平是不一样的,如图1 所示,阈值的选择无法满足所有动作与个体。

图1 连续sEMG 信号时序图

基于此,本文提出一种先对于过渡段进行识别的方法,找出过渡段的起始位置,再通过起始位置进行手势动作的分割,整体的流程如图2 所示。

图2 信号分割流程图

①首先基于目标精度对于数据流进行降采样,以满足计算时间与效率的要求,基于本研究所选择的实验数据,将数据降采样至15 Hz,时间精度可以达到0.06 s。

②然后对于降采样以后的数据,引入滑动窗来对于数据进行拾取,在此实验中,根据过渡状态的长度,将滑动窗的长度设置为20,最终所得到的每一次滑动窗数据格式为20×10。对于滑动窗得到的数据,通过有监督学习的方法来进行识别,所以标签的设置至关重要。

定义每一个滑动窗对应一个标签,如图3 所示,每一个标签指代的是滑动窗所包含数据类型的状态,由于每一个滑动窗的长度为20 格,定义如果属于过渡阶段,则取1,属于手势动作阶段,取0,而标签为滑动窗所有格相加除以20,可见,完全处于过渡状态的标签,值为1,而完全处于手势动作状态的为0,中间状态的大小从0~1 进行变化。

图3 滑动窗口与标签示意图

③对于滑动窗采集的数据,采用LSTM 网络提取数据来进行特征提取与分类,LSTM 网络适合于提取数据流中的时序信号,对于此类运动信号,在本文作者的前期研究中被证明有着比其他深度学习网络(如CNN)更好的效果[24],在此基础上,我们引入了注意力机制,对于10 维的数据进行注意力区分,将训练集中于更重要的数据上来。采用的网络结构如图4 所示。

图4 LSTM 结构图

网络由一层LSTM 层组成,特征尺度为10,时间维度为20,用以提取时序中的特征信息,经过LSTM层的向量被引入注意力机制模块,与前n个时间步的隐含层做点积计算出注意力分数,再拼接成新的向量,经过两个Dense 层输出特征向量aj,pi,最后进行回归操作,选择优化器是Adam (adaptive moment estimation),平均绝对误差函数作为损失函数。

④经过深度学习网络所拟合出的标签信号、原始标签信号的时序图见图5。

图5 标签时序图

可以看出,拟合出的标签信号中的很大一部分误差,来源于信号中出现的不稳定高频波动,对于原始标签进行分析可知,标签在时序中的变化过程可以体现为四个阶段,首先是值为0 的手势动作阶段,然后是由0 向1(过渡状态)的渐变阶段,这一阶段是斜率一定的直线,然后是值为1 得过渡状态,最后是由1 向0 装换的渐变阶段,这一阶段也是斜率一定的直线。

经过分析可以知道,标签信号的曲线拟合度能够体现出信号状态的变化,本研究采用求包络线来对标签信号进行处理,所述求包络线方法为希尔变换包络线求解法,首先进行信号的希尔变换求解,设标签信号的函数为x(t),则希尔变换求解公式如下:

求解出希尔变换式后,包络线就为信号的瞬时幅值大小,从而将高频的干扰信号进行去除,公式为:

经过处理的对比图见图6。

图6 标签拟合图

⑤对经过包络线处理后的信号,我们采取阈值分割法,取大于等于0.97 的数值为过渡状态,小于0.97 的数值为手势动作阶段。

2 手势动作分类算法

对于分割完成后的手势动作信号,信号长度有所不同,如果直接使用深度学习对于原始数据进行学习,需要使用降采样,势必会损失数据中的某些特点,所以,对于手势分类信号,不进行降采样。本研究提出利用时域频域的特征提取公式,对于时域、频域特征分别进行提取、再进行分类。

2.1 时域、频域特征提取

肌电信号的通道数为10,我们对每一组通道都进行时域、频域的特征提取,xi为单个信号,i为时序标量,选取了9 个时域特征和7 个频域特征,频域特征中,s(k)是绝缘架空导线信号x(n)的频谱,K是谱线数,fk是第K条谱线的频率值。公式如表1所示。

表1 时域频域特征公式表

sEMG 信号在过渡段和手势动作阶段的主要区别在于幅值、曲线趋势等方面,而时域与频域两方面的特征足以描述肌电特征,y1、y4主要体现信号的强度,y2、y3、y7、y8和y9体现了信号的变化范围,y5和y6主要体现了信号的变化趋势。y10表征了该信号能量的强度,y11和y13体现了该信号的集中或分散程度,y12、y14、y15和y16体现了该信号的主频带位置。

2.2 深度学习工具

在动作识别的分类中,常用的分类方法为LSTM 与CNN,注意力机制作为提升深度学习神经网络效果的方法,被广泛引用,本文选取带有注意力机制的LSTM 与CNN 作为深度学习单元,网络结构如图7、图8 所示。

图7 分类LSTM 结构图

图8 CNN 结构图

LSTM 总体结构与图4 类似,输入的格式不同,为10×10,在注意力模块后为Dense 层,最后一层为Dropout 层,后进行Softmax 分类。

我们设计的卷积神经网络有两层卷积层,第一层的卷积核大小为6×6,通道数为32,第二层卷积核的大小为1×1,通道数拓展为64 位,然后使用2×2的最大池化层进行降维,为了防止网络的过拟合,在最后一层之前设计了Dropout 层,Dropout 层的系数为0.5,最后通过一层平铺层将向量展开,形成长度为768 的向量,进行Softmax 分类。

在此基础上,我们同时也探索了多特征融合对于分类效果提升的作用。国内外很多研究证明了多尺度的特征融合能够提升sEMG 信号处理的能力。本文采用多模态的网络结构进行融合时域与频域的特征,总体结构如图9 所示,特征提取网络为LSTM或CNN,特征提取后进行模态融合,在最后的Dense层之前将提取的特征进行向量的拼接。

图9 特征融合结构图

3 实验结果与讨论

实验的结果分为两部分,第一部分是信号分割的准确度,第二部分为动作分类的准确度,我们分开进行结果的展示与讨论。

3.1 信号分割实验

我们将整个信号流按照5 ∶1 的比例分为训练集和测试集,网络进行5 次训练,训练后使用标签处理方法,然后记录下每次的结果并且与实际标签进行比较,最后计算出准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F1-score。

标签为1 的结果为正例,为了进行对比和验证本文的方法是否有效,设计了三组对比试验,第一组是直接将标签设置为1(过渡)和0(手势动作),第二组是在标签拟合后,不进行包络线求解,以此验证包络线求解的效果,第三组是采用目前国内外研究使用较多的阈值法,采用多种阈值选出最佳的结果,总体的结果如表2 和图10 所示。

表2 分割结果实验表

图10 分割结果实验图

从结果可以看出,未进行包络线处理的总体结果要比0、1 标签法更好,说明直接将标签设置为1和0 进行分类处理在此项研究中是不适合的,分析原因,滑动窗口在滑动到过渡状态和手势动作阶段时含有了两项的特征,单纯地使用0、1 标签不准确,导致网络训练时特征学习不准确,导致结果产生误差。对比完整算法和未进行包络线处理的算法说明进行包络线处理可以有效提升准确度,在消除高频干扰的基础上没有带来更多的误差。最终对比本文方法和常用的阈值分割法,本文的方法有一定的优势,能够为动作分割提供有效解决方案。

3.2 手势动作分类实验

我们使用手势分割后的数据,将分割后的数据进行动作标签的标记,一共分为3 组,简单基本手势(手腕运动)、抓握以及手指的屈伸,每一组选择10个动作,进行了六组实验,分别是使用时域特征的LSTM 和CNN、使用频域特征的LSTM 和CNN,融合特征的LSTM 和CNN,实验的目的是对比网络结构的差异和讨论时域频域特征对于结果的影响。深度学习的损失函数使用的是交叉熵损失函数,最终的结果如图11、图12 与表3 所示,分类能力用准确率来表示,运行时间用每计算一组数据的时间来衡量。

图11 网络类型结果对比图

图12 数据类型结果对比图

从结果可以看出,在网络结构上,LSTM 比CNN有着更好的特征提取分类能力。从时域频域特征的结果对比来看,时域结果要比频域的结果更好,说明手势动作的特征更多地是体现在时域上,频域上的特征只能作为时域特征的补充,特征融合后的结果要比单一的时域、频域的结果都优秀,这一点在预期之内,从网络运行时间上看,LSTM 也优于CNN。表4 所示为近期国内外的研究与本文研究的结果对比。

表4 近期国内外研究结果表

从表4 中可以看出,本文的结果占有一定的优势,分析原因,特征的提取是一方面,与近期的结果对比,丰富的时频域信号种类可以完整地体现出信号的特征。本文所提取的时域、频域信号的种类比较丰富,程度比较深,文献[3]和文献[14]主要利用的是肌电信号的协同矩阵和信号的特征图像,是对于原始肌电信号进行处理,没有集中于对信号的时频域进行探索,而文献[14]将时域、频域信号使用图片的方式进行表达,没有对于时频域的特征进行深度提取。另一方面是特征提取网络的选择,文献[3]使用的是较为简单的分类网络,文献[20]证明了CNN 网络在提取特征方面有着优势,而文献[14]的初始特征提取网络为LSTM,任何特征提取网络的选择都需要对应于数据格式,对于目前两种主流特征提取网络,我们都进行了探索,结果证明,对于选择的特征,带有注意力机制的LSTM 是效果较好的一类。

4 结论

本文研究了基于sEMG 的常见手势信号分割与分类的研究。针对于目前关于信号分割研究较少的问题,提出了一种基于深度学习的空闲段识别方法分割整段的信号,使用滑动窗以及标签几何化的方法提升精度,最终达到了效果超过阈值分割法的效果。同时,本文对于手势分类也进行了研究,提出了一种使用LSTM 融合9 个时域、7 个频域特征的分类算法,最终证明在特征提取中,LSTM 能够更好地完成分类,该算法在近年来的结果中占有一定的优势。

猜你喜欢

手势频域时域
大型起重船在规则波中的频域响应分析
挑战!神秘手势
V字手势的由来
基于时域信号的三电平逆变器复合故障诊断
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
胜利的手势
基于极大似然准则与滚动时域估计的自适应UKF算法
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离
基于时域逆滤波的宽带脉冲声生成技术
基于频域伸缩的改进DFT算法