面向肌电信号的虚拟现实提线木偶动画研究*
2019-10-24谭宇彤周旭峰孔令芝王醒策武仲科税午阳周明全
谭宇彤,周旭峰,孔令芝,王醒策,武仲科,税午阳,付 艳,周明全,
Vladimir KORKHOV2, Luciano Paschoal GASPARY3
1(北京师范大学 人工智能学院,北京 100875)
2(Department of Computer Modeling and Multiprocessor Systems,St.Petersburg State University (SPBU)199034,Russia)
3(Institute of Informatics,Federal University of Rio Grande do Sul (UFRGS)15064,Brazil)
提线木偶是中国传统文化精粹之一,但目前对它的保护与传承却存在重大问题.提线木偶,又被称为“悬丝傀儡”,起源于秦汉时代,由于其精良的木偶制作工艺与精湛的表演技艺,在2006 年被确立为首批国家级非物质文化遗产.但是,由于目前人们文化生活的丰富以及审美情趣的变化,观赏提线木偶戏的人越来越少,受众不停地萎缩.究其原因,主要有以下3 点.首先,提线木偶这种古老的戏种中木偶笨重,道具繁杂,搬运不便,不适于远距离长途演出.其次,提线木偶一般都系有16 条甚至多达30 余条纤细悬丝,线条繁多,操作复杂,普通人参与难度较大.最后,提线木偶剧目的展示方式以录制影像视频和剧团表演为主[1],缺少具有创新性的方案.
近年来,随着信息技术的跨越式发展,使用数字化手段在虚拟现实环境中实现提线木偶的保护与传承成为可能.虚拟现实涉及计算机图形学、人机交互技术、传感技术、人工智能等领域,它利用计算机的软/硬件资源实时生成与现实物理世界对应的三维虚拟世界,从视觉、听觉、触觉、味觉、嗅觉等多感官通道为用户提供身临其境的真实感受.应用虚拟现实技术实现提线木偶的载体模型设计与构建,可有效缓解木偶与布景移动的困难.通过构造基于生理数据的用户与提线木偶的自然交互方式,实现提线木偶整体动画,在提供用户体验的真实感和沉浸感之外,还可以增加用户参与感与交互性.通过交互可实现木偶剧目的快速编辑和存储,便于实现木偶剧的存储以及三维虚拟显示与展陈,为木偶剧的传播提供了新的途径.因此,构建在虚拟现实环境下普通大众可体验性的提线木偶操控,对于提线木偶的传承具有重要的意义[2].
与传统二维线条动画、三维立体动画相比,虚拟现实环境下的木偶动画交互研究还处于起步阶段.Narukawa[3]利用视觉传感器获得木偶的运动文件,实现木偶的动态创作.Tseng[4]采用增强现实构建舞台布景,实现了木偶在虚拟场景中的表演.但是,Narukawa 仅关注于木偶及木偶运动的三维快速建模,而Tseng 中依然是对实体木偶模型进行操控.Smart Glove[5]与我们的工作类似,它通过数据手套做出手势控制木偶活动.但是,数据手套束缚感较强,手与手指运动范围有限,其交互的便捷性和自然性都有待提高.同时,数据手套价格偏高,不利于大规模的推广与普及.
人在完成各种手势的过程中,手部、前臂及大臂的运动引起上肢肌肉收缩舒张以及上肢运动状态变化.我们可用陀螺仪、加速度计和磁强计通过测量位置、速度和加速度等外蕴运动信号来描述人的手部运动,实现手势识别.同时,肌肉收缩舒张也将在手臂肌肉表面直接产生肌电信号,通过肌电仪可以获得这种人体内蕴生理信号,并完成手势描述.外蕴运动信号描述(位置、速度和加速度)是手部肌肉变化的间接反映,信号会受到风力、湿度、场地规模与手部运动范围等环境因素的影响,因此,需要探索新的人机交互接口来实现手势识别.作为内蕴运动描述的EMG 信号,其振幅和频率随收缩力的变化而变化[6,7],因此可以将用户的肌肉收缩相联系以控制相关设备.通过皮肤电传感器的一条通道可以检测到许多肌肉的活动,这使得我们可以利用更少的[8]电极获得足够多的信息.
为了打破传统提线木偶动画的束缚,实现提线木偶的科技化保护,本文设计了基于EMG 信号手势识别的虚拟现实提线木偶动画方案,实现了利用MYO 臂环肌电信号的人体生理信号控制动画原型软/硬件系统设计.MYO 臂环通过测量前臂的运动得到八通道EMG 脉冲信号并传输到Unity 3D 中,Unity 3D 获得EMG 信号后对其进行信号分析与特征提取.同时,基于SVM 多分类器的手势识别系统根据提取特征进行手势识别,构建手势与动作之间的关联关系,实现在Unity 3D 的运动显示输出.SVM 多分类器的手势识别系统基于先验数据库进行训练.用户可以通过佩戴头盔或大屏幕显示,实现木偶动画的虚拟现实环境带入.
用户佩戴MYO 臂环于小手臂高位处,臂环内置的肌电信号感应器可以采集到八通道的原始肌电序列信号,通过低值滤波等预处理获得用户单个动作的有效信号,通过对有效信号提取特征,采用分类器实现手势识别,获得手势标签.为了实现木偶动画操控,构建木偶动作与手势关联的木偶动作库,在Unity 3D 中根据手势标签实现木偶运动.结合虚拟现实中的动作、声音与环境模块,使得用户获得有沉浸感与科技体验的序列木偶动画.
我们的主要创新性工作为:
(1)构建了基于手势识别的虚拟现实动画方案,从EMG 信号序列中提取动作信号时域与时频域特征,根据这些特征,构建多分类SVM 算法,实现了不同手势的区分.
(2)构造了以人体内蕴EMG 信号驱动的木偶动画,实现了单纯依靠人体生理信号的虚拟现实运动控制.
(3)基于我们构建的动画方案,以提线木偶为例实现了动画原型系统.通过一个准确性验证实验与两个用户调查结果验证了所提方案和系统的可行性.对于用户来说,该系统造作更方便,准确性更高,学习时间更短.
本文第1 节介绍国内外相关工作,详细介绍手势识别方法与EMG 肌肉电信号应用的国内外研究现状.第2节介绍系统设计方案与算法实现方法,包括数据预处理、特征提取与多分类SVM 实现方法.第3 节为实验与数据分析,验证肌电信号特征与分类器的有效性.第4 节为用户调查,通过将普通用户人群和专业用户在设计方面与实体提线木偶进行比较,实现算法的有效性分析与泛化性能讨论.第5 节总结整体工作并给出未来研究方向.
1 相关工作
EMG 接口通过相关的肌肉活动获得信号,并将信号与给定设备的期望功能相关联,由此可以提供一种直观、简单的通信方式.这里,我们将展示三维手势识别方法以及EMG 信号处理与应用的最新研究进展.
三维手势识别为我们提供了智能、自然与方便的人机交互方式.根据用于捕捉手势的传感技术的不同,三维手势识别可以主要分为三大类:基于视觉的无接触手势识别、基于接触性设备的外蕴传感手势识别与基于接触性设备的内蕴传感手势识别[9,10].基于计算机视觉的方法可以跟踪手部运动并有效地识别手势而不干扰用户.Starner[11]利用桌面摄像头实现了40 个单词的美国标志语言生成,正确率达到91.9%.Shanableh[12,13]等人实现了以视觉为基础的阿拉伯手语的识别,对23 个手语手势识别的准确率为97%~100%.然而,基于视觉的手势识别对环境较为敏感,背景纹理、颜色和照明[9,10]都会极大地影响手势识别的准确率.虽然有研究者应用彩色手套[7]或多个摄像机[14]进行手势增强,但在移动环境下其应用依然受限.基于接触性设备的外蕴传感手势识别,主要是指通过配备了弯曲传感器和加速度计的数据手套来捕捉手和手指的旋转和运动.Fang[15]使用两个数据手套与3 个位置跟踪器作为输入,实现了基于模糊决策的中文手语分类器,平均准确率达到91.6%.Pawe[16]通过具有4个传感器的数据手套实现了22 个手势的识别,在10 人中1ms 的响应时间内获得了98.24%的准确率.数据手套传感器配置相对比较丰富,信源多,识别精度较高.但其要求用户佩戴笨重的数据手套以捕捉手和手指的运动,使其交互的便捷性与自然性差强人意.基于接触性设备的内蕴传感手势识别,主要是指通过EMG 信号技术实现手势识别.EMG 信号可实现细微的手指形状、手形状与手腕动作[17]的辨别.使用EMG 信号为截肢者提供利用残余肌肉控制上缘假肢已在医学上被长期使用[18-20].而在手势识别中,Wheeler[21]实现了基于EMG 信号的手势识别在虚拟环境中操纵杆的运动.Saponas[17]等人构建了10 传感器的前臂窄带采集设备,以实现前臂手指按压的位置和压力的区别.Ploengpit[22]开发了一个“石头剪刀布”应用系统,应用决策树方法对8 条EMG 信道的最大值进行分类.然而,表面肌电信号非常容易受到干扰:电源线噪声、高信号、传感器的接触阻抗引起的变异性、皮肤出汗或不同肌肉间的纤维串扰信号[23]都会造成信号不稳定性.因此,如何有效地提取EMG 信号特征,如何构造稳定的分类器,如何提高识别系统的稳定性与鲁棒性,是基于EMG 信号的手势识别向商业化应用的关键.
通常,我们应用模式识别方法实现EMG 信号的手势识别系统应包括预处理、特征提取和分类算法这3 部分[24].在预处理阶段,除了简单的模拟或数字滤波器的应用外,还会应用到数据维数缩减技术,如主成分分析(principal component analysis,简称PCA)[25]和独立成分分析(independent component analysis,简称ICA).Hargrove等人[26]发现,在EMG 中使用PCA 进行分析,当分析窗口长度从256ms 减少到128ms 时对分类的准确性没有影响,并且使用PCA 会明显降低截肢者的分类错误率[27].应用ICA 技术可以有效地降低串扰效应.Ganesh 等人[28]在四通道EMG 信号下的手势识别任务中比较了不同ICA 算法的性能.EMG 信号数据显示,在低收缩水平下是超高斯的[29],因此,Timemy[30]发现,使用Fast ICA 预处理技术可以将异构窗口长度的EMG 信号的分类准确率从88%提高到93%.改善信噪比技术,例如普通空间模式(common spatial pattern,简称CSP)[31],也经常被使用.特征提取主要是指信号描述特征向量的计算.EMG 信号数据特征通常是在时域、频域和/或时频域中计算[32].时域特征主要为绝对值、方差、标准差、振幅三阶矩、振幅四阶距、首极大点振幅、零交叉、自动回归系数等20余项特征.频域特征主要应用功率谱密度(power spectral density,简称PSD)以及作用在功率谱密度上的各种统计量进行计算,例如峰值频率(peak frequency,简称PKF)等.平均功率(mean power,简称MNP)与总功率(total power,简称TTP)也常会被使用.时频域特征主要包括短时傅里叶变换(short time Fourier transform,简称STFT)、连续小波变换(continuous wavelet transform,简称CWT)、离散小波变换(discrete wavelet transform,简称DWT)、小波包变换(wavelet packet transform,简称WPT)和平稳小波变换(stationary wavelet transform,简称SWT).面向EMG 特征信号的分类器有不同类型,包括欧氏距离、逻辑回归、k近邻(kNN)、模糊分类器[33]、隐马尔可夫模型(HMM)[34]、人工神经网络(ANN)[35]、支持向量机(SVM)[32]和线性判别分析(linear discriminant analysis,简称LDA)[36]等.前期分析可以发现EMG 信号具有非线性与时变性,因此,有效的特征选择算法是EMG 信号应用的基础,更为高效、可靠的识别算法是EMG 应用的关键.通过前序研究,我们还未发现有人提出应用MYO 臂环提取肌电信号来实现木偶动画的控制,故此希望做出相关研究.
2 研究方法
对于面向木偶动画的交互,我们的研究重点在于通过MYO 臂环提取肌肉运动产生的肌电信号,通过分类器实现手势快速识别.希望验证在使用通用设备的基础上,仅应用人体内蕴的运动生理信号也可实现虚拟现实下的精确动作控制.研究的本质是将传统的计算机视觉问题转换成为对序列数据进行分类,并通过特征选择,在一定样本的条件下构造有监督的学习方案训练出准确率高的手势识别分类器.研究方法架构如图1 所示.
这一研究项目可分为手势识别与动画操控两个部分.手势识别又可细分为数据处理与分类器两个部分.数据处理部分,应用MYO 臂环获取到8 个通道的肌电信号后,通过低值滤波与移动平均得到平滑的肌电信号序列,并设置阈值切分该序列,获得每个手势相关的信号段.通过提取多样的时域与时频域特征,应用LDA 融合降维,分析各种特征与手势的关联性,得到包含信息相对完善的信号特征.分类器部分,将信号特征输入到多分类SVM 中进行训练,获得准确率高的手势识别模型,实现手势识别.动画操控部分,在Uinty 3D 中设置手势标签与动作的关联关系,应用关联关系实现动画运动库的链接,在输入信号识别出手势标签后,实现运动文件的查找与驱动,进而实现木偶动画操控.
Fig.1 Framework of our method图1 研究方法框架
2.1 数据预处理
Fig.2 The original EMG signal obtained by MYO armband图2 MYO 臂环获得的EMG 原始信号
MYO 臂环内置的肌电信号感应器由8 位芯片构成,由其获得的EMG 信号数值范围是-128~127,由MYO 臂环获得的原始信号如图2 所示.
图2 所示为外挥动作的八通道原始信号,纵轴是信号强度,横轴是时间轴,采样率为58Hz,图3 展示了250 时间步的结果.原始信号杂乱,且存在大量噪声,必须经过预处理后才能进行特征提取.我们在时域序列上对EMG 信号处理进行了加窗、滤波、移动与分割等处理,具体预处理步骤如图3所示.
为了减少微弱信号的影响,设置阈值为4 对数据进行低值滤波.为了获得相对稳定的平滑包络,使用移动平均技术[37]进行平滑处理.通过设置阈值150 确定最佳分割点,进而获得单个动作的完整信息.图4 所示为一段单通道EMG 信号预处理结果,其中,实线为原始输入信号,取绝对值之后进行平滑处理得到虚线的数据,根据移动平均法和设定的阈值确定圆圈标志动作起始分割点和正方形标志动作结束分割点.
Fig.3 The procedure of pretreatment图3 预处理步骤
Fig.4 Results after smoothing original data图4 原始数据平滑处理结果
2.2 基于时域频域的特征提取
在时域序列上,提取了绝对值均值(MAV)、标准差(DEV)与波形变化长度(WL)[38]作为特征.由于单纯的时域序列不能刻画非平稳的EMG 信号所有特征,我们利用离散小波变换提取时-频域信号特征.面对MYO 臂环采集到的EMG 信号,采用Daubechies2(db2)小波基函数[39],选用了level=3 层进行小波变换,得到了1 层低频信息和3层高频信息分解,S={S1,S2,S3,S4},图5 所示为小波变换结果,S1,S2,S3,S4分别表征了原始信号低频信息与高频信息.选择小波变换中常用的小波系数最大值MAX、小波系数奇异值SVD、小波系数能量E[40]作为时频域上的特征.
Fig.5 Results of wavelet transformation图5 小波变换结果
由于EMG 信号序列本质上是一个时间序列,可以获得在时域和时频域上常用的一些特征,比如均值、标准差等,则可利用公式(1)~公式(6)进行计算.这里,设某一时刻t的肌电信号表示为选取一段长度为Lp的序列来进行特征向量计算,其中,i为通道数.
·绝对值均值(MAV)
·标准差(DEV)
·波长变化(WL)
·小波系数最大值(MAX)
其中,{S1,S2,S3,S4}为4 层小波变换结果序列.
·小波系数奇异值(SVD)
对于小波分解的每一层系数Sj,通过正交分解,得到正交矩阵Uj、Vj,使得则有
·小波系数能量(ENG)
其中,Lj为的序列长度.
综上,可以获得如表1 所示的特征选择表.
Table 1 EMG signal feature selection表1 EMG 信号特征选择表
时域上,绝对值均值MAV 表征信号在时间序列下不同时刻的能量的大小,标准差DEV 表征不同信号的稳定程度,WL 累积了不同信号的波长变化情况,3 类特征都是经典的时域序列特征,可以较好地区分不同的序列.时频域上,经过小波变化,不同级的小波分解系数可以在不同程度上表征信号,小波系数最大值MAX 表征每级信号频率的最大值,而小波分解奇异值SVD 具有较好的稳定性,当原始信号发生小的变化时,奇异值的变化很小,而小波系数能量均值表征了小波分解意义上的能量大小,3 类小波分解系数也可以较好地表征信号.
2.3 基于LDA的特征选择
在基于EMG 信号的手势识别任务中,由于特征向量维度较高而训练样本较少,在特征空间中的样本分布将极为稀疏,不能体现出不同分类的统计特征,因此必须对特征进行降维.选择LDA[41]实现有监督的降维,将时域与时频域上的3 类特征分别投影到低维空间中,消除特征之间关联性的同时提高了算法鲁棒性.
从EMG 信号序列中提取出每个动作对应的不同特征集合,表示为
其中,p为每个动作对应的8 维emg 信号时间序列,y属于k个动作类别之一,即用d维特征向量b标识为
定义Mj=(j=1,2,…,k)为第j类动作样本个数,Bj=(j=1,2,…,k)为第j类样本特征向量集合,μj=(j=1,2,…,k)为第j类样本的均值向量,为第j类样本的协方差矩阵,那么k类样本的类间离散度矩阵Sb与样本的类内离散度矩阵Sw的计算方法如公式(9)与公式(10)所示.
LDA 需最大化不同类别的数据的类中心距离,即要找到一个投影方向矩阵W=(w1,w2,…,w1),最大化类间离散度,最小化类内离散度,即优化公式(11)的Fisher 准则函数:
根据线性代数瑞利商(Rayleigh quotient)算法思想,得到对应的维特征向量x.
为了提高识别结果,我们对提取的特征向量进行了标准化,标准化公式如下:
其中,x是所提取的特征向量,是x的平均值,σ是x的标准差.
2.4 基于SVM多分类器的肌电信号分类过程
手势识别很明显是一个多分类问题,即使经过LDA 降维,训练样本的稀疏性依然明显.故此,利用在小样本下可获得良好分类效果的OVO SVM[42]算法进行分类.OVO SVMs 在每两个类样本中设置一个二分类SVM模型.对于N类别问题,需建立T个SVM 模型,其中,个模型都得出相应预测后,计算相同类别的出现次数,将最大次数的类别Scorej作为最终预测,其中,
gk(xi,j)为第n个二分类SVM 对于xi类别的预测和j类别的比较.
由于训练样本D将样本映射到更高维空间φ(x),并引入高斯核函数:
由于样本集中切分数据算法含有一定的错误率,在训练集中可能会出现错误的样本,采用hinge 损失函数对多分类SVM 分类器进行优化并加上正则化一项以增大模型容错率,即软间隔SVM.其中,hinge 损失函数为
其优化目标函数为
其中,t为样本容量,yi表示xi对应的正确的手势类别.利用拉格朗日乘子法求解公式(15),可得:
并选择*α中正分量计算超平面参数:
最后利用符号函数计算决策函数:
分类器中参数γ和C的值通过GridSearch 方法[43]获得.
3 实验结果与数据分析
项目软件平台为Windows 10,Unity 2017.1.0f3 与Python 3.6,硬件系统由Intel™ Core™ i7 CPU,8.GB 内存与MYO 臂环构成.虚拟木偶操控系统通过Windows 系统下Unity 3D 软件开发图形界面,以MYO 臂环提供的肌电数据作为原始数据,处理后利用SVM 算法识别手势来操控木偶,通过屏幕以全息投影技术呈现.具体系统包括数据处理、手势识别、动作匹配和木偶运动这4 个模块.
3.1 框架有效性分析
通过个体数据提取与离线SVM 分类测试,验证整体框架的有效性.实验主要对特征选择的有效性、特征压缩的有效性、分类器的准确性进行了分析.其中,在手势识别模块,定义了8 个不同的手势(如图6 所示):双击(a)、握拳(b)、停留(c)、舒张(d)、外挥(e)、内挥(f)、胜利(g)和否认(h),8 个手势对应的8 个动作如图7 所示.由于肌电信号的不稳定性,利用迪克逊准则剔除了原始数据中的异常值,为了保持样本平衡,每类动作数据选取800 个,最终收集了6 400 个有效的动作数据.将所有数据分为40 组,每组含有8 类动作各20 个,对40 组数据采用余一法交叉验证.
Fig.6 8 customized gestures图6 8 种自定义手势
Fig.7 Puppet model actions related to gestures图7 与手势相关的木偶模型动作
动作匹配模块,在Unity3D 平台上建立手势标签与人物模型动作的连接,每种手势都与模型人物的动作关联.图8 所示为系统主要界面,图9 所示为三维场景漫游界面.
Fig.8 System interface图8 系统界面
Fig.9 3D roaming system图9 3D 漫游系统
(1)时域特征提取
经过预处理的EMG 时域序列信号,每段信号长度超过70 个时间步,且肌电信号并不稳定.为了增加分类识别的鲁棒性,进一步提取每个动作单通道EMG 信号的绝对值均值、标准差、均方根高度这3 个特征.表2 是被试10 次动作的相关特征均值结果.
根据表2,3 类特征都能在一定程度上表征不同手势之间的信号特性.绝对值均值能一定程度地反映不同通道信号的能量信息.波形变化长度可以累积信号变化信息,在不同手势标签间区分也较为明显.而标准差反映了信号的稳定性,也可作为信号特征用于分类.我们首先利用SVM 算法对上述各8 维的3 类特征进行区分比较,并进一步融合所有24 维特征,采用LDA 方法降到6 维作为新的特征向量,通过分类器进行效果比较.降维后前4 维的数据分布如图10 所示.绝对值均值(MAV)、标准差(DEV)、波形变化融合(WL)选出的特征散点大致分布于8 个区域之中,其中,握拳、外挥、内挥动作的可分性良好,但是,双击、舒张、停留、胜利动作有数据交集,不易于区分.
Table 2 Mean value of relevant features of 10 movement表2 被试10 次动作的相关特征均值结果
Fig.10 Visualization of the first four dimensional comparions of dimensional reduction features fused in time domain图10 时域融合降维特征前4 维对比的可视化
不同特征所包含的信息对于识别结果的影响是不一样的,我们分别根据这4 类特征进行SVM 分类识别,对于不同特征,使用能获得最佳识别结果的参数,识别结果见表3.
根据表3,绝对值高度可以最大程度地区分不同手势,平均召回率高达90.30%.而标准差的平均召回率只有89.91%,所以,对于EMG 信号时域特征而言,以绝对值均值作为特征能够获得更好的分类结果.时域特征融合后不同动作的识别结果均有所提高,平均召回率高达94.56%,比融合之前表现最好的绝对值均值特征提升了4.26%.从表3 可以看出,相较于其他动作,舒张动作的识别率最差,双击动作最容易被混淆.分析其原因应该是来自于两个动作施展时力度都相对较小所致,MYO 臂环能够收集的信号强度相似,故此区分不够明显.外挥动作与内挥动作的识别率与召回率都很高,这与两个动作幅度大,涉及手臂上的肌肉群数量较多有直接关系.
Table 3 Results of recognition of 4 features based on time domain (%)表3 时域4 个特征分别的识别结果(%)
在时频域部分,分别对小波系数能量值、系数矩阵奇异值、系数最大值进行了LDA 降维处理,将32 维向量降维成6 维,并用6 维的向量作为SVM 分类器输入.进一步融合了3 类时频域特征,共96 维,再通过LDA 降维到6 维后作为融合结果2 进行测试.图11 所示为融合结果2 中前4 维特征对比图.
Fig.11 Visualization of the first four dimensional comparions of dimensional reduction features fused in time-frequency domain图11 时频域融合降维特征前4 维对比的可视化
从对比图可以看到,时频域特征信息与时域特征信息类似,其中,内挥动作与外挥动作离散度较大,区分明显,而舒张动作与双击动作依然有一定重合,无法直接区分.将所有时频域识别结果与时频域融合结果进行对比,使用能获得最佳识别结果的参数,表4 给出各类特征在SVM 分类器下获得的对比结果.
时频域特征也能较好地区分不同动作,3 类特征小波系数能量值、系数矩阵最大值、系数奇异值分类效果依次降低,以小波系数能量值(ENG)效果最佳.融合所有特征,降维后整体识别准确率达到了88.57%,也能较好地用于区分不同动作.比较这四者的F1 值也能看出,融合之后的特征包含更多的信息.
Table 4 Results of recognition of 4 features based on time-frequency domain (%)表4 时频域4 个特征分别的识别结果(%)
在使用LDA 方法获得了6 维融合的时域特征和6 维的频域特征之后,将时域和频域上的特征再次融合,继续采用LDA 方法进行降维处理,并获得6 维的特征向量融合结果3.
在进行融合之后,使用SVM 分类器获得的结果见表5.融合结果1 代表了时域特征的最佳识别区分效果,融合结果2 代表了频域特征最佳区分效果,融合结果3 是用于识别的所有特征的区分效果,对比后可以发现,频域特征相对区分效果最差,而时域特征优于频域特征,同时,再次融合可以进一步增加相关结果区分效果,使得最后的识别结果可以达到95.59%.图12 所示为融合结果3 中前4 维特征对比图,可以看出,多数的手势都有了进一步的区分度.
Table 5 Recognition results of fused features in time domain and time-frequency domain (%)表5 时域和时频域融合后特征分别的识别结果(%)
Fig.12 Visualization of the first four dimensional comparions of dimensional reduction features fused in time domain and time-frequency domain图12 时域-时频域融合降维特征前4 维对比的可视化
(2)分类器识别结果
使用SVM 算法与随机森林算法(random forests,简称RF)分别进行分类器设计的对比,选择融合结果3 作为输入,表6 和表7 是最后的识别结果,表9 是实时手势的识别结果.与Ploengpit[22]提出的“石头剪刀布”系统相对比,同样只采用EMG 信号进行判断.我们使用握拳作为“石头”,胜利作为“剪刀”,舒张作为“布”(三者动作相同)作为新的训练集,采用本项目的方法进行训练,对比可知,我们的方法的准确率有大幅度提升.并且,在分类8 种手势时,我们的方法的准确率也高达95%以上,对于手势类别进行了良好的扩充(见表8).
Table 6 SVM classifier recognition result表6 SVM 分类器识别结果
Table 7 RF classifier recognition result表7 RF 分类器识别结果
由表6 与表7 对比可知,SVM 算法与RF 算法对于EMG 信号分类识别均表现良好,能以较高准确率识别出相应动作,并且,Accuracy 达到了94%以上.其中,SVM 算法的分类准确率优于RF 算法.
基于以上结果,在Unity 3D 中使用SVM 算法实现实时手势识别.由于时域信号已能基本区分不同手势,时频域信息的加入对于识别准确率效果的提升并不明显,因此,选择EMG 信号时域特征,将其融合降维后作为分类特征,实现了提线木偶动画的实时操控,并对系统实时动作识别结果进行了统计,统计结果见表8.相比于静态数据结果,实时系统的准确率稍有降低,准确率为90.75%.分析准确率降低的原因是:首先,在静态数据获取时,被试每组动作是相同的,可以较好地保持动作的一致性.而在实时系统中随机表示手势时,每类动作的一致性降低.其次,实时手势表示时,外界干扰增强,被试可能受识别结果影响调整了动作幅度.
Table 8 Online recognition result (%)表8 实时识别结果(%)
Table 9 Recognition result compared with previous method (%)表9 识别结果对比(%)
相比原始SDK 提供的手势识别,识别率提高了6.65%,并且在原来的基础上扩充了手势.原始SDK 和本项目对不同手势的识别程度有较大差异.SDK 中识别率较高的舒张动作和外挥动作,是利用了陀螺仪和加速度计测量了外蕴运动信号,将速度与加速度信息与EMG 信号合成后进行手势判断.表10 给出了具体数据.
Table 10 Online recognition result compared with original SDK (%)表10 与原始SDK 实时识别结果对比(%)
3.2 普通用户研究
我们采用用户实验来验证算法在人群中的鲁棒性以及测试基于算法实现的虚拟系统的可用性.通过对比算法在不同人群中的表现,获得人群识别准确率;让用户对比真实提线木偶操控与虚拟系统操控,从而对比两个系统的相似性,并获得虚拟系统可用性.
用户选择:因为MYO 臂环检测的是手臂上的肌肉电信号,所以选择32 个年龄在20 岁左右(均值为20.34,方差为7.01)、右利手、双目视觉正常、BMI 值正常(均为20.58,方差为2.55)的人群(其中,16 名男生,16 名女生,来自北京师范大学的学生志愿者)作为普通用户的测试.对比项为真实提线木偶操纵和臂环操纵虚拟木偶两者的成功率、训练时间及用户体验.为了公平地检测MYO 臂环和真实的提线木偶的体验感受,我们将32 个人分为两组,两组人数和男女人数均相同,A 组先体验臂环,B 组先体验提线木偶.
实验设计:所有人在操控提线木偶前都会被工作人员教授使用提线木偶的技巧,让他们学会如何使用手部动作控制木偶,同时记录下他们学习手势的时间.然后进行测试,记录能否使用教授的8 个动作成功地对木偶进行控制.所有人在使用臂环之前,首先会学习佩戴臂环的方法以及与木偶操作相对应的8 个手势.然后进行识别训练,同时记录下学习和训练的时间,再进行正式的操控虚拟木偶的测试.在进行测试时,会记录下识别正确和错误的手势个数以及臂环操控木偶动作的反应时间.测试的流程如图13、图14 所示.
Fig.13 The test procedure of Group A图13 A 组测试流程
Fig.14 The test procedure of Group B图14 B 组测试流程
木偶的测试是在工作人员提示动作顺序的情况下,完成提线木偶——走、跑、跳、点头、打招呼、跳马一整套动作.臂环的测试是在确认能够切分木偶的手势动作后,在提示动作顺序的情况下,完成双击(走)、握拳(打招呼)、舒张(点头)、停留(跳)、内挥(跑)、外挥(跳马)的一套动作.虚拟木偶的动作与真实提线木偶有细微的差别,但可视为近似相同的动作.通过在虚拟木偶中配备全息体验环境,以最小化叙事环境对被试者的感受差异.
完成相关测试后,我们对用户进行了量表分析.国际标准化组织在IOS 9241-11 条目中将人类工效学里的“可用性(usability)”定义为产品在多大程度上满足了用户在完成目标过程中的有效性(用户使用系统完成任务的能力,以及这些任务的完成质量)、效率(执行任务所消耗的资源水平)以及满意度(用户对使用系统的主观评价).在这一定义的基础上,研究者们提出了许多理论模型来评价产品的可用性,并开发了相应的测量工具.技术接受模型是Davis[43]提出的理论框架,用于解释和预测用户对于信息技术和信息系统的接受程度.在此基础上,研究者们将影响因素分为用户因素和系统因素.用户因素包括态度和情绪、自我效能感、满意度、使用意愿等,系统因素包括有用性、易用性、易学性等[44-46].
(1)人群数据客观结果分析
在普通用户人群的调查中,我们获得了用户的实时动作准确率和用户学习时间等客观评价标准.基于臂环的用户动作识别准确率如图15 所示,其中,虚线表示16 个女性的准确率,而实线表示16 个男性的所有动作识别准曲率.从图中可以看出,算法在人群中泛化性能较好,男性平均识别率为85.1%,女性平均识别率为81.7%,性别差异对结果影响不明显,男性动作识别准确性略高于女性,男女性识别准确率在同一范围内交错;1~8 号男女性为A 组,9~16 号为B 组,两组结果也无显著差异,是否提前接触真实提线木偶对结果影响也无显著差异,见表11.由此,合并所有用户的实验结果,直接在真实提线木偶操控与虚拟系统操控中进行对比,整体而言,32 位被试者动作平均识别准确率超过83%,最差识别准确率超过66%.
由图16 可以发现,同样的人群中,佩戴臂进行虚拟操控的识别准确率为83.39%,而应用提线木偶在实体环境中进行操控的准确率为94.14%,两者确实存在差距.但是,结合图17 可知,木偶的学习时间近乎是臂环学习时间的两倍,同时,学习木偶最差的成功率只有37.5%.说明,对于一些个体,没有办法掌握很精细的手部操作,而臂环系统控制的虚拟木偶普适性则很强.
Table 11 Comparions of results between men and women表11 男女性别分组对比
Fig.15 Comparions of recognition accuracy between gender groups图15 两组不同人群的EMG 信号手势识别准确率
Fig.16 Comparions of recognition accuracy between two systems图16 人群中对虚拟木偶与真实木偶的动作识别准确率
表12 给出了基数为32 的人群对于6 个基本动作的识别结果.从表中可以看出,内挥动作的可识别性最强,其召回率、精确度和F1 score3 值均为最佳;而舒张动作的可识别性最低,其召回率只有70%,并且F1 score 也低于72%,该动作易与停留动作发生混淆.但在备试人群中大部分动作都可以准确识别,文中方法泛化性较好.
Table 12 Online recognition results of 6 gestures in general people表12 6 个动作实时识别结果
Fig.17 Comparions of time consumption between systems图17 系统学习时间对比
为了验证系统的操控性,我们对实际系统和虚拟系统的时间进行了分析(如图17 所示).对比真实木偶和臂环操控所需的学习时间,木偶操控的平均学习时间为5.75 分钟,臂环动作平均学习时间为3.82 分钟,可以发现,利用臂环所需学习时间比真实木偶操控的学习时间要短.由于存在个体动手能力差异性,一些个体木偶操控学习时间会超过10 分钟,学习臂环动作则不存在学习时间超长问题.
(2)人群量表结果分析
采用量表对虚拟系统与真实提线木偶操控进行对比.实验量表共有57 道题,其中,9 道题是用户基本信息调查,用于分析不同特征人群中的差异,24 道题是臂环使用感受的量表,24 道题是操纵真实木偶感受的量表.每个操作木偶的量表包含7 个维度,其中,用户因素包含4 个维度,系统因素包含3 个维度.用户因素为:态度和情绪、自我效能感、满意度、使用意愿.系统因素为:有用性、易用性、易学性.用户因素的平均分加和作为用户接受度的总分,系统因素的平均分加和作为系统可用性的总分.
对量表进行统计分析,整体内部一致性系数Cronbach'α为0.946,臂环组的内部一致性是0.906,木偶组是0.942,说明内部一致性信度和内容效度良好.对7 个维度及接受度、系统可用性两个方面分别进行95%置信区间的相关样本t检验,结果见表13.其中,使用意愿、易用性和易学性在两组之间存在显著差异,而且都是臂环组显著高于木偶组,其他维度上两组不存在显著差异.也就是说,相比提线木偶,用户更愿意在现在或将来使用臂环控制木偶,臂环控制木偶比提线木偶更加易用和易学.
Table 13 Statistical results of user experience表13 用户体验统计检验结果
我们进一步在用户接受度和系统可用性两大方面进行了对照组对比,结果见表14.
Table 14 Statistical results of different groups表14 对照组统计检验结果
A、B 组对照结果显示,所有显著性p值均大于0.05,无明显差异.两组间在真实木偶和虚拟木偶体验与感受方面均相似,且均值及标准差都接近,因此,是否提前接触提线木偶对结果并无影响.性别方面,男女性别差异对实验结果也无影响.
为了便于直观理解臂环系统和真实提线木偶的差异,我们绘制了图18.
Fig.18 Comparison of the results of user scales between two systems图18 两个系统用户量表结果的对比
从图18(a)可以发现,A、B 两组中臂环和木偶的接受度相近,实际其接受度显著性p值为0.382,无显著性差异.这表明,使用木偶和使用臂环的用户感受相近,操控虚拟提线木偶和真实提线木偶体验相似.同时,由图18(b)可知,在系统可用性方面,不论是先体验木偶还是先体验臂环,用户均认为臂环系统可用性高于木偶系统可用性,表明我们的系统优于真实木偶操控.
3.3 木偶爱好者用户分析
我们同时还邀请了一个木偶爱好者来体验我们的臂环,其本身对木偶就有很大的兴趣,接触提线木偶的时间超过100 小时.用户BMI 值为19.50,右利手,双目视觉0.8 以上.实验设计上与普通用户所不同的是,我们选择了比较难的虚拟木偶动作以达到更加炫酷的效果,同时将手势增加到8 个,让虚拟木偶做出走、跑、跳、打招呼、点头、转圈、劈叉、飞这8 个动作.爱好者用户先学习臂环的操作,然后进行测试.我们也记录了爱好者的学习时间和识别率,填写了臂环的量表,最后让爱好者根据我们的虚拟木偶动作用真实的木偶做出动作.根据实验结果我们发现,只需4 分钟就能上手操控虚拟木偶,同时识别率达到87.5%.结合爱好者的问卷结果我们发现,其臂环用户接受度和系统可用性都很高,同时爱好者对我们的臂环系统非常满意,并寄予厚望,认为臂环操控虚拟木偶的结果和真实木偶不相上下.尽管手部的动作不尽相同,但是臂环系统更容易上手操作,更能够引起人们的兴趣,让更多的人了解提线木偶文化,有利于它的传播.
3.4 用户研究结果讨论
我们在进行用户研究时,为了保证算法的泛化性,改进了采样的精度.但是,由于臂环受佩戴位置和人体肌肉强度的差异影响,即使我们采取了归一化、标准化等手段使其达到同一量纲,准确率相比于同一个人的实时结果仍有所降低.但与真实的木偶操控相比,臂环系统可以在较短的时间内,让人们体验到提线木偶的乐趣.
通过问卷答案和客观量的统计,可以认为用户对于操纵真实木偶和使用臂环操纵虚拟木偶的感受是相似的,但是用户普遍认为臂环系统的有用性高于木偶操控.因此我们得出结论:对于普通没有接触过提线木偶的大众来说,无论是先接触木偶还是先接触臂环,都认为臂环更易学易用,接受度和木偶也没有明显差别.同时利用臂环来感受木偶是很好的一种体验,它不仅能够带来与真实木偶相似的体验,还方便了用户的操作.
同时,木偶爱好者也给予我们的臂环系统以很高的评价,认为臂环系统可以给人带来与实体木偶类似的感受,并能很好地传播木偶文化.我们相信发挥其方便易学的优点,能够很好地激发用户对于提线木偶的兴趣,让更多的人了解提线木偶文化,并可直接增强人们对木偶的接触和了解意愿.
4 结 语
本文提出了一种基于EMG 信号的手势驱动虚拟现实提线木偶动画方案,并给出了整体算法流程.设计了基于人体内蕴EMG 信号为输入的动画运动方法,实现了单纯依靠人体生理信号的虚拟现实运动控制.面向构建的动画方案,我们以提线木偶为例实现了动画原型系统.经过静态实验验证了离线动作平均识别准确率为95.59%,实时动作平均识别准确率达90.75%,在1.1s 左右完成手势识别.经过普通用户调查实验可知,用户对传统木偶与新型的基于EMG 信号手势识别交互的木偶动画接受度上无显著差异,表明使用木偶和使用臂环的用户感受相似,操控系统和现实提线木偶体验相似.在系统可用性方面,不论是先体验木偶还是先体验臂环,用户都认为臂环系统可用性高于木偶系统可用性,表明与真实木偶相比,本文系统操控性更强.专业用户的调查实验结果表明,由于具有背景知识,专业用户对于臂环交互系统学习速度更快,识别率更高.同时,专业用户认为臂环操控虚拟木偶和真实木偶不相上下,尽管手部的动作不尽相同,但是臂环系统更容易上手操作,更能够引起人们的兴趣.
但是作为通用的交互设备MYO 臂环每通道肌电信号所关联的肌肉束非唯一也不稳定,且肌肉束之间的电信号会产生交叉影响,因此,仅依靠MYO 臂环获得的肌电信号实现手指精细动作分类非常困难.这造成了我们设计的手势与木偶操控的手指运动方式会存在一定差异.在前序已有的EMG 信号手势识别有效性的基础上,后续研究中将在硬件上专门设计开发适合于提线木偶动画的肌电信号采集设备和处理系统,实现更为精细的手指运动手势识别.