基于支持向量机的人机交互媒体播放界面手势识别方法

2023-07-01张琳钦

西安航空学院学报 2023年3期

张琳钦

(安徽工业经济职业技术学院计算机与艺术学院,合肥 230051)

0 引言

人工智能到来,云计算和物联网技术逐渐兴起,人们对计算机能够正确执行命令和操作的需求越来越大[1]。在远程电子医学中,构建一个更好的人机互动平台,已经成为互联网时代的重要技术需求和趋势[2]。由于手势的应用场景越来越复杂,在近距离摄像机的拍摄情况下,手势的辨识越来越不能完全适应人体的需要,而距离、角度等因素也会对手势的辨识产生很大的影响[3]。如果手势与摄像机的镜头没有对准就拍摄,那么画面中的手势就会出现扭曲,甚至是手指交叉,导致手势特征发生变化,计算机系统也会出现错误识别。因此,在复杂的工作环境中,必须对手势识别技术进行深入探索和开发。

王勇等[4]利用 FM序列波雷达多维特征,建立了一种用于卷积型神经网络的手势辨识算法。在此基础上,利用时间-频率的方法对手势运动的雷达信号进行了分析,得到了手势运动的多维参量。针对手部特征的提取与准确识别问题,采用多分支网络和多维特征融合的方法,对其进行了研究。但该算法不能克服手势辨识信息不足的问题,识别精度不高。韩崇等[5]选择FM连续波雷达作为研究基础,提出一种手势识别的方法。采用多普勒法对手部反射的毫米波雷达进行了静态多普勒消除,并通过动态目标的滤波,降低了对手势信号的干扰和运算的工作量。在此基础上,给出了一种基于移动目标的手势空间特征压缩表达算法,通过手势移动的主导速率描述手势动作的特点,从而对多维度进行了压缩,同时保持了动作中的主要特点。但这种识别技术未有效过滤手势图像的掩模,导致识别精度不高。

为了解决现有方法的不足,进一步提高手势识别精度,本文将支持向量机应用到了人机交互媒体播放界面的手势识别中,实现人与机器的交流。与现有方法不同,该方法创新性利用Cam Shift方法跟踪用户手势,提取出人机交互媒体播放界面中的手势特征,克服了手势辨识信息不足的问题。引入高斯滤波函数,过滤手势图像的掩模,确定手心位置,完成手势图像的分割。利用支持向量机的分类阈值,计算手势图像的分类面,引入拉格朗日算法,将最优分类面问题转化为对偶性问题,完成播放界面的手势识别。

1 人机交互媒体播放界面手势识别方法设计

1.1 提取人机交互媒体播放界面中的手势特征

人机交互媒体播放界面中,通过引入特征搜索窗口,对手势跟踪的窗口进行分割,并将用户的手势图像存储在跟踪窗口中[6]。在搜索窗口内,结合逐步细化原则,在人机交互媒体播放界面删除非手势区域,确定手势区域范围,具体步骤如下:

步骤1:如果手势跟踪窗口依次为Kx、Ky、Kw和Kz,提取手势特征之前,先初始化四个手势图像跟踪窗口;

步骤2:利用Cam Shift方法对人机交互媒体播放界面中用户的手势进行跟踪[7],得到初始的手势区域搜索窗口;

步骤3:调整手势区域的搜索窗口,确保搜索窗口与跟踪窗口中的手势包围盒一致,计算出包围盒的长宽比φ,如果φ在[0.5,0.85]区间内取值,可以直接提取出用户手势图像的空间特征,如果φ不在[0.5,0.85]区间内取值,执行步骤4;

步骤4:分割用户的手势图像,在手势区域中提取出肤色特征,并进行编码,然后再对该肤色区域进行颜色识别,计算出目标像素点在手势区域中的个数,计算公式为[8]:

(1)

式中:L表示包围盒的长度,也是搜索区域的长度;W表示包围盒的宽度,即搜索区域的宽度;函数可以利用公式(2)表示:

(2)

式中,Ω0表示目标像素在用户手势图像中存在的区域。

步骤5:通过对其他肤色区域进行识别,选取一块具有适当比例的长方形,以判断用户的手部位置,将所选取的长方形与用户的手部位置相匹配,并将所述位置信息赋值给Kx、Ky、Kw和Kz,执行步骤2。

根据以上步骤即可确定用户的手势区域,然后在手势区域内提取出用户手势的特征。为了提高手势识别的准确性,提取出的用户手势特征必须能够反映出手势动作的运动学特性。

在人机交互媒体播放界面中,波峰数量、手势的长度和能量特征都可以作为用户手势的主要特征。其中用户手势长度可以通过下式计算得到[9]:

L=dz-dq

(3)

式中:dz表示手势轨迹产生的终点;dq表示手势轨迹形成的起点。

假设用户手势产生的能量为Em,通过下式计算:

(4)

式中:αxi、αyi和αzi表示用户手势产生过程中在x轴、y轴和z轴的加速度;gx、gy和gz表示地球引力作用下的重力加速度。

用户手势在每一个坐标轴产生的加速度会对应一个波峰数,那么用户手势的波峰数特征可以通过下式计算:

B=Bx+By+Bz

(5)

式中,Bx、By和Bz表示αxi、αyi和αzi对应的波峰数。

根据以上过程,提取出人机交互媒体播放界面中的手势特征。

1.2 分割人机交互媒体播放界面手势

人机交互媒体播放界面中的手势区域有很多特征点,假设用户手掌的位置与摄像机之间的距离在1 m以内,依据指尖朝上、手心对准摄像头的原则,使得手掌所在的平面与摄像机平面之间的夹角在45°以内,通过手势分割,处理手势的深度信息,其步骤如下:

步骤1:在手势深度图像中,定义Ap,q为其中一个像素点;

步骤2:通过扫描用户手势的深度图像,得到图像中深度值最小的点Xmin;

步骤3:假设λdepth=20为用户手势深度图像分割的阈值,得到手势形成范围[10]:

(6)

步骤4:利用二值化概念,处理手势图像所在范围,得到手势图像的掩模Y(p,q),即:

(7)

在手势形成范围内,预先分割手势图像的深度特征,包括手腕信息和手臂信息。根据深度特征识别冗余信息后对其消除,可以增强人机交互媒体播放界面的手势识别效果[11]。

消除冗余信息之前,先定位到手心的位置,由于手心的范围大于手指的范围,因此手势图像的掩模点密度最大,引入高斯滤波函数,过滤掉手势图像的掩模Y(p,q),计算出滤波结果的标准差[12],即:

(8)

高斯滤波的引入可以确定用户的整个手部范围,用Yf(p,q)表示,在手部范围内选择一个与最大灰度值对应的特征点Sg,将Sg作为手心位置。

确定了用户手势图像中的手心位置后,分割手势范围,步骤如下:

步骤1:将手势区域内切圆的圆心作为手心的位置,e=1 pxl为分割的初始值;

步骤2:增加e的大小;

步骤3:当从属范围内95%的点都在切圆范围内时,即可分割手势范围,即:

ψ=H-W-Z

(9)

式中:W表示手腕区域;Z表示手掌区域。

通过确定用户手势图像中的手心位置,完成人机交互媒体播放界面手势的分割。

1.3 识别人机交互媒体播放界面手势

人机交互媒体播放界面手势识别中,利用支持向量机将用户手势图像划分为两类,选择其中一类图像,提取出手势图像的特征向量,利用下式表示手势图像的样本集合[13]:

(10)

假设ξ代表支持向量机的分类阈值,利用下式计算出手势图像的分类面:

(11)

(12)

式中,hχ表示拉格朗日与手势图像的乘子。将(xχ,yχ)代入到公式(12)中,经过多次迭代,利用支持向量机训练手势图像样本。

迭代处理之后,利用支持向量机的寻优策略,得到人机交互媒体播放界面手势图像的最优分类函数,识别人机交互媒体播放界面手势[15],即:

(13)

综上所述,利用支持向量机得到手势图像的最优分类函数,识别人机交互媒体播放界面手势。

2 实验分析

2.1 实验环境参数

考虑到摄像机传感器单位时间内可以获取100帧数据,为了避免采集到的手势数据出现冗余,需要在如下实验参数下开展实验,保证实验数据的质量。

实验硬件环境:2xXeon E5-2620 V3的CPU、16G显存、32G内存以及双 K40M的GPU。

实验软件环境:Windows 10操作系统。

2.2 实验数据

实验数据是利用开源软件LIBSVM-3.55在MATLAB下获取的,利用摄像机拍摄10个人的手势图像,摄像机的型号为海康威视萤石交互网络监控摄像机CS-F2-31WFSRT。像素为100万dpi,最低照度为 0.01 lx,镜头3 mm,分辨率720 px×720 px。为了保证实验结果的真实性,选择第3次拍摄的手势图像,组成训练数据集,其他7次拍摄到的手势图像组成测试集,根据支持向量机的原理,分类训练集中的手势图像。实验数据集组成如图1所示。

图1 实验数据集组成

在图1的实验数据集中,十种手势图像的实验数据量如表1所示。

表1 实验数据量

在测试集中,选择手势1进行手势识别效果测试,由于摄像机采集的手势数据会受到各种因素影响,导致手势图像的边缘出现锯齿,以图2的手势图像作为实验数据进行识别。

图2 手势图象

2.3 手势识别

利用文中方法识别用户手势的原始图像,得到如图3所示手势识别结果。根据图3的结果可知,采用文中方法识别人机交互媒体播放界面手势时,能够清晰保留手势图像的边缘特征,具有较强的图像滤波能力,提高了手势识别的质量。

图3 手势识别结果

2.4 对比分析

为了避免实验结果的单一性,将基于FMCW雷达的识别方法和基于时空压缩特征表示学习的识别方法与文中方法作对比,分别测试实验数据集中十种手势的定位精度和识别效率,手势识别准确率测试结果如图4所示。从图4的结果可以看出,采用基于FMCW雷达的识别方法时,对数据集中十种手势的识别准确率在50%至70%之间,说明FMCW雷达对手势的识别存在一定误差。采用基于时空压缩特征表示学习的识别方法时,对数据集中十种手势的识别准确率有所提高,在60%至80%之间。采用文中方法时,由于支持向量机能够对手势图像进行分类,并跟踪手势图像多特征点,可将人机交互媒体播放界面中手势的识别准确率提高到90%以上。

图4 手势识别准确率测试结果

3 结论

本文提出一种基于支持向量机的人机交互媒体播放界面手势识别方法,经过实验测试发现,该方法可以识别到人机交互媒体播放界面中的手势,并将手势识别准确率提高到90%以上。本文的研究虽然取得一定成果,但是还存在需要改进的地方,其中人机交互媒体播放界面中用到的手势识别方法有很多,对于轨迹手势和非轨迹手势的融合研究不够完善,这也是下一步研究工作的重点。