APP下载

复杂背景下基于卷积神经网络的手势识别

2020-11-17柏丽银彭亚雄陆安江余圣新

计算机工程与设计 2020年11期
关键词:肤色识别率手势

柏丽银,彭亚雄,陆安江,余圣新,张 旭

(贵州大学 大数据与信息工程学院,贵州 贵阳 550025)

0 引 言

近年来,国内外针对基于计算机视觉的手势识别进行了广泛的研究,本文主要研究基于神经网络的手势识别,该方法一般主要分为两个步骤:①复杂背景下的手势分割、手势目标检测;②基于神经网络的特征提取与识别。文献[1]利用手势图像的深度信息进行分割与定位,该方法比已有分割方法更准确可靠[1]。文献[2]使用改进的YOLOv3对深度手势图像进行手部目标检测,框出手部目标,再进行识别,该文献目标检测和识别两个步骤都使用了深度神经网络。文献[1,2]都使用了图像深度信息,需要的硬件设备比较高。文献[3]是基于深度残差网络对手势进行定位与识别,使网络能学习到抽象的纹理特征来识别手势。文献[4-6]基于肤色检测分割法去除手势图像背景,利用卷积神经网络进行手势特征提取与识别。基于肤色检测分割背景易受光照和肤色背景影响,文献[4-6]均在室内背景下进行实验,不满足任意复杂背景的需求,而且识别的手势种类也比较少。

针对以上问题,本文提出一种复杂背景下多特征融合的手势识别:①提出一种改进的手势图像边缘检测;②针对复杂背景、不同光照和手部形状大小、肤色等因素导致肤色检测对手势图像手部分割不准确的问题,提出一种利用手势图像的边缘信息与手部肤色相融合的方法,对复杂背景下的手势进行手部分割;③采用卷积神经网络的特性,设计卷积神经网络模型,对②分割好的手势图像进行特征提取和分类识别。实验结果表明,本文方法在复杂背景下的鲁棒性较好,识别率较高。

1 复杂背景下人手分割

在实际应用中,手势的不同角度、不同尺寸、肤色、光照强度以及手势周围的环境等给手势识别带来了巨大的挑战。手势图像的背景分为简单背景和复杂背景,简单背景是指不包含任何噪声的背景,而复杂背景是指包含噪声的背景。本文研究的是复杂背景下的手势识别,如图1所示。

图1 复杂背景下的手势

1.1 改进的手势图像边缘提取

在图像边缘提取算法中,Canny算子利用图像边缘像素的梯度变化原理来判断图像的边缘,具有较好的鲁棒性,该方法信噪比大和准确率高。Canny算子主要缺点是图像预处理时易平滑掉手势图像边缘,增加了边缘定位的不确定性,另外在判断边缘时,需要人工设置高低阈值,自适应性能低[7]。本研究在Canny算子的基础上对Canny算子检测手势图像边缘进行了改进。

在图像预处理时使用自适应中值滤波的保边性能和滤除椒盐噪声的性能与双边滤波相结合的方法。该方法在降噪时能够保持图像边缘信息。图像边缘提取时,在Sobel的基础上扩展45度和135度方向的运算[8,9],增强其对噪声的适应性。定义请参见文献[10]。在进行边缘检测时,梯度幅值分为两类,即边缘与非边缘。在不同场景下,边缘与非边缘的阈值是不同的,一个固定的值不可能适应所有场景。针对手势图像的不同场景,本文利用信息论中的最大熵原理自适应求取边缘与非边缘的最佳阈值,使手势图像边缘检测更加准确。

复杂背景下的手势图像边缘提取实验结果如图2所示。

图2 手势图像边缘检测

从实验结果图2可以得出,边缘检测基本检测出了手势的边缘,但是,在复杂背景下拍摄的手势图像,除了手势,还有复杂的背景。在对其进行边缘检测时,手势边缘与复杂背景边缘同时被检测出来,复杂背景边缘对于手势识别是无用的,且对手势识别造成一定的干扰,即噪声。

1.2 基于椭圆模型的肤色检测

肤色是人手的特征之一。基于椭圆模型的肤色检测可以适应环境的光照变化和适应与肤色不同颜色的背景。RGB图像采用非线性变换到YCbCr空间后,肤色在图像中呈现明显的椭圆分布。定义请参见文献[11]。检测结果如图3所示。

图3 椭圆模型肤色检测手势图像

在图3中,图3(a)和图3(b)为同一手势,不同背景下的肤色检测结果对比。图3(c)和图3(d)是不同背景不同手势的实验结果对比。由实验结果可以得出,在复杂背景下,没有肤色的背景检测出的手势图像比较准确,但是当复杂背景有肤色颜色时,肤色检测就会检测出肤色背景。在图3(a)中有肤色背景,检测出了手势与部分背景。图3(c)中,由于肤色背景的原因,该图基本没有过滤掉背景。图3(d)由于光照变化的原因,在肤色检测时,手势部分也会被默认为背景,从而检测不出手势或检测出的手势轮廓不完整。

1.3 手势图像边缘信息与椭圆肤色模型融合

边缘检测基本可以检测到图像全部边缘,但同时也会检测到复杂背景下的边缘。椭圆肤色模型在简单或者肤色与背景颜色相差较大时,检测效果较好,在光线较暗、有肤色背景等情况下,基本检测不出手势。经研究,在复杂背景下具有肤色背景的边缘信息比较单一,而手部边缘信息相对背景边缘信息较多。根据上述,本文在手势图像边缘的基础上,使用肤色检测判断边缘像素是否为手部边缘,然后提取手部。针对一些光线较暗,无法检测出肤色的图像,本文使用图像边缘代替。具体结构如图4所示。

图4 图像边缘与肤色检测融合结构框架

手势图像的边缘信息与手部肤色融合具体分为3个步骤:①遍历边缘图像,判断像素点是否是边缘点。②如果是边缘点,判断该像素点8领域内是否有肤色点,有,分别保留边缘像素点和肤色点,没有,舍去。③判断经过肤色检测后的边缘图像所保留的像素点总数是否大于全图边缘检测的总像素点的2%,是,则输出手部图像边缘;否,则保留边缘检测原图。根据上述步骤,最后输出手势边缘图和手势边缘与肤色融合图。实验结果如图5所示。

图5 图像边缘与肤色融合检测结果

图5中,图5(a)与图5(b)是同一手势在不同复杂背景(有无肤色)下检测结果对比。图5(b)和图5(c)是不同手势不同背景下的检测结果对比。由实验结果可以得出,手势图像边缘信息与椭圆肤色模型融合,在滤除背景的同时,基本检测出了手势手部轮廓。

综上所述,手势图像的边缘信息与椭圆肤色模型相融合可以有效分隔出手部图像,优于图像边缘检测和肤色检测。

2 基于卷积神经网络的手势识别

卷积神经网络能够实现图像的特征提取和分类,是一个end to end 的过程。卷积神经网络(convolutional neural network,CNN)的特征见文献[12]。在CNN中局部连接和权值共享减少训练参数,卷积实现特征提取。在池化层它实现了降维的目的,减少网络参数及过拟合,增加了神经网络的容错性能,提升模型鲁棒性和减少训练参数。CNN经过特征提取后得到一张二维的特征图,将二维图像转化为一维特征图,进行全连接,实现图像分类与识别,网络结构如图6所示。

图6 卷积神经网络结构

本文设计的神经网络模型共12层,其中包含6个卷积层,每层有32个卷积核,两个max_pooling层,两个 dropout 层和两个全连接层,使用relu激活函数。该模型第1层使用1*1的卷积核,padding为valid,在信息完整部分采用数据加强,可以有效提高小目标识别率。第2层和第3层分别使用5*5的卷积核、3*3的卷积核对图像信息进行特征提取,padding为valid。第4层为池化层,采用最大池化,采样窗口为2*2,步长为1。第5层和第6层对第一次降维后的数据进行再一次的特征提取,第7层对数据进行第二次降维。第8层使用3*3的卷积核对图像特征进行再次提取,padding为valid。为了防止过拟合,第9层采用dropout,参数为0.75;第10层为全连接层,感知器为512个;第11层再次使用dropout;第12层为全连接层,使用softmax对提取的图像特征进行分类识别。

3 实验结果与分析

本文采用NUS-II手势数据集下的Hand Postures进行实验。NUS-II数据集是在室内外各种嘈杂背景下采集得到,图像背景复杂多变,该数据集包含10种手势。手势由40个年龄在22岁~56岁之间不同种族的主体展示,包括男性和女性,因此手部肤色、轮廓大小以及摄像头距离等表观差异巨大。每张图片大小为120*160,共2000张。首先对图像进行边缘提取,然后融合肤色检测将手部分割出来,再将手势图像送入卷积神经网络模型进行特征提取和识别。

数据集原图只有2000张,在进行图像分割后得到手势边缘图和手势边缘与肤色相融合的手势图,共4000张手势图,在训练时,数据较少,本文对手势边缘与肤色融合的手势图取反,得到2000张图像。将数据集增加到6000张。将数据集送入网络模型进行训练,训练次数为120次。在训练时,训练集为3840张手势图,验证集为960张手势图,测试集为1200张手势图。训练次数和损失率关系如图7所示,训练次数与准确率关系如图8所示。

图7 训练损失率与测试损失率对比

图8 训练准确率与测试准确率对比

从实验结果图可以得出,当训练次数达到40次以上时,损失率和准确率基本收敛。平均损失率为0.0753,识别率高达99.38%,平均识别率为98.81%。为了验证本文算法识别性能,将本文识别手势种类和识别率与文献[4]、文献[5]、文献[6]、文献[12]以及文献[13]的方法进行比较,数据见表1。

观察表1中的数据,从平均识别率比较,本文算法的平均识别率仅低于文献[6],而本文识别的种类比文献[6] 多7类。从手势种类比较,本文识别手势种类仅低于文献[13],但本文平均识别率比文献[13]的平均识别率高2.81%。综上述,本文识别性能最优。本文算法在手势与背景分割时,充分考虑了图像边缘与手部肤色的特征,使手势与背景的分割更加准确。在手势特征提取时,充分考虑了手部图像的边缘细节,采用数据加强的方法使网络模型能提取到手势图像更加细节的信息,提高其识别率。

表1 本文算法与其它算法识别性能比较

4 结束语

本文综合考虑不同场景光照变化、肤色、不同年龄、手部形状等因素对手势识别的影响,利用手势图像边缘信息与椭圆肤色检测相融合来对复杂背景下的手势图像进行手部分割,实验结果表明,该算法可以有效分割出手部。在构建卷积网络模型时,使用1*1的卷积核对数据进行加强,增强卷积网络对图像细节特征的提取,有效减少手部形状大小对手势识别的影响,提高识别率,识别率为98.81%。在复杂背景下,具有一定的鲁棒性。

猜你喜欢

肤色识别率手势
肤色(外一首)
Conversation in a house
人的肤色为什么不同
为什么人有不同的肤色?
挑战!神秘手势
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
V字手势的由来
提升高速公路MTC二次抓拍车牌识别率方案研究
胜利的手势