基于多尺度卷积神经网络模型的手势图像识别

2019-04-28袁荣尚罗晓曙

现代电子技术 2019年24期

袁荣尚罗晓曙

摘要：为了解决目前利用CNN算法进行手势识别的精度不高的问题，提出一种新的算法。首先对识别的手势图片进行二值化处理，滤除手势的背景，凸显手势在图像中的权重，背景对手势识别影响降低。其次，在经典卷积神经网络模型AlexNet的基础上，提出一种多尺度卷积核的改进卷积神经网络模型。改进卷积神经网络模型采取两种卷积核进行手势特征提取，利用多尺度卷积核和双通道进行特征融合，然后利用在不同角度，不同旋转下拍摄的手势图像数据集对改选模型进行实验验证。研究结果表明，提出的算法模型在不同的角度和不同的旋转情况下对手势图像具有较高的识别率，算法的鲁棒性、识别率方面有了明显的提高。

关键词：卷积神经网络;卷积核;深度学习;特征提取;手势识别;二值化

中图分类号：TN915-34;TP391.4

文献标识码：A

文章编号：1004-373X（2019）24-0150-04

0 引言

近年来手势识别成为一个重要的研究方向。目前，传统的静态手势识别算法关键在于对手势特征的提取，现在研究手势的主要方法有模板匹配，杨丽等人提取的手势分割，吕蕾等人提出数据手套方法，提高了手势识别的识别率，但是手势类别增加情况下识别率降低[1-3]。但是上述算法识别较为复杂，人工定义特征需要大量的经验，而且计算难度较大，借助外在硬件设备，操作难度较大。微软开发的kinect可以提取手势的深度信息，进而进行识别。在研究者的努力下手势识别算法不断突破，深度学习的出现在手势识别领域有了一个突破性的进展。其中卷积神经网络模型在图像识别上具有较大的优势，把整张图片作为输入，不需要人工定义的选择特征，采用卷积核进行局部特征提取，在全连接层将局部的特征进行融合，及有监督的训练，从而使手势识别变得更加简单。缺点是，相对于传统的算法，卷积神经网络需要更多的手势数据集，采集大量手势数据集的难度比较大。针对现有手势数据集数量较少的问题，所以采用的数据集是自己在不同的光照环境，不同的倾斜程度下拍摄的，数据集数量为29 321张。

1 图像的二值化原理和卷积神经网络结构与原理

图像的二值化[4]就是将图像处理成有明显的黑白效果，通过选取适当的阈值，获取可以代表图像整体特征的二值化图像，当图像上的像素点大于设定阈值时判定属于有效物体，否则就是无效。使整个图片变得简单明了，但是可以代表图像整体特征。采用最大类间方差法，其阈值确定标准公式如下：

卷积神经网络[5]是从BP神经网络发展而来，卷积神经网络主要由卷积层、池化层、全连接层组成，具体功能描述如下：

卷积层是卷积神经网络的重要组成部分，卷积层利用卷积核对图像进行特征提取，采取局部连接的方式，将图像特征分步提取，其参数共享机制大大减少了整个模型的参数量，使整个卷积神经网络模型的计算量减少。卷积的公式可以表示为：

池化层[6]的池化的方式主要有平均池化和最大池化，它提取特征图中比较重要的特征，降低特征图像的维度，同时使输出对位移和形变的敏感度降低，可以有效地防止过拟合。全连接层是将卷积神经网络的局部特征进行融合，图像的局部特征关联比较密切，而距离较远的关联程度较低。卷积神经网络模型先感知局部特征，然后通过全连接层将局部的特征进行融合[7]，全连接层公式为：

2 改进的AlexNet卷积神经网络模型

在卷积神经网络模型中，第一层卷积会对输入的图像进行特征提取，所以第一层卷积在整个卷积神经网络中的地位非常的重要。如果第一层的卷积对图像的特征提取不够充分，则整个卷积神经网络模型没有充分的特征输入，不利于整个模型对图像特征的深度提取和融合。

卷积核的大小在卷积神经网络模型提取图像特征和对特征进行融合时起到了非常重要的作用。卷积核太小对图像特征的提取能力降低，卷积核太大提取图像特征时会忽略细小的特征。所以在后续的卷积层中卷积核采取不同尺寸，AlexNet模型共有5个卷积层，采取单通道的方式进行特征融合，本改进模型采取双通道，每一层的卷积核为5*5和3*3，并且每個卷积层在卷积后进行级联，将级联后的特征图作为下一层卷积的输入，为下层的卷积层提供更加丰富的特征信息，表1给出了改进前后模型的详细信息。

3 实验结果与分析

为了验证所提算法在手势识别应用上的效果，本文首先建立了手势图像数据集，然后用该数据集进行手势识别实验验证。实验条件是：Ubuntu16.04操作系统，caffe框架，CPU为i7-6700K，GPU为NVIDIA-GTX 1070。solver文件设置：初始学习率设置为0.001，momentum设置为0.9，weight_decay设置为0.004，gamma设置为0.1，stepvalue设置为24 000，最大迭代次数设置为30 000。测试时batch_size设置为50，dropout_ratio设置为0.5。在训练时学习率的策略设置为multistep。

本文建立的数据集有21 606张训练图片，7 715张测试图片，共分为10类，每一类手势训练图片大约2 000张，测试图片大约700张，手势代表10种含义。图片大小为227x227，对手势图像进行自适应的二值化处理，图1是10种手势的原始图像，图2是对原始图像的二值化处理。

为了验证本算法在手势识别上的应用效果，本文设计了3组实验，比较结果如表2～表4所示。

从表2可以看出，手势图像二值化后AlexNet模型的识别率有了明显的提升;从表3可以看出，改进的AlexNet模型可以提取更多的图像特征。对图像进行二值化处理以后，避免了背景对手势的干扰。改进的网络可以更加精细地提取手势特征，从而避免对背景特征的提取，充分发挥改进模型的网络优势。因为对手势图片进行了处理，所以改进模型有了更加准确的手势信息获取，图像信息能进行更多层次的融合，所以在手势数据集上具有更高的识别率，识别率提高约10.5%。

由表4列出的实验结果可知，本文提出的改进算法的识别率达到96.64%，比其他算法识别率要高，且本文算法具有较强的鲁棒性，当手势的旋转角度不同，光照情况不同时，对算法性能没有影响。手势图像的识别时间有一定的差距。

4 结语

本文算法首先对图片进行预处理，然后利用提出的卷积神经网络模型进行手势识别。该模型采取两个尺度的卷积核对图像进行特征提取，使模型的特征输入更加丰富，采取两个尺度的卷积核进行特征融合，并且采取级联的方式，为下一层的卷积提供更加丰富的信息。通过实验验证，改进型的模型具有较高的手势识别率;所提算法的识别时间相比于其他算法要长，是牺牲部分识别时间来换取识别率的上升，但是应用于实际生活中的手势识别还是可以达到要求的。

注：本文通讯作者为罗晓曙。

参考文献

[1]杨丽，胡桂明，黄东芳，等，结合肤色分割和ELM算法的静态手势识别[J].广西大学学报（自然科学版），2015（2）：444-450.

YANG Li. HU Guiming， HUANG Dongfang， et al.Static ges-ture recognition combined with skin color segmentation andELM algorithm [J]. Journal of Guangxi University （Natural sci-ence edition）， 2015（2）： 444-450.

[2]吕蕾，张金玲，朱英杰，等，一种基于数据手套的静态手势识别方法[J]计算机辅助设计与图形学学报，2015（ 12）：2410-2418.

LU Lei. ZHANG Jinling， ZHU Yingjie， et al.A static gesturerecognition method based on data glove [J]. Journal of computeraided design and graphics， 2015（12）： 2410-2418.

[3]邓瑞，周玲玲，应忍冬.基于Kinect深度信息的手势提取与识别研究[J]，计算机应用研究，2013，30（4）：1263-1265.

DENG Rui， ZHOU Lingling， YING Rendong. Gesture extrac-tion and recognition based on Kinect depth information [J].Computer applied research. 2013， 30（4）： 1263-1265.

[4]张东波，陈治强，易良玲，等.图像微观结构的二值化表示与目标识别应用[J]电子与信息学报，2018，40（3）：633-640.

ZHANG Dongbo， CHEN Zhiqiang， YI Liangling， et al.Bina-rization representation of image microstructure and the applica-tion of object recognition [J]. Journal of electronics and informa-tion， 2018， 40（3）： 633-640.

[5] HUANG W. LENG J， DENG Z. CSF images fast recognitionmodel based on improved convolutional neural networks [Cl//International Conference on Automation， Mechanical Controland Computational Engineering. Ji'nan ： [s.n.]： 2015 ： 37-42.

[6] ZHANG Y Y， ZHAO D. SUN J D. et al. Adaptive convolution-al neural network and its application in face recognition [J].Neural processing letters . 2016. 43 （ 2）： 389-399.

[7] LU F， WU F， HU P. et al. Automatic 3D liver location andsegmentation via convolutional neural network and graph cut[J]. International journal of computer assisted radiology and sur-gery ， 2017 . 12（ 2）： 171-182.

[8] WANG Z， OATES T. Encoding time series as images for visualinspection and classification using tiled convolutional neuralnetworks [C]// Proceeding of 29th AAAI Conference on Artifi-cial Intelligence. Austin ： AAAI. 2015： 1471-1475.

[9] VARKONYI K A R. TUSOR B. Human-computer interactionfor smart environment application using fuzzy hand posture andgesture models [Jl IEEE transactions on instrumentation andmeasurement . 201 l ， 60（ 5 ）： 1505-1514.

[10] YUN L， PENG Z. An aution hand gesture recognition systembased on vio-jones method and SVMs [C]// Proceedings of In-ternational Workshop on Computer Science and Engineering.Piscataway： IEEE. 2009： 72-76.

[11] QING C， GEORGANAS N D. PETRIU E M. Real-time vision-based hand gesture recognition using haar-like features[C]//Proceedings of IEEE International Conference on Instrumenta-tion and Measurement Technology. Piscataway ： IEEE， 2007 ：1-6.

[12] SATO Y. SATIO M. KOIKE H. Real-time input of 3D poseand gestures of a user' s hand and its applications for HCI[Cl// Proceedings of Virtual Reality Annual Internationl SVm-poisium. Piscataway ： IEEE， 2001 ： 79-86.

作者簡介：袁荣尚（1993-），男，山东枣庄人，硕士，研究领域为图像处理、深度学习。

罗晓曙（1961-），男，湖北孝感人，博士，教授，研究领域为图像处理、深度学习。