APP下载

基于嵌网融合结构的卷积神经网络手势图像识别方法*

2020-01-03冯翔吴瀚司冰灵季超

生物医学工程研究 2019年4期
关键词:池化手势金字塔

冯翔,吴瀚,司冰灵,季超

(潍坊医学院 生物科学与技术学院,潍坊 261000)

1 引 言

手势较其它语言、文字更形象,在聋哑人交流、肢体信号表达、智能人机交互等场合得到广泛应用[1-2]。其中,基于手势图像的人机交互成为国内外人工智能领域研究的热点,在远程手术操作、复杂环境无人化作业、智能家居等场合蕴藏着巨大商业前景[3-4]。但手势变化的多样性、复杂性对识别精确性、可靠性均产生不利影响,成为限制该技术推广的焦点、难点[5-7]。

特征提取是影响手势识别准确率、稳健性的关键因素。杨全等[7]重点分析手势主轴方向角及质心位置关系,利用深度积分图像提取其特征并结合支持向量机算法识别。该思路计算量大且对于模糊失焦图像失效。Ren等[8]采用阈值分解及近似凸分解思路分割手指区域,利用指尖相对距离进行匹配识别,但阈值及匹配参数的设定往往需先验知识,导致可靠性较差。Lai等[9]提出基于指尖轮廓分段匹配的识别框架,但仅依靠指尖特征忽视了手掌对于特定手势的表达性。另外,王景中等[10]通过图像差分、连通域检测等获取完整手型轮廓并采用局部二进制变换、主成分分析提取特征。上述思路多采用人工设定特征,忽视了特征的多样性、内在联系性。卷积神经网络方法摆脱人工特征设定的局限性,采用非监督式特征选定与挖掘思路获取信息,成为当前深度学习领域的重要手段。梁智杰等[11]采用卷积神经网络及长短时记忆模型来处理特征信息;Barbu等[12]结合卷积神经网络及支持向量机算法来构造特征提取与识别框架;Kim等[13]基于雷达手势成像的微多普勒特征,利用卷积神经网络进行识别。上述卷积网络架构多采用传统模型,对标准数据集测试效果较好,但对自建数据集存在泛化能力差、挖掘能力弱、识别准确率低等问题。

本研究基于LeNet-5网络架构及信息融合思想提出新的嵌网融合-卷积识别网络结构,以多层感知器替换传统线性卷积核来构造特征提取框架,并级联Inception模型,同时将金字塔采样机制引入池化层以替换常规采样机制,利用金字塔多尺度融合策略来拼接不同维度的特征,将融合特征传输给全连接层,最后在全连接层中引入Hinge loss函数的支持向量机思路[12]进行识别。实验仿真中,将所提网络在MNIST集及自建手势集进行验证,准确率最高可达98.2%,优于几种常规网络。

2 卷积神经网络概述

卷积神经网络是深度学习领域最常用的网络架构,被广泛应用于人脸识别、视觉目标提取、语音识别等。其架构主要由输入层(Input Layer)、卷积层(Convolutional Layer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)及输出层(Output Layer)构成。其中,LeNet-5是LeCun等用于手写数字识别的卷积神经网络,也是当前最具代表性的架构之一[14],见图1。

图1LeNet-5架构简化示意图

Fig.1The simplified diagram of LeNet-5

卷积层用于提取输入图像特征,该过程可由式(1)中卷积运算表示:

(1)

卷积核按窗扫描方式从左到右、从上到下移动运算。该过程实现了局部特征感知和参数共享,相比传统人工神经网络大大降低了计算量和参数复杂度。

池化层按特征不变性原则对图像特征进行统计抽样、聚合来降低数据规模,在一定程度上避免了过拟合。常用池化方法有平均池化(Average Pooling)、最大池化(Max Pooling)等,见图2。值得注意的是,池化层和卷积层的区别在于,其池化操作只是简单地取平均值或最大值运算,而非各元素的加权和。

全连接层及输出层主要用于图像特征分类,可根据实际需求设定为单层或多层,表示如下:

hw,b(x)=relu(wTx+b)

(2)

其中,hw,b(x)表示输出,x为输入特征向量,w为权值向量,b为偏置,relu(·)为激活函数。

图2 池化方式示意图

3 嵌网融合-卷积神经网络构建

常规卷积神经网络层间缺乏跨层式-互通信息流动,历经多次池化采样后目标特征信息急剧减少,影响识别[6-7]。本研究基于LeNet-5模型引入嵌网结构、Inception模块及金字塔多尺度采样融合模型来构造特征挖掘架构。首先,利用多层感知机替换传统卷积层中线性卷积核,以提取局部感受野内的显著特征,其过程为:

(3)

图3 嵌网卷积层示意图

同时,本研究参照GoogleNet模型引入Inception模块实现对卷积层的特征融合,该Inception模块由前摄入层(Previous Layer)、并行处理层(Parallel Processing Layer)及拼接层(Filter Concat Layer)组成。其中,并行处理层含多个通道,各通道均设置不同池化、卷积操作,使其感受野不同(即包含多尺度信息)。第一个通道为1×1的卷积层,第二个通道为1×1和3×3的卷积层,第三个通道为1×1和5×5的卷积层,第四个通道为3×3的池化层和1×1的卷积层,见图4。设置1×1卷积核目的在于对Inception模块进行降维。因此,本研究引入Inception模块使得嵌网结构在深度、宽度均得到扩展,挖掘特征能力进一步增强。

图4 Inception模块示意图

由于池化采样中较小的池化窗口可能导致局部细节信息丢失,网络泛化能力变差。本研究对LeNet-5模型加以改进,将传统单一池化方式替换为金字塔池化模型(spatial pyramid pooling,SPP),即在下采样过程中,将池化窗口按照从大到小顺序依次进行下采样,然后将若干维度的特征拼接融合之后传输给全连接层。本研究在LeNet-5模型的第3池化层中采用SPP结构,见图5。第1级池化窗口大小为2×2,滑动步长为2,取最大池化方式;第2级窗口大小为3×3,滑动步长为3,取最大池化方式;第3级窗口大小为5×5,滑动步长为4,取均值池化方式。相较传统单一池化方式,SPP池化模型可实现任意大小的图像特征处理,提取的特征信息更丰富,使得网络鲁棒性、灵活性更强。

图5 金字塔池化示意图

考虑到卷积网络在样本量较小情况下易出现过拟合、泛化能力较差,而支持向量机算法可使用正则化方式来优化模型的结构风险,在样本量较少的情况下获得较好的分类准确率。因此,在卷积神经网络全连接层嵌入支持向量机思路,即结合支持向量机的结构风险最小化原则来弥补卷积网络的不足,同时卷积网络也可改善支持向量机特征表达不足的缺陷,使得二者优势互补。本研究借鉴文献[12,15]思路在全连接层中嵌入Hinge loss函数,替换传统全连接层中的Logistic loss函数,该损失函数即以构造待分类样本的最大边距超平面来实现分类思路。所提嵌网融合网络参数见表1,结构见图6。

表1 嵌网融合-卷积识别网络结构参数

图6嵌网融合-卷积识别网络结构示意图

Fig.6Embedded fusion convolution network diagram

4 计算机实验及结果分析

本研究在Windows-Caffe环境下实验,CPU i7-7700HQ,2.8 GHz,8 G内存。实验数据集为MNIST手写数字集和自制手势集,见图7。自制数据集分为训练集和测试集,其中训练集各手势有100张图片,测试集各手势有20张图片,图片大小为96×96像素。MNIST手写数字集包含“0-9”十种手写数字,共60 000个训练样本和10 000个测试样本,图片大小为28×28像素。

图7 自制手势图像示意图

为评价不同网络的性能,分别引入标准LeNet-5结构、嵌入金字塔池化的LeNet-5+SPP结构、嵌入多层感知机及Inception模块的LeNet-5+NIN结构,以及嵌入金字塔池化和多层感知器及Inception的LeNet-5+SPP+NIN结构。各识别网络在训练过程中均迭代2 000次,网络学习率为指数衰减,初始学习率为0.001,衰减率为0.95。为分析各网络的鲁棒性,特进行100次蒙特卡洛试验,见表2、表3。不同网络架构的识别准确率随迭代次数比较见图8(以自制手势集为例)。

表2 不同网络准确率比较

由表2和图8可知,LeNet-5+SPP+NIN结构取得最好的准确率,且损失函数最小。这是由于嵌入的多层感知器层和Inception结构以及金字塔池化方式使得特征挖掘网络具备多尺度深层次特征提取融合能力,摆脱了传统LeNet-5模型特征信息逐层减少的弊端,并且Inception结构及金字塔池化方式的引入可避免网络因层次加深而出现过拟合现象。由图8可知,随着迭代次数的增加,各网络的识别能力逐渐增强,但LeNet-5+SPP+NIN网络结构一直处于领先位置。传统LeNet-5的分类准确率在迭代2 000次情况下平均仅为82.7%,而嵌网融合识别网络准确率提升11.5%,达到94.2%。考虑到自制手势数据集中,手势图像的“正反面”和“旋转角度”增大了网络识别的难度。本研究对“0~5”六种手势的识别准确率分析见表3,由表3可知手势0取得最高的准确率,手势2和手势3因存在“正反面”而识别准确率略差。

图8 不同网络的识别准确率比较

表3 LeNet-5+SPP+NIN网络模型对每类手势识别准确率

为进一步评估所提嵌网-融合网络的特征学习挖掘能力,特设置不同超参数学习率来研究在2 000次迭代中的识别准确率变化规律,见图9。学习率为lr=0.001、0.0008、0.0005以及0.0003。

由图9可知,学习率较高时导致识别网络在训练一定次数后难以达到全局最优解,而可能陷入局部最优解,无法继续提升其准确率;当学习率较低时(lr=0.0003),模型准确率上升较慢,增加了识别网络训练的时间;只有当学习率适中时(如lr=0.0005),所提模型才能在相对较短时间内达到最高的准确率。

图9 不同学习率下网络识别准确率比较

Fig.9Comparison of accuracy for different learning rates

5 结语

本研究基于LeNet-5网络和信息融合思想提出新的嵌网融合-卷积识别网络来解决手势识别问题。首先,以多层感知器来构造特征提取框架,并在卷积层输出端级联Inception结构,同时用金字塔采样机制替换常规采样,利用金字塔多尺度融合策略来拼接不同维度的特征,进而将融合特征传输给全连接层,最后引入支持向量机思路识别。实验中将所提网络在MNIST数字集及自建手势集进行验证,识别准确率最高达到98.2%,均优于常规网络。如何在网络深度一定的前提下,提高多尺度特征融合能力及识别准确率将是下一步研究重点。

猜你喜欢

池化手势金字塔
基于高斯函数的池化算法
“金字塔”
卷积神经网络中的自适应加权池化
Great Vacation Places
挑战!神秘手势
基于卷积神经网络和池化算法的表情识别研究
V字手势的由来
用于手写汉字识别的文本分割方法
金字塔是用金子造的吗
胜利的手势