APP下载

基于深度学习的铝厂工业自动浇筑中的图像识别

2020-06-17易佳明胡小龙

湖北大学学报(自然科学版) 2020年3期
关键词:池化层图像识别卷积

易佳明,胡小龙

(中南大学计算机学院,湖南 长沙 410075)

0 引言

铝金属广泛应用于生产生活的各个方面,从家庭所需到重工业领域,都是一种不易替代的原材料.它有很好的回收性,不易对环境造成污染,在我国甚至在世界上都有着举足轻重的地位[1].铝的工业发展经历了许多阶段,目前主要采用的是铝电解槽设计[2],其方法是将铝水倒入连接槽中,在电解过程中需要将阳极爪和阳极碳块连接,阳极碳块在电解槽中会被消耗,补充阳极碳块后需要重新将阳极爪和阳极碳块连接[3].目前铝厂大多采用人工进行操作,倾倒铝水依靠人眼判断,在高温环境中如工人操作不当,易产生危险.人工进行浇注耗费人力成本,需要一套自动浇注系统,满足铝的工业生产需要.有关此类自动浇注系统的研究较少,少有将图像处理运用于铝厂工业生产中的实例,本研究为此浇注系统提供一个可靠的算法.

图像处理技术起源于20世纪20年代,传统的数字图像处理应用主要是对数字图像进行简单处理,采用霍夫变换识别几何物体[4-5],但是在实际应用过程中,有很多环境干扰因素,霍夫变换很难做出正确的识别;现代图像处理技术采用深度学习的方法,抗干扰性和精确性都得到极大的提升[6].将图像处理技术应用于工业生产是一类重大应用方向,例如:将图像识别应用于零件分拣系统中,采用主成分分析法(PCA)与SVM,能满足实际工业生产的需求[7];采用CNN将图像识别应用于税票粘贴质量检测[8],设计出针对税票粘贴质量的系统也能满足需求;利用手机的便捷性和拍摄功能越来越强大,可为各类商超设计一套视频身份验证系统,以满足具体需要[9].将图像识别应用于工业生产中已经有了很多成功的先例[10-11],本研究将融合传统图像处理和深度学习技术对图像进行识别,并为自动浇注系统提供合适的算法.

1 自动浇筑中图像识别算法设计

基于深度学习的各种算法对样本质量和数量有较高的要求,所以对算法样本进行预处理是非常必要的.我们得到的视频数据含有大量的冗余信息,需对视频中截取的原始图片进行关键位置信息提取,这些信息中有含有大量噪声,需要降噪、通过小波变换处理样本,并进行归一化处理,以提高最终的样本质量.采用CNN卷积神经网络设计模型,采用两层卷积层和池化层,两层全连接层,最后采用softmax进行分类[12],如图1所示,并在测试阶段集中测试实验结果.

图1 采用的算法框架

1.1 数据集处理

1.1.1 数据采集 由于铝厂内部需要保密,而且内部属于高温环境,不能随意进入,主要由工作人员拍摄视频.拍摄的视频需要保证样本的随机性和多样性,需要在不同角度、多种环境条件下录制视频.按照计划需录制5段视频,覆盖大部分场景.

1.1.2 数据预处理 为避免噪声干扰,得到的数据需要进行预处理.对录制的视频进行处理,首先需要将视频数据处理成为帧数据,得到每一帧的图像.视频在录制的时候获取了大量无关信息,所以还要将关键信息截取出来,如图2(a)所示,像素大小为168×168.为了将噪声过滤,同时保留照片的更多细节,采用小波变换将彩色照片进行增强细节,同时将低频信息和噪声去除[13].

1.1.3 分解彩色图像 将从视频帧中提取到的关键信息分为3个分量,按照red(R分量)、green(G分量)、blue(B分量)提取出来并存入3张图片,分别如图2(b)~(d)所示.

1.1.4 处理3个图像分量 由于图像信号是离散信号,所以采用离散小波变换,需要定义尺度函数和平移基:

φj,m,n(x,y)=2j/2φ(2jx-m,2jy-n)

(1)

(2)

其中,i表示方向小波,H是列向变化,V是行向变化,D是对应对角线方向的变化.对于图像M×N的f(x,y)图像离散小波变换:

(3)

(4)

图2 浇注视频中帧数据的关键信息

图3 原图R分量图片经小波处理后的图片信息

这里我们采用最简单的haar小波变换2次分解,图3就是将原图R分量经过haar小波变换2次分解得到的图片信号,由于图像的细节保留在低频区域,所以需要将低频区域截取出来,即截取图像左上部分,剩余的3个分量噪声过多,直接舍弃[14].再将剩下的G、B分量图像进行小波变换,可以得到3种分量图像,将其进行合成,就可以得到去除大部分噪声后且图像大小缩减为原来一半的图像.

2 图像识别方法

由于CNN卷积神经网络在图像识别领域有很好的效果[15],如今已运用在很多识别场景当中,本研究同样采用CNN卷积神经网络设计图像识别模型,CNN卷积神经网络结构如图4所示.

图4 CNN结构模型

第一个步骤是卷积,卷积是为了将图像中的特征提取出来,卷积后的数值说明图像与该卷积核的相似度,该模型设计了两层卷积-池化层,每层卷积-池化层中的卷积层数不一样.卷积公式如式(5)所示.

y=F((f*w)+b)

(5)

其中f表示3×3大小图像,w表示卷积核,*表示卷积运算,b表示偏置值,F表示卷积激活函数.这里采用64个3*3的卷积核,而且是3通道,步长为1,选择卷积功能的激活函数为relu函数.由于卷积层数量很多,并且每个卷积层都会得到与原图差不多大的图像,会导致数据量急剧增大,同时参杂很多冗余数据,池化层的作用就是为减少计算量和降低数据维度,防止过拟合,池化公式如式(6)所示.

(6)

采用3×3的最大池化,步长为2,池化之后采取lrn()操作,局部响应归一化,提升网络训练速度.本研究采取了两层卷积-池化层,第二层卷积层采用16个3*3卷积核,其他与第一层卷积-池化层一致.经过两层全连接层,其中在第一层全连接层中将之前池化层的输出reshape成一维特征,并采用线性整流函数relu()作为激活函数.在后一层全连接层采用softmax函数作为激活函数,它具有3个神经元,作为识别浇注完成、未完成及环境的分类结果.Softmax具体公式如式(7)所示.

(7)

其中,x为输入,θ表示目标函数参数,K为分类结果数量.softmax损失函数如式(8)所示.

(8)

3 实验与分析

3.1 实验环境本研究实验环境如表1所示.

表1 实验环境

3.2 小波变换模型及卷积神经网络模型尚未浇注完成的图像如图5(a)所示,已经浇注完成的图像如图5(b)所示.

将3类背景图像各3 000张输入到网络模型中,选取600张作为测试集.本文中所定义的输入层是经过小波变换,将高频信息中的噪声去除,仅留下低频信息的二维图像,确保图像清晰、干扰少.然后,将图像特征信息提取出来并进行归一化处理,作为卷积神经网络的输入,需进一步处理.经过两层卷积-池化层,进一步提取图像特征.然后使用两层全连接层构建神经网络,采用128个神经元与128个特征值连接,最后一层采用softmax作为激活函数.在训练过程中,每训练10次,输出一次loss值,并记录训练总次数.经过训练,得到的loss图如图6所示.

图5 实验数据样本

图6 loss曲线图

调整卷积核大小和卷积层数,模型经过训练之后,loss值很快达到了收敛,并且最终稳定.训练之后进行分类测试,分类准确率达到91.88%.由此可见,该模型已经可以成功识别3种浇注状态,可用于铝厂工业生产中.

3.3 卷积神经网络模型分析训练过程中需要分类的图像信息较为简单,而训练模型复杂,为防止过拟合,发生训练时loss很低、但实际测试时模型表现不好的情况,所以引入dropout层,将一部分神经元忽略,避免过于复杂的神经网络造成过拟合.

为验证本研究算法,将其与单独使用卷积神经网络和单独使用小波变换,还有传统图像处理霍夫变换的算法进行比较,得到的结果如表2所示.由于采用了小波变换对图像中噪声进行消除,将高频信息 保留下来,滤除低频噪声,因此比仅使用卷积神经网络进行图像识别的识别率更高.本文中采用了卷积神经网络,卷积对图像中特征进行提取,相比于仅使用小波变换、人工进行特征提取,避免了环境因素和拍摄角度的干扰.而传统图像处理是采取霍夫变换对圆形进行检测的方法,需要保持圆形的较高完整性、避免环境因素的干扰,因而识别率更低.

表2 算法分类准确度对比

4 结束语

针对铝厂自动浇注的图像识别,本研究提出一种结合小波变换和卷积神经网络的分类算法.将小波变换融入预处理过程中,由于高频信息中包含大多数噪声,而低频信息中包含图像的绝大部分信息,采用小波变换去除图像噪声、抑制环境背景,对低频信息进行增强具有显著的效果.该预处理的图像信息卷积神经网络快速提取有效特征,经过几种算法分类对比,本研究算法在亮度不足、噪声干扰多的情况下仍有很高的识别率,可以用于铝厂自动浇注中的图像识别.后续仍可以对模型进行进一步改进,以提高模型分类的准确度.

猜你喜欢

池化层图像识别卷积
浅谈图像识别技术在打击绿通假证逃费中的应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络模型研究分析*
基于卷积神经网络的纸币分类与点钞
基于深度学习卷积神经网络的人体行为识别研究
卷积神经网络的分析与设计
基于Resnet-50的猫狗图像识别
从滤波器理解卷积
图像识别在物联网上的应用
图像识别在水质检测中的应用