基于自适应动量因子的BP神经网络优化方法研究
2019-09-10王锦赵德群邓钱华宋瑞祥
王锦 赵德群 邓钱华 宋瑞祥
摘 要:人工神经网络是模仿动物神经网络行为并执行分布式并行信息处理的数学模型。网络依赖于系统的复杂性,调整大量节点之间的连接,达到处理信息的目的。因BP神经网络具有自适应性、自组织性和实时性等特点。目前,它广泛应用于模式识别、预测估计、信号处理等领域;因BP网络是基于梯度下降法实现算法学习的,所以不可避免地存在算法收敛效率较低的情况,非常容易停靠在局部最小点上导致在预测问题上效果一般。如何优化改进BP网络一直是一个备受关注的焦点。本文从两方面着手改进BP神经网络,并以在出版物中的图像识别为应用进行研究,以求提高网络收敛性和预测精度。
关键词:神经网络;自适应;图像识别
中图分类号:TH165.3;TP183 文献标识码:A 文章编号:2096-4706(2019)07-0011-03
Abstract:Artificial neural network (ANN) is a mathematical model that imitates the behavior of ANN and performs distributed parallel information processing. The network relies on the complexity of the system,adjusting the connection between a large number of nodes to achieve the purpose of processing information. Because BP neural network has the characteristics of self-adaptability,self-organization and real-time. At present,it is widely used in pattern recognition,prediction and estimation,signal processing and other fields. Because BP network is based on gradient descent method to realize algorithm learning,inevitably,the convergence efficiency of the algorithm is low,and it is very easy to stop at the local minimum point,which leads to the general effect on prediction problem. How to optimize and improve BP network has always been a focus of attention. In this paper,BP neural network is improved from two aspects,and the application of image recognition in publications is studied in order to improve the convergence and prediction accuracy of the network.
Keywords:neural network;adaptive;image recognition
0 引 言
BP神經网络具有自适应性等特点,广泛应用于模式识别领域。但是由于自身的一些局限性,诸如易陷于局部极小、网络收敛速度慢、训练时间长等。如何优化改进BP网络一直是一个备受关注的焦点。本文提出一种改进BP神经网络的研究方案,通过引入自适应动量因子来进行网络优化。
1 BP神经网络算法优化——以图像识别应用为例
1.1 传统的神经网络算法
1.1.1 图像灰度化
图像灰度化有多种算法,加权平均数算法是其中主要的几种算法之一,主要机理是给一个彩色图像的各个RGB分量进行加权的计算,然后转换成灰度数值并进行平均。式(1)所示,是该方法的常见加权均值公式:
本文采用的灰度化处理方法,只是一个图像存储格式的转换,对整理的算法识别没有太大的优化作用,但是这种加权平均的灰度化计算方法,已经能满足本文平面图像图文分割的图像处理要求了。
1.1.2 二值化处理
所谓二值化处理,即将灰度化的图像转成只有黑色和白色的图像,这个过程是本文算法处理的必经步骤,而且二值化处理的效果会直接影响到后续算法的效果。通常,需要选取一个合适的阈值Threshold(0到255之间)来将黑色和白色分开,即大于该阈值的背景像素设为白色(255),小于该阈值的设为黑色(0),其具体计算公式为:
其中T(x,y)是输入图像(x,y)的灰度值m(x,y)进行处理后的输出灰度值,由式(2)可以看出,选取合适的Threshold阈值是二值化处理的关键,不同的Threshold阈值二值化后的图像效果也不一样。
本文选取了只适用于局部图像特征的阈值进行二值化的算法,这个算法在对图像进行局部小块的分割时,重点将环境光的背景影响因素作为参数考虑了进去,然后通过一个变化的连续矩形窗口来进行最佳阈值的寻找,并利用此阈值进行图像的二值化,这是一个不间断的连续过程,由于对于环境背景光线的考虑,所以图像在处理后效果较好。
其中,m(x,y)为掩模区域的灰度平均值,s(x,y)为掩模区域的标准方差,k和掩模窗口的大小为经验参数,通过式(2)不同阈值处理的效果试验,本文中取掩模窗口大小为8×8,k为0.5,R选取0到255的中间值128,作为s的标准化参数。
1.1.3 图像去噪
图像去噪的主要机制是在图像中选择一个目标像素,然后对于此像素以坐标为中心给定一个固定值的窗口,然后采用窗口滑行计算的方式,将每个窗口内的目标像素四周的像素的灰度值进行全部的平均,然后用求得的平均值代替中心目标像素的灰度值。
1.1.4 版面校正
采用移动智能终端来采集图像信息,由于采集图像信息时移动终端所处的空间位置的不同,这使得采集的图像或多或少存在形变。本次设计中对于形变问题也采取了相应的预处理措施,具体过程如下:
(1)图像膨胀化,该种处理方式采用窗口大小为3×3的结构窗口,用这样大小的窗口去覆盖二值化图像中的像素点,当覆盖的窗口中的所有像素点的值为0时,则对应的像素点值为0,否则像素值设置为1;
(2)基准点获取,图像经过膨胀处理之后,再对图像的数据进行处理,查看在垂直向的像素一致区域长度是否满足设定的阈值,满足则将该区域的中心点作为基准点;
(3)左右邻近点获取,定位完成基准点之后,需要对基准点的左右侧进行处理寻找邻近点,寻找公式为:
式(4)和式(5)中D指代需要得到的邻近点,S指代的是对应的基准点,k为加权系数,一般取值为10。通过式(4)和式(5)计算得到最小正整数的WL和WR,其对应的D即为需要计算得到的近邻点,通过对所有邻近点的连接就能够得到文字行的初始连线。
(4)位置校正,完成邻近点的连线之后,还要计算校正斜率,根据这个计算得到的数值,然后对于采集到的平面图像数据进行一步步的移位和旋转操作,就可以逐渐得到科学的校正之后的图像效果,整个流程如下:1)读入二值化图像;2)图像膨胀化处理;3)寻找基准点;4)对基准点寻找其左右方向的邻近点;5)连接基准点和临近点;6)定位的基本文字行;7)计算校正斜率;8)复原文档图像。
1.2 基于自适应动量因子的算法优化
上一节介绍了传统神经网络用于图像识别的基本算法,这些算法由于设计缺陷,在针对本文研究的平面图像识别适用性上都有一定的限制。所以,如何能够把两种不同的算法进行有机的整合,从而有效的结合当前两种算法各自的优点,并发挥相应的适应性,是当前各个高校以及工业界进行研究的重点。本文即根据这一思路,设计整合了一种综合算法,流程如下:(1)读取文档图像;(2)图像预处理;(3)单字黑体扩充;(4)轮廓投影;(5)分割线及连通阈值获取;(6)同质区域合并;(7)文档版面分割。
1.2.1 基于连通域的文字提取
通过对出版物中的文字进行分析,研究其主要组成的汉字的特征,可以得出以下结论,大多数字体的点,即像素点在八连通的邻域内需要一行或者一列全是白色的行列点,边缘点除外,另外需要考虑到每一个汉字都是接近于方块形状,需要将这个邻域的分析方法在这个基础上进行一定的扩充。
本文对于出版物中出现的汉字用连通邻域的方法进行相应的黑体扩充,然后可以在水平或者竖直方向上进行投影。
对于单个字进行黑体扩充的具体算法实现步骤如下:
(1)进行文档图像的扫描,特别是需要采用八连通域的方法对于图像内的全部像素点都进行扫描和分析;
(2)对于图像中的像素点都进行以下的判断,看是否存在空白的列或者空白的行在其八连通域的范围内,如果存在,就不进行处理;如果不存在,则说明这个像素点周围是有一些黑色像素点的,这些点是分布比较均匀的,就需要把其八连通域的周边的像素點全用黑色进行填充。
1.2.2 轮廓投影
本文在后续的步骤中将单个汉字填充后的出版物文档进行整个的轮廓投影,并对于投影后的像素进行水平一行或者竖直一列的像素点个数统计,将这个总和进行对比之后,可以计算出整个出版物文本图像里的所有的行列投影值。
把原始的二值化的投影轮廓与投影图进行对比之后,按照上述的方法进行投影,可以发现整个的直方图的波谷和波峰都具有明显的周期性,并且规律性和区分度都是非常高的,如图1所示。
1.2.3 分割线及连通阈值获取
在平面图像提取的数据中,对单个汉字的黑体进行扩充之后,相比于未进行处理之前的二值化图像而言,其直方图和投影信息会更加的充裕,里面含有多个不同的信息,也可以提取出一定的规律。因此,按照以上分析可以对于文本中的图像进行寻找识别,定位图像所在的具体坐标位置。
(1)提取出版物的版块分割线。具体采用的分割线的提取方式如下:
平面图像中的版面分布比较复杂,首先需要按照单个黑体字体进行扩充之后的图像,然后采用1.2.2段落的自顶向下的方法即轮廓投影法,最后进行后续的处理,根据波谷的位置切分出版物文档中的图像并划分区域。
(2)获取并分析不同连通阈值。获取连通阈值的流程如下:
1)出版物中的文本正文这一块的内容由于直方图投影呈现出的是比较明显的波状图形,而且周期性是非常明显的。通过这一系列识别和分析可以将各个行或者列之间的连通间距计算出来。
文本行或者列的连通间距th1计算公式为:
2)如果是平面图像数据中的标题区域,这块内容在直方图中的投影也是呈现出一定的周期性的,不过标题的特点是较大,所以投影结果中波峰的宽度是非常大的,另外标题字体之间的距离通常是比正文字间距要大很多,因此这一部分间距也可以作为区分是不是标题的重要依据,同时可以根据波形的连通区域对于正文和标题进行区分,合并相应的域值。
文本标题字符之间的连通间距th2计算公式为:
其中M为该区域内的波谷个数,di为第i个波谷的宽度,就是该区域样本中第i个标题字符间的连通间距;
3)在按照上述方法对出版物采集到的图像数据中每一个像素的单字体进行扩充后,黑色的像素可以更加密集的出现,对于图像区域的识别也会更加显。
2 结 论
本文采用的连通域的分割算法是基于轮廓投影的,实现比较简单,与传统的基于连通域的分割算法相比,速度有了一定的提升,而且可以解决一些传统算法中的不准确等问题,大大地提高了算法的准确率。
参考文献:
[1] 柴毅,尹宏鹏,李大杰,等.基于改进遗传算法的BP神经网络自适应优化设计 [J].重庆大学学报(自然科学版),2007(4):91-96.
[2] 王燕妮,樊养余.改进BP神经网络的自适应预测算法 [J].计算机工程与应用,2010,46(17):23-26.
[3] Meng X,Han X,Xu Q. BP Network Optimized with Genetic Algorithm and Apply on The Fault Diagnose of Complex Equipment [J]. IEEE,2007:1630-1633.
[4] Zheng B H . Material procedure quality forecast based on genetic BP neural network [J]. Modern Physics Letters B,2017,31(19-21):1.
作者简介:王锦(1991-),男,汉族,山东济宁人,硕士研究生,研究方向:电子科学与技术;赵德群(1974-),男,汉族,湖南邵阳人,硕士生导师,副教授,博士,研究方向:图像处理与模式识别、智能多媒体信息处理等;邓钱华(1978-),男,汉族,山西大同人,高级工程师,博士,研究方向:通信技术;宋瑞祥(1992-),男,汉族,山西大同人,硕士研究生,研究方向:信息与通信工程。