基于卷积神经网络的图像识别技术研究

2023-03-14弓佳明

现代计算机 2023年1期

弓佳明

（广州华商学院数据科学学院，广州 511300）

0 引言

图像模糊识别理论问题研究中涉及的图像模式识别数学基础本质也就是从属于在一个统计模式空间中到每一个模糊类别空间之间的模糊映射的关系问题。目前，在计算机图像模糊识别理论技术的逐步深入及发展研究领域中，主要的研究领域有以下三种计算机图像空间识别数学建模与方法：统计模式空间的识别、结构模式空间的识别、模糊模式空间识别［1］。从20世纪中期至70年代，相关领域经历了漫长的发展历程，并受到国际学术界的广泛关注及重视，到21世纪，人们仍可以借助对图像算法的理论跟研究不断创新新的领域与研究，以此来推动社会的进步与发展，其中最值得关注的就是图像识别领域，有关这一领域的实验技术的相关实验理论研究工作至今仍在稳步进行［2］。

近年来，随着我国计算机科学技术水平进一步快速进步和全面发展，图像视觉生物识别及检测系统技术和科学计算技术的综合应用逐渐发展起来，并在实践中取得令人瞩目的、十分突出可喜的创新科技成果，成为目前国内又一个综合性重点学科，并逐渐被广泛应用于国内其他众多应用技术领域［3-7］。

1 图像识别技术概述

1.1 图像预处理技术

1.1.1 图像增强

图像的增强方法［8］是指计算机通过采取某种图像计算处理方式，通过数学公式将图片分解成像素点，然后将需要处理的重点区域提取或者强化重点区域的边界，以此来将图片中重要信息内容突出，并且将图像中不重要的或者不需要处理的信息部分进行减少像素点，即弱化图像重点区域中的边缘信息，来达到图像信息增强的目的，这样做能够为后续图像处理增强识别度，并且减少其他信息对图像识别的影响。

假设原始像素图f(x,y)的像素灰度级范围均为[0,L-1]，其原始像素灰度值可以用整数r来表示，假设整数r能够被归一化映射到像素区间[0,1]中。做到如下变换：s=T(r)，其满足以下几个条件：

（a）Tr在区间0≤r≤1中，为最小单值且单调地递减；

（b）当0≤r≤1时，0≤T(r)≤1。

条件（a）中所要求函数的Tr值必须为单值的设置目的主要是为了能够自动保证在对其做变换计算的两个函数值之间存在着逆反式变换；单调值函数的设置目的之二则是为了保证其输出的灰度图像中的灰度值可以自动实现从灰度由偏黑开始逐渐过渡到偏全白，并逐步按顺序逐渐地自动增加。条件（b）保证了输出信号的灰度级之间与实际信号输入中的信号灰度级之间都可以一直大致地保持在一个相同的大小范围。由s到r之间的逆反变换可以分别来表示条件为r=T-1s，其中0≤s≤1。

因此，对于某一幅灰度图像来说，它对应的高灰度级次函数可以很严格地被看作是表示一个灰度区间值为[0,1]的一个随机变量。设函数Pr(r)为概率密度函数，Ps(s)为表示灰度值为s的概率密度函数。设Pr(r)和Tr都是已知，且它们都能满足（a）条件时，则可得

均衡化的变换函数可表示为

上式最右半部分是表示变量r值的单调累积分布函数，表示该分布函数为单调递增，满足条件（a）。类似地，区间[0,1]域上变量的概率密度函数的积分因子也包括在区间[0,1]域变量中，因此它也同时满足条件（b）。离散化形式为

其中，0≤rk≤1,k=0,1,2,…,L-1。

1.1.2 图像复原

由于图像退化过程会造成不可逆转的像素丢帧，导致图像质量会有一定的下降，并且存储转存的过程也会对图片像素等造成影响，还有其他射线辐射、噪声干扰、非线性畸变、带宽限制等会造成图像的几何失真。可以用图1来表示图像的退化模型。

图1 图像的退化与复原过程

一般可以采用退化跟复原方法来实现计算机对退化图像信号的复原，利用对此类过程结果进行建模，寻找能去除影响或可削弱减少其影响效果的估计方法。另一种类型是指基于检测图像的估计方法，即如原始和未检退化的图像过程已知，我们同样可以选择通过对其原始退化图像结果进行建模，根据所建模型可以对原始退化后的图像结果进行复原。

1.1.3 形态学处理

最普遍的数学形态学中的处理与运算基本方法主要有以下7种，分别表示为腐蚀、膨胀、开运演算、闭式运算、击中、细化和粗化。这里重点讲一下腐蚀跟膨胀：提取的目标区域由0或1组成的二值区域图像，得到的图像边缘可能不是很理想，因此需要进行进一步的处理以此来消除边缘噪声点，类似于电路系统中的滤波操作。腐蚀“收缩”是将边缘像素点二值与邻近区域进行对比，消除邻近区域近似度低的样本像素点，以此来使边缘更加“圆滑”的操作，即减少像素边缘区域像素点，来消除噪声点的目的。膨胀“扩大”，通过自定义一个元素结构，在待处理的二值图像上进行“滑动”操作，将二值点与“滑动”到的区域进行近似度对比，通过二值运算增多此时像素点，达到“膨胀”效果，即增加选中区域的像素点来放大特征区域样本。

假设f(x,y)为输入图像，g(i,j)为结构元素，用⊳表示膨胀运算，⊲表示腐蚀运算，这四种运算的表达式如下：

膨胀运算：

腐蚀运算：

开运算：

闭运算：

1.2 图像特征提取

图像信息的特征识别一般是建立以识别图像系统中的物体本身的主要特征为基础条件的，在图像特征信息提取分析环节中最常被采用的主要识别特征通常是其颜色、形状轮廓。下面分别对这两种特征进行介绍。

1.2.1 颜色特征提取

在图像系统的各种视觉特征属性中，颜色特征属于最重要，但也是系统最基本、稳定可靠的重要特征属性之一，通常情况下将图像的颜色信息划分为三原色，通过对三原色所占比例、颜色种类、颜色配比、图像的高度、宽度等信息来标定一个图像的颜色信息；其次，要学会选择更合适的图像量化方法，即将图像以像素点的方式决定图像的颜色总数，将图像的颜色信息以数学公式将像素点转化为具体数值的方式实现对图像特征的准确量化判断；最后，定义另一个颜色相似性准则，以精确测量两个图像对象之间相同颜色级别的特征的相似性或差异性。

1.2.2 形状特征提取

形状特征通常被认为是一个只要有下列至少两种特征就可直接进行图形的形状表示的方法：轮廓跟区域特征。由于我们主要处理的图像大多是静态的照片，即目标图像几乎不会有变形存在，因此形状特征提取既能对目标中重点区域进行检索跟识别，又能减少识别时间，提高算法效率。现重点介绍基于轮廓特征方法中的Hough变换直线检测法。

Hough变换［9］的一项基本理论思想是空间图中的各点一线都存在着对偶性，即空间图像中共线上的各个点都在一个坐标系之内，空间中会组合成相交的线。假设存在一根直线方程l，原点到该直线方程的最小垂直线距离为r，垂线点与坐标系x轴方向的最大夹角为θ，则该直线方程可简单表示为

直线l点在直角坐标轴下显示出来的任意一个为极点。这种由时间线到点间距离的变换过程实际上本身就是Hough变换。

1.3 图像匹配技术

图像匹配算法主要解决多幅图像之间识别相同类型信息的相关系数，取相关系数较高的对应的图像位置，目前图像匹配方法主要是两大类：一类是基于图像灰度值的图像匹配技术，即将图像信息划分为0跟1两个不同的向量矩阵，通过矩阵的匹配来达到相似度较高的区域，一次完成信息的匹配；另一类是基于图像特征的匹配方法，即将识别图像的点、线、面、轮廓或者外观形状等鉴别度较高的位置区域当作特征点，转化为数学向量，通过向量的计算来得到相似度较高的区域，以此来完成图像的匹配。现主要介绍一种基于特征进行的匹配中使用的SIFT（scale-invariant feature transform）算法［10］。

正常情况下，目标检测算法对图片的大小、方向、角度，以及旋转非常敏感，而SIFT算法则是选择图像局部，因此在图像进行旋转、大小缩变的时候由于其通过计算高斯差分，以及后续的特征提取等信息表现优异，所以利用SIFT特征提取进行图像识别在处理具有噪声点的图像时具有很好地鲁棒性。SIFT算法具体流程如图2所示。

图2 SIFT算法流程图

传统计算机所用的SIFT算法目的主要在于实现模板图像特征与计算机实际采集及检测到的目标的模板图像特征信息间快速进行的精确匹配，采用的方式一般是渐进欧式距离判断法。如果该渐进最近距离的差值和除以该点次的渐近距离值均小于匹配算法中所能事先精确设定得出的距离匹配点阈值，则可以将该点确定为距离匹配点，阈值的范围控制在区间[0.6,0.75]内。

为了进一步精确地优化和匹配计算的预期效果，采用匹配算法（random sample consensus,RANSAC）。此算法是一种通过反复循环、不断迭代而寻找最优模型的参数估计方法，它通过反复地随机选取样本点的方式凑成当前样本子集并迭代优化数字模型，使其跟整体样本更具有相关性。

2 卷积神经网络概述

2.1 卷积神经网络（CNN）

卷积神经网络系统（convolutional neural networks，CNN）［11］是指一类可包含卷积神经计算符且具有深度学习结构特点的前馈式神经网络技术（feedforward neural networks）［12］系统。卷积神经网络通过模型迭代，规则的优化，模型规则的权重的矫正等途径将模型不断地进行更新，使得训练的模型具有更强的鲁棒性，能更高效率地完成要执行的任务。其中，神经网络的数量在某一范围内与模型效果成正比，即某一范围内神经网络数量越多，效果就越明显。神经网络用于图像处理时首先会将图像进行特征提取，特征提取由卷积层完成，经过池化层将重复识别的特征剔除，最后通过全连接层特征计算将图像信息转化为矩阵或者向量，一次得到图像数字化特征提取跟图像计算的目标结果，以便后续模型进行迭代计算跟权重优化。

卷积层理论中最主要的另外两个基本特征之一就是局部的连接和权值的共享。由于在局部全区域网络连接的计算工作中实际参数过多将会直接造成无法正确计算实际参数的情况，可通过自动实现参数大小的共享操作来达到逐步地缩减计算使用实际参数时的数量，为今后进一步实现多层网络互连计算提供可能。

2.2 神经网络对图像识别的实现

卷积神经网络输出的表示方法如图3所示。卷积神经网络系统产生出来的输入图像信号一般是彩色的，也有全彩色灰度两种主要输入信息形式，可输出信号分别为纯黑白、彩色图像的输出信息和半纯黑色灰度图像。彩色图像矩阵是指显示介质在基于RGB灰度三种基本图像色彩模式条件下自动生成彩色的某一种基本图像。

图3 卷积神经网络图

卷积层表示图如图4所示。由堆叠卷积核计算的交叉相关计算结果可知，随着堆叠卷积核层次图的连续堆叠，特征图表面上的尺寸收缩效应也会随之逐步地被放大减小，为此，填充技术作为一个可以在特征图尚未真正通过连续堆叠卷积核计算就通过人为的方法增大、减小其表面尺寸的收缩效应，来抵消连续堆叠对计算过程中产生的表面尺寸的收缩效应的影响及其作用效果的一种设计方法。常采用的两种进行填充算法的基本方法分别为按0进行的填充计算法和按重复计算填充边界值的填充算法（replication padding）等。

图4 卷积层部分图

卷积层输入公式为矩阵x∈RW*H*C，这个输出公式也同样可以来表示矩阵特征图，输出矩阵为y∈Rw0*H0*C0。卷积层计算方法如下：F1=

池化图层的具体实际作用范围包括降低特征图层中的图像平均分辨率，对于图像的平移过程会在一定程度上降低其鲁棒性，矩阵池化效果如图5所示。

图5 池化效果图

ReLU层及相关层的一种变体，该层输出中包含的每个输入信号元素都是每一个输入信号元素的x。它是网络另一个非线性的输入操作，ReLU层的存在使得网络的表达方式变得更加复杂，ReLU函数为

批归一化图层中的原始输入信号依然可以视为一个三维的输出信号，输出信号中的y值必须至少与其原始的输入信号值之间具有两个几乎相同的值。批归一化算法的基本设计方法之一是要通过对原始输入信号值上的每一个数据元素都能按照基本方式来进行批归一化，从而才能使得其原始的输出信号值的算术均值也可以被尽量地稳定保持为至少一个0，以及其算术方差至少也被尽量地固定保持为最少一个1。通过使用这种方式，每一层输出信号的原始数据的分布范围都将比较一致。该处理方法也将能够更大幅度地提升数据优化算法执行的速度。

从网络训练理论研究的一个数学角度，末端函数的主要数学功能其实是损失函数。通过随机梯度下降回归的一种方式，使得损失函数得到一种逐渐平滑的随机梯度的降低。目前使用比较广泛的一种方式应该是Softmax回归。

Softmax回归，其中：输入x∈eL表示图像在不同类别中的损失概率，用k来表示输入图像的标签，将输入归一化到[0,1]之间，Softmax函数可表示如下：

通过交叉熵y=-log(f(xk))来重新定义损失值。图6是一个线性Softmax函数的坐标轴图像，从实际数学应用和结果来看，其两侧区产生输出信号的输入增益变化甚小，在输出信号输入的特征空间中的映射应用理论上，有希望取得很好的数学应用效果。

图6 Softmax函数图

3 基于卷积神经网络的图像识别技术

在一些实际案例的高清图像实时采集传输过程中，由于网络摄像机天线等一些电子设备本身的技术缺陷，或者由于外界环境以及各种环境不良干扰因素产生的影响，经常会导致实时采集检测到的视频图像可能存在图像噪声、色彩偏差、对比度变低以及画面失焦或者模糊等诸多问题。

在要识别的图像中，机器首先将图像识别为像素点，像素点之间的关联性与相似度成为图像识别的原理与基础，在一个图像中相邻像素点之间具有强关联性与强相似度，神经网络通过识别像素点之间的相关联性来完成图像的识别与对比。在识别过程中我们先进行图像与处理，即提取了图像的特征信息，将这些特征信息交给神经网络来进行识别，神经网络通过对特征识别区域的每个像素点分配神经元，并进行邻近神经元之间的相关性与速度计算得到向量矩阵，这个向量矩阵就是图像的特征信息包，通过进行特征信息包的对比与鉴定，来完成对不同图像间对象的识别。算法流程如算法1所示：