基于人工智能的景物识别算法

2018-01-26长阳土家族自治县第一高级中学覃天足

电子世界 2018年1期

长阳土家族自治县第一高级中学覃天足

1 引言

近年来，图像识别已经成为人工智能和机器学习领域的研究热点和难点，其中，景物识别是指对场景图像的各类景物进行识别分类，在许多领域例如无人驾驶、图像检索、机器人视觉导航等都得到了很好的应用。图像的视觉特征有颜色，纹理，形状等，颜色是用于描述物体表面特性的一种属性，也是应用最为广泛的视觉特征，主要原因在于颜色往往和图像中所包含的物体或场景十分相关；而纹理特征纹理指的是图像灰度级或颜色的某种变化，是用于描述物体表面结构的一种模式，体现了物体表面共有的内在属性，包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系，利用这两种特征可以便于对图像进行分割、分析和理解。由于室外景物的复杂及可变性，使用单一特征常常难以描述图像中的各类景物，因此在本文中，将颜色和纹理两种信息进行结合，用于同时提出图像的光谱和结构特性，以此表达更多的图像信息，可以取得更好的分类结果。

同时，神经网络在解决非线性、以及拥有大数据前提条件下的模式识别问题中具有较好的性能[1]。因此，选取神经网络作为景物识别的分类器是一种合理的选择。本文在基于颜色和纹理特征提取的基础上，采用神经网络进行景物识别，提高了图像识别的准确率，具有良好的分类性能。

2 颜色特征提取

对于待识别的景物图像，颜色是其十分重要的视觉特征。因此，利用颜色特征进行图像分类受到重视，也最早得到实际应用。颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。进行颜色特征的提取必须选取合适的颜色空间。对于景物识别，常用的颜色空间有RGB空间、HSV空间等。其中，RGB空间模型是迄今应用最广泛的彩色模型。其具有描述简单，便于使用标准硬件实现应用等优点。本文选取RGB颜色空间，根据RGB三个分量提取待识别图像的颜色特征[2]。

颜色直方图直观的显示了图像在色彩空间的分布状况，其优点在于能简单描述一幅图像中颜色的全局分布，即不同色彩在整幅图像中所占的比例，具有良好的尺度和旋转不变性，特征鲁棒性好等特点，特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。而对于本文选用的以RGB颜色空间表示的图像。其中，R，G，B所表示的任何一个分量都可以构成对应的直方图，此直方图仍然描述了图像颜色的统计特征。但是一幅图像的R，G，B 值范围在[0,255]之间，因此颜色直方图矢量的维数也会非常多。若直接进行特征计算，运算量将会很大，难以保证算法的快速性。而且人的眼睛对颜色的分辨能力有限，并无必要将这些量全部细分计算。因此在计算特征量之前，可以对RGB 空间进行量化，将0-255范围内的值映射到0-7区间内，以减少特征矢量的维数。映射关系表示如下：

3 纹理特征提取

纹理特征也是一种全局特征，是指人们观察到的图像子区域的某种灰度变化规律。它也描述了图像或图像区域所对应景物的表面性质，即在图像中反复出现的局部模式和它们的排列规则[3]。作为一种统计特征，纹理特征常具有旋转不变性，较强的抵抗噪声能力等优点。目前纹理特征的提取主要有4 种方法：统计法、结构法、基于模型的方法以及信号处理的方法。灰度共生矩阵是统计法的一个典型代表，是应用效果较好的一种纹理特征分析方法。

灰度共生矩阵是像素距离和角度的矩阵函数，亦即一种通过研究灰度的空间相关特性来描述纹理的方法。由于纹理特征是由灰度分布在空间位置上反复出现而形成的，因而在图像空间中相隔某距离的两象素之间会存在一定的灰度关系，即图像中灰度的空间相关特性。灰度共生矩阵通过计算图像中一定距离和一定方向的两点灰度之间的相关性，来反映图像在方向、间隔、变化幅度及快慢上的综合信息。

图像上保持某一距离的两个像素分别具有某灰度，对其进行统计得到灰度共生矩阵。灰度共生矩阵描述了成对像素的灰度组合分布。本文将灰度共生矩用Pδ表示，矩阵元素则用Pδ(i,j)(i,j=0,1,2,…,L-1)表示。式中：i,j分别为两个像素的灰度；L为图像的灰度级数；δ为两个像素间的位置关系，用δ=(Δx,Δy)表示，即两个像素在x方向和y方向上的距离分别为Δx，Δy。不同的δ决定了两像素间距离和方向，一般在0°、45°、90°和135°这4个方向上[4]。当两个像素间位置关系δ选定后，就生成一定δ下的灰度共生矩阵Pδ，即：

共生矩阵中一个元素表示了一种灰度组合下出现的次数.如元素Pδ(1，0)表示了图像上位置关系为δ的两像素灰度分别为1和0的情况出现的次数。显然位置关系不同，元素值就不同[5]。

4 BP神经网络分类器

基于上述的颜色/纹理组合特征，本文针对景物识别问题提出一种基于BP神经网络的分类器，通过输入组合特征向量，对分类器进行学习训练，得到满足分类精度的BP神经网络分类结果。BP神经网络能够对多层的网络权值进行修改，是目前应用最广泛的神经网络学习算法之一。

BP神经网络学习训练的过程，可以分为正向传播和反向传播两个阶段。其中正向传播的思想是将输入的特征向量从输入层经过隐含层，逐步进行处理，进行权值计算，最后输送到输出层，在每一层的处理中，前一层相当于后一层的输入层，而当前层的下一层可被视作该层的输出层。在输出层中，把实际的输出信号与期望的输出信号进行比较，如果误差为零或小于满足精度的某个阈值，结束学习训练过程，否则进入反向传播过程。在反向传播过程中，将实际输出和期望信号计算得到的误差逐层返回，对每一层的权值进行自动调整，直至某一次的实际输出信号与期望信号的误差满足收敛条件，完成整个学习训练过程。

在进行BP神经网络学习训练的过程中，要确定误差函数，这里选择实际输出与期望输出的误差平方和作为误差函数。表达式如下：

BP神经网络能够根据如上所示的误差函数来逐步调整权值，这需要依靠大量的样本数据，从而得到更加智能和高精度的分类器。其中输入为上面得到的组合特征向量，输出为识别结果，这里，选择北京市最为著名的10个景点，并用4位的二进制进行编码，分别为0000-1001，而其余不属于识别范围内的景点统一编码为1010。为了保证BP神经网络的性能，本文使用标准的3层神经网络。其中，输入层可以设置10个节点，对应量化的输入特征向量；输出为表示分类结果的一个编码向量；隐含层设置15个节点。

通过将输入的图片样本进行预处理之后，并采用特征提取得到对应的特征向量，选择500幅图片作为训练集，再选择500幅图片作为测试集，通过不断训练并根据训练结果的优劣调整隐含层节点数，直到达到预定的训练次数，或满足预先设定的收敛阈值，完成训练过程。最后将训练学习好后的分类器，使用测试集评价分类器的识别效果。整个学习训练的流程图如图1所示：