基于视觉注意机制的图像分类方法

2015-04-19韩抒真郭建民郭迎春

天津工业大学学报 2015年4期

关键词：特征提取亮度正确率

韩抒真，郭建民，郭迎春，柳青

（1.天津工业大学信息化中心，天津 300387；2.河北工业大学计算机科学与软件学院，天津 300401；3.天津工业大学图书馆，天津 300387）

基于视觉注意机制的图像分类方法

韩抒真1，郭建民1，郭迎春2，柳青3

（1.天津工业大学信息化中心，天津 300387；2.河北工业大学计算机科学与软件学院，天津 300401；3.天津工业大学图书馆，天津 300387）

针对Itti视觉模型在模拟人类视觉的过程中没有考虑到人眼视觉系统对外界事物边缘和轮廓的注意敏感性的问题，提出一种改进的基于视觉注意机制的图像分类方法，即基于Itti模型，同时引入图像的边缘特征对图像进行分类.经实验验证，与传统的Itti模型相比，该方法具有更高的分类准确率，分类准确率达到97%以上.

视觉注意；图像分类；Itti视觉模型；边缘特征

由于人类视觉注意机制的作用，在观察事物时，人们总能够在复杂的视觉环境中迅速地把目光集中到自己感兴趣的区域[1-4].相对于普通的特征提取，基于视觉注意机制的图像特征提取带有更多的人类评判图像内容的主观性.因此，将人类视觉注意机制应用到图像分类中，会使分类结果更符合人类的主观感受.其中经典的视觉注意模型是Itti模型[5].该模型提取原始图像中的亮度、颜色和方向3类特征，通过提取出的特征来综合判断图像中每个像素点的特征信息，然后把各个像素与周边区域相邻像素的差异作为该像素的显著性特征，形成显著图.注意区域是在表征图像各区域显著特征的显著图基础之上构建的，Itti模型主要根据图像各区域不同的显著度利用胜者取全（winner-take-all，WTA）[6]神经网络模拟人眼对多个焦点的注意，得到图像中的多个被注意区域.但是，在视觉上，人类对物体的边缘和轮廓是十分敏感的[7-9]. Itti模型在模拟人类视觉的过程中并没考虑到边缘信息.为了弥补该模型的不足，本文以Itti模型为基础，引入图像的边缘特征，并利用尺度变换形成边缘显著图.同时采用分块平均值法对4类显著图提取特征向量，最后使用SVM分类器进行图像分类的仿真实验.

1 基于视觉注意机制的图像特征提取

视觉注意机制最重要的特性是具有选择性，由于视觉刺激作用，人们在观察事物时，首先注意的往往是一些显著特征即与周围目标存在显著差异的目标.如图1所示，在图1（a）中，当多个绿球中只有一个红球时，观察者会第一时间觉察到红球，该示例表示颜色特征占显著地位的情况；图1（b）中，多个深色圆球中出现了一个浅色圆球，则浅色的圆球会首先引起人们的注意，此示例则表现了亮度特征占据显著地位的情况；图1（c）中左下方条形的方向与其他条形方向不一致，则该条形更能吸引人们的注意，此例表现的是方向特征更为显著.经典的Itti模型，根据视觉注意机制的特性，对图像的亮度、颜色和方向特征进行提取.

图1 视觉选择性示意图Fig.1 Schematic diagram of visual attention

除了上述特征之外，人类在观察图像尤其是远观图像时往往对图像的整体边缘轮廓更为敏感.因此，本文主要以Itti模型的显著图生成算法（如图2）为基础，并引入图像的边缘特征对图像进行特征提取.特征提取的流程如图3所示.

图2 Itti模型的显著图生成流程Fig.2 Saliency map generation process of Itti model

1.1 初级视觉特征提取

由图像特征提取的流程图可知，本文所需要提取的初级图像特征有:亮度、颜色、方向以及边缘特征.

（1）亮度特征的提取采取比较通用的计算方法.设r、g、b分别表示图像的红色、绿色和蓝色通道，则亮度特征的计算公式为:

亮度图像的信息量降为原始输入图像的1/3.当提取图像的边缘、纹理及方向等底层特征时，并不需要考虑颜色信息，以亮度图为基础进行计算可以有效地提高计算速度及效率.随机选取Caltech图像库中的一副图像对实验结果进行说明，图4为原始图像经计算得到的亮度图像.

图3 图像特征提取流程图Fig.3 Flow diagram of image feature extraction

图4 亮度图像Fig.4 Intensity image

（2）颜色特征提取时，为了排除亮度对RG通道和BY通道的影响，在计算RG颜色对和BY颜色对前，使用了亮度分量对三元色分量进行修正.由于在亮度很低的区域即小于最大亮度10%的区域，人眼很难分辨到色度信息，因此先将三元色分量进行以下处理:将图像中亮度值小于最大亮度值10%位置的三元色分量置为0，即r′=0，g′=0，b′=0；剩余位置的三元色分量为r′=r/I，g′=g/I，b′=b/I.然后将三元色分量依据公式（2）转化为四元色分量，其中R、G、B、Y分别代表红色、绿色、蓝色、黄色分量.最后得到两个颜色对特征:RG=R-G，BY=B-Y.

（3）对于方向特征，本文采用Gabor滤波的方法提取.计算公式以及θk的取值范围如公式（3）所示:

式中:T为滤波器的周期，θk代表滤波器的方向，两者共同决定了滤波器的频域位置；σx和σy分别表示高斯函数在x方向和y方向上的标准差，控制其在方向上的伸缩性，一般取相等的值以保证各方向同性.

（4）边缘特征的提取采用Canny算子.Canny算子不仅能够很好地提取出图像的边缘信息，而且能够在很大程度上抑制噪声影响.由此可见，Canny算子是一种效果优秀的边缘提取方法.Canny算子的计算流程主要包括滤波、增强和检测.

1.2 显著特征图的生成

1.2.1 亮度、颜色及方向特征的多尺度提取

众所周知，人们在观察事物时会有“远大近小”的感觉.例如，远观楼宇时，引起人们注意的是大楼的整体；而近观楼宇时，并非能看清楼的全貌，引起关注的可能只是楼宇的局部.这种由于观察者和目标之间的距离不同而产生的视觉差异就是人类视觉的多尺度特性.在数字图像处理的过程中，通常采用尺度空间方法[10]来模拟这种视觉多尺度性.金字塔模型是最常用的尺度空间方法.

Itti模型通过使用多尺度、多通道的非均匀高斯金字塔进行滤波处理，提取出亮度、颜色和方向3类初级视觉特征的多尺度图像，对每一类特征图进行高斯金字塔G（x，y，σ）滤波，R（x，y，σ）用来表示对原始图像做高斯金字塔运算后的图像，计算公式如下:

式中:σ表示高斯金字塔G（x，y，σ）的带宽，即尺度因子；σ的值越小则图像被平滑的越少，所表征的图像细节信息越多，对应的尺度也就越小；反之，较大尺度的图像则反映全局特征.

1.2.2 亮度、颜色及方向显著图的生成

中心-周边差的主要原理是将图像特征对比度的运算进行转化，转为多尺度下计算特征图的差值.视觉注意机制中引入中心-周边差的思想，更有利于图像显著区域的提取.实验使用高斯金字塔的各层图像进行运算，采用中心周边差与跨尺度融合得到各个特征的显著图.

本文采用八级金字塔，这里选择中心尺度c∈{1，2，3}，尺度差δ∈{3，4}，分别将3类图像金字塔进行中心-周边差计算[11]，亮度、颜色和方向的计算分别如式（6）—（8）所示:

对得到的不同尺度的中心-周边特征通过跨尺度“⊕”运算进行融合，最终得到所有特征的显著图.式（9）-（11）分别为亮度、颜色和方向的计算公式.

1.2.3 边缘显著图的生成

由上述3类视觉显著图的生成过程可以了解到图像尺度在视觉注意机制中具有非常重要的作用，因此在生成边缘显著图的过程中也引入了多尺度原理.主要流程如下:

Step1:对亮度图像（图4）进行适当等级下的采样，得到高层亮度图像.高层亮度图像能有效忽略边缘细节特征，保留主体轮廓，更能凸显显著区域的边缘特征.

Step2:提取高层亮度图像的边缘特征，这里采用Canny算子进行边缘提取，得到边缘图像.

Step3:将Step2中生成的边缘图像调整到与其他3类显著图相同的尺度，生成边缘显著图，如图5所示.

图5 经过尺度变换提取的边缘显著图Fig.5 Edge saliency map extracted by scaling

图6所示为对同尺度的亮度图直接进行边缘提取得到的结果.通过两幅图像的比较可以看出，经过尺度变换得到的图像边缘更为显著，并有效地去除了一些细节边缘.

图6 直接提取的边缘图像Fig.6 Edge image extracted directly

1.3 特征向量提取

经过上述流程的处理，得到4个类别共8幅基于视觉注意机制的显著特征图像，分别是亮度显著图1幅，RG和BY颜色显著图共2幅，0°、45°、90°和135°方向显著图共4幅以及边缘显著图1幅.本文采用分块平均法对每幅显著特征图进行特征向量提取[12].每一幅特征图像都划分为固定的4×4共16个子块，即每幅显著图经分块均值处理得到1个16维的特征向量.因此，每幅输入图像得到基于亮度、颜色、方向及边缘的共8×16=128维特征向量作为支持向量机的输入向量，用于图像分类.

2 实验结果与分析

本文实验采用Caltech图像库，包括摩托车、树叶、人脸和飞机4类图像，样本数分别为816、186、450和986，共计2 438幅图像.每一类图像都有较大的类内差异性且背景复杂[13]，示例图如图7所示.

图7 Caltech 4类图像库示例图Fig.7 Categories exam ples of Caltech database

为了验证本文提出方法的有效性，采用SVM分类器[14-15]进行分类实验.实验分为2组进行:第1组，随机选取各类图像的1/2当作训练样本，剩余的1/2进行预测实验，分类正确率如表1所示；第2组，在第1组的基础上降低训练比例，随机选取各类图像的1/4作为训练样本，剩余的3/4进行预测实验，分类正确率如表2所示.

表1 第1组分类正确率统计表Tab.1 The first set of classification accuracy statistics

表2 第2组分类正确率统计表Tab.2 The second set of classification accuracy statistics

表1和表2的统计结果表明，各类图像的分类正确率均达到90%以上，总分类正确率高于97%.

在其他条件均相同的情况下，特征提取分别采用传统Itti模型和本文方法，用于图像分类.准确率对比结果如图8所示.

图8 2种方法的分类结果对比Fig.8 Comparison of classification results of two methods

由图8的分类结果对比可知，利用本文方法提取特征进行图像分类，两组实验的分类正确率分别为98.851 8%和97.049 2%，比传统的Itti特征提取方法均有显著提高，尤其是训练样本较少的情况下更能突显本文方法的优势.4类图像中各类图像的分类正确率也均有提高，其中最为明显的是树叶类，正确率分别由 76.344 1%和 54.285 7%提高到 96.774 2%和90%.通过实验分析，原因在于树叶有特定的轮廓，边缘特征非常显著.因此，在引入边缘特征后分类结果有了明显的改善.

3 结束语

本文结合人眼视觉注意的敏感性，提出了基于视觉注意机制和边缘特征相结合的特征提取方法，并对该方法提取的特征向量进行了多类图像分类的仿真实验.分类结果表明，该方法比传统的Itti模型更加有效，能更加精确地分出各类图像，在分类准确率上表现出了一定的优越性.由于测试图像库的图像大部分具有比较突出的显著目标，且图像类别较少，因此在后续研究中需要对现有算法的适用范围及达到的效果进行更为广泛的研究和实验.

[1]MAZhong，ZHAOXinbo，ZOUXiao-chun，etal.Markov chain based computational visual attention model that learns from eye tracking data[J].Pattern Recognition Letters，2014，49:1-10.

[2]SHI Hang，YANG Yu.A computational model of visual attention based on saliency maps[J].Applied Mathematics and Computation，2008，188:1671-1677.

[3]马奇，张立明.快速注意力选择计算及其在图像质量评价中的应用[J].计算机辅助设计与图形学学报，2009，21（7）: 973-983.

[4]田媚，罗四维，齐英剑，等.基于视觉系统“What”和“Where”通路的图像显著区域检测[J].模式识别与人工智能，2006，19（2）:155-160.

[5]ITTI L，KOCH C. Computational modelling of visual attention[J].Nature Reviews Neuroscience，2001，2（3）:194-230.

[6]KOCH C，ULLMAN S.Shifts in selective visual attention:Towards the underlying neural circuitry[J].Human Neurobiology，1985，4（4）:219-227.

[7]郭迎春，袁浩杰，吴鹏.基于Local特征和Regional特征的图像显著性检测[J].自动化学报，2013，39（8）:1214-1224.

[8]夏召强，冯晓毅，彭进业.基于边缘与深度特征的感兴趣区域检测技术[J].计算机仿真，2009，26（7）:248-251.

[9]于明，邳艳芹.一种改进的显著性区域提取模型[J].电视技术，2012，36（19）:167-169.

[10]张巧荣，顾国昌，刘海波，等.利用多尺度频域分析的图像显著区域检测[J].哈尔滨工程大学学报，2010，31（3）:361-365.

[11]FRIN Trop S.VOCUS:A visual attention system for object detection and goal directed search[D].Bown:University of Bonn，2005.

[12]邢慧强，王国宇.SVM用于基于块划分特征提取的图像分类[J].微计算机信息，2006，22（51）:210-212.

[13]宋雁斓，张瑞，支琤，等.一种基于视觉注意模型的图像分类方法[J].中国图形图象学报，2008，13（10）:1886-1889.

[14]谢菲，陈雷霆，邱航.基于纹理特征提取的图像分类方法研究及系统实现 [J].计算机应用研究，2009，26（7）:2667-2770.

[15]张淑雅，赵一鸣，李均利.基于SVM的图像分类算法与实现[J].计算机工程与应用，2007，43（25）:40-42.

Image classification based on human visual attention mechanism

HAN Shu-zhen1，GUO Jian-min1，GUO Ying-chun2，LIU Qing3
（1.Informatization Center，Tianjin Polytechnic University，Tianjin 300387，China；2.School of Computer Science and Engineering，Hebei University of Technology，Tianjin 300401，China；3.Library，Tianjin Polytechnic University，Tianjin 300387，China）

To solve the problem that Itti visual model does not considering the sensitivity of the human visual system on the edge and contour of the external things when simulating human vision，an improved image classification method based on human visual attention system is put forward.On the basis of Itti visual model，edge features are introduced into image classification.Experimental results show that compared with the tradition model，this novel algorithm has a higher classification accuracy over 97%.

visual attention；image classification；Itti visual model；edge feature

TP391.4

1671－024X（2015）04－0047－05

10.3969/j.issn.1671-024x.2015.04.010

2015-04-29

河北省自然科学基金面上项目（F2015202239）

韩抒真（1987—），女，硕士，助理实验师，研究方向为图像处理与模式识别.Email:hanshuzhen@tjpu.edu.cn