特征传导神经反应在图像检索中的应用
2016-11-10胡政发
甄 新,胡政发
(1.厦门理工学院应用数学学院,福建 厦门 361024;2.湖北汽车工业学院理学院,湖北 十堰 442002)
特征传导神经反应在图像检索中的应用
甄新1,胡政发2
(1.厦门理工学院应用数学学院,福建 厦门 361024;2.湖北汽车工业学院理学院,湖北 十堰 442002)
提出一种新的图像特征表示方法-特征传导神经反应(FCNR),并用于基于内容的图像检索(CBIR).该方法的核心思想是通过建立一个模拟人类视觉感知系统的分层结构,在对图像的局部特征进行深度学习的同时将图像的语义成分引入到特征表示中.通用图像数据集上的实验结果显示,无论是与经典的NR算法还是与某些专门用于CBIR的其它图像特征描述子相比,基于FCNR的图像检索方法都表现出较好的检索效率和效果.
图像检索;神经反应;局部特征;分层结构;特征传导
受搜索服务市场需求的驱使,基于内容的图像检索(content-based image retrieval,CBIR)方法,成为多年来模式识别和人工智能领域研究的热点问题之一.近年来受人类视觉皮层神经科学的启发而提出的分层学习方法为研究这一问题提供了一个新的方向.为了在捕捉图像的高级语义特征的同时提高检索效率,本文针对CBIR的特点,在神经反应的有关理论的基础上提出了特征传导神经反应(feature conduction neural response,FCNR)的概念及算法.
1 特征传导神经反应
1.1相关概念与记号
在神经反应的计算中总是默认下面的性质自行满足[1].
公理1设f∈ISq,hv∈Hv,则f通过变换hv在v上的限制f∘hv∈Iv,即图像f中任取大小为v的子块一定是Iv中的元素.类似地,fv∘hu∈Iu.
1.2特征传导神经反应算法
构造特征传导神经反应的第一步是对整个图像进行简单地分割,与其它基于区域的特征提取方法所采用的分割技术不同,这里只是用互相垂直的直线网将图像分割成一些大小相同的矩形小区域.然后在每一个小区域上提取诸如颜色、纹理、形状等特征,并将这些特征用一个向量来表示.这样一幅图像就可以表示为一个三维特征数组.特征传导神经反应算法就是在这个三维数组的背景下,将这些底层的局部特征按照神经反应的模式逐级传导,最终得出图像的特征传导神经反应,下面给出具体的过程.
对任意的f⊂ISq,用相互垂直的直线网将f分割成大小相等的M×N个矩形子块fij(i=1,2,…,M;j=1,2,…,N),即
(1)
在每个矩形子块fij上以相同的方式提取一些视觉特征,将这些特征组成的向量归一化后记为wij,这样得到图像f的局部特征数组表示wf,即
(2)
其中wij(i=1,2,…,M;j=1,2,…,N)本身也是一个向量,其中的每一个分量代表一个特征.归一化的一个明显的作用是使得这种表示对图像的亮度变化具有不变性.如果每个矩形图像块提取P个特征,则wf就是一个M×N×P的三维数组.因此wf可以简单的表示为
(3)
其中wijk表示f的第i行第j列的图像块的第k个特征.
(4)
现在来定义特征传导神经反应.设wv∈Wv,对任意的hu∈Hu,根据公理1可知wv∘hu∈Wu,任取模板tu∈Tu,称
(5)
(6)
(7)
其中〈·,·〉表示通常意义下的两个向量的内积.
(8)
(9)
(10)
下面对上述概念做几点说明:
说明1特征传导神经反应是一个向量,其维数等于二级模板的个数,与图像本身的维数无关.在研究图像时,无论图像大小是否相同,都可以转化为相同维数的向量统一处理.
说明2由于在底层使用了图像的低级视觉特征,FCNR模型有效地克服了NR模型像素对像素的穷竭算法的缺点:不仅可以大幅度减小计算量,而且和其他特征提取方法一样,能够在一定程度上缩小图像低级特征和高级语义的差距.FCNR是图像的底层视觉特征经过神经反应传导而得出含有高级语义成分的特征.因此,从某种意义上讲,FCNR可以看成是图像的“特征的特征”.
说明3从学习理论的观点来看,上述FCNR的提取方法属于非监督学习的范畴,而分层结构的引入则是为了对低层视觉特征进行深度学习[2].
2 基于FCNR的CBIR系统
对于给定的图像库,首先对库中的图像进行简单分割,将每一幅图像划分为大小相同的矩形子块,在每一个矩形子块上按相同的方式提取特征,由此得到原始图像的局部特征表示.在此基础上利用如前所述的算法计算出所有图像的特征传导神经反应,进而用这些特征传导神经反应作为最终的图像的特征表示,建立一个与原始图像库相对应的FCNR特征库.接下来在特征空间上定义一个恰当的相似性度量,基于这种相似性度量就可以进行图像检索了.
2.1局部低层特征提取
在将图像用相互垂直的直线网分割成规格相同的矩形子块以后,就开始在每一个子块上提取相应的低层特征.图像可以提取的特征主要包括颜色特征、纹理特征和形状特征等,每种特征的提取方法有很多.本文用简单、稳健的方法提取图像颜色和纹理方面的十四个基本特征.
类似于许多CBIR相关文献中所采用的方法,在提取颜色特征时,利用众所周知的YCbCr色彩空间.在这种色彩空间中,亮度信息用单个分量Y来存储,彩色信息用两个色差分量Cb和Cr来存储.我们在每一个子块上计算出Y,Cb和Cr的均值和标准差,其中均值记为g1,g2,g3,标准差记为g4,g5,g6,获得六个颜色方面的特征(对于单色图像,只需提取两个亮度特征).接下来利用Haar小波变换从图像的Y分量中提取纹理特征.首先将矩形图像块再进一步分解为一些互相邻接但不重叠的4×4的子块,对每一个子块进行一级Haar小波变换,一个4×4图像块被分解成四个频带,每个频带对应一个2×2的矩阵,分别表示一个下取样近似和三个方向(水平、竖直和对角线) 的细节矩阵.设三个细节矩阵分别为
令
(11)
则矩形图像块中的每一个4×4的子块都对应着这三个变量,然后在每个矩形子块上分别求这三个变量的均值与方差,其中均值记为g7,g8,g9,标准差记为g10,g11,g12,这样又可以得到矩形图像块的六个特征.
接下来的两个特征按下述方式提取.注意前面已经求出了矩形图像块的Y分量的标准差g4,选择图像的平滑度作为第十三个特征,记为g13,即
(12)
该值反映了区域中亮度的相对平滑度.最后一个特征取为矩形图像块Y分量的熵,记为g14,即
(13)
其中p(z)为矩形图像块的Y分量的灰度级直方图,L是可能的灰度级数.熵是图像元素随机性的度量.
这样,将上述十四个特征组合在一起,得到了矩形图像块的一个特征表示,记为g,即有
(14)
对每一个矩形按相同的方式提取特征后就可以得到整个图像的局部低层特征表示.在得到图像库中所有图像的局部特征表示以后,利用前述特征传导神经反应的算法就可以计算出图像库中所有图像的特征传导神经反应.
2.2相似性度量
(15)
定义图像f,f*∈ISq的相似度为
(16)
3 试验结果及分析
通过仿真实验来验证本文提出的算法在图像检索中的表现.实验中用到的数据库为Corel-1 000图像库[3].该图像库包括1 000幅图像,这些图像选自Corel图像库,这是一个用于图像检索实验的标准测试数据库.
图像库中的1 000幅图像分十个类别,每个类别包含100幅图像.每一类都有一个高级的语义,如非洲人及其村落、建筑物、海滨、公交车、花、大象等.这些图像的像素为384×256或256×384,统一按“JPG”格式保存.为了方便处理,在实验中首先将384×256图像通过旋转转化为规格为256×384的图像,然后将每一幅图像分割成大小为16×16的正方形子块,共计16×24块.从每一小块上提取局部特征以后得到一个16×24×14的三维数组.实验选用的测试环境如下:CPU为Intel(R)Core(TM)i5-3230M2.60GHz,4G内存.实验中的代码由MATLAB软件实现,其间调用了图像处理工具箱函数.
此外,对检索效果的评价,本文采用最常用的方式,即通过查准率(precision)和查全率(recall)的关系图(PR曲线)来反映.查准率
(18)
其中k是输出图像数,nk表示输出的结果中包含的与查询图像相关的图像数.相应地,查全率
(19)
其中N为图像库中所含相关图像的总数.一般情况下,随着查全率升高,查准率会下降.限定查全率,对一系列随机选取的查询图像对应的查准率取平均值,就可得到平均查准率.高的平均查准率和高的查全率,意味着算法有好的表现.这意味着在PR曲线图中越靠近右上方的曲线对应的算法表现越好.除此以外,由于CBIR实时性的要求,查询速度也是衡量算法优劣的一个重要指标,查询时间越短意味着算法表现越好.
在实验中,u的规格取为7×7,v的规格取为11×11时.图3示例了两个查询的结果,其中排在最前面的为输入的查询图像,后面是输出结果中排在最前面的20幅图像.从图3可以看出,基于FCNR的CBIR方法在Corel图像库上有不俗的表现.其中查询主题为“花”的输出结果中全是花的图像,而且花的颜色、大小、背景各不相同,形态各异.这表明“花”的高级语义能被系统正确识别.查询主题为“大象”的输出结果中前13幅都是和查询主题一致的,输出的20幅图像中有四幅是和查询图像不一致的(图3中加边框的图像).
将基于特征传导神经反应(FCNR-based)的CBIR方法与基于神经反应(NR-based)和基于局部神经反应(LNR-based)的CBIR方法进行了比较.局部神经反应是神经反应的一个改进版本,该方法在图像及其子块的表示上利用了稀疏化技术[2-4].在计算NR及LNR之前,需要对图像做一个预处理.为了相对公平,采用相关文献中报告的使得算法表现最佳的做法:将图片转化为60×90的灰度图像,u的尺寸为15×15,v的尺寸为21×21.在模板选取上,三种方法采用类似的方式,即随机截取258个一级模板和172个二级模板.表1给出了三种不同方法在不同过程中的时间消耗,而检索效果则展示在图4中.
从表1可以看出,基于FCNR的检索方法在学习时间和总时间上都显著低于基于NR和LNR的方法,这主要是因为后两者使用的都是逐像素平移的穷竭算法.特别是LNR方法,由于其间引入了二次优化问题的求解,使得该方法费时最多[5].因此,尽管基于FCNR的检索方法会在局部特征提取上花费一定的时间,但学习时间得以大大的减少.
表1 3种不同方法的时间消耗
方法局部特征提取学习时间/s查询时间/s总时间/sNR-based0437.421.62439.04LNR-baed0367.251.54368.79FCNR-baed321.4613.501.38336.34
另一方面,从图4不难看出,基于FCNR的CBIR系统在检索效果上也明显优于基于NR和LNR的检索方法.这主要是因为基于FCNR的方法有效克服了NR和LNR方法在底层图像块上像素对像素进行比较的缺点,同时颜色信息的丢失也在一定程度上影响了NR和LNR的表现.顺便指出,基于LNR的检索效果要优于基于NR的检索效果,这主要是因为LNR方法的局部化的稀疏编码方式使得图像上目标出现的位置具有较高的神经反应值.
以上实验结果表明,与基于经典的NR算法及其改进的LNR算法相比,基于本文所提出的FCNR的图像检索算法在该图像数据库中表现出更好的检索效果和效率.
4 结论
本文提出了FCNR这一新的图像特征表示以用于基于内容的检索.该算法首先对图像的空间域进行简单的划分,然后在图像的局部区域上提取颜色、纹理、轮廓等一些基础特征,得到图像的局部特征表示.接下来对图像的局部特征表示建立一个分层结构,同时为每一层构造一个局部特征表示的模板集.在这一分层结构的一级子块上利用图像局部特征构造神经反应并通过神经反应归一化的内积将这些特征逐层传导到高级子块,最终将图像表达为一个称之为FCNR的向量.在这一过程中,利用分层结构实现对底层特征的深度学习,并通过图像各级子块和模板集的交互作用将图像的高级语义成分引入到图像的特征表示中.这样,在继承NR算法优良的辨识性和对图像变换的不变性的同时,FCNR摆脱了像素对像素的穷竭算法的困境.一方面FCNR继承了NR的一些优良特性,例如可以对目标进行深度学习,在图像表示中融入语义成分等,另一方面由于抛弃了NR中像素对像素的穷竭算法,使得该方法在大型图像库和高分辨率的图像处理中切实可行.同时,由于在分层结构的底层使用了图像的视觉特征而不是像素值,使得FCNR在对复杂场景图像的理解和对图像高级语义的抽象和概括上能有更好的表现.尽管理论分析和实验结果均表明FCNR是一种适用于CBIR的图像特征表示,但本文在模板的选取上采用的是随机方式,模板数量通过交叉验证的方式确定,这给检索结果带来了不确定因素.对模板选取的有效性和代表性进行定量分析仍然是值得进一步研究的.
[1]SMALE S,ROSASCO L,BOUVRIE J,et al.Mathematics of the neural response[J].Foundations of Computational Mathematics,2010,10(1):67-91.
[2]LI H,WEI Y,LI L C.Hierarchical feature extraction with local neural response for image recognition[J].IEEE Transactions on Cybernetics,2013,43(2):412-424.
[3]TANG Y Y,XIA T,WEI Y,et al.Hierarchical kernel-based rotation and scale invariant similarity[J].Pattern Recognition,2014,47(4):1 674-1 688.
[4]WEI Y.Research on object recognition based on manliford learning and derived kernel model[D].Wuhan:Huazhong University of Science and Technology,2012.
[5]LI L,WEI Y,YUAN Y.Similarity learning for object recognition based on derived kernel[J].Neurocomputing,2012,83:110-120.
(责任编辑李宁)
Image Retrieval Using Features Conduction of Neural Response
ZHEN Xin1,HU Zhengfa2
(1.School of Applied Mathematics,Xiamen University of Technology,Xiamen 361024,China; 2.School of Sciences,Hubei University of Automotive Technology,Shiyan 442002,China)
In this paper,a novel feature extraction method is proposed for content-based image retrieval (CBIR).The core idea of the proposed method was to make a thorough study of the low-lever visual features of image and to blend semantic component into the feature representation through a hierarchical architecture which was built to simulate human visual perception system.A new image feature descriptor of feature conduction of neural response (FCNR) was then constructed.The results of experiments on commonly used image databases demonstrate that,compared with classical NR algorithms or other image descriptors previously developed for CBIR,the proposed method has better performance and effect on retrieval efficiency.
image retrieval;neural response;local feature;hierarchical architecture;feature conduction
2016-01-03
2016-05-28
厦门理工学院高层次人才项目 (YKJ12017R)
甄新(1974-),女,副教授,硕士,研究方向为应用数学.E-mail: 2011111003@xmut.edu.cn
TP391
A
1673-4432(2016)03-0099-07