一种利用轮廓朝向特征进行形状匹配的方法
2018-04-13樊一娜
樊一娜,郎 波
(北京师范大学珠海分校 信息技术学院,广东 珠海 519087)
0 引 言
选取一个好的特征并且设计出相应的表征方法是物体识别模型的前提。在人类对物体的感知属性中,形状信息可能是最能引起视觉注意的一个特征,相比其他属性(比如颜色、纹理等)可以使观察者预测关于物体的更多信息。除此之外,形状信息也是物体最稳定的属性,它不随图像亮度、对比度等因素的变化而发生实质性的变化。形状的分解表征决定着一个物体识别模型的最终效果,因为从物体的形状可以初步确定一个物体的类别,从形状所拆分得到的部件、部件之间的空间信息、部件之间组成的全局特征都是非常重要的特征。为了衡量带背景物体之间的形状相似性,需要一种适合计算机理解的形状表征方法来量化形状之间的相似度。基于此,将生物视觉中得到的“朝向特征”与“上下文信息”相融合对物体形状进行表征,找到一种最适合基于形状的物体识别模型[1-2]。
1 模型的建立
1.1 神经元感受野的响应与图像的方向检测
如图1所示,神经元感受野的位置居于明暗对比的刺激区域。
图1 神经元感受野对明暗变化的刺激对比
(1)
结合文献[4-6]的研究结果,神经元感受野在物体边缘上的分布如图2所示。
图2 感受野覆盖在刺激边缘的分布
(2)
得到最优解为:
(3)
计算检测到的方向与观测数据之间的误差为:
(4)
为了评估计算结果,引入最大允许误差emax,如果优化误差e(k,b) 物体的形状轮廓由一些基本线段组成,如图3所示,基本线段之间的互联用连接线段表示。 图3 构成轮廓的基本线段(BL,实线)和连接线段(LL,虚线) 底部水平的实线线段的上下文信息由其他所有线段和虚线段决定。图3中出现两个夹角(θ,γ),其中θ表示基本线段和连接线段的夹角,γ表示基本线段之间的夹角。底部线段的形状信息表示为Pj={pj1,pj2,…,pjk},其中pji=(θji,φji),θji表示基本线段BLj和BLi之间的角度,每一条基本线段的形状特征被整合在一起,组成物体的形状特征P={P1,P2,…,PK}。对于一个良好的形状上下文来说,物体真实形状和上下文之间的描述应该是一一对应的,具有不同形状物体对应的轮廓上下文肯定也不同。对于具有背景的图片的轮廓上下文来说,同一类图片(例如汽车)的相似度是非常大的,而在不同类之间,上下文的相似度就降低了,这一属性和是否具有背景无关。轮廓上下文可以用直方图矩阵来表示: (5) 其中,#表示计数;bin(k)表示一些特定的角度范围,例如bin(1)表示[0,45°),bin(2)表示[45°,90°]。 得到轮廓特征直方图后,需要一种相似度度量方法来比较直方图之间的相似度,因为背景会扩大形状距离但是不会减少形状相似度。文中采用相似度累积方式,统计特征直方图相同位置的最小值,背景的出现并不会减少公共区域的值,两条线段的轮廓上下文的相似度可以通过以下公式进行计算: (6) 当两条线段实际上就是一对匹配的线段时,它们的轮廓上下文直方图也是很相似的。在文献[6]中提到了形状连续性原理,即如果不同形状的两个边缘点匹配是正确的,那么它们各自相邻的边缘点也应该是匹配的,将此原理应用到相似度计算上,可认为每一条线段特征的相似度可以通过与之相邻的线段特征之间的相似度进行调整,如式(7)所示: (7) 线段匹配的基本原理遵循局部一致性准则,即如果测试图片中的某一条线段是物体的线段,那么与之相邻的线段也最有可能是物体的线段[7-9]。 给定模板图像P={p1,p2,…,pk}及测试图像Q={q1,q2,…,qn}的轮廓上下文特征,利用式(8)实现从模板图像到测试图像的匹配: (8) 在实际情况中,测试图片显示出的线段数量会远远多于模板图像的数量,那么如何寻找映射问题就被转化成一个优化问题,如式(9)所示: maxH(x)=xTSx(x∈δ) (9) 其中,x表示测试图片的索引坐标向量;δ={x∈{0,1}N×1};S∈RN×N,K=‖P‖⊕4,K,N表示模板线段图和测试线段图各自的线段数目。 整个优化目标就是从相似矩阵S中找到一个最优匹配,使得整个相似度值最大。根据1.1节的内容,设定一个利用局部朝向特征之间相似度的计算公式。设两对相邻的线段为M=M1,M2,I=I1,I2,相似度计算公式定义如下: (10) β‖T(I1,I2)-T(M1,M2)‖ (11) 其中,D(a,b)表示线段a,b中点之间的距离;T(a,b)表示线段a,b之间归一化的角度值;α,β是权重值(α>β),且α+β=1,随着线段数目的变化而变化。 线段匹配算法是整个物体识别的重要组成部分,在实际物体检测中,面对的困难主要是测试图像包含太多的背景线段会对识别过程产生干扰。由于线段匹配是直接从相似矩阵S中进行匹配,没有考虑到线段之间的位置关系,找出来的匹配有可能不符合最终的结果,如图4所示。到了实际物体检测阶段,主要工作就是去除背景因素的影响,找到更为精确的物体边界。物体相似度就是将所有匹配好的线段对的相似度相加,随着越来越多的测试物体的线段被匹配,得到的匹配结果也越精确,最终模板M与测试形状I之间的相似度表示如下: (12) 原始测试图 由轮廓上下文组成的测试图像 为了处理同一幅图片中出现的多个相同类别的物体,可以先设置一个阈值η,当一幅图像检测出来的物体相似度值高于η时,继续对同一幅图像进行搜索,直至找出的物体相似度值小于η为止,具体流程如下: 输入:模板线段M={M1,M2,…,Mk},测试图线段I={I1,I2,…,Ik} 1.得到线段队列QM,计算I,M的轮廓上下文 2.计算相似度: 3.调整相似度: 4.得到起始线段:start←DEQUEUE(Q) 5.fori=1∶ndo simi(start,Ii)←S(start,I) end 6.pre←start 7.while 队列Q非空 do 出队:q=DEQUEUE(Q) forIi∈Ido end end 8.fori=1∶kdo end (13) 实验采用的数据集是ETHZ形状数据集,参与测试的图片分别与其中模板进行匹配,得到各自不同的匹配结果,每次识别某一类物体时,其他包含另外四种类别的图像都被当作负例。利用ETHZ图库自带的模板,即每个物体类别只有唯一的一个模板,不需要设计多个不同形状的模板依次进行比较。识别过程是建立在形状匹配的基础上进行的,匹配结果如图5所示。从实验结果可以发现,即便物体的尺度发生变化,文中方法还是可以利用同样一个模板找到物体的位置并匹配物体的准确轮廓。在识别过程中没有使用诸如滑动窗口、霍夫投票等方法,这表明该形状表征具备尺度不变的性质。 文中使用ETHZ形状来验证物体识别的准确性。该图库包含5个物体类,共计255张图像,其中苹果图像40张,瓶子图像48张,长劲鹿图像87张,杯子图像48张,天鹅图像32张。图库对每一个类别提供一个手工模板原型,如图6所示,这使得图库对基于形状匹配的物体识别具有评判的标准。255张图片都作为测试图,分别与五个模型进行匹配,得到各自不同的匹配结果。 图5 ETZH图库形状匹配结果 图6 ETZH图库提供的手工模板原型 评价指标采用FPPI(false positive per image)和DR(detection rate)进行衡量,FPPI表示识别的所有结果图像中假正例出现的比例,DR表示检测结果中找出的正例占所有正例数的比率,即识别率。五个类别的DR-FPPI统计数据如图7所示,对比算法分别来自文献[11-14]。从实验结果可以看出,文中提出的模型在识别率方面占有一定的优势。 图7 ETHZ图库的DR-FPPI对比数据 物体识别是计算机视觉的一个重要研究方向,而形状匹配则是其中最为关键的步骤。文中提出的基于物体朝向的特征是一种尺度不变的形状表征方法,结合了生物视觉通路的原理,利用通路中简单细胞和复杂细胞感受到的朝向特征来构造基于物体轮廓的形状表征模型,并与自适应的上下文信息整合到一起,适用于带有复杂背景的形状匹配[15]。但是,目前基于形状匹配标准的模板都是人工设计的,在后期的工作中,要从改善表征模型入手,结合机器学习的手段,实现从海量图片中自动学习到模板原型。 参考文献: [1] 李新德,刘苗苗,徐叶帆,等.一种基于2D和3D SIFT特征级融合的一般物体识别算法[J].电子学报,2015,43(11):2277-2283. [2] 刘 曦,史忠植,石志伟,等.一种基于特征捆绑计算模型的物体识别方法[J].软件学报,2010,21(3):452-460. [3] EINEVOLL G T.Mathematical modelling in the early visual system:why and how[C]//NATO advanced institute series:modulation of neuronal signaling:implications for visual perception.Amsterdam:IOS Press,2003. [4] CRONER L J,KAPLAN E.Receptive fields of P and M ganglion cells across the primate retina[J].Vision Research,1995,35(1):7-24. [5] XU X,BONDS A B,CASAGRANDE V A.Modeling receptive-field structure of koniocellular,magnocellular,and parvocellular LGN cells in the owl monkey (aotus trivigatus)[J].Visual Neuroscience,2002,19(6):703-711. [6] THAYANANTHAN A, STENGER B, TORR P H,et al.Shape context and chamfer matching in cluttered scenes[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2003:127-133. [7] 刘亦书,杨力华,孙 倩.轮廓矩不变量及其在物体形状识别中的应用[J].中国图象图形学报,2004,9(3):308-313. [8] 刘亚楠,涂铮铮,罗 斌.基于反馈稀疏约束的非负张量分解算法[J].计算机应用,2013,33(10):2871-2873. [9] 郑 军,魏海永.基于白化变换及曲率特征的3维物体识别及姿态计算[J].清华大学学报:自然科学版,2016,56(10):1025-1030. [10] 郎 波,黄 静,危 辉.利用多层视觉网络模型进行图像局部特征表征的方法[J].计算机辅助设计与图形学学报,2015,27(4):703-712. [11] SERRE T,WOLF L,POGGIO T.Object recognition with features inspired by visual cortex[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2005:994-1000. [12] GRAUMAN K,DARRELL T.The pyramid match kernel: discriminative classification with sets of image features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,6(10):1458-1465. [13] HOLUB A D,WELLING M,PERONA P.Combining generative models and fisher kernels for object recognition[C]//Proceedings of the 10th international conference on computer vision.Washington DC,USA:IEEE Computer Society,2005:136-143. [14] ZHANG H,BERG A C,MAIRE M,et al.SVM-KNN:discriminative nearest neighbor classification for visual category recognition[C]//Proceedings of computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2006:2126-2136. [15] 郎 波,樊一娜,黄 静,等.基于混合高斯模型的物体成分拟合方法[J].电子技术应用,2016,42(6):128-131.1.2 朝向轮廓上下文
2 物体识别过程
2.1 线段匹配
2.2 形状匹配
2.3 上下文“敏感特征”形状的匹配
3 实验结果
3.1 形状匹配
3.2 性能评价
4 结束语