基于混合高斯模型的物体成分拟合方法*
2016-03-18樊一娜
郎 波,樊一娜,黄 静,王 鹏
(北京师范大学珠海分校 信息技术学院,广东 珠海 519087)
基于混合高斯模型的物体成分拟合方法*
郎 波,樊一娜,黄 静,王 鹏
(北京师范大学珠海分校 信息技术学院,广东 珠海 519087)
为了寻求代价更小、效率更高、适应性更强的图像原型表征方法,借鉴成分识别理论的观点,设计出一种更符合人类认知原理、更具有可理解性的物体拟合算法。利用二维高斯混合函数,用高斯成分来拟合物体的边缘图像,使得物体的表征由单一的像素表示转变为利用成分进行表征的方式。为了使得拟合结果更具有健壮性,在算法中还引入了分裂-归约机制来对拟合结果进行修正。实验结果表明,这种拟合手段能够很好地描述物体的特征成分,为图像进行后期的高级语义处理奠定了基础。
原型表征;物体识别;二维高斯;成分理论;拟合
0 引言
目前计算机视觉研究领域对物体的表征主要集中于基于轮廓的形状表征,并提出了各种描述子[1,2],例如全局描述子、局部描述子、多尺度描述子和多方面描述子。全局描述子缺少细节描述,区分力较差,而局部描述子虽然能对形状进行细致刻画,但是对噪声非常敏感[3]。为了解决这一问题,出现了多尺度描述子,例如多尺度分形维数算法[4]和轮廓点控制尺度的算法[5]。另外还有形状上下文为代表的多方面描述子[6]以及基于特征统计的同心离散圆簇描述法[7]。成分识别理论(Recognition-By-Components theory)是Biederman在20世纪80年代提出的一种模式识别的理论[8]。Biederman抽象出的几何基元也许并不能全面涵盖人类所能识别的所有场景,但这并不妨害成分识别理论所提出的模型的表达能力。在识别时,这些几何基元是关键的特征,通过边缘检测,分离不依赖观察角度的特征、几何基元及其关系的激活、物体模式的激活和物体确认几个步骤,识别出主要的几何基元,相应的模式也就被识别出来。事实上,这种方法把千变万化的物体视为高度抽象的、简化的几何造型,通过对其各个部件的知识的组合获得对物体整体的知识。
1 拟合边缘信息的高斯成分模型
1.1 二维混合高斯模型
高斯成分是一种同质化参数形成的向量化表示,它可以给不同的成分以统一形式的表征,以方便计算机的存储和处理。它的二维截面是一个椭圆形,如图1所示,可以用来拟合物体被抽象之后的各种边缘“段”。
图1 二维高斯成分
针对原型中的每个基本成分,二维图像中的每个坐标可以建立一个概率函数:
其中,指数部分 e(x,y)表示为:
式(1)表示的是在 X-Y平面上经过了平移和旋转变换后得到的二维高斯模型,用来表示物体中一个单一的成分。其中(x0,y0)分别是高斯成分中心位置坐标,θ表示高斯成分旋转的角度,σx和 σy的取值与物体成分本身的形状相关,其取值大小取决于成分在二维横截面上呈现的长度或者宽度的大小。除了形状上形成狭长的椭圆,采用二维高斯成分, 可以让这些边缘“段”有一个统一的参数化表征,这表示为由 5个维度组成的描述向量(x0,y0,θ,σx,σy)。在此基础上,二维高斯混合模型则是一系列二维高斯模型在总权重值为1的情况下加权求和的产物,也就意味着一系列成分的线性叠加,从而构成多成分组合结构,二维混合高斯模型表示为:
约束条件为:
其中,gk(x,y)是用于描述第k个成分的二维高斯函数,wk是该成分对应的权重。如上所述,在混合模型中,原型中的成分最终用 6个参数组成的向量(x0,y0,θ,σx,σy,w)来进行表示,由 n个成分组成的混合高斯模型就能用一个 n×6维的矩阵来表示。
1.2 成分训练——从样本图像到混合二维高斯模型学习方法
首先对图像中的物体进行边缘检测,成分的拟合将在物体的轮廓图像上进行。由于图像中不同的物体所对应的成分数量也不同,所以可以采用期望最大化(EM)算法对成分参数进行估计。其通用过程可以表达为:
其中,x表示所有参与计算的实例中的观察值,Z是所有的隐变量,θ表示概率模型的所有参数,L(x,Z=z|θ)表示似然概率的对数值。EM算法需要借助随机化手段对参数值进行初始化,然而初始化的值一般并非完全随机,在本文介绍的拟合高斯成分的过程中,成分中心坐标不用被随机化成平面上的任何一点,而是选择一个样本点作为初始化类中心,这样做的好处是能够让收敛更快的完成,以及更好地避免退化。
拟合时,用二值图像表示的物体轮廓可以视为一系列采样点的集合。假设:(xi,yi)表示第i个采样点;是第j个成分的参数组,(t表示迭代运算的次数);表示第i个采样点上根据参数组计算出的后验概率,记为:。利用期望—最大化算法的通用描述可推导如下:
其中,xi=xi-x0,yi=yi-y0。每次迭代后参数的最大似然估计为:
在式(6)中,由于 ln(2π)是常数,不影响后面的求导过程,为了简化公式表示,在记对数函数时去除该常数项,则:
分别对式(8)中的 5个参数求偏导数,并令偏导数为0,得到 5个方程组成的方程组:
最终,导出的从第i次到第i+1次的迭代式如下:
一个比边缘信息更好的选择是利用基于生理学模型模拟的神经节细胞非经典感受野的输出图像,这种小尺寸感受野的图像表征方法能够取得更清晰的边界,而且会抑制一些无关的纹理信息[9-11]。测试结果如图2所示。
图2 在不同终止参数阈值下的小尺寸感受野混合高斯函数学习结果
2 拟合实验结果
图3是从网络上随机获得的用于进行样本训练的实验图像,图4是经过高斯成分拟合后选定的标定点,图5展示了利用高斯成分拟合物体边缘的实验效果,将像素点的边缘检测信息转化为可度量的成分拟合,为有效进行图像表征奠定了重要的度量基础。
图3 用于样本训练的实验图像
图4 高斯成分拟合图成分标定点
图5 样本拟合结果
可以观察到拟合成分的不同形态与表示它的参数向量,尤其是细长条状的成分与较圆的成分之间的区别。参数向量中数字的顺序遵循前面算法描述中所给出的形式,即(成分中心 x坐标,成分中心 y坐标,倾斜角(弧度制),短轴 σ值,长轴 σ值,权重)。
A1=(20.3,51.9,-0.97,3.2,80.9,0.043)
A2=(46.2,35.1,-0.97,3.1,293.2,0.087)
A3=(74.2,45.0,-0.22,4.0,234.8,0.098)
B1=(73.7,54.6,0.64,3.3,157.8,0.074)
B2=(39.3,26.2,0.34,4.1,76.8,0.057)
B3=(60.2,75.2,1.42,3.8,203.5,0.092)
C1=(38.5,14.9,1.03,7.4,11.3,0.026)
C2=(44.7,50.9,0.15,4.1,275.8,0.088)
C3=(58.3,37.2,0.51,3.4,225.7,0.090)
D1=(38.5,14.9,1.03,7.4,11.3,0.026)
D2=(14.4,25.2,-0.21,4.5,8.4,0.021)
D3=(18.8,37.5,0.21,9.1,48.3,0.066)
此外,在实验中还发现,基于目前已经很成熟的边缘检测算法在进行成分拟合时也会根据边缘检测的成熟度来确定有效的成分数,如图6所示。
图6 各种拟合效果比较
3 结束语
目前人工智能和计算机视觉技术在模拟人类视觉进行物体识别时,受制约的因素很大,识别效果也很难与人类视觉系统的识别效果相比,这需要从生理学和认知心理学对人类视觉机制的描述汇总获取灵感,结合成分识别理论和视觉拓扑理论等学说的观点,设计出更符合人类认知原理的、更具有可理解性的原型表征方式。良好的原型表征方式对于图像的后期处理具有重要的意义,对图像的高层语义处理奠定了基础,从而使得计算机“识别”图像变为可能。本文的主要工作就是从二维混合高斯函数出发,结合成分识别理论,用高斯成分来拟合物体的边缘,从而使得物体的表征由单一的像素表示变为可理解的成分表示。从目前的实验效果来看,高斯成分的拟合符合图像的绝大部分特征,是一种理想的图像表征手段。在后续的工作中,要对原型的设计继续改进,以期获得更强大的表达能力,能够处理更丰富的训练样本,让识别变得更加准确和更有效率。
[1]周瑜,刘俊涛,白翔.形状匹配方法研究与展望[J].自动化学报,2012,38(6):889-910.
[2]郭树旭,赵静,李雪妍.基于中心-轮廓距离特征统计的形状表示方法[J].电子学报,2015,37(6):1365-1371.
[3]GLAUCO V P,MARCOS A B,CELIA A Z B.Image featuredescriptor based on shape salience points[J].Neurocomputing,2013,120(23):156-163.
[4]TORRES R S,FALCA~O A X,COSTA L F.A graphbasedapproach for multiscale shape analysis[J].Pattern Recognition,2004,37(6):1163-1174.
[5]ALAJLAN N,KAMEL M S,FREEMAN G H.Geometrybased image retrieval in binary image databases[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2008,30(6):1003-1013.
[6]BELONGIE S,MALIK J,PUZICHA J.Shape matching and object recognition using shape contexts[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2002,24(4):509-522.
[7]孙景乐,唐林波,赵保军,等.改进的同心离散圆簇形状描述方法[J].电子学报,2013,35(8):1901-1906.
[8]BIEDERMAN I.Recognition-by-components:a theory of human image understanding[J].Psychological review,1987,94(2):115-117.
[9]Wei Hui,Lang Bo,Zuo Qingsong.Coutour detection model with multi-scale integration based on non-classical receptive field[J].Neurocomputing,2013,94(103):247-262.
[10]Wei Hui,Lang Bo,Zuo Qingsong.An image representation of infrastructure based on non-classical receptive field[J]. Soft Computing,2014,18(1):109-123.
[11]郎波,黄静,危辉.利用多层视觉网络模型进行图像局部特征表征的方法[J].计算机辅助设计与图形学学报,2015,27(4):703-712.
Object component fitting computation based on 2-dimensional mixed Gaussian model
Lang Bo,Fan Yina,Huang Jing,Wang Peng
(School of Information Technology,Beijing Normal university Zhuhai,Zhuhai 519087,China)
For representing image prototype,minor price,more efficient and more flexible,this paper designs an object fitting algorithm which conforms human′s recognition mechanism and has much intelligibility based on recognition-by-component theory.The designed algorithm uses mixture of 2-dimensional Gaussian component to fit the object′s edge images,and makes object representation from single pixel converted into component.For seek more robust fitting algorithm,a Split-Convergence mechanism is introduced to amend the fitting results.The experimental results demonstrated that this fitting algorithm can well describe the object feature component,and laying a good foundation for image high-level semantic processing.
prototype representation;object recognition;2-dimensional Gaussian;component theory;fitting
TP3
:ADOI:10.16157/j.issn.0258-7998.2016.06.035
郎波,樊一娜,黄静,等.基于混合高斯模型的物体成分拟合方法[J].电子技术应用,2016,42(6):128-131.
英文引用格式:Lang Bo,Fan Yina,Huang Jing,et al.Object component fitting computation based on 2-dimensional mixed Gaussian model[J].Application of Electronic Technique,2016,42(6):128-131.
2016-01-17)
郎波(1974-),通信作者,男,博士研究生,副教授,主要研究方向:计算机视觉,E-mail:langbo666@126.com。
国家自然科学基金(61272364)
樊一娜(1979-),女,硕士研究生,讲师,主要研究方向:自动化控制。
黄静(1967-),女,博士研究生,教授,主要研究方向:计算机图形学。