非监督学习图像层次组合模型的研究算法

2015-11-02杨建秀康占成

山西大同大学学报(自然科学版) 2015年3期

关键词：小波部件模板

杨建秀,康占成

(山西大同大学物理与电子科学学院，山西大同037009)

非监督学习图像层次组合模型的研究算法

杨建秀,康占成

(山西大同大学物理与电子科学学院，山西大同037009)

针对传统的监督学习图像模型对训练样本要求苛刻的问题，本文提出一种非监督学习算法，该算法不仅对训练样本要求简单，而且学习到的层次组合模型由能在位置和方向进行扰动Gabor小波组成，是一种可变形模板，因此一定程度上提高定位及分割算法在物体发生形变情况下的鲁棒性。经过多组实验结果表明，本文所提出的层次组合模型能高效地解决目标在发生形变、存在遮挡以及复杂背景下的定位分割问题。

非监督；层次组合；变形；分割

近年来，层次组合模型在图像建模领域得到广泛的关注，如文献[1-4]。许多现有学习模型的方法主要是利用给定的目标边界框进行监督[4-5]或弱监督[1-2]标记大致对齐的图像得到，这些监督学习算法对训练图像要求极为苛刻；在非监督的学习算法中，文献[6]学习的模型只是单层的变形模板，文献[7]采用大量同种类型的目标图像训练而成一组HOG特征模型，该算法对感兴趣物体的检测及分割提供较好的模型，但由于大量样本的训练导致效率降低，而文献[8]可以从单一图像中重复提取目标模式，但仅学习到简单的刚性模板，对解决目标在发生形变、存在遮挡以及复杂背景下的定位分割存在一定的困难。针对上述问题，本文提出一种非监督方法学习层次组合模型，不仅对训练样本要求简单无需标注，而且每个组合模型由在空间中可相对旋转、缩放、发生形变的各种部件模板组成，同时每个部件模板由可在位置和方向进行局部扰动的Gabor小波组成。因此该模型对目标在发生形变或存在阻挡等情况具有一定鲁棒性和高效性，为解决复杂环境下形变目标定位及分割问题提供了一条新思路，同时对领域自适应和图像协同分割方面具有广泛的应用前景。

1 层次组合模型

图像I可用层次组合模型表示，如图1所示。每一层的组合模板都可分解为一组可形变的局部(部件)模板，而局部模板又进一步分解成一组可移动的Gabor小波。模型中不同层的代表性单元由分层字典Δ(j)构成。

Δ(5)是层次组合模板的字典，该层模板能够捕捉样本图像中频繁出现的模式。

Δ(4)包含了Δ(5)图像中平移、旋转和缩放的层次组合模板。对于图像I，将其编码为K个活动模板，这些模板都可以进行平移、旋转及缩放尺寸，从而选择合适的模板构成Δ(5)图像。设是tk类型中第k个活动模板，为几何属性，其中分别是对应的位置、尺寸和方向。这样集合形成一个等价类H(t)。Δ(4)是所有活动模板的并集：

Δ(3)表示为Δ(4)中可活动层次组合模板的部件模板，设P(t,v)为中第v个部件模板，其中为是部件模板的个数，是第v个部件模板的几何属性，分别为对应的位置，大小和方向。这样对每个层次组合模板可通过分配9个非重叠部件模板设置在3×3的网格中从而确定模型结构。Δ(3)是所有部件模板集合：

Δ(2)包括所有可变形的部件模板。考虑到不同图像中物体的形变，允许在Δ(3)中每个P(t,v)都可以平移和旋转一个小的有界范围。设在有限的范围内变化，这样对于Δ(3)中每个P(t,v)都有一组可变形的部件模板。 ∂P(t,v)表示一定变化范围内P(t,v)的等价类，Δ(2)是所有可变形部件模板的集合：

Δ(1)包含Δ(2)中可变形部件模板的Gabor小波可变形部件模板可分解为一组Gabor小波：，其中B是文献[9]的活动基模型中不同位置和方向的Gabor小波基元。因此，Δ(1)是一组由Δ(2)分解的Gabor小波元素：

Δ(0)包含Δ(1)中可变形Gabor小波。对于每一个小波，并且允许在有限范围内平移和旋转，得到一个偏移设置，其中。因此 Δ(0)是所有可变形Gabor小波的集合：

其中每个Gabor小波都可以平移和旋转。

图1 层次组合模型

2 非监督学习算法

2.1 图像编码

图像编码过程中，假定模板字典和相应参数已知固定。首先，利用下面自底向上的模板匹配子过程计算一系列模板匹配分数图SUM1，MAX1，SUM2，MAX2，SUM3：UP-1：计算图像I与Gabor小波字典的匹配分数

UP-2：求局部最大值MAX1 maps：

UP-3：计算部件模板P(t,v)的匹配分数SUM2 maps，对于t=1,…,T,v=1,…,V：

其次，设定图像I中第k个活动形状模板为H(tk)，H(tk)的几何属性和部件模板P(tk,v)可利用自上而下的模板定位子过程确定：

Down-1：确定图像I中层次组合模板H(tk)的位置：

Down-2：确定图像I中部件模板P(tk,v)的位置：，这样，模板匹配追踪算法可以用顺序的选择层次组合模板编码图像I来实现。在最初的matching pursuit算法中，该算法允许在编码图像I的K层组合模板之间有一些有限的重叠，如果没有重叠，图像I的一些显著模式会通过模板间间隙落下；如果有太多的重叠，学习的有些部件模板是多余的，而真正需要的是许多不同的视觉模式。因此针对此弊端，本文提出共享匹配追踪算法。

2.2 重复学习

Step 1：对于所有l及u=1,…,U，初始化样本的滤波响应：，并设置i←0 。

Step 2：设，利用选择下一个基函数，其中maxδl是一定扰动范围内的局部最大共享值。

Step 3：对于u=1,…,U，给定lt,v,i，通过检索Step 2的局部最大共享值推算出扰动的范围：，令。如果相关系数则令，从而滤掉重复值(默认值：ε=0.1认为Gabor小波近似正交)。

Step 4：计算λt,v,i通过最大似然方程：，同时通过能够获得相应的Zt,v,i，其中h()是关于局部能量单调递增的sigmoid函数。

Step 5：如果则停止，否则返回Step 2。

3 实验结果

3.1 图像表示

图2给出了本文方法在图像表示中的实验结果。(a)图为迭代10次学习的层次组合模型，(b)图为具有重复模式的单一图像学习的层次组合模型，(c)图为同一种类图像学习的层次组合模型，(d)图为不同类别图像学习的层次组合模型。

图2 非监督算法学习层次组合模型的实验结果

3.2 协同分割

本文算法对协同分割无任何额外的监督，学习的层次组合模型对协同分割提供重要的自上而下的信息。图3所示为两组采用层次组合模型实现的图像编码定位和协同分割的实验结果，其中左列图表示检测图像，中间列图表示图像编码定位的结果，右列图表示目标分割的结果。针对同一类物体的图像分割实验数据1表明，本文算法大大提高了图像分割的平均精度，和文献[10][11]相比精度提高了1.9%和2.1%。本文实验是在Windows 7系统Matlab R2010a，Visual 2008 C++compiler环境下实现的。

图3 图像编码和分割的实验结果

表1 实验统计性能分析

4 结论

本文利用非监督算法对未标注的样本学习得到对应的层次组合模型，针对传统的训练样本算法，该算法具有高效性；同时得到的层次组合模型可以在其位置和方向上进行局部扰动，提高目标定位分割的准确度。实验结果表明，本文算法该方法不受光照、视角、类间变化的影响，适用于对复杂场景下结构相对复杂目标自动检测分割，准确率高、鲁棒性好、效率高，具有较强的实际应用价值,为中高级计算机视觉问题提供了良好预处理手段。

[1]Fidler S,Leonardis A.Towards scalable representations of object categories:Learning a hierarchy of parts[C].Computer Vision and Pattern Recognition,2007.

[2]Si Z Z,Zhu S C.Learning and-or templates for object modeling and recognition[J].IEEE Transactions Pattern Analysis and Ma⁃chine Intelligence,2013,35(9):2189-2205.

[3]Todorovic S,Ahuja N.Unsupervised category modeling,recognition,and segmentation in images[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2008,30(12):2158-2174.

[4]Zhu L,Chen Y,Yuille A,et al.Latent hierarchical structural learning for object detection[C].Computer Vision and Pattern Recogni⁃tion,2010.

[5]Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.

[6]Hong Y,Si Z Z,Hu W,et al.Unsupervised learning of compositional sparse code for natural image representation[J].Quarterly of Ap⁃plied Mathematics,2013,23：32-37.

[7]Singh S,Gupta A,Efros A A.Unsupervised discovery of mid-level discriminative patches[C].European Conference on Computer Vi⁃sion,2012.

[8]Liu J,Liu Y.Grasp recurring patterns from a single view[C].Computer Vision and Pattern Recognition,2013.

[9]Wu Y N,Si Z Z,Guo H F,et al.Learning active basis model for object detection and recognition[J].International Journal on Com⁃puter Vision,2010,90(2):198-235．

[10]Dai J,Wu Y N,Zhou J,et al.Cosegmentation and cosketch by unsupervised learning[C].International Conference on Computer Vision,2013.

[11]Kuettel D,Guillaumin M,Ferrari V.Segmentation propagation in imagenet[C].European Conference on Computer Vision,2012.

〔责任编辑高彩云〕

Unsupervised Learning of Hierarchical Compositional Models in Image

YANG Jian-xiu,KANG Zhan-cheng
(School of Physics and Electronics Science,Shanxi Datong University,Datong Shanxi,037009)

Because the traditional supervised learning algorithm is rigid to training images,this paper proposed an unsupervised method for learning hierarchical compositional models for representing natural images.The method is very simple to training images,and each model is in turn a composition of Gabor wavelets that are allowed to shift their locations and orientations,so it is robust when target occurred a little deformation or the presence of occlusion.The experimental results show that hierarchical compositional models can solve the problem of localization and segmentation when the target is partly changed,occlusive or in complex background.

unsupervised;hierarchical compositional;deformation;segmentation

TP391.41

1674-0874(2015)03-0028-04

2015-02-25

杨建秀（1985-），女，山西朔州人，硕士，助教，研究方向：从事图像处理、统计学习模式研究。