基于空间主题模型和结构特征的对象识别方法研究
2018-10-31潘智勇刘国军郭茂祖
潘智勇, 刘 扬, 刘国军, 郭茂祖,2,3
(1 哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001; 2 北京建筑大学 电气与信息工程学院, 北京 100044;3 建筑大数据智能处理方法研究北京市重点实验室(北京建筑大学), 北京 100044; 4 北华大学 计算机科学技术学院, 吉林 吉林 132013)
引言
图像分类和对象识别一直是计算机视觉研究的重要方向,其准确率直接受到图像中对象特征表达的影响。现阶段图像的特征表达主要基于图像局部底层特征,如尺度不变特征变换(Scale-invariant feature transform,SIFT)[1]和方向梯度直方图(Histogram of Oriented Gradient, HOG)[2]等。但局部特征与上层语义之间存在严重的“语义鸿沟”,直接影响局部底层特征对图像中对象表达的准确性。近年来,中层特征[3-6]的提出,有效地解决了“语义鸿沟”的问题。对于图像理解问题,主题模型[7-8]的主题以中层特征的形式表达图像中不同尺度的对象组成部件[9]。现阶段主流的主题模型隐狄利克雷分配(latent Dirichlet allocation,LDA)在图像分类和场景分类等图像理解问题上取得了很好的应用[10-12]。但LDA模型忽略了视觉词汇之间的空间位置关系,一定程度上影响了模型在图像分类的准确率。基于LDA模型,马尔可夫主题随机场(Markov topic random fields,MTRF)[9]在主题层利用马尔可夫随机场融合相邻主题间的空间关系,提高了视觉词汇的主题分配的准确性和图像分类的准确率,尤其在图像区域内主题分配的准确性方面,表现得更为明显。同时,主题表达的对象组成部件之间也呈现出较好的结构关系。高效滑动子窗搜索(Efficient Subwindow Search,ESS)[13]算法是一种快速有效的区域搜索方法,可以发现区域内图像特征的结构特征,从而准确地识别和表达对象。因此,本文以MTRF模型产生的主题作为图像特征,以ESS算法搜索区域,并学习区域内主题特征构成的对象结构,检测和识别对象位置,提高对象识别的准确率。
1 融合空间信息的主题模型
隐狄利克雷分配模型基于词汇独立性和主题独立性假设的条件,忽略了视觉词汇的空间关系。但视觉词汇是局部特征,没有空间位置的关系,视觉词汇无法形成有意义的对象表达。图像的视觉词汇是主题以一定概率聚类产生的结果,主题表现为对象的组成部件,因此,相邻视觉词汇由同一主题产生的概率较高。依据这一特点,马尔可夫主题随机场(Markov topic random fields,MTRF)[9]模型利用Potts模型,在主题层建立起相邻主题间的关系,从而表现出相邻视觉词汇的位置关系。因此,主题的产生过程中,不仅受到多项式分布的影响,还融合了相邻主题的关系。
MTRF的概率图模型如图1所示。对于由M幅图像组成的图像集,每幅图像分别包含N个视觉词汇的图像集,其视觉词汇由K个主题产生,Z={z1,z2,…,zk}。与LDA模型相似,参数α和β为模型的狄利克雷超参,避免过拟合。φ表示主题中视觉词汇的概率分布,θ表示图像中主题的概率分布。主题zi表示产生视觉词汇wi的主题。zi与zj之间的边代表相邻主题之间的关系。
图1 MTRF概率图模型
MTRF在主题采样分配过程中,有效地融合了相邻主题的影响,因此,其主题采样公式为:
p(Z|θ,α,λ)∝λf(zi,zj)+(1-λ)p(Z|θ)p(θ|α)
(1)
其中,f(zi,zj)表达相邻主题之间的关系,数学表述公式如下:
f(zi,zj)=exp(∑iσI(zi,zj))
(2)
指示函数I体现主题间关系。I=1,相邻主题相同;I=0,相邻主题不同。推导可得数学公式如下:
(3)
并且,σ为马尔可夫随机场参数。参数λ表明产生主题的形式,具体表现为:当λ=1时,p(Z|θ,α,λ)∝f(zi,zj),相邻主题间存在关系,当前主题的产生受相邻主题的影响,由马尔可夫随机场产生;当λ=0时,p(Z|θ,α,λ)∝p(Z|θ)p(θ|α),主题间独立,当前主题的产生主要受多项式分布影响。由此,一幅图像的产生主要过程为:
(1)主题分布θ服从参数为α的狄利克雷分布,θ~Dir(α)。
(2)视觉词汇在每个主题中的分布φ,φ~Dir(β)。
(3)具有N个视觉词汇的图像,其视觉词汇wn的产生步骤可分述如下。
① 检测主题的产生方式,以概率p(Z|θ,α,λ)抽取主题zn。
② 每一个视觉词汇wn以概率p(wn|φzn)产生。
MTRF需要利用变分推理或采样算法对后验概率p(Z|W)求得近似估计。吉布斯采样算法是一种简单有效的采样算法,其采样过程是保持当前待采样主题不变时,基于其它主题对当前主题分配进行采样。研究中将会用到的公式如下:
(4)
其中,
p(Z,W|α,β,σ,λ)=p(Z|α,σ,λ)p(W|Z,β)∝(λf(zi,zj)+(1-λ)p(Z|θ)p(θ|α))×p(W|Z,β)
(5)
p(Z,W|α,β,σ,λ)=p(Z|α,σ,λ)p(W|Z,β)∝(λf(z,zj)+(1-λ)p(Z|θ)p(θ|α))×p(W|Z,β)
(6)
结合公式(5)和公式(6),可得:
p(zi|Z,W)∝(λexp (∑E(i, j)σI(zi,zj))+
(7)
其中,Z为图像中除当前主题外,其它所有主题的分配;为图像m中除当前视觉词汇wi之外,由主题k产生的视觉词汇数;为图像m中视觉词汇的总数;为图像集中,除当前词汇wi之外由主题k产生的视觉词汇wi的总数;为图像中由主题k产生的视觉词汇总数;E(i,j)为主题zi与其相邻主题zj之间的关系。
经过一定次数的迭代,得到后验概率p(Z|W)的稳态分布,并且每个视觉词汇分配一个主题。以视觉词汇上分配的主题表达图像,可以形成有效的中层特征,表达对象的组成部件及部件间的关系。
2 高效滑动窗搜索算法
为实现对象检测识别,人们常利用滑动窗的方法,以一定尺寸的滑动窗口在图像中提取区域特征,利用分类器算法对获取的窗口进行评估,检测出对象位于不同位置的概率。但考虑到图像中对象一般位于少数区域,因此,基于滑动窗口的方法会由于候选区域过多而造成模型效率低,系统资源要求高等问题。为应对这些问题,高效滑动窗搜索(efficient subwindow search,ESS)[13]算法在不依赖对象的形状的情况下,保证寻找到全局最大的区域。同时,ESS算法并不需要滑动搜索所有区域,因此算法运算速度很快。
ESS以高、低、左、右4个坐标参数化来表示区域边界,利用分支限界的目标搜索方式,将参数空间分裂成不相交的子集,同时维持所有子集的最优边界。
其中,条件(1)确保f的上边界,条件(2)确保获得最优值。
分析可知,ESS的运算速度和搜索区域的有效性,使其在对象识别任务中得到了广泛的应用。
3 实验与分析
本部分实验主要探究MTRF与ESS等结构化算法结合实现对象识别的可行性和对于LDA和BOW算法的优势,但并未讨论如何学习最优参数,因此重点对比了相同参数条件下,MTRF与LDA和词袋(Bag of Words, BOW)模型对象识别的准确率,实验主要基于2个数据集:Caltech101[14]和VOC2007[15]数据集。实验过程中,研究提取SIFT特征并学习获得含有1 000视觉词汇的词典表达图像,分别以MTRF和LDA的主题和BOW算法的词频作为图像特征表达ESS算法提取的图像区域,对比识别准确率。交并比(intersection over union,IOU)是评价对象检测准确性常用的标准,一般情况下,IOU大于50%,可判定为模型正确识别了对象。
3.1 在Caltech101数据集的对象识别对比实验与分析
Caltech101数据集由102类对象组成,其中101类用于图像分类和对象识别的对象类,此外则为背景类,总共9 144幅图像。图像中对象主要位于图像的中心位置,并且同类对象在图像中尺寸和姿态等特征相似。
实验过程中,将分别从各类对象中随机抽取30幅图像组成训练数据集,其余图像组成测试数据集。在101类对象识别过程中,MTRF、LDA的主题数设置为50时,MTRF在78类对象的识别准确率高于LDA,81类对象的识别准确率高于BOW。而MTRF的识别准确率高于LDA和BOW的10类对象的对比结果则分别如图2、图3所示。从图2、图3中可以看出,MTRF高于LDA和BOW算法的类别中,优势明显。以所有类别的平均识别准确率(average accuracy)为评价指标。研究指出,MTRF和LDA的平均识别准确率即为84.15%和 81.98%, BOW的平均识别准确率为81.51%。由于MTRF算法在主题采样分配过程中融合了相邻主题的关系,使主题分配、尤其局部区域内的主题分配更趋准确,因此,其识别准确率要明显高于其它2种算法。
图2 MTRF高于LDA的10类对象的对比结果
图3 MTRF高于BOW的10类对象的对比结果
3.2 在VOC2007数据集的对象识别对比实验与分析
VOC2007数据集主要由20类对象,共9 963幅图像组成,其中,5 011幅图像组成训练验证集,用于训练模型参数;4 952幅图像组成测试集,用于测试和评价模型。与Caltech101数据集不同,VOC2007的图像包含多类对象,背景比较复杂,并且对象在图像中的尺度、位置和姿态都不相同。
实验过程中,将以训练验证集数据训练ESS检测器,以测试集数据对比模型的识别准确率,并以所有类别对象的平均分类精度均值(mean Average Precision, mAP)作为模型的评价指标。研究得出MTRF、LDA和BOW各类对象识别的实验对比结果可见表1。其中,以平均分类精度(Average Precision,AP)作为各类对象识别准确率的指标。由表1可以看出,在各类对象的识别过程中,MTRF由于融合了相邻主题关系,主题分配更加准确,图像表达也更为有效,因此,对象识别的准确率更高。在数据集20类对象中,MTRF在11类对象的识别准确率要高于其它算法,而其它类别也与最优的结果比较相近。图4列举出部分VOC2007数据集中,MTRF算法的对象识别结果。由图4可以看出,MTRF与ESS算法的结合,识别范围内的背景很少,对象识别更准确有效。
表1 VOC2007数据集上部分对象识别准确率对比
图4 VOC2007数据集上部分对象识别结果
4 结束语
本文提出了一种基于马尔可夫主题随机场和高效搜索子窗口算法的对象识别方法。该方法利用马尔可夫主题随机场主题分配的准确性和高效搜索子窗口算法的特点,研究搜索并识别对象。马尔可夫主题随机场在主题采样分配过程中融合了相邻视觉词汇的空间关系,在局部区域内主题分配和图像表达趋于精准,主题表现为更具意义的对象组成部件,在相当程度上尤其利于表达对象的结构特征。高效滑动窗搜索算法通过学习区域内主题表达的对象结构特征,在对象检测和识别的实现上高度突显其优良性能。因此,对于对象识别问题,本文提出的方法,有效地提高了主题模型在对象识别问题上的准确率。