二维最大熵模型在图像分类算法中的应用研究

2015-03-22王彦林金汉均梅洪洋

华中师范大学学报（自然科学版） 2015年4期

关键词：样本容量查准率直方图

王彦林, 金汉均, 梅洪洋

(1.武汉商学院信息工程系, 武汉 430056; 2.华中师范大学计算机学院, 武汉 430079)

二维最大熵模型在图像分类算法中的应用研究

王彦林1, 金汉均2*, 梅洪洋2

(1.武汉商学院信息工程系, 武汉 430056; 2.华中师范大学计算机学院, 武汉 430079)

针对图像分类中使用视觉词袋直方图进行分类时忽略图像颜色信息缺点,该文提出在一类图像的HSI彩色空间上,通过H分量和S分量构建二维最大熵模型,并将得到的二维最大熵分布作为该类样本的底层参考特征向量,从而将待分类的图像运用欧式准则与底层特征向量进行匹配,最终实现图像分类算法.实验表明,该文所提分类算法比基于视觉词袋直方图分类算法具有更高的查准率.

视觉词袋; 二维最大熵; 图像分类; 样本直方图

伴随大数据时代的到来,数字图像数量呈指数级增长,如何让计算机自动理解图像内容,尽可能准确理解图像所表达的含义,即图像分类技术,一直是计算机视觉、机器学习、模式识别等领域的研究热点之一.一套完整的图像分类系统包含如下两个模块:底层特征的表达和分类器的训练.其中,底层特征的表达又可细分为底层特征的选择和提取、特征空间的聚类和相似性度量这几个步骤.

视觉词袋((bag of visual words),BOVW)直方图[1]是常用的底层特征表达模型之一,它首先在图像上通过仿射不变检测子[2]、高斯差分检测子[3]等采样方式获取局部特征,每个特征对应一个视觉词汇;然后构建码本,采用k-means[4]、高斯混合[5]等方法对特征进行聚类,形成相应的词频,即BOVM直方图.基于视觉词袋直方图分类算法建立在BOVM直方图基础上,训练图像分类器后完成图像分类.常用的图像分类器有基于联合概率分布的贝叶斯分类器[6]、基于后验概率分布的SVM分类器[7]等.采用BOVW直方图表达视觉特征的方法进行图像分类时需指定码本长度,该长度的选择直接影响分类性能,在实践中需要多次尝试才能找到合适的码本长度[8].

针对BOVW直方图作为底层特征表达时只表征了视觉词汇在图像中出现的频次,忽略了视觉单词在图像中的颜色信息的缺点,本文提出了一种二维最大熵分类器,它利用图像HSI 彩色空间中的H分量和S分量在整个样本空间上构建二维最大熵模型,将最优的二维最大熵分布作为一类样本的底层特征向量,选择合适的样本容量和图像的量化级数,进而完成图像分类工作.

1 二维最大熵训练模型的构建

HSI彩色空间将一幅彩色图像分割成色度、饱和度、亮度3个颜色分量,由于人对颜色信息相对亮度信息更加敏感,HSI模式对同一对象在不同光照条件下具有很好的识别性,更加有利于图像分类系统准确率的提高,故选择HSI彩色空间中的H分量和S分量作为二维最大熵训练模型基础.

将上述纹理描绘子应用于样本图像中,得到样本图像的纹理描绘子:

最大熵模型以其训练速度快、预测性能高等优点,广泛应用于自然语言处理、数字图像分割等应用领域[9].设连续型随机变量x和y的联合密度函数为f(x,y),且Rm(x,y)是关于x、y的函数,取约束条件E[Rm(x,y)]=∬Rm(x,y)f(x,y)dxdy=Cm,则连续型的二维最大熵模型表示为[9-10]:

argmaxH(x,y)=-∬f(x,y)ln[f(x,y)]dxdy,

s.t.E[Rm(x,y)]=∬Rm(x,y)f(x,y)dxdy=Cm,

∬f(x,y)dxdy=1.

(1)

(2)

通过拉格朗日乘子法,可解得一类样本空间上最优密度函数为:

(3)

2 二维最大熵模型的图像分类算法

对图像进行分类有多种分类算法,如基于贝叶斯的分类算法[3-4]、基于核码书的分类算法[5-6,8]、基于Fisher核分类算法[11]等,这些分类算法总体上分为两步:首先,用训练数据集进行训练,调整统计决策过程,构建分类模型;其次,用分类模型对测试数据集进行分类,即将待分类图像转换成分类模型输入数据,使用构建好的分类准则判别类别归属.

设由上节中二维最大熵模型训练出的类别j的底层参考特征向量为:

(4)

待分类图像的底层参考特征向量为:

P(H,S)=(p1(h1,s1),p2(h2,s2),…,pL(hL,sL)),

(5)

其中,L为量化等级, 则待分类图像与各类图像间差异,采用欧式准则表示为:

(6)

选择dj(p,p*)最小且在阀值范围内的对应类别作为待分类图像所属的类别.

结合公式(2)和(6),基于二维最大熵模型的图像分类算法可使用如下流程图表示:

图1 基于二维最大熵模型的图像分类算法流程图Fig.1 The flowchart of image classification algorithm based on 2-D maximum entropy

在上述分类算法中,分类的准确率主要受两个参数的影响:训练样本容量n和图像量化等级L.下面通过两组实验数据获得合适的样本容量和图像量化等级.训练样本取自Caltech 256数据集,训练算法在Matlab R2010b中实现.图2显示了蝴蝶类的样本训练界面,图中样本直方图即公式(4)所得的蝴蝶类底层特征向量.

图2 蝴蝶类样本训练Fig.2 Sample training of the butterfly class

图像量化等级n的选取:首先在Caltech 256数据集上选择10类样本容量为24的训练图像进行二维最大熵模型训练,因为量化级不高于图像的灰度级数256,实验中量化级按2n(n=1,2,…,8)来进行实验分析;其次在选择100个对应类测试数据进行分类,获得不同量化级下训练的模型对图像分类算法查准率的影响,实验结果如图3所示.由图可知,当样本容量不变时,查准率随着量化级的增加而提高,特别是,当量化级小于128时,查准率提高速度明显,当量化级大于等于128时,查准率提高速度变缓.

图3 不同量化级对查准率的影响Fig.3 Different quantization levels impact on recall ratio

图像量化等级L的选择:当量化等级为128时,首先,在CalTech 256数据集上选择10类各30个的样本,按照不同的样本容量完成对应类别的模型训练;其次,选择100个对应类测试数据进行分类,获得不同样本容量下训练模型在图像分类算法中的查准率,如图4所示.由实验结果可以看出,当量化等级不变,训练样本容量小于20时,查准率随着训练样本的增加而提高;当训练样本容量大于20时,查准率提高不明显,甚至出现些微下降.

图4 不同训练样本容量对查准率的影响Fig.4 Different sample training sizes impact on recall ratio

3 实验分析

在CalTech 256数据集上选择2 000个10类测试数据,将本文提出的基于二维最大熵的图像分类算法与基于视觉词袋直方图分类算法进行对比,结果如表1.这里,基于二维最大熵图像分类算法中,n与L的值分别为20和128,采用欧式准则进行分类判别;基于视觉词袋直方图分类算法中首先利用SIFT提取局部特征,采用K-means算法对局部特征集进行聚类,形成视觉词袋直方图,然后利用SVM进行图像分类[12].

表1 基于二维最大熵与基于视觉词袋直方图分类算法的查准率对比Tab.1 Recall ratio comparison of image classification between 2-D maximum entropy algorithm and BOVM algorithm %

通过实验数据可以看出,本文提出的基于二维最大熵的图像分类器对纹理复杂、易受背景色干扰的图像,如蝴蝶、猫、椅子具有更好的分类效果,查准率可获得至少6%的提高.出现这种情况的主要原因在于视觉词袋直方图构建算法.实验中,视觉词袋直方图构建的流程图如图5所示.

图5 视觉词袋直方图构建Fig.5 Construction of BOVM histogram

视觉词袋直方图构建的优劣主要受制SIFT提取局部特征和K-means聚类算法,前者对图像颜色和非线性光照变化不敏感,提取的局部特征具有一定的误差,直接影响分类器的训练效果;后者将向量空间中n个特征点按照类内方差和最小原则分为k类,但其初始中心的选择具有随机性,不同初始中心选择直接导致不同的聚类结果.基于上述两点,本文提出的基于二维最大熵的训练模型将图像的颜色分量信息作为构造训练模型的要素之一,寻找综合颜色信息和样本纹理信息的最优的一组底层特征向量,克服了基于视觉词袋直方图分类算法忽略图像颜色信息的缺点,故查准率获得一定程度的提高.

4 结论

针对视觉词袋直方图作为底层特征时,忽略图像颜色信息的缺点,本文提出在一类图像的HSI彩色空间上通过H分量和S分量构建二维最大熵模型,并将训练得到的二维最大熵分布作为该类样本的底层特征向量,然后利用欧式准则将待分类图像与底层特征向量进行匹配,与某一类匹配度较高的就归属到该类.实验表明,样本容量和图像的量化级数分别取值为20和128时,该分类方法相较基于视觉词袋直方图分类算法,在CalTech 256数据集上查准率可获得一定程度的提高.

[1] 赵鑫. 图像分类中的判别性增强研究[D]. 合肥：中国科学技术大学, 2013.

[2] Mikolajczjdc K,Schmid C. Scale and affine invariant interest point detectors.International[J].Journal of Computer Vision, 2004, 60(1): 63-86.

[3] Perronnin F, Dance C. Fisher kernels on visual vocabularies for image categorization[C]. CVPR′07, IEEE Conference on IEEE, 2007: 1-8.

[4] Wu J, Cui Z M. Zhao P P, et al. Visual vocabulary tree construction research using adaptive fuzzy k-means clustering[J]. Advanced Science Letters, 2012, 11(1): 258-262.

[5] Avrithis Y, Kalantidis Y. Approximate Gaussian mixtures for large scale vocabularies [C]//In: Proc of the 12th European Conference on Computer Vision, Firenze, Italy, 2012: 15-28.

[6] Bishop C M, Lasserre J. Generative or discriminative getting the best of both worlds [J]. Bayesian Statistics, 2007, 8: 3-23.

[7] Maji S, Berg A C, Malik J. Efficient classification for additive kernel SVMs[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1): 66-77.

[8] 沈项军, 高海迪, 曾兰玲,等. 多特征证据理论融合的视觉词典构建[J]. 中国图象图形学报, 2013, 18(12): 1676-1683.

[9] Begen A, Dellapietra S, Dellapietra V.A maximum entropy approach to natural language Processing[J].Computational Linguisties,1996, 22(1),38-73.

[10] 陶山山. 多维最大熵模型及其在海岸和海洋工程中的应用研究[D].青岛：中国海洋大学, 2013:83-92.

[11] Perronnin F, Snchez J, Mensink T. Improving the Fisher Kernel for Large-scale Image Classification [M]. Heraklion: Springer Berlin Heidelberg, 2010: 143-156.

[12] Feng Jie, Jiao Licheng, Zhang Xiangrong, et al. Bag-of-Visual-Words based on clonal selection algorithm for SAR image classification[J]. IEEE Geosci Remote Sensing Lett, 2011, 8:691-695.

Application of 2-D maximum entropy model in image classification algorithm

WANG Yanlin1， JIN Hanjun2， MEI Hongyang2

(1.Information Engineering Department， Wuhan Business University， Wuhan 430056;2.Computer School， Central China Normal University， Wuhan 430079)

A 2-D maximum entropy model is proposed to overcome the weakness of BOVM (bag of visual words) histogram which always neglects the information of image color. The 2-D maximum entropy mode of a class of image is built by H component and S component in HSI color space， and what’s more， the corresponding 2-D maximum entropy distribution is the bottom reference feature vectors， which is used to match with an input image by Euclidian criterion in image classification algorithm. Experiments illustrate that the algorithm presented in this paper has a higher image precision than the classification algorithm based on BOVM．

bag of visual words; 2-D maximum entropy; image classification; sample histogram

2014-12-10.

中央高校基本科研业务费专项资金(CCNU13B005);湖北省科技攻关项目(2011EJB010);湖北省科技支撑计划项目(2013BAA104).

1000-1190(2015)04-0507-04

TP391.41< class="emphasis_bold">文献标识码： A

*通讯联系人. E-mail: jinhanjun@163.com.