APP下载

基于几何流形熵的图片分类方法研究

2011-07-04刘会波

科技传播 2011年20期
关键词:描述符正确率语义

刘会波

上海市同济大学软件学院,上海 200438

0 引言

图片分类即基于图片内容对图片进行分类。过去的很多论文都是基于支持向量机(SVM)构建分类器[1],并取得了一定的成果。但是,要获得很高的图片分类正确率以及稳定性仍具有相当大的挑战。这部分是因为语义相关的图片可能并不是一个线性超平面的特征空间。本文着重探讨这个问题,并提出了一个新颖的基于熵描述符的图片分类算法。

文中提出的熵用来描述表示几何特征的流形特征。通过最小化熵值,将图片数据组织为一个语义连续的环。优化的环实际上为训练图像建立了一个数学模型,而这些模型可用来决定测试图像的分类标签。该分类策略为:首先搜索该测试图像在每个环中最优或算法所能达到的最优位置。对于每个环,测试图像会插入使熵增加最小的位置,再通过比较所有环的熵增量,测试图片会添加到熵值增加最小的环所代表的分组即分类中。在本文的研究中,采用禁忌搜索方法[2]求解该优化问题。

1 熵描述符

图片的语义表示是图片分类方法成功的关键。本文的研究中,我们应用几何流形熵(GEOMEN)描述特征空间中得图片的语义相似性。

且各s(X,O,i)为两分量加权和:空间分量p(X,O,i)和几何分量g(X,O,i)如下:

上式a是用来修正空间分量对GEOMEN的贡献大小。GEOMEN表征按照顺序O连接的环的平滑程度。另外,它也是在数据近似性的量度。因为图片排序可以被看做提取一维流行的问题,但实际情况下这是一条曲线,因此我们仅仅考虑在一维曲线上GEOMEN的表示。

引入正则项可以修正噪声对曲率的影响。

2 图片分类的算法框架

因为如果两个类别有一个明显的区别,那么在边界点处熵值便会极大的增加。这个启发我们对一个点的错误分类将会导致该类最优环熵值的急剧增加。反之,如果一个点正确分组进入一个类,该类的最优环的熵值将只会增加一点点。这正是本文基于熵描述符的图片分类算法基本框架的基本思想。因此每个类首先都需要通过训练获得一个最优环即该类别的模型。这样对于待预测图片,通过比较其插入每个最优环的熵增即可获得该图片的分类标签。

这样,为了找到最优环,我们需要最小化GEOMEN值,亦即:O∗=argminS( X, O)。在该研究中,我们估计通过简单的禁忌搜索算法获得熵的全局最小值。关于禁忌搜索算法可以参看文献[2]。

每个类的最优环实际上训练图片的提取模型。该模型可用于获取测试未知图片的类别标签。分类的策略为在所有环中找到图片Q的最优位置。测试图片的类别即位最优位置所在环的类别。

3 实验

本实验采用PHOG[3]作为特征描述符。实验针对对三个数据集进行了测试:UMIST 人脸数据集,以及自制的背景杂乱的汽车数据集,飞机模型数据集。飞机模型数据集通过使用3DMAX软件对各种飞机模型进行旋转,并选取角度渲染投影成二维照片获得。同时,我们基于SVM的分类器与之相比较。

4 结论

由表1可知,我们的算法框架具有更好的性能,更高的正确率以及可靠性。

人脸数据集表明我们的算法框架中在人脸分析中具有很好的分类性能。同时,汽车数据集尽管背景杂乱,但仍具有较高正确率,更比SVM高出22.50%,表明该框架对背景的高稳定性。同时,对于飞机模型优异表现,表明该算法框架对于基于图片的模型检索的重大应用潜力。总之,该算法无论对于多视角图片集中,不管背景杂乱与否,总能表现出优秀的分类正确率和健壮性。

表1 实验结果对照表

[1]X.Li,L.Wang and E.Sung"Multilabel SVM active learning for image classification",Proc.ICIP,p.2207,2004.

[2]C.Zhang,H.Li,Q.Guo,J.Jia,and I.-F.Shen.Fast active tabusearch and its application to image retrieval.In IJCAI’09,pages 1333-1338,2009

[3]A.Bosch,A.Zisserman,and X.Munoz.Representing shape with a spatial pyramid kernel.CIVR,2007.

猜你喜欢

描述符正确率语义
基于结构信息的异源遥感图像局部特征描述符研究
门诊分诊服务态度与正确率对护患关系的影响
基于AKAZE的BOLD掩码描述符的匹配算法的研究
语言与语义
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
生意
品管圈活动在提高介入手术安全核查正确率中的应用
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊