基于多标签判别字典学习的图像自动标注
2018-07-25杨晓玲李志清刘雨桐
杨晓玲,李志清,刘雨桐
(湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411100)(*通信作者电子邮箱xq086515@163.com)
0 引言
数字采集技术、计算机硬件、存储技术和互联网技术的快速发展,使得成千上万的图像资源能够被大众所获取。为了方便有效地获取和检索如此大规模的数字图像资源,图像检索技术成为了近年来的重要研究课题。当前图像检索技术主要分为两类:基于文本的图像检索(Text-Based Image Retrieval,TBIR)技术和基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术。TBIR需要利用人工对图像进行标注,建立文本索引,然后通过传统的文本搜索引擎来实现图像的检索。但是,面对当前快速增长的图像数据库,手工标注需要消耗大量的人力物力,不适用于大的图像数据库。而CBIR是根据图像本身所包含的视觉内容建立检索依据,图像的“视觉内容”是指图像的低层视觉信息,如颜色、纹理和形状等。CBIR通过提取每幅图像的低层视觉特征,并将提取到的特征以高维向量的形式存入数据库,针对不同的应用情况,TBIR可以采用不同的特征或特征组合来描述图像的视觉内容[1]。以CBIR为代表的图像检索技术在近年来取得了很大的进展,但是其检索效果和其检索方式仍然不能满足人们的要求,其主要原因是计算机获取图像的低层视觉信息与用户理解的高层语义信息之间存在巨大的语义鸿沟。因此,为了获得更好的检索结果,同时解决人工标注带来的问题,图像自动标注技术应运而生。
随着多媒体技术和计算机视觉领域的蓬勃发展,图像自动标注吸引了越来越多的研究者的关注。图像自动标注的目标是自动地为某一幅图像添加恰当的一个或多个能表示该图像的视觉内容的关键词(标签)。在进行图像检索时,自动图像标注是一个关键的步骤,它在缩小图像的低层视觉特征与高层语义标签之间的语义鸿沟之间扮演了一个重要的角色[2-3]。在图像标注的工作中,有时候由于一幅图像的内容比较复杂,使得其往往具有多个标签,据此许多判别方法被提出并将图像标注视为一个多标签分类问题,如文献[4]将其分解成一个独立的二分类问题,每个可能的标签是一个分类器,然而,在这种方法中不同类标签之间的相关性会被忽略[5]。文献[6-9]方法对稀疏编码的研究促进了图像标注中标签传播技术的发展。
本文提出了一种新的基于多标签判别词典学习的图像自动标注方法:1)在经过特征提取后,将判别字典学习技术应用在多标签学习中,同时加入标签一致性正则化项,使得字典学习过程中能够融入标签信息;2)将训练图像样本空间中学习到的一个完整的具有判别性的字典用于新图像的预测。在Corel 5K数据集上进行测试和比较分析,实验结果表明,与当前流行的几个图像标注方法进行比较,本方法具有较好的标注性能。
1 相关工作
图像自动标注的目的是为图像分配若干能描述其内容的标签,这通常被看作是一个典型的多标签学习问题。现在的方法大致可以分为三类:以分类为基础图像自动标注[10]、以概率模型为基础的图像自动标注方法[11]和以重构方法为基础的图像自动标注方法[12]。
分类方法是将自动图像标注看作是多分类的问题。每个语义关键词作为一个独立的图像类别标记,通过训练学习语义标签分类器来预测待标注图像是否属于某个特定的语义关键词类别。每个语义分类器的决策经过融合得到测试图像的最终标注结果。Cusano等[5]通过求解多分类问题来实现标注问题;吴伟等[13]通过利用距离测度学习方法来改进最近邻分类模型,将语义距离融入到模型的构建中,有效改善了标注效果。基于分类方法的主要局限是需要训练图像的监督标签信息来训练分类模型。
基于概率建模的方法是从概率统计角度出发,通过在视觉特征的基础上建模图像特征和图像标签之间的共生概率关系,并试图推断图像或注释关键字之间的相关性或联合概率概率分布,并以此进行图像标注。Xia等[11]提出一种基于双层聚类标签优化算法(Tag Refinement based on Bi-Layer Clustering,TR-BLC)算法。首先融合视觉相似性和语义相似性相似的图像,将其分为更小的组;然后对每一组图像使用共现频率和标签间的相关性建立标签与图像子集的概率关系;最后利用改进的Fisher准则判断与图像内容无关的标签完成图像标签的修正,该算法增强了低频词汇的相关度,从而提高了图像标注的性能。
基于重构方法利用语义概念或视觉图像的稀疏重建模型来完成图像标注任务。Wang等[12]采用稀疏编码框架得到重构系数,利用多标签信息去降低输入特征空间的维度,它包含了两个稀疏编码时期:多标签稀疏重构和图像特征稀疏重构,通过将标签转移到测试图像中得到最终的标注词。此外,臧淼等[14]将语义之间的相关性融入到稀疏/组稀疏编码模型中,通过标签转移寻找测试图像的 K最近邻(K-Nearest Neighbor,KNN)图像来实现图像自动标注;Gao等[8]充分利用了图像类标签和标记之间的依赖关系,提出了基于多层次组稀疏的并行单标签图像分类和标注方法,并取得了较好的标注效果;Tang等[15]提出了一种基于图的半监督KNN-sparse(K-Nearest Neighbor-sparse)学习方法。这些稀疏编码方法的提出促进了字典学习在图像标注方面的应用。
为了增强原始图像标签和视觉特征之间的相关性,本文提出一种基于多标签判别字典学习的图像自动标注(Automatic Image Annotation based on Multi-Label Discriminative Dictionary Learning,MLDDL),通过在字典学习的初始输入空间中加入标签的相关信息,增强字典的判别性,从而改善标注性能,提高标注准确度。
2 字典学习
设 {(x1,Y1),(x2,Y2),…,(xN,YN)} 为训练数据,xi∈Rp是训练集中的图像,Yi是图像相应的标签,xi∈X,X∈Rp×N,X为训练集,p是每个图像的特征维数,N是训练集中的图片数量,Yi= [y1,y2,…,yL]T是 xi的所有可能标签,L是标签数量,如果第l个标签在图像xi的标签集合中,则yl=1,否则yl=0。
2.1 传统字典学习
字典学习可以称之为简单的稀疏编码,传统的基于逼近的稀疏表示字典训练模型:
2.2 标签一致性判别字典
标签一致性判别词典LC-KSVD(Label Consistent KSVD)[17]是通过在K-SVD的基础上加入图像的标签信息来获得一个判别稀疏编码矩阵A和字典D,它使得拥有相同标签集的样本特征有非常相似的稀疏表示。被赋予标签正则化项的标签一致性判别字典学习的目标函数为:
式中:第一项是重构误差,第二项是标签正则化项,第三项是A的稀疏度。λ,β>0控制着重构误差、标签一致性正则化和稀疏度三项之间的相对贡献,Q= [q1,q2,…,qN]∈RK×N是输入样本 X 的判别稀疏编码,qi= [0,0,…,1,1,…,0,0]T∈ RK是输入样本xi对应的判别稀疏编码。首先假设第i个词典元素di(i=1,2,…,N) 与第i个样本xi(i=1,2,…,N) 拥有相同的标签集。如果xi与词典元素dk共享相同的标签集,则设qik=1;否则qik=0。W∈RK×K表示一个线性变换矩阵,确定一个线性变换矩阵g(a;W)=Wa,转换原始稀疏编码A使得在稀疏特征空间RK中具有更好的识别度。标签一致性正则化项‖QWA‖2F表示判别稀疏编码误差,使得转换稀疏编码WA更好地接近判别稀疏编码Q,增强学习字典的判别性。
2.3 多标签判别字典学习
受文献[12]的启发,在LC-KSVD的基础上,由于多标签具有良好的协同表达能力,为了使字典D更好地表示原始特征集X,引入线性转换矩阵P∈ Rp×p,得到多标签判别字典学习(Multi-Label Discriminative Dictionary Learning,MDDL)。对于一个原始的输入特征xi,有ci=PTxi(ci∈ Rp),即,C=PTX(C ∈ Rp×N),则式(2)可表示为:
转换矩阵P能够将原始样本特征信息转换成更具有识别度的特征空间,其中具有相同标签集的样本被聚类在一起,而具有部分相同标签集的能够协作地表示彼此,线性转换矩阵目标函数包括两个部分:
一方面,完全相同的标签集有相似的转换特征空间,目标函数如下:
W1是一个语义表:如果样本图像xi和样本图像xj有完全相同的标签集,也就是Yi=Yj,认为是完全语义相关的,则设
另一方面,具有部分相同标签样本之间能够更好协作地表示对方,其目标函数为:
W2是一个语义表:如果样本图像xi和样本图像的xj标签集中有一个或多个相同的标签,则它们有部分语义相关,则设最后联合两个目标函数:
通过联合目标函数求解转换矩阵P:
这里M被定义为:
这里D1是一个对角矩阵i。结合式(3)化简求解后得到式(9):
求得转换矩阵P:
2.4 自动图像标注流程
如图1所示,本文的标注算法分为训练算法和测试算法两部分。训练算法用于建模训练集中的训练数据X和相应标签信息Y,最后得到字典D、标签信息有关的转换矩阵P和稀疏编码系数矩阵Α。测试算法用于处理训练集之外的新图像dnew,并为其指定特定的相应标签。
图1 本文图像标注基本框架Fig.1 Basic framework of the proposed image annotation
训练算法:
输入:训练样本集 X=[x1,x2,…,xN]和相应的标签集合 Y= [y1,y2,…,yN],收敛阈值 ε,迭代最大数 T;
1)以随机向量初始化字典D,以随机矩阵初始化P和W;
2)更新稀疏编码系数矩阵 Α,即固定 D,P和W,利用FSSA(Feature-Sign Search Algorithm)[18]求解 Α;
3)更新字典D,即固定Α,P和W,利用式(2)求解字典D;
4)更新转换矩阵P,即固定Α,D和W,利用式(10)求解转换矩阵P;
5)更新线性变换矩阵W,即固定Α,P和D,利用式(3)中的判别稀疏编码误差项求解得 W =QAT(AAT)-1;
6)目标函数相邻两次迭代误差小于阈值ε时,或迭代次数达到最大值T时,则算法停止,否则转向2)继续执行;
输出:稀疏编码系数矩阵Α,更新后的字典D,线性转换矩阵P和线性变换矩阵W。
测试算法:
1)输入:训练集的标签集合 Y= [y1,y2,…,yN],学习到的字典D,编码系数矩阵A,转换矩阵P和新图像dnew。
2)新图像dnew的标签编码系数向量aq可由式(11)得到:
式中χ1,χ2>0是常量,用于平衡重构误差项与稀疏编码系数项。
3)新图像dnew的标签向量yt可由式(12)得到:
4)从标签项向量yt选择前若干个值最大标注新图像dnew。
5)输出:测试图像dnew的若干预测关键词。
3 实验结果分析
3.1 数据集和实验设置
为了测试本文方法的精度和性能,实验在标准图像库Corel5K上进行测试,该数据集是现今图像标注方法的通用数据集。该数据集包含4999幅图像,图片大小为192×128,其中4500幅作为训练集,499幅作为测试集。所有图像分为50个语义类别,每个语义类别中包含100幅图像,每幅图像已经被标注1~5个关键词,其中将至少标注了8幅图像的关键词入选词汇表,合计260个关键词。
为了评价图像标注方法的性能,本文的标注性能通过精度(查准率,P)、召回率(查全率,R)和F1值来衡量。对于一个给定的标注词wi,查准率P=A/B,查全率R=A/C,F1=2*P*R/(P+R)。这里A表示测试集中通过算法正确标注wi的图像个数,B表示测试集中通过算法自动标注了wi的图像个数,C表示原始标注中包含wi的图像个数。最后,通过计算查准率与查全率的平均值来评价算法的标注性能,此外,也要考虑查全率大于0的关键词个数,用N+来表示。
在同样的测试集上,为保证研究的一致性和方法比较的公平性,本文的方法MLDDL采用与文献[19]相同的特征表示方法,特征空间中集成了一系列的局部特征和全局特征。局部特征包括SIFT(Scale-Invariant Feature Transform)和Hue颜色描述符,特征是在多尺度网格上或拉普拉斯兴趣点上提取的。每一个局部特征通过k-means聚类算法进行量化得到对应的BOW(Bag of Words)表示。全局特征包括Gist特征和在 RGB(Red-Green-Blue)、HSV(Hue-Saturation-Value)、Lab颜色空间上的颜色直方图。除了Gist特征外,所有的特征通过L1规范进项进行归一化处理,最后联合成一个矩阵作为字典学习的输入信号进行实验。其中,字典大小与训练样本数量相同,参数 λ =0.01,β =0.001,χ1=0.01,χ2=0.1。最后将本文方法与不同的图像自动标注方法进行比较,其中包括MSC(Multi-lable Sparse Coding)[12]、DCGSC(Distance Constraint Group Sparse Coding)[14]、TagProp[19]、SC(Sparse Coding)[20]、 VGSSL (Voronoi Graph Semi-Supervised Learning)[21]、JEC(Joint Equal Contribution)[22]、FastTag[23]、SFR(Sparse Factor Representation)[24]等。
3.2 实验结果
1)不同标签数目对图像标注的影响。
为了能够了解不同标签数目对图像自动标注的影响,本文给出了不同标签数目下的查准率,召回率和F1值的变化曲线,并将结果与TagProp和FastTag进行比较,如图2所示。从图2中可以看出,首先本文的标注方法MLDDL在评价图像自动标注性能的三个指标上随着标签数目的增加,其查准率、召回率和F1值不断上升;其次,与TagProp和FastTag比较,在标签数目为1时,本文的标注性能低于FastTag而优于TagProp,随着标签数目的增加,本文的标注性在三个指标上都优于TagProp和FastTag。
图2中的曲线变化表明,当标签数目为5时效果最好,这是因为标签数目较少时,图像的视觉特征与图像标签信息之间的相关性较弱,这样一来加入标签线性转换矩阵的效果将受到影响。而数据集中每幅图像的最大标注词为5个,当标签个数大于5时,图像的无关标签数目将会增加,降低了图像自动标注的性能和准确度,而且目前大部分标注方法均采用5个作为最终的标注个数,为了便于比较和分析,本文同样选择5标签来进行最终的图像标注。
图2 不同标签数目下与TagProp和FastTag的查准率、召回率和F1值的比较Fig.2 Comparison of precision,recall and F1with TagProp and FastTag at different tag numbers
2)不同图像标注算法的比较与分析。
表1给出了本文的标注方法MLDDL与其他方法标注的结果比较,其他相关方法的实验数据来自其方法对应的参考文献(参考文献详情见实验设置部分),其中方法SC中N+的值在原文献中没有给出。通过比较结果可以看出,与传统的稀疏编码方法MSC、距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比,本文通过在字典学习的初始输入空间中加入原始样本的标签信息,并融合多种类型的视觉特征作为字典学习的输入信息,以此来增强字典的判别性,最后使得标注准确度得到了提升。平均查准率比MSC提高了10个百分点,比DCGSC提高了3个百分点,比VGSSL提高了10个百分点。在平均召回率方面,本文的算法比MSC提高了16个百分点,比DCGSC提高了14个百分点,比VGSSL提高了20个百分点。除此之外,F1和N+也较其他算法有相应的提高。
表1 标注结果对比Tab.1 Comparison of annotation results
图3给出了通过使用MLDDL方法进行标注后,部分图像的标注结果示例。从图中可见,与人工标注相比,本文的标注方法完善了对图像内容的描述,部分所添加的标注词虽然没有出现在人工标注中,但是该标注词也能够正确表达图像的部分内容(如第1幅图像中的sky和第2幅图像中的grass等),由此可见,该标注词也是属于正确的标注词。对于某些图像内容比较复杂的图像(如第4幅图),也存在错误的标注词(如第4幅自动标注的beach),但是总体而言标注效果较好。
图3 标注结果对比Fig.3 Comparison of annotation results
4 结语
本文在LC-KSVD的基础上,提出了基于多标签判别字典学习的图像自动标注方法。通过在字典学习的初始特征输入空间中加入标签信息,并融合多种类型的图像视觉特征,以此来增强图像的底层视觉与高层语义之间的相关性,从而使得所学习到的字典具有更强的判别能力,降低语义鸿沟的影响。在Corel5K数据集上的实验结果表明,本文方法与其他经典的标注方法相比,具有较好的标注性能,但由于语义鸿沟的存在,对于背景比较复杂的图像而言,标注效果仍有待提高,所以下一步的工作是改善特征提取方法,使用不同类型的特征组合方式,使得所提取的底层视觉特征能够更好地表示图像的视觉内容,提高标注准确度。