基于视觉和语义互学习的标签完备标注

2022-03-03杨凯婷张素兰张继福胡立华杨海峰

小型微型计算机系统 2022年3期

杨凯婷，张素兰，张继福，胡立华，杨海峰

(太原科技大学计算机科学与技术学院，太原 030024)

1 引言

目前，很多社会化媒体主要依赖于用户提供的标签来检索存储在社交网站中的大量图像.而网络用户提供的初始标签往往是不完整和有噪声的，图像标签的缺失使得用户不能快速地检索出其关心的图像；有噪声的标签则会导致用户检索出与标签无关的图像，从而影响了检索效率.图像标签的完备标注因非常有助于提高图像检索效率，目前仍是图像语义自动标注一个研究热点[1].

近年来，具有代表性的标签完备标注方法主要有基于矩阵完备[2]、基于线性空间重建[3，4]和基于低秩矩阵分解的方法[5，6].基于矩阵完备的方法主要将标签完备问题转化为矩阵完备问题，如Wu L 等提出的较为经典的标签矩阵完备(tag matrix completion，TMC)模型[2].该模型将标签和图像之间的关系描述为一个标签矩阵，通过最小化基于标签的相似性和基于视觉内容的相似性之间的差异来搜索最优标签矩阵.但TMC 模型没有充分利用初始标签，缺少对标签自身相关度的分析，影响标注效果.Lin Z 等[3]提出的一种线性稀疏重建(linear sparse reconstructions，LSR)模型，该模型利用图像之间的视觉和语义相似性重构每幅图像，利用标签之间的一致性重建每个标签，并对其重建值进行归一化合并，以选择缺失的相关标签.为降低计算复杂度，Lin Z 等对LSR 模型进一步扩展和改进，得到双视图线性稀疏重构(dual-view linear sparse reconstructions，DLSR)模型[4].孟磊等[5]提出了一种基于低秩稀疏分解优化(low-rank sparse decomposition and optimization，LRSDO)的图像标签完备方法.该方法主要通过构造低秩稀疏分解模型获得待完备图像视觉特征和标签语义之间的映射关系，并使用标签共现频率方法对候选标签进行去噪优化.但是该方法没有考虑标签的语义相关性，因此完备标注性能仍有提升.为了充分利用标签之间的信息，提高图像标注和检索性能，有学者开始深入挖掘标签之间的关系[7-9].顾广华等人[10]利用关联规则算法挖掘数据集中语义之间的关联规则，对图像标注进行语义丰富和标签补充.崔超然等人[11]讨论了如何平衡标签的相关性和多样性，李雯莉等人利用概念格进行标签本身潜在的语义分析，有效地改善了标注效果.

虽然这些标签完备标注方法取得了较好的性能，但在考虑标签关系时仍存在一些问题.大多数方法[2，5，12，13]不考虑数据集中与标签关联的图像的视觉信息，使得在图像标注过程中出现多义词和同义词.而且，目前考虑标签视觉内容的工作相对较少.因此，为有效提高图像标签完备标注的精度，本文提出了一种基于视觉和语义互学习(mutual learning using visual and semantic，MLVS)的标签完备标注方法.首先，综合考虑待完备图像的视觉特征和初始语义计算图像之间相似度，获取待完备图像的近邻图像集和候选标签集；然后，取候选标签与初始标签最大的视觉内容相似性和语义相关性作为其与待完备图像的视觉内容相关度、语义相关度；最后，结合标签频率优化候选标签与待完备图像的相关性，确认最优的候选标签进行标签完备.

2 相关定义

信息的互学习可以帮助我们更好地认识事物之间的相关关系.图像标签完备标注方法一般是用相关语义标签补全待完备图像，主要涉及到图像和标签之间的3种关系，即图像-图像、标签-标签、图像-标签.本文通过视觉和语义互学习考虑这3种关系，给出相关定义.

2.1 图像-图像相似度度量

仅依据视觉特征搜索近邻图像的标签完备方法[3，6，14]忽略了图像高层语义的相关性，寻找的近邻图像代表性不高.为提高图像完备标注的精度，本文综合考虑图像之间的视觉相似度和图像语义相关度以更精确地度量图像间的相似度.

定义1.图像视觉相似度Sv(Xi，Xj).SIFT特征是图像标签完备方法常用的图像视觉特征.在度量图像视觉相似性时，为更好地计算图像视觉相似性和便于实验对比，本文采用文献[3]的1000维SIFT词包特征，使用欧氏距离来计算图像的视觉相似性.距离越小，说明两幅图像越相似.图像之间的视觉距离定义如式(1)所示：

dist(Xi，Xj)=‖Di-Dj‖2

(1)

式中，Di和Dj分别是图像Xi和Xj归一化的SIFT 视觉特征向量.根据上述视觉距离，两幅图像之间的视觉相似性定义如式(2)所示：

Sv(Xi，Xj)=exp(-dist(Xi，Xj))

(2)

定义2.图像语义相关度St(Xi，Xj).图像的内容越接近，图像共有的标签越多.用户提供的初始标签在一定程度上可以反映一幅图像的语义内容.因此，通过考虑图像之间标签的语义相关度来考虑图像之间的语义相关度.但以往的文献很少充分地利用现有有效的概念相似度方法度量图像的标签语义距离.本文基于初始标签向量，采用文献[15]中的规范化Google 距离来度量标签之间的语义距离.标签之间的语义距离定义如式(3)所示：

(3)

式中，f(t1)、f(t2)和f(t1，t2)分别表示包含标签t1、t2、t1和t2的图像数，G表示数据集中的图像总数.根据两个标签之间的语义距离，两幅图像之间的语义相关度定义见式(4)：

(4)

式中，TXi和TXj分别表示图像Xi和Xj对应的初始标签集合.

2.2 标签-标签相似度度量

在考虑标签与标签之间的关系时，传统的方法有WordNet[16]和归一化的Google距离[17].但是，这两种方法只是基于文本描述建立标签相关性，没有考虑包含该标签图像的视觉信息，导致在图像标签完备过程中出现多义词和同义词.因此，利用包含标签的图像的视觉信息可以更好地度量标签与标签之间的关系.

定义3.标签视觉内容相似性rel_v(t，t′).在待完备图像x的近邻图像集合中，将含有标签t和t′的近邻图像作为标签t和t′的样本，考虑样本图像之间的平均视觉相似性，作为标签t和t′的视觉内容相似性.标签之间的视觉内容相似性定义如式(5)所示：

(5)

式中，Xt和Xt′分别表示含有标签t和t′的近邻图像集合，|Xt|和|Xt′|是它们集合的大小，xt和xt′分别表示含有标签t和t′的图像，dist(xt，xt′)是通过公式(1)得到的图像xt和xt′视觉特征的欧氏距离.

标签之间是相互依赖存在的.例如，标签“beach”和“sea”，这对标签同时用来描述一幅图像视觉内容的概率很高.如果某幅图像存在标签“sea”，则可以根据标签之间的相关性，将标签“beach”补给这幅图像，进而达到完备图像标签的目的.

定义4.标签语义相关性rel_s(t，t′).利用标签共现频率可以更加准确地挖掘标签之间的关联性.标签的共现频率定义如式(6)所示：

(6)

式中，count(t，t′)表示在整个数据集中，同时含有标签t和t′的图像数，count(t)表示在整个数据集中含有标签t的图像数.

2.3 标签-图像关联度度量

构建候选标签与待完备图像之间的关联关系是筛选候选标签的关键，影响着标签完备的结果.本文给出的MLVS方法通过考虑候选标签与初始标签关系来考虑候选标签与待完备图像的关系.

定义5.标签-图像视觉内容相关度rel1(x，t).根据定义3，取候选标签与待完备图像初始标签最大的视觉内容相似性，作为候选标签与待完备图像的视觉内容相关度.相关定义如式(7)所示：

rel1(x，t)=max(rel_v(ti，t))

(7)

式中，ti是待完备图像x含有的初始标签；t是待完备图像x的候选标签，rel_v(ti，t)是表示标签ti和标签t的视觉内容相似性.

定义6.标签-图像语义相关度rel2(x，t).同定义5，本文取候选标签与待完备图像的初始标签最大的语义相关性，作为候选标签与待完备图像的语义相关度.相关定义见式(8)：

rel2(x，t)=max(rel_s(ti，t))

(8)

式中，ti是待完备图像x含有的初始标签；t是x的候选标签，rel_s(ti，t)是表示标签ti和标签t的语义相关性，根据定义4，依据式(6)计算得出.

3 基于MLVS的图像标签完备

基于MLVS的标签完备方法通过待完备图像的视觉和初始标签语义相互学习，得到候选标签，然后从候选标签和初始标签的视觉和语义出发，丰富待完备图像的标签，框架如图1所示.

图1 基于MLVS的标签完备方法Fig.1 Tag completion annotation based on mutual learning using visual and semantic

3.1 图像近邻搜索

为有效度量待完备图像与其近邻图像的相似度，以寻找待完备图像的高质量近邻图像，我们融合图像视觉相似度和语义相关度，两幅图像的相似度如式(9)所示：

S(Xi，Xj)=α×Sv(Xi，Xj)+(1-α)×St(Xi，Xj)

(9)

式中，Sv(Xi，Xj)是根据定义1得到的图像Xi和Xj的视觉相似度；St(Xi，Xj)是根据定义2得出的Xi和Xj的语义相关度；S(Xi，Xj)是两幅图像最终的相似度，其值越大，两幅图像越相似；α是权重系数，其值依据实验分析设定.

根据公式(9)，我们度量待完备图像与数据集中每幅图像的相似度，搜索其β近邻，获取候选标签集.β是近邻图像个数，其值依据实验分析设定.

3.2 度量候选标签与待完备图像关联度

在图像标注过程中，综合考虑候选标签与待完备图像初始标签之间的视觉内容相似性以及语义相关性，可以避免多义词和同义词现象.MLVS方法依据定义5和定义6，由候选标签与初始标签的视觉内容相似性和语义相关性得到候选标签与待完备图像的视觉内容相关度和语义相关度.因此，为更好地丰富图像的语义内容，将候选标签与待完备图像的视觉内容相关度和语义相关度进行融合.候选标签与待完备图像的关联度定义如式(10)所示：

rel(Xi，Tj)=γ×rel1(Xi，Tj)+
(1-γ)×rel2(Xi，Tj)

(10)

式中，T是待完备图像Xi的候选标签集；rel1(Xi，Tj)是候选标签Tj与Xi的视觉内容相关度，根据定义5得出；rel2(Xi，Tj)是Tj与Xi的语义相关度，由定义6得出；γ是权重系数，其值依据实验分析设定.

根据定义3、定义4、定义5和定义6，依据公式(10)，计算3.1节中得到的每个候选标签与待完备图像的关联度.

3.3 关联度优化及标签预测

候选标签在待完备图像的近邻集中出现频率越高，越有可能是待完备图像的缺失标签.因此，候选标签频率也是计算候选标签与待完备图像相关性的指标之一.每个候选标签与待完备图像最终的相关性分数如式(11)所示：

(11)

其中，rel(Xi，Tj)是候选标签Tj与待完备图像Xi的关联度；count(Tj)是Xi的近邻图像集中包含Tj的近邻图像数；β是指Xi的近邻集合大小，由3.1节给出.

结合标签频率，依据公式(11)，计算每个候选标签与待完备图像的相关性分数.之后，将所有候选标签的相关性概率值降序排序，保留前几个排名高的候选标签作为待完备图像的缺少标签.

3.4 MLVS算法描述

输入：图像集合I={I1，I2，…，In}，初始标签集合T={T1，T2，…，Tn}，特征矩阵X以及参数α、β和γ.

输出：待完备图像Ii的缺失标签.

Step 1.搜索图像近邻.基于视觉特征和初始标签语义，经式(9)融合视觉相似度Sv(Ii，Ij)和语义相关度St(Ii，Ij)，获取Ii的β近邻图像集合NS和候选标签集.

Step 2.度量候选标签与待完备图像关联度.在NS中，对每一个候选标签t，通过式(7)计算t与Ii的视觉内容相关度rel1(Ii，t)；根据式(8)计算t与Ii的语义相关度rel2(Ii，t)，利用式(10)计算候选标签与待完备图像关联度.

Step 3.关联度优化及标签预测.通过式(11)优化候选标签与待完备图像的关联度，对优化后的关联度排序并将高排名相应的候选标签作为Ii的缺失标签进行完备.

4 实验及分析

本文在Corel5K以及Flickr30Concepts数据集上分别进行了对比实验.

4.1 数据集处理

为构造一个不完备的数据环境并便于对比，我们对数据集Corel5K和Flickr30Concepts进行与文献[5]相同的处理，随机删除每幅图像40%的标签.同时，为确保每幅图像至少删除一个标签并保留一个标签，本文删除数据集中只有一个标签的图像.进行了8次实验，计算8次实验结果的平均值，作为最终的实验结果.实验相关数据集的具体介绍如表1所示.

表1 数据集信息Table 1 Dataset information

4.2 评估指标

实验中，本文采用3个评估指标，即平均准确率(average precision@N，AP@N)，平均召回率(average recall@N，AR@N)以及覆盖率(coverage@N，C@N).其中，AP@N 是指每幅测试图像准确找回的缺失标签数量与实际找回的缺失标签数量的比值；AR@N是指每幅图像准确找回的缺失标签数量与图像本身缺失标签数量的比值；C@N 是指测试集中至少有一个标签被正确找回的图像数量与整个测试集图像数量的比值.所有评估指标的定义如下：

式中，m为待完备图像的数量；NL为找回的缺失标签数量；Ncl(i)为第i幅图像正确找回的缺失标签数量；Ntm为第i幅图像真正缺失的标签数量；f(·)为一个条件函数，当条件满足时返回1，否则，返回0.

4.3 参数分析

本文方法中用到了3个参数α、β和γ，α和γ是权重系数，为区间[0，1]之间的数，β是近邻图像数.本节，在Corel5K数据集上，通过实验法对它们进行分析设置.

参数α是融合图像视觉特征相似度和初始语义相关度的权重，我们通过寻找其最佳值，来提高待完备图像的近邻图像质量，图2对参数α进行了分析.从图2可知，随着α的逐渐增大，所提出方法的性能越来越好，并在α=0.9时达到峰值，之后，它的性能开始下降.因此，本文设置参数α=0.9.

图2 评估指标随参数α的变化Fig.2 Change of evaluation index with parameter α

参数β是待完备图像的近邻图像数量，寻找待完备图像合适的近邻数，可以更好地完备图像的缺失标签.图3展示了评估指标随β的变化，从中可以看到，3个评估指标曲线大体上均是先上升，后下降，最后趋于平稳的趋势.并且，评估指标在β=50的时候，达到峰值，因此，β设置为50.

图3 评估指标随参数β的变化Fig.3 Change of evaluation index with parameter β

参数γ是在度量候选标签与待完备图像之间的关系时，用于平衡标签与图像的视觉内容相关度和语义相关度的权重.同样，我们通过寻找其最优值，来提升候选标签的精确度.由图4可见，随着γ的增加，评估指标曲线有着程度较小的波动，虽然变化不太显著，但是大体上呈现先上升后下降的趋势，并在γ=0.1时，3个评估指标均达到最大值.因此，通过观察实验结果，γ设置为0.1.

图4 评估指标随参数γ的变化Fig.4 Change of evaluation index with parameter γ

综上分析，本文方法中用到的3个参数α、β和γ，分别设置为0.9、50和0.1.

4.4 对比实验

为证明本文方法的有效性，将其与一些最具代表性的自动图像标注方法和传统的标签完备方法在Corel5K以及Flickr30Concepts上分别进行了比较.实验对比结果如图5和图6所示.

图5 基准数据集Corel5K上的对比实验结果Fig.5 Comparative experimental results on Corel5k

图6 真实数据集Flickr30Concepts上的对比实验结果Fig.6 Comparative experimental results on Flickr30Concepts

从两幅对比结果图可以看出，与传统AIA(automatic image annotation)方法JEC[18]和2PKNN[19]相比，TagProp[20]的总体性能最好.在最近的标签完备方法中，比如TMC[2]和LSR[3]，这些方法能够利用初始标签的信息，因此其标注性能又优于大多数AIA方法.由图5可以看出，在Corel5K数据集上，本文方法明显优于其他方法.本文方法在AP@N、AR@N和C@N上分别达到30%、44%和54%，与标签完备方法TMC[2]相比，本文方法通过候选标签与初始标签的视觉和语义互学习构建候选标签与待完备图像的关系，有效去除噪声标签，AP@N提高了7%，AR@N提高了11%，C@N提高了14%.相比于标签完备性能较好的线性稀疏重建方法LSR[3]和DLSR[4]以及LRSDO方法[5]，本文方法利用有效的概念相似度方法Google距离，而不是仅基于待完备图像与近邻图像的标签一致[5]考虑图像语义相关度，更好地提升了近邻图像的质量；同时，根据标签之间视觉内容和语义互学习，优化了候选标签.与LRSDO方法[5]相比，AP@N提高了5%，AR@N提高了13%，C@N提高了10%.与LSR方法[3]和DLSR方法[4]相比，AP@N均提高了2%，AR@N均提高了2%，C@N均提高了4%.而由图6可知，在Flickr30Concepts数据集上，本文方法与TMC方法[2]相比，3个指标都有所提升；与使用欧氏距离考虑图像初始标签的LRSDO方法[5]相比，本文方法的平均准确率和平均召回率有所提升，覆盖率一致；本文方法与标签完备效果较优的DLSR方法[4]相比较，虽然平均准确率和覆盖率相差不大，但基于视觉和语义互学习更好地构建了图像与标签之间的关系比DLSR模型的平均召回率提高了5%，有一定的改进效果.

最后，从以上分析可见，对于基准数据集Corel5K和真实数据集Flickr30Concepts，本文所提出的标签完备方法都优于以前的方法，这表明了我们方法的有效性.同时，从这两个数据集的标注性能结果来看，本文方法在这两个数据集上的准确率相同，Corel5K数据集上的召回率稍微高于Flickr30Concepts数据集，而Flickr30Concepts数据集上的覆盖率较高于Corel5K数据集.因此，本文方法既适用于真实图像数据又适用于基准图像数据.

图7 有无噪声标签的Corel5K数据集的实验结果Fig.7 Experimental results on Corel5k dataset with or without noise labels

4.5 鲁棒性检测

为验证本文方法的鲁棒性，我们把注意力从标注良好的专家标签转向了有噪声的用户标签.由于本文方法最初便在基准数据集Corel5K以及真实数据集Flickr30Concepts进行了对比实验，因此进行鲁棒性检测实验时，只需对Corel5K数据集进行噪声处理并重复3.4节的算法实验.我们认为当在经过噪声处理的数据集实验结果与无噪声数据集实验结果一致或相差较小时，本文方法具有很强的鲁棒性.为此，随机选取10%、20%、30%、40%、50%的Corel5K数据集图像，并对其中每幅图像，随机删除一个已有标签和补全一个错误标签.为避免实验结果的偶然性，进行8次实验，取8次实验的平均值作为最终的实验结果.为说明本文方法的有效性，将在含有噪声标签的Corel5K数据集上的本文方法结果和在不含有噪声标签的Corel5K数据集上的其他标签完备方法结果进行对比.图7展示了本文方法在有噪声和无噪声的Corel5K数据集上的实验结果.图8展示了在无噪声标签的Corel5K数据集中，其他标签完备方法实验结果和有噪声标签的Corel5K数据集中，本文方法实验结果.

图8 有噪声标签的Corel5K数据集的对比实验结果Fig.8 Comparative experiment results on the Corel5K dataset with noisy labels

从图7中可以看到，随着Corel5K数据集噪声数据的增加，3个评估指标曲线均出现缓慢下降的趋势，这是合乎常理的.本文方法在寻找待完备图像的近邻图像时，考虑了初始语义.因此，初始语义的质量对待完备图像的近邻图像质量有一定的影响，进而影响到后续的标签完备结果.在图7中，可以看出这种影响并不大.3个指标中，平均准确率和覆盖率变化都相对平缓，平均召回率变化相对明显.

图8中，LSR 方法[3]、DLSR 方法[4]以及LRSDO方法[5]是近年来，标注完备性能较好的标签完备方法.图中显示的LSR方法[3]、DLSR 方法[4]、LRSDO 方法[5]以及本文方法实验结果是在没有进行噪声处理的Corel5K数据集上获取的.10%数据噪声柱、20%数据噪声柱以及30%数据噪声柱对应的结果分别是本文方法在10%含有噪声标签的Corel5K数据集、20%含有噪声标签的Corel5K数据集和30%含有噪声标签的Corel5K数据集上获取的.从图8中可以看出，在10%含有噪声标签的Corel5K数据集上，本文方法依旧优于其他标签完备方法；在20%含有噪声标签的Corel5K数据集上，本文方法的平均准确率和覆盖率优于其他标签完备方法，而平均召回率略低于它们；而在30%含有噪声标签的Corel5K数据集上，本文方法的平均准确率和较好的DLSR方法一致，平均召回率低于DLSR方法6%，覆盖率低于DLSR方法2%.可见，当Corel5K数据集上含有20%的噪声数据时，本文方法依旧有一定的优越性.

5 结束语

本文提出了一种基于视觉和语义互学习的标签完备标注方法，通过基于视觉和语义的两次互相学习，有效地实现了图像标签完备标注.第1次融合待完备图像视觉特征和初始语义搜索其近邻图像集，提升了近邻图像集的质量；第2次依据候选标签与初始标签的视觉内容和语义，并结合标签频率进一步考虑候选标签与待完备图像之间的关联关系，有效地对候选标签进行了去噪优化.在基准数据集Corel5K以及真实数据集Flickr30Concepts上进行实验，证明了本文方法标签完备标注的性能.下一步的研究工作主要是利用视觉特征聚类划分待完备图像初始标签语义优先级，去除初始噪声标签，更好地提高近邻图像质量，进一步提升图像标签完备标注精度.