基于双模语义空间的图像标注

2017-12-21曹瑛

数字技术与应用 2017年10期

曹瑛

摘要：本文着眼于图像底层视觉和文本标签这两种模态信息，探讨基于双模语义空间的图像标注技术。将视觉特征与文本标注表示为同一对象的两种视图方式，考虑两个特征空间之间的语义对偶关系，在双模主题构成的对称空间上构建一个非概率主题标注模型，为图像标注研究提供新思路和理论依据。

关键词：图像标注；双模；语义

中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2017）10-0098-01

随着网络多媒体数据的剧增，图片正呈爆炸式增长，人们如何从海量的图像中找到自己想要的图像是当前研究的热点。如果能将图片用若干文本进行标注，就能将图像的检索问题转换成更为成熟的文本检索问题来处理，所以实现图像语义检索的关键便是自动图像标注技术，即给未知图像添加能描述其内容的文本关键词的方法。

1 自动标注常用算法

图像自动标注方法大概可以分成两类：有监督分类的方法和关联建模的方法。其中有监督分类的方法是将各个语义类别看作独立的概念，为每个语义类别建立单独的分类器[3]。新进一幅图片，通过计算视觉特征相似度，将相应的文本关键词传播给新图片。

关联模型这类方法利用现有的已标注好的图像数据集，试图在无监督的基础上学习图像的视觉特征和文本关键词之间的关联，再将这种关联应用于未标注的新图像，通过统计推理来预测新图像的语义信息。

借助有标注的图像训练集，运用无监督学习的方法对图像视觉特征和标签关键词之间的语义关联进行建模，对于新的未标注图像，通过这种关联再进行统计推理得到标注词汇。这种基于概率关联的模型方法最早提出的有机器翻译模型、跨媒体相关模型、对偶跨媒体相关模型[2]。近年来LDA模型[3]取得了更好的成效，首先在图像的视觉特征空间和文本特征空间分别生成潜在主题，选择一个子集形成混合的LDA模型来实现语义标注。基于概率的PLSA-MIXED模型[4]，则是将视觉特征和文本特征串联组合成一个混合的特征空间，完成基于潜在语义分析的图像标注。PLSA-FUSION模型[5]则是通过分别建立视觉潜在语义空间和文本潜在语义空间，然后采用动态自适应的方法进行融合，形成它们共同的潜在主题空间。

这些提取图像不同模态潜在主题的统计模型在图像标注领域已取得成功的应用，但是在这些基于PLSA的图像标注模型中，既没有考虑文本关键词之间的语义关联，也没有考虑视觉特征之间的语义关联，如果能将这两种因素都进行考虑，必然会提升图像标注的性能。

本文着力于构建一个语义空间能够很好的反映图像与图像、标注与标注、图像与标注之间的语义对应关系，提出基于双模语义空间的图像标注技术。首先将视觉特征与文本标注表示为同一对象的两种视图方式，运用偏最小二乘（PLS）的多元统计分析理论，考虑两个特征空间之间的语义对偶关系，抽取得到双模态共有语义信息，在双模主题构成的对称空间上构建一个非概率主题标注模型，为图像标注研究提供新思路和理论依据。

2 双模语义的图像标注

我们拟在数据集上，将视觉特征与对应的标注看成是从同一表示层面描述相同对象形成的不同视图，提取同一对象在各表示层面上的语义表示，综合考虑图像与图像、标注与标注、图像与标注之间的语义对应关系，构建双模态的潜在语义主题空间。图像集中的m幅图像的两种模态特征分别表示为视觉特征和文本特征，使用偏最小二乘（PLS）从数据集中为图像视觉特征和标签文本特征抽取对偶主题空间，通过模型化语义相关性的统计依赖关系来建立双模主题的语义对应关系。图像投影到双模主题空间计算图像与图像的相似度，标注与标注的相似度进一步改善图像的标注。

新来一幅未标注图像，视觉特征表示为

，经变换得到：

（1）

其中，，然后根据训练得到的ξi，按照下面的公式，递推出未标注图像在视觉主题空间的投影向量：

（2）

（3）

其中，pk是回归系数，tk0是中间变量，最终图像的标注属性可以这样计算出来：

（4）

可以看到矩阵y方便的表示图像的标签属性，而对于每一幅待标注图像最终得到预测向量，它的每个分量代表对应标签的预测结果，预测结果越接近，分配该标签关键词的可能性越大。我们通过对每一个标签关键词预设一个阐值来判断它是否作为图像的标注信息。

参考文献

[1]Blei DM， Jordan MI. Modeling annotated data. In： Proc. of the 26th Intl ACM SIGIR Conf. on Research and Development in Information Retrieval. New York： ACM Press， 2003. 127-134.

[2]Jeon J， Lavrenko V， Manmatha R. Automatic image annotation and retrieval using cross-media relevance models. In： Proc. of the 26th Intl ACM SIGIR Conf. on Research and Development in Information Retrieval. New York： ACM Press， 2013. 119-126.

[3]Lavrenko V， Manmatha R， Jeon J. A model for learning the semantics of pictures. In： Thrun S， Saul LK， Scholkopf B， eds. Advances in Neural Information Processing Systems 16. Cambridge： MIT Press， 2004. 553-560.

[4]Monay F， Gatica-Perez D. Modeling semantic aspects for cross-media image indexing. IEEE Trans. on Pattern Analysis and Machine Intelligence， 2009，29（10）：1802-1817.

[5]李志欣，施智平，李志清，史忠植. 融合語义主题的图像自动标.Journal of Software，2011，22（4）：801-812endprint