跨媒体检索的技术研究
2014-04-29胡昕孙巍
胡昕 孙巍
摘 要 在实际的媒体检索实践中,可以观察到普遍存在一种近邻关系非可逆的现象:假设媒体对象i在媒体对象j的检索结果中,但媒体对象_/并不一定存在于媒体对象f的检索结果中。然而,如果两个媒体对象各自存在于对方的检索结果中,也就是两个媒体对象满足近邻关系可逆性,那么这两个媒体对象很有可能是真正相似的。于是就可以利用近邻关系可逆性来帮助提高检索精度。针对图像检索中近邻关系对于近邻数量的敏感性,提出了一种自适应近邻数量选择算法。该算法可以自动的为数据库中的每个图像选择一个合适的近邻数量,从而避免算法对不同类型图像数据库的差异性。
关键词 跨媒体检索 图像检索 LRGA算法
中图分类号:TP3 文献标识码:A
跨媒体所包含的内容非常广泛,包括多媒体数据的存储、多媒体数据检索、多媒体数据的组织管理、多媒体数据的传播和应用等等多个方面相关理论和技术。跨媒体指的是跨越媒体数据的不同媒体形式而共同表达同一语义。也就是说,要研究的跨媒体包括多种媒体形式,而这些媒体数据相互协助来共同表达传播者要传播的信息和目的。如在一个新闻网页中包含的图像和文字两种媒体形式就是所要研究的一个跨媒体对象,它们表达的形式不同,但都在描述该条新闻,在表达时文本和图像做到互相补充、互相解释,共同完成描述该条新闻的功能。
就目前而言,关于跨媒体的研究主要包括以下几个方面:
(1)与跨媒体相关的硬件技术。如输入输出多媒体数据的硬件设备、存储和传输多媒体数据的相关硬件设备配置等。
(2)跨媒体内容检索技术。也就是本文主要介绍的在多种类媒体数据之间进行检索。
(3)跨媒体数据的表达。如何更有效地表示跨媒体数据,方便计算机进行管理和检索,是跨媒体研究的重要课题。
(4)跨媒体数据的推理。即如何让计算机根据已知的多媒体数据,推理产生新的相同类型或不同类型的多媒体数据,从而实现更有效的对多媒体数据进行组织。
(5)跨媒体数据的存储、组织和应用。更有效地对跨媒体数据进行存储和组织,然后进一步利用好跨媒体数据,使其方便于人类的生产和生活,是跨媒体研究的重要内容。
上述跨媒体的五个研究内容中,跨媒体检索的研究是所有其他研究内容的结合点和最终目标。跨媒体检索的研究目标是分析一种媒体数据和多种媒体数据之间的语义关联,在一种或多种媒体数据间进行检索。具体而言,跨媒体检索就是用户提交任意一种媒体的查询,检索相同或者不同种类的相关多媒体数据。由于同种类媒体的检索可以认为是单一媒体形式的检索,所以人们更多关注于不同种类间媒体数据的检索,也就是用户提交某种媒体查询来检索出其他种类媒体数据。
比如,用户提交一个文本查询,检索到与该文本相关的图像或音频等。另外,一些跨媒体检索系统也支持用户提交多种媒体数据对象,来检索多种媒体数据对象。
对图像提取的全局特征主要包括颜色特征、纹理特征、形状特征和空间关系特征等。本小节将对这几种全局特征做一简要介绍。颜色特征:通常情况下,颜色特征由颜色直方图来表示,而最常用的是1991年提出的颜色直方图相交方法。
比较常用的局部图像特征描述子有Harris角点、SIFT和SURF等,其中SIFT特征描述子在基于内容的图像检索中最为常见,本文后面实验章节也是使用的SIFT特征描述子。
在跨媒体检索研究领域中,最大的障碍就是人们常说的“语义鸿沟”,也就是说在不同媒体类型间找到它们的语义关联。在文献中,作者将照片剪辑根据场景分类进行了自动标注,然后根据这种关于场景的语义标注可以选择合适的音乐来进行多媒体幻灯片的放映。深入挖掘图像和声音的语义关联,成功对图像和声音数据进行了聚类。为了对跨媒体数据进行统一表示和组织,文献提出了一种两层流形学习方法来构建跨媒体检索系统。该方法首先为图像数据、音频数据和文本数据。构建三个独立的图,这三个图将图像数据、音频数据、文本数据映射到三个独立的空间中,然后将这三个数据空间结合形成多媒体文档语义空间(Multimedia Document Semantic Space缩写成MMDSS)。然而这种方法有一定缺陷:在建立这三个独立的空间时,不同种类的多媒体文件间的语义关联并没有被考虑到;另外,两层流形学习方法需要调节大量的参数,其复杂程度并不适用于实际使用。于是文献提出了只建立一个图的跨媒体检索系统方案,在这个图中每个多媒体对象都是一个顶点,图中顶点间的距离根据单一媒体对象来确定。尽管这种只建立一个图的方法简化了流形学习的困难程度,但仍然没有能够对不同种类多媒体文件间的语义关联进行很好的分析和利用。
在多媒体关联空间中,每个多媒体文档就是该空间中的一个数据点。有研究人员提出了一种排序算法(local regression and global alignment,缩写为LRGA算法),该算法通过学习一个拉普拉斯矩阵来对数据进行重排序。尽管LRGA算法在检索过程中能够将不同类型的多媒体对象结合起来,但它仍有一些缺陷。首先,尽管多媒体文档距离能够把多种类型的多媒体对象信息都包含在内,但它依赖于该类型的媒体对象的检索精度,这有可能使得某种媒体对象对当前多媒体文档表达语义的贡献变得很小。其次,建立多媒体文档语义空间需要对所有媒体对象的距离都进行计算,这在处理大型多媒体数据库时变得困难,因为随着多媒体文档数据量的增大,多媒体文档距离矩阵也变得异常庞大,这为进一步的处理带来了困难。