数字图书馆的语义图像检索综述

2016-01-19王华秋重庆理工大学计算机科学与工程学院图书馆重庆400054

图书馆理论与实践 2015年4期

●王华秋，聂　珍，王　斌（重庆理工大学.计算机科学与工程学院；.图书馆,重庆　400054）

数字图书馆的语义图像检索综述

●王华秋a，聂珍b，王斌a
（重庆理工大学a.计算机科学与工程学院；b.图书馆,重庆400054）

［关键词］数字图书馆；语义映射；图像检索；综述

［摘要］结合国内外图像语义映射领域最新的研究成果，给出了图像语义映射框架，并将现有的语义映射方法分为三大类，对各类方法中的典型模型逐一进行了讨论，同时介绍了图像语义映射的关键技术。最后结合目前图像语义映射方法问题提出了今后该领域的研究重点及方向。

数字图书馆的图像作为数字信息的重要组成部分，以其内容丰富、生动形象、清晰明了等特点在人类生活中扮演着越来越重要的角色。随着社会数字化程度的不断提高，数字图书馆图像在人类工作、生活的各个领域应用和传播也越来越广泛，其数量正以惊人的速度增长。如何从海量图片中获取满足用户需求的图像已成为科研工作者的研究目标。目前，存在的图像检索方法大致分为三个阶段：基于文本的图像检索（TBIR）、基于内容的图像检索（CBIR）以及基于语义的图像检索（SBIR）。

基于文本的图像检索需要人工对图像的标题、作者等相关信息进行标注，从而将视觉信息转换成文本信息以便于检索。目前，国内外的主流搜索引擎如Google、Yahoo、百度等在进行图像检索时主要仍采用基于文本的检索方式。虽然这种方法简单直观，符合人们对图像语义的理解，但是，由于互联网图像数据的快速增长，人工标注所带来的费时费力、效率低等缺点已使人们无法接受，远不能满足当今图像快速增长的需要。同时，人工标注具有一定的主观性，不能全面满足人们的需求。基于内容的图像检索通过自动提取图像的低层特征，包括图像的颜色、纹理和形状等低层视觉特征并将其以某种方式组合为特征向量，进而计算出图像对应的特征向量之间的距离，并通过相似度比较实现检索图像的目的。国内外典型的CBIR系统主要有国外的QBIC、Virage、NeTra、SIMPLIcity、Blobworld以及国内的百度识图。但是，图像低层特征与人类所理解的语义存在较大的距离，即存在所谓的“语义鸿沟”。［1］所以，采用低层特征并不能充分地表达图像的深层语义，仅以低层特征为检索依据得到的检索结果往往不尽如人意。研究图像语义映射的目的就在于提取图像所表达的高层语义，并将其应用到图像检索中，从而提高图像检索效果。但是，由于“语义鸿沟”的存在，图像的低层特征和高层语义没有固定的关联性，难以直接推导，这也使图像语义映射具有巨大的研究价值。

1　图像语义映射的关键技术

图像语义映射的核心目的是为了填补图像低层特征和高层语义之间的“语义鸿沟”，首要工作就是要确定低层特征的提取方法，一个合理的低层特征提取方法是能够有效地实现语义映射的关键。除此之外，由于图像低层特征的复杂性，很难将低层特征通过直接的方式推导出其对应的高层语义，如何处理好低层特征与高层语义的关系，获取特征与语义之间的关联知识，同样是解决好语义映射问题的关键。

2　图像语义映射框架

图像的语义映射主要是通过分析训练集中图像的特征，并通过机器学习的方式将训练集中的图像低层特征和语义关键词建立联系，得到一定的知识或者规则，之后通过这些知识对新图像进行语义映射，从而获得新图像的高层语义描述。整个框架主要包括图像预处理、图像低层特征提取、训练低层特征及其对应的语义以得到语义映射知识、新图语义映射等环节。图像预处理主要包括图像的降噪、增强、分割等，合

理有效的图像预处理能使提取出的低层特征更具针对性和代表性。其中，图像分割对于能否对图像主体部分特征进行有效的提取至关重要。常见的图像分割方法主要有阈值法、边缘检测法、区域增长法、聚类法等。特征提取是将图像自身的内容信息提取出来，并组织成某种形式如向量、矩阵、直方图等。特征提取作为图像检索的核心内容，一直都是该领域研究者的研究重点。低层特征主要包括颜色、形状、纹理等一些定量的特征，这些特征可以通过计算机自动或人机交互的方法获取。良好的特征提取方法是语义映射和图像检索的关键。语义训练及映射方法将在第三部分详细介绍，图像语义映射一般框架如图1所示。

图1　图像语义映射一般框架

3　图像语义映射方法

假设图像数据库I=｛I1,I2,…Im-1,Im｝共m张图片，语义集S=｛S1,S2,…Sn-1,Sn｝共n个语义关键词，语义映射的主要目的是为图片Ii找出适合描述该图片的语义集P，其中P∈S。为了实现该映射，需要通过训练集及其中各图片对应的目标语义集的训练来获取映射知识，从而实现新图像的语义映射。训练集可以表示为T=｛（I1,P1）,（I2,P2）,…（Ik,Pk）｝，其中（Ii,Pi）为一个训练子单元。常见的语义映射方法大致分为三类，监督式的图像分类法、非监督式的图像聚类以及相关反馈的语义学习法。

3.1图像分类法

有监督的图像分类法是通过机器学习，将事先标注好的训练集进行训练，获取语义分类器也就是映射知识，然后利用分类器将未映射的图像进行分类，从而获取其语义特征。常用的有监督图像的分类法有贝叶斯分类器、支持向量机（SVM）以及神经网络。

贝叶斯分类器是以贝叶斯定理为基础的监督式分类器，它可以预测一个给定样本属于某一类的概率。［2］使用贝叶斯分类器需要满足以下两个先决条件：［3］（1）要决策分类的类别数是已知的；（2）各类别总体的概率分布是已知的。在条件（1）中，假设共有m个模式类，分别用wi（i=1,2,…,m）来表示。在条件（2）中，假设待识别样本的特征值X所对应的后验概率P（|wi）是已知的，或者对应于各个类别出现的先验概率和类条件概率密度是已知的。

在利用贝叶斯分类器的图像语义标注中，可以将语义映射看为一个简单的二分类问题，对于某种语义概念将图像数据库分为属于和不属于两类。然后将产生的分类器应用到图像数据库中所有的图像进行语义映射，判断某图片是否具有目标语义。2012年，杨文等［4］将贝叶斯信息准则应用于自动确定聚类类别数的极化干涉SAR非监督分类中，该方法通过贝叶斯信息准则自动确定非监督分类的最佳类别数，能够有效地实现图像分类。2013年，杨栋等［5］提出了贝叶斯通用背景模型并将其应用到图像语义的标注之中。该方法引入受限的堆成Dirichlet分布来描述GMM权重参数的先验分布，利用Beyes最大后验概率对高斯混合模型参数集进行了估计，具有良好的图像标注精度。在简单贝叶斯分类器的基础上，Pearl于1988年提出了贝叶斯网络的概念，它可以采用图形的形式直观地表示变量之间的因果关系或概率关系，［6］因此也被广泛应用于图像分类。虞欣等［6］将贝叶斯网络应用于航空影像建筑物及灌木的语义提取之中，证明了通过贝叶斯网络将图像的低层特征映射为语义特征是可行的，并且能够进一步提高分类精度。Cheng等［7］将贝叶斯网络应用于基于语义特征的图像分类之中，利用贝叶斯网络训练出来的知识填补“语义鸿沟”，并成功地应用于女装图片的分类。

支持向量机同样广泛地应用于图像分类，传统的支持向量机是二分类器，对于训练集T=｛（I1,P1）,（I2, P2）,…（Ik,Pk）｝，其中，Ii表示图像i的特征向量，Pi∈｛1,-1｝表示图像所属的类标号。其原理是通过计算得到一个超平面，使得超平面与各类最接近的数据的距离最大化，从而将数据分成两类。由于支持向量机本身仅具有二分类性质，所以，利用支持向量机的语义映射往往需要对每个语义进行单独训练，对于某一指

定语义，需要将训练图像集分为包含该语义与不包含该语义两类并进行训练，从而得到若干分类器。虽然后期有研究者提出多分类的支持向量机，［8］但利用的还是其二分类的性质，没有本质上的改变。对于多分类的问题，传统的多分类支持向量机会产生不可分区域。针对该问题，Li等［9］将模糊支持向量机（FSVM）应用于图像分类与检索中。该方法通过模糊支持向量机计算出样本x对i类的归属程度mi（x），然后将样本x归属到mi最大的一类。实验结果表明，对于可分的区域，FSVM与传统SVM具有相同的分类效果，对于不可分区域，FSVM的分类效果明显优于传统SVM。在Li提出方法的基础上，黄文宇等［10］将最小隶属度支持向量机引入到面向语义的图像检索中，同样有效地消除了传统支持向量机由于多分类而产生的不可分区域，并成功地实现了面向语义的图像检索，在查全率和查准率方面相对于传统的支持向量机方法均有所提高。

神经网络作为机器学习的重要工具，被广泛地应用于非线性建模、模式识别、函数逼近、数据压缩等方面。由于神经网络具有强大的映射能力，很多学者将其应用到图像语义的映射中。采用神经网络分类法的图像语义映射同样需要训练集的参与，训练集可设定为，其中，表示图像的低层特征向量，表示对应的目标向量。不同的神经网络适用于不同的应用环境。孙君顶等［11］采用基于LBP算子的方向纹理谱描述符来描述医学图像的低层特征，采用二进制数00、01、10、11作为各类图像的目标输出，并以BP神经网络进行训练，实现了腹部、胸部、头部、其他四类图像的语义映射。Malay等［12］提出了交互式的图像检索模型。该模型使用MPEG-7边缘直方图描述符（EHD）作为低层特征，神经网络作为预分类器，通过神经网络预分类器对图像库进行预分类，通过不同的编号来表示被分成的各个子集，减少了检索时的搜索空间，提高了检索速度。Yang等［13］通过边缘直方图描述符来提取图像的低层特征，最后以16×5的向量表示图像低层特征，并使用回声状态网络填补“语义鸿沟”，成功实现语义映射。

图像分类法具有较高的语义映射能力，它为每个语义概念建立独立的映射模型，然而，该方法也存在一定的问题：①由于图像分类需要训练集的参与，同样需要人工对大量训练集进行标注，仍存在人为标注所带来的主观性；②图像分类法只能对固定的类别进行训练，这些类事先已经确定，当未标注图像中存在确定类以外的图像时，将不能实现准确的语义映射。

3.2图像聚类法

图像聚类是典型的无监督学习法，它没有输出来指导学习的过程，其目的主要是将图像按照某种规则进行聚类和组织，使同一聚类中的相似度最高，不同聚类之间的相似度最低。基于图像聚类法的语义映射首先是对图像集进行聚类，之后采用统计方法或机器学习方法为每个聚类赋予相关的类标签，从而实现语义映射。

K-means算法是一种典型且应用较为广泛的聚类算法，但传统的K-means算法随机选取聚类中心使得聚类结果不稳定，对初始聚类中心具有一定的依赖性，吕明磊［14］等提出了一种改进的K-means算法，并将其应用到Corel图像库的聚类中。它首先计算图像特征库里面所有颜色直方图之间的欧式距离，把距离最大的两个特征向量作为前两个初始类心，之后在剩余的特征向量中查找与已有的初始类心距离之和最大的特征向量作为下一个初始类心，直到查找到全部初始类心，然后依据初始类心进行聚类，有效地解决了随机选取聚类中心带来的不稳定问题，提高了检索效果的稳定性及准确性。崔君君等［15］于2014年提出了一种视觉单词与标注单词共生的聚类算法。该算法首先采用K-means算法对图像聚类，得到聚类中心，之后在图像标注字空间计算标注单词在各聚类中心下的统计分布，从而简历视觉单词与标注单词共生矩阵，有效地实现了Pascal VOC 2007标注图像数据库的图像标注，提高了聚类算法的性能。

Frey等［16］于2007年在Science上提出近邻传播聚类算法。该算法是一种基于近邻信息传播的无监督聚类算法，该算法将所有数据点作为候选点，避免了K-means算法聚类结果受初试聚类中心影响的缺点。另外，该算法通过相似度信息的传播以优化目标函数，计算更加高效且容易实现。钱丽丽等［17］将图像颜色、纹理和边缘特征使用近邻传播算法进行初次聚类，得到初次聚类中心，将得到的初次聚类中心作为K-means算法的初试聚类中心进行二次聚类，将两种算法的优点有效地结合在一起，聚类效果优于单纯的近邻传播聚类和K-means算法。

基于聚类的语义映射对应的语义概念具有可扩展性，同时能够有效地减少人工标注所带来的麻烦，但单纯的聚类并不能完成真正意义上的语义映射，往往需要与其他技术相结合，如机器学习、统计等才能真正实现语义映射，得到较好的映射效果。

3.3相关反馈的语义学习法

基于监督式的分类语义映射与非监督的图像聚类都是离线式的学习技术，而相关反馈语义学习法则是一种在线学习技术。该方法主要通过图像检索阶段用户对系统产生的检索结果的评价来调整相似度度量方法或者学习策略等，从而实现语义知识的更新，优化映射效果。

相关反馈的语义学习法的一般步骤为：（1）通过简单的图像检索算法为用户提供初始的检索结果；（2）用户通过主观判断将系统反馈的结果分为正例和反例；（3）系统通过反馈结果调整学习策略或相似度度量方法等；（4）系统利用新的检索方法重新向用户反馈检索结果。

相关反馈方法早期就被应用于基于内容的图像检索中。基于语义的图像检索出现后，大量研究者试图将相关反馈技术应用于基于语义的图像检索中，欧阳军林等［18］早期为了解决传统语义映射方法在速度及准确度等方面不令人满意的问题，将相关反馈应用于基于语义的图像检索系统，该系统将基于语义的图像检索与基于颜色的图像检索相结合，同时可以根据用户的反馈从图像中取出高层语义词特征，并不断地修正某种颜色在图像中的重要程度。Mohammad Kazem Anvarifard等［19］提出了基于加权相关反馈的图像模糊化方法，并将其应用到图像检索中。该方法通过FCM算法将颜色特征量化到20维，然后利用KNN算法对特征向量进行模糊化处理。在相关反馈中，用户首先通过0、1对系统反馈的检索结果进行标注，从而得到正例及反例图像，然后系统根据用户的反馈信息调整各图像属于某种语义的权重，之后根据不同的语义组建立索引，从而实现图像检索。Yang等［13］提出了一种基于回声状态网络的相关反馈图像检索方法，提出了如图2的图像检索框架。

该方法通过学习用户返回的正例、反例及不相关例三种情况，重新将正例、反例及不相关例对应的特征向量放入回声状态网络中进行学习，从而使得到的分类器更符合人的主观意识，使得语义映射效果更令人满意。

有部分学者将传统的智能算法与图像相关反馈相结合，Chen等［20］利用蚁群算法提高了用户相关反馈信息的利用效率，并将其应用到基于语义的图像检索中。该方法通过蚁群算法建立语义网络，用一个信息素矩阵来存储图像间的语义相关程度,将用户检索图像的过程视为蚂蚁的一次外出觅食。通过矩阵记录用户的反馈信息，计算量小，运算速度相对较快，高效地利用了用户的反馈信息。张振花等［21］将粒子群优化算法与相关反馈算法结合在一起，并应用到图像检索中，通过学习动态的调整各特征的权值，从而实现模拟人类思维的目的，提高检索性能。

图2　基于回声状态网络和相关反馈的图像检索框架

虽然本文将语义映射方法分为分类法、聚类法、以及相关反馈法三大类，但并不代表彼此之间没有联系。相反，在进行语义映射时往往需要多种语义映射方法相互协调配合。

4　图像语义映射的发展趋势

图像从低层特征到高层语义的映射一直以来都是多媒体信息检索领域研究的热点与难点，根本原因在于低层物理特征与高层语义之间的复杂关系到目前为止仍未很好地解决。为了提高图像语义映射精度与效率，未来需要在以下几个方面展开更深入的研究。

（1）优化图像分割及特征提取方法。图像分割往往是图像区域特征提取的第一步。目前，许多技术只是将图像简单地分成几个区域，仍缺乏简单易行而又准确可靠的通用办法。所以，完善图像分割技术，准确分割图像是以后势必要研究的内容。图像低层特征提取是语义映射的前提，合理的低层特征提取算法对能否正确地实现语义映射意义重大，目前的图像低层特征提取算法大多普适性较差，所以，图像低层特征的提取仍是以后数字图书馆图像领域的研究重点。（2）完善反馈机制。充分利用用户丰富的先验知识，将语义映射融入到图像检索的过程中并加入人的主观因素，根据用户的反馈信息重新调整映射策略，从而得到更令人满意的映射效果。目前，相关反馈技术已大量应用在图像语义的获取中，但效率有限，如何提高用户反馈信息的利用效率，也是今后研究者们研究的重点内容。（3）提高机器学习效率。机器学习作为语义映射中的重要技术，一直以来都是研究者的研究重点，提出新的机器学习方法以及如何有效地将机器学习技术融入语义映射之中，进而实现高效的语义映射仍会是今后一段时间的研究热点。（4）目前，大多

数的语义理解是建立在单幅图片上的，为了能够对大规模场景语义进行深入理解，应在多图联合语义理解方面进行更加深入的研究。

［参考文献］

［1］孙君顶，杜娟.图像自动语义标注技术综述［J］.计算机系统应用，2012，21（7）：258－261.

［2］詹总谦，等.一种利用纹理特征和朴素贝叶斯分类器检测近景影像植被的方法［J］.武汉大学学报（信息科学版），2013，38（6）：665－668.

［3］许国根，贾瑛.模式识别与智能计算的MATLAB实现［M］.北京：航空航天大学出版社，2012：8－11.

［4］杨文，等.基于贝叶斯信息准则的极化干涉SAR图像非监督分类［J］.电子与信息学报, 2012, 34（11）：2628－2633.

［5］杨栋，等.基于贝叶斯通用背景模型的图像标注［J］.自动化学报，2013，39（10）：1674－1680.

［6］虞欣，郑肇葆.基于语义特征和贝叶斯网络的航空影像建筑物及灌木分类［J］.测绘学报, 2010, 39（3）：245－250.

［7］Cheng Hongjun，Zhang Junfeng.Classification of image based on semantic features and Bayesian networks［C］//2011 International Conference on Consumer Electronics. Communications and Networks（CECNet），2011：4858 －4861.

［8］Glenn Fung，Olvi L Mangasarian.Proximal support vector machine classifiers，proceeding［J］.KKD，2001（8）：77－86.

［9］LI Jian-ming，et al.Image classification based on fuzzy support vector machine［C］//Proc of International Symposium on Computational Intelligence and Design，2008: 68－71.

［10］黄文宇，等.基于模糊支持向量机的面向语义图像检索算法［J］.计算机应用研究, 2011，28 （5）：1987－1990.

［11］孙君顶，李琳.基于BP神经网络的医学图像分类［J］.计算机系统应用，2012，21（3）：160－162.

［12］Kundu，M K&Chowdhury，M.Image retrieval using NN based pre-classification and fuzzy relevance feedback ［C］//2010 Annual IEEE India Conference（INDICON），2010：1－4.

［13］Yuan-feng Yang，etal.Imageretrievalusing ESNs and Relevance feedback［C］//2012 11th International Symposium on Distributed Computing and Applications to Bussiness，Engineering&Scinece，2012：383－387.

［14］吕明磊，等.基于改进K-means算法的图像检索方法［J］.计算机应用，2013，33（S1）：195－198.

［15］崔君君，等.协同视觉信息与标注信息图像聚类［J］.哈尔滨理工大学学报，2014，19（2）：57－61.

［16］Frey BJ，Dueck D.Clusteringbypassingmessagesbetweendatapoints［J］.Science，2007，315（5814）: 972－976.

［17］钱丽丽，施鹏飞.近邻传播算法在非监督图像聚类中的应用［J］.微型电脑应用，2011，27 （2）：34－36.

［18］欧阳军林，等.基于高层语义及相关反馈的图像检索［J］.计算机工程与应用，2006（25）：159－165.

［19］Mohammad Kazem Anvarifard，et al.Image Semantic Retrieval Using Image Fuzzification Based on Weighted Relevance Feedback［C］//2010 18th Iranian Conferenceon Electrical Engineering（ICEE），2010：476－482.

［20］CHEN Guangpeng，YANG Yubin.Memory-type image retrieval method based on ant colony algorithm［J］. Journal of Frontiers of Computer Science and Technology, 2011，5（1）：32－37.

［21］张振花，等.基于粒子群算法的图像相关反馈研究［J］.系统仿真学报，2012，24（1）：242－244.

［收稿日期］2014－12－02 ［责任编辑］菊秋芳

［作者简介］王华秋（1975－），男，重庆人，博士，重庆理工大学教授，研究方向：信息检索与挖掘；聂珍（1980－），女，硕士，馆员，研究方向：信息服务；王斌（1991－），男，在读硕士，研究方向：数据挖掘。

［基金项目］本文系国家社会科学基金项目“数字图书馆的智能图像检索系统研制”（项目编号：14BTQ053）的研究成果之一。

［文章编号］1005－8214（2015）04－0006－05

［文献标志码］A

［中图分类号］G250.76