基于文本和内容检索的美术作品查询系统

2012-09-20刘爽史萍

中国传媒大学学报(自然科学版) 2012年3期

刘爽，史萍

(中国传媒大学信息工程学院，北京100024)

1 引言

随着经济水平不断提高，物质资源逐渐丰富，人们开始追求精神层面的享受。美术作为艺术的一种，能直观地传达美感，沟通心灵。随着多媒体和互联网技术不断发展，人们将传统艺术和现代技术结合，提出了数字美术馆的概念。数字美术馆以数字化的形式存贮各种不同载体、不同地理位置的美术作品和画家资源，实现了美术作品的保存、展示、销售、研究、教育等功能。这种形式将真实的美术馆数字化、虚拟化，充分体现了现今网络共享的思想。观众无需出门，即可舒适地欣赏到世界著名美术馆珍藏的上万幅艺术作品。然而，这样的数字美术作品管理系统却面临着如何有效地组织和检索大规模图像数据的问题。传统的基于文本的图像检索技术(Text-based Image Retrieval，简称 TBIR)从图像名称、作者、年代等方面标引图像，以关键词的形式进行图像检索，回避了对图像可视化元素的分析，其性能取决于用户对方法的理解，具有很大的局限性［1］。面对多元化的查询需求，基于内容的图像检索技术［2］(Content-based Image Retrieval，简称 CBIR)显得更为重要。这种技术使用特定的算法手段由计算机自动提取包含图像内容的可视特征，如颜色、纹理、形状、对象的位置和相互关系等，通过降维技术，构建索引结构，融合图像多特征进行索引匹配。基于内容的图像检索技术克服了传统检索方法的缺陷，已成为国内外研究的热点。

综上所述，本文设计和实现了一种美术作品查询系统。该系统结合上述两种图像检索技术，通过人机对话，能够方便快捷地查询到美术作品信息。

2 系统设计和实现

2.1 系统设计

本文设计的美术作品查询系统共分为四大模块:用户模块，描述模块，查询模块，数据库模块。该系统能实现基于文本和基于内容的两种作品检索方式。用户可以输入作品的关键字，文本匹配得到结果。当用户希望搜索与感兴趣作品相似的图像时，可以输入检索图像，采用基于图像内容的检索方式得到结果。图1表示系统结构。

图1 系统结构

数据库模块采用典型的图像数据库。它是与图像有关的数据集合，包括图像的文本数据和图像内容数据。文本数据可以使用基本数据类型，或由基本数据类型组成的复杂数据类型准确地描述。图像内容包括图像实体及其特征、图像内某一对象的意义、图像之间的逻辑关系等。为了完成数据库的特征存储和特征查询功能，我们不仅需要把生成的特征向量以记录集的形式迅速加入数据库中，还需要使用查询语言快速定位想要的数据记录。本系统在指定位置存放作品图像文件，同时建立图像数据库，存储图像的文本和特征信息。两者通过图像地址关联起来。本系统采用SQL Server 2000工具设计数据库，一共建立了4张表。一张是图像文本信息表，用于存储作品图像的文本信息，包括作品名、画家、时代、分类、简介、地址、画家首字母七列。其他三张表均为图像特征表，用于存储作品图像的颜色、形状和纹理特征信息。

用户模块是用户和系统的接口。用户可以根据自己的需要，自主选择提交文字还是图片进行浏览或查询。若对检索结果不满意，该模块还提供调整查询条件的接口，以获得更好的检索效果。为了便于输入图像与数据库内作品进行匹配，描述模块对图像进行预处理后，提取图像的颜色、形状、纹理三大特征，接着传递给查询模块进行处理。查询模块是整个系统的核心。主要完成两大功能:基于文本检索功能和基于内容检索功能。当用户提交文本关键词时，根据指定条件把关键词和数据库图像文本表内的文本数据进行搜索，查询得到相关作品。当用户提交作品图片时，将描述模块提取出的特征值与数据库图像特征表内的特征数据计算相似度，根据相似度大小取出若干幅相似作品反馈给用户。

2.2 系统功能

本系统按照功能分为管理部分，浏览部分和检索部分。管理部分主要负责对图像数据库的管理，浏览部分可以按照分类或者画家浏览，检索部分可以按照图像内容或者图像文本检索。图2表示系统功能。

图2 系统功能

2.2.1 基于文本检索功能

基于文本检索功能是根据输入关键字，筛选出包含关键字的记录，主要是通过SQL的查询语句来实现。通过用户输入的关键词，应用SELECT语句检索数据表中的数据，而哪些数据被检索出来则由列出的数据行与语句中的WHERE子句决定。美术作品的文本信息繁多复杂。一幅作品有作品名、画家、分类等多个信息。作为用户，既有单独查询某个字段，也有联合查询多重信息的需要。因此，本文采取了两种文本检索方式，即:单条件检索和多条件检索，把多种用户需求完整地表达出来。单条件检索只限定用户对作品的单一信息进行查询。用户选定哪个字段查询，系统就只在该字段内检索。多条件检索提供了多条件同时满足下的查询。实际上，考虑到用户可能无法输入完整的作品信息，例如:画家的全名等，本文提供了人性化的模糊查询机制，只要包含输入关键词的都可作为检索结果，以防漏检。

2.2.2 基于内容检索功能

基于内容检索功能是在提取表征图像内容的颜色、纹理、形状的底层视觉特征的基础上，通过对查询图像和数据库图像在特征空间进行相似性匹配，检索得到样本图像或与之相似的图像。本文使用欧式距离计算图像特征之间的相似程度，按照相似距离从小到大的顺序排列，取排在前面的若干幅图像反馈给用户。

1)颜色特征提取

图像颜色往往和图像中包含的物体或场景十分相关，因此颜色特征的应用最为广泛。颜色具有一定的稳定性，对图像本身的尺寸、方向、视角的依赖性较小。颜色特征提取算法包括:Swain和Ballard提出的颜色直方图法，颜色集法、颜色矩法等。本文采用基于颜色结构直方图的特征提取算法。在提取颜色特征时，首先将图像的RGB空间颜色值转换成HSV空间颜色值，再进行采样。之后，根据符合人眼视觉特性的非均匀量化模式将图像的颜色值量化为72个等级，统计颜色结构直方图。

数字图像的颜色一般是用 RGB(Red，Green，Blue)三个值来表示的，而 HSV(Hue，Saturation，Value)模型［3］与人观察颜色的方式相一致，更贴近人眼的视觉特性，更有利于图像处理。

本文先将输入图像像素由RGB空间值转换至HSV空间值后，对HSV空间的数据进行量化，以降低直方图矢量维数。量化时，将HSV这3个分量按照色彩的不同范围和人的视觉分辨能力进行非等间隔的量化:把色调H空间分成8份，饱和度 S和亮度V空间分为3份。为了进一步降低HSV三个颜色特征组合维数，本文利用公式(1)把三者统一成一维向量G。

其中:Qs和Qv分别是分量s和v的量化级数，取 Qs=3，Qv=3，则:G=9H+3S+V

最后，本文采用统计颜色结构直方图［4］的方法记录颜色特征矢量的分布情况。具体做法是:用8×8的结构元素在图像上移动，统计在结构元素中出现了哪些颜色，只要某种颜色出现了，那种颜色的直方图值就加1，如果没出现，就不加，遍历之后即可得到颜色直方图信息。颜色结构直方图的优点在于它不仅包含了颜色信息，还包含了颜色与空间的结构关系。经过上述的处理可以得到72柄的直方图数据，将其存入数据库。

2)形状特征提取

物体和区域的形状是图像表达和图像检索中的另一个重要特征。形状特征通常和目标联系在一起，含有一定的语义信息，对感兴趣目标的检索很有效。由于形状的描述涉及到对一条封闭边界的描述以及对这个封闭边界所包围区域的描述，因此，形状特征检索分为基于轮廓的检索和基于区域的检索［5］。这里选用基于区域的简单形状描述方法:不变矩法。不变矩通常能满足平移、尺度、旋转不变性的要求，但在物体发生较大尺度旋转时，不能保证不变性。本文形状特征提取的具体步骤是:先对彩色图像提取亮度，对只含亮度值的灰度图像进行边缘检测，再根据边缘检测值，提取不变矩作为形状特征向量。

边缘检测是图像局部特征不连续性，如:灰度突变、颜色突变、纹理结构突变等的反映，通常选择一阶和二阶导数来检测边界。由于一阶、二阶微分算子的边缘检测很难得到区域的精确边缘，而Canny边缘检测利用高斯函数的一阶微分，在噪声抑制和边缘检测之间寻求了较好的平衡，抗噪性能优秀，因此，这里选用Canny边缘检测。Canny边缘检测首先对图像进行高斯(Gauss)平滑，以除去噪声，然后进行一阶微分运算，对获得的梯度幅值进行非极大值抑制，最后用双阈值算法检测和连接边缘。

边缘检测之后，我们需要提取表示形状特征的不变矩。本文选择一系列具有旋转、缩放和平移无关的七个矩(Hu矩［6］)来表征图像的形状。Hu矩是由二阶和三阶中心矩组合而成。由于Hu矩属于区域矩，所以需对其进行一些修正，使之变成适用于轮廓描述的曲线矩。最终将每幅图像处理得到七个形状特征描述向量存于数据库，以便特征匹配。

3)纹理特征提取

我们通常把图像中局部不规则而整体有规律的特性称为纹理。它是图像的全局特征，描述了图像或图像区域所对应的景物表面性质，包括表面结构组织及其与周围环境关系的许多重要信息［7］。该特征具有旋转不变性，对噪声也具有较强的抵抗能力。在检索具有粗细、疏密等方面有较大差别的纹理图像时，利用纹理特征进行检索是一种有效的方法。纹理提取方法主要有统计分析法、几何法、信号处理法和模型法。

目前纹理提取主要以统计分析法为主。在对图像区域划分和灰度化的基础上，本文提取各区域的局部边缘直方图［8］作为纹理特征。具体步骤是:对灰度化的图像进行4×4分解，采用五种可能的边缘检测符进行操作，对五种运算结果进行边缘提取，最后统计边缘直方图。

首先提取彩色图像亮度值，对灰度化的图像区域进行分解得到4×4个，共16个子图像，每个子图像又均匀分解成固定个数的2×2的图像块。对于每个子图像出现的五种可能的边缘类型:水平边缘、垂直边缘、45度边缘、135度边缘和无方向边缘，本文采取五种边缘检测操作符对五种边缘进行处理，得到五个方向的梯度值。图3表示五方向边缘检测模板。

图3 边缘检测模板

其次，对这五个边缘方向梯度的最大值进行阈值判断，若这个最大值大于预先设定的阈值，则说明图像有该方向上的边缘，将其计算入边缘直方图。最后，统计边缘直方图并且直方图归一化。由于图像被分成16个子图像，每个子图像能够统计出五种方向的边缘值，因此一共能提取出16×5=80柄的直方图数据，即:80维的纹理特征描述向量，存入数据库，以便特征匹配。

4)特征匹配

特征匹配是检索的最后一步。特征匹配是将查询图像提取得到的特征与图像数据库的候选图像特征进行比较，获取在视觉效果上最为接近的图像序列。从特征提取的分析可以看出，图像视觉特征大多用特征向量表达，所以常用的相似度度量方法都是向量空间模型，把图像的特征看作是向量空间中的点，通过计算两个点之间的距离来衡量图像间的相似程度。常用的度量函数有:绝对值距离、欧式距离、二次式距离(马氏距离)、直方图相交、加权欧式距离等。本文采用欧式距离计算图像之间的相似程度，这种方法度量精度较高，算法也相对简单。设两个向量分别为:A(x1，x2，…，xn)和 B(y1，y2，…，yn)，则两者的欧式距离定义为公式(2)。

5)综合多特征提取及匹配

以上采用的单特征检索方法只能表达图像的部分属性，缺乏足够的区分信息，常不能取得理想的检索效果。本文采取的多特征检索方法能更好地利用图像提供的各类“内容”得到用户意向的综合信息，通过融合三种特征得出一种贡献最大、最为典型的综合特征，增加返回图像中目标图像的比率。不同特征分量的幅度变化大、物理意义不同，相似距离的可比性差，一般需要利用内部和外部归一化［9］处理，使得不同特征在进行综合度量时具有相同的效果。

内部归一化使特征向量内部各分量在相似性度量时具有相同的地位。本文采用高斯(Gauss)归一化。高斯归一化是一种较好的归一化方法，其主要特点是少量超大或超小的数值对整个归一化后的元素值分布影响不大。具体的实现过程如下:

假设图像某一个特征是N维特征向量，记为:R=［r1，r2，…，rN］。假设图像库共有 M 幅图像，用I1，I2，…，IM表示，则任一幅图像 Ii的特征向量表示为:R=［ri1，ri2，…，riN］，rik表示特征向量 ri中的第 k个分量。M幅图像的特征向量即可组成一个M×N矩阵。矩阵中的每一列是维数为M的特征序列Rj=［r1j，r2j，…，rMj］，rkj表示图像数据库中第 k 个图像的第j个特征分量。首先分别统计矩阵中每个特征序列Rj的均值μj和标准差σj，然后通过公式(3)、(4)归一化至［0，1］空间，得到最终的归一化特征分量。

外部归一化是对图像库所有图像所有特征之间的相似距离进行归一化处理，使得不同特征在检索时发挥相同的作用。具体做法是:假设数据库内有M幅图像。计算查询图像某一特征向量与数据库所有图像在该特征上的欧式距离，得到，Di，i=0，1，…，M。求出Di的均值μ和标准差σ之后，按照公式(5)对M个相似距离进行归一化，可使得变换后的距离值都落在［0，1］区间内。

重复以上步骤，将查询图像与数据库图像在其他特征上都进行归一化处理，即第j个特征归一化后的相似距离为:D-ij，i=0，1，…，M，j=0，1，2。外部归一化处理后，可以保证不同的特征向量在相似度计算过程中的地位基本相同。

当得到归一化的3个特征欧式距离之后，需要对综合距离进行计算。假设三个特征的权重分别为:W1，W2，W3，则利用公式(6)可求得加权之后的距离。

综合特征检索时，用户根据自己的需要提供每个特征的权值，系统按照该加权距离从小到大排列出若干幅图像，作为检索结果。

2.3 系统实现

本文设计和实现了一个以Visual C++6.0为开发环境，使用SQL Server 2000的基于文本和内容检索的美术作品查询系统。数据库一共有122幅图像，按作品内容分为花鸟、建筑、人物、风景四大类，按时代分为现代和当代。画家采用首字母标记，作品有简介描述。

2.3.1 管理端实现

管理端是图像检索系统的管理员对数据库图像及其特征进行管理的平台，可实现美术作品的入库、查看、分类、修改、删除等功能。管理端分为两大模块:浏览记录模块和添加记录模块。图4表示管理端界面。

图4 管理端界面

浏览记录模块用于管理员浏览数据库的作品。系统不仅能显示作品的宽高信息以及作品名、画家、首字母、时代、分类、简介的文本信息，还支持管理员对图像的修改和删除功能。删除和修改成功后，数据库会自动更新，对话框也会实时刷新。

添加记录模块用于新作品的入库。打开的目标作品将会显示在下方的静态文本框内，文本框内填写好文本信息之后，依次单击“特征提取”和“信息入库”按钮，系统将自动分析该作品，提取其颜色、形状和纹理特征，把作品的路径信息，输入的文本信息以及特征向量存入对应的数据表内。

2.3.2 用户端实现

用户端是外来用户实现作品检索的平台。用户不但可以随意浏览美术作品，还可进行基于内容和文本的作品查询。用户端分为三大模块:浏览模块、内容检索模块、文本检索模块。图5表示用户端界面。

浏览模块支持分类和画家浏览。按分类浏览时，用户可选择花鸟、建筑、人物、风景分类中的一种进行浏览。按画家浏览时，用户可根据提供的姓氏首字母，快速选择画家名浏览。对于感兴趣的作品，用户可以双击缩略图，即可弹出作品的详细信息。

图5 用户端界面

文本检索模块支持用户填写关键词进行检索。系统采用单条件和多条件检索。单条件检索可以依据填写的作品或画家关键词检索;多条件检索可根据需要，填写分类、作品名、时代、画家中的多项信息进行检索。不需要查询的信息可以不填写。

内容检索模块支持用户输入查询作品，经过特征提取和特征匹配，检索得到相似作品。系统支持单特征和综合特征检索。多特征检索时，用户可使用滑动条灵活选择颜色、形状、纹理特征的权值(相应权值为百分制，显示在滑动条右边文本框内)进行综合检索。检索结果可以和原始作品对比显示。

2.3.3 实验结果分析

基于文本的图像检索较为准确。文本检索实验结果如图6所示。单条件检索时，查找包含“冰“字作品名的作品即可得到数据库唯一一幅于志学的《冰雪山水》作品，如图6(a)所示。多条件检索时，选择“人物”分类，作品名包含“花”的作品，可得到如图6(b)的六幅作品。单条件检索简单快捷，目标明确，多条件检索可以满足用户查询的多种需要。

基于内容的图像检索比较复杂。本文选取一幅花鸟图像，如图7所示，选择检索返回5幅图像，采用各种检索方式得到的实验结果如图8所示。

从实验结果可以看出，鉴于人眼视觉特性的复杂性，不同人对作品的相似性可能会有不同的判断，因此很难利用数据来评价实验结果。但从检索效果来看，单独利用颜色特征能检索出大范围颜色视觉感觉相似的作品。利用形状特征能检索出画面中有突出物体且画面主轮廓相似的作品。由于纹理特征可以针对作品整体灰度进行规律性的概括，对画面内容丰富复杂的图像检索性能较好。综合特征检索能够融合三大特征，更加贴近用户需求，检索效果比较好。总的来说，由于作品高层语义和底层视觉特性的不统一性，图像特征选取简单，图像特征提取算法的精度不高，相似度衡量不精确等原因导致有些检索结果还不符合人的视觉感觉。在今后的学习中，需要进一步进行研究。

图8 基于内容的图像检索结果

3 总结

本文设计和实现了一种基于文本和内容检索的美术作品查询系统。系统能够通过用户输入关键字以及提交查询作品图像进行检索。本文对图像特征提取技术、特征匹配等技术进行了研究，能够完成图像输入、数据库管理、图像处理、图像检索等各项功能。美术作品丰富多彩，内容多种多样。由于本文采取的多特征检索技术还只是基于图像的低层视觉特征，而未涉及与人类判断更贴近的高层语义特征。在今后的研究中，用什么特征来描述图像，如何快速特征匹配、如何人机交互，如何实现信息共享网络化等都将是需要攻克的难点。

［1］杨建林.基于本体的文本信息检索研究［J］.信息系统，2006.

［2］李向阳，庄越挺，潘云鹤.基于内容的图像检索技术与系统［J］.计算机研究与发展，2001.

［3］王涛，胡事民，孙家广.基于颜色-空间特征的图像检索［J］.软件学报，2002.

［4］王惠明.基于MPEG-7的图像视频检索系统研究与实现［D］.北京:中国传媒大学，2007.

［5］李剑，王加俊.基于形状的图像检索技术研究［D］.苏州:苏州大学，2009.

［6］ Hu Mk.Visual pattern recognition by moment invariants［J］.IRE Trans.on Information Theory，1962(2):179-187.

［7］李悦，覃团发.MPEG7区域综合特征匹配的图像检索算法［J］.中国图象图形学报，2009.

［8］ Shuai Qin，Qin Tuanfa，Tang Zhenhua.Image retrieval system based on edge histogram descrip tor of MPEG7［J］.Journal on Communications，2005，26(12A):9213.

［9］韩殿元.基于内容图像检索中的综合特征归一化方法［J］.潍坊学院学报，2006.