一种面向用户需求的图像描述方法

2010-04-11毛玉萃

制造业自动化 2010年11期

关键词：结构化语义检索

毛玉萃

MAO Yu-cui

（大连大学信息工程学院，大连 116622）

一种面向用户需求的图像描述方法

An image descriptive method oriented user requirement

毛玉萃

MAO Yu-cui

（大连大学信息工程学院，大连 116622）

有效地获取用户对所检索图像的需求是提高图像检索准确性的重要因素之一。提出了面向用户需求的图像层次描述模型；针对对象及其特征、对象空间关系、场景、行为和情感层给出了具体的描述规则和描述方法；并针对一些非结构化描述转换为结构化或半结构化描述提出了建设性意见。提出的这些方法为用户描述图像提供了手段，也为按需检索图像提供了基础和条件，使图像检索有的放矢。

图像描述；用户需求；图像检索

0 引言

由于多媒体技术和网络互联技术的迅猛发展，图像已经成为重要的信息资源之一，图像所包含的信息量远远超过文字和语音所包含的信息量，为了能够很好地利用这些信息资源，因而关于图像的描述和检索已成为目前研究的热点之一。

在20世纪90年代，提出了利用底层视觉特征（如形状、颜色、纹理和区域等）的基于内容的图像检索 (content based image retrieval CBIR)。经过一段时间的研究，研究者发现利用CBIR进行检索存在着图像简单视觉特征与用户需求中蕴含的语义之间存在着巨大的“语义鸿沟”[1,2]。出现这一问题的原因主要有两方面：1）用户需求的描述问题；2）底层视觉特征和高层语义之间存在很大差异。

针对第二个问题，研究者提出了基于图像高层语义信息的图像检索方法。在这些方法中，有一些比较好地解决了从底层视觉特征中提取图像高层语义尤其是对象语义、空间关系语义和场景语义的问题[2～4]。由于图像的行为语义涉及到对人的动作的分类问题，而人的动作分类算法目前尚不成熟；图像的情感语义涉及到诸多领域学科的知识，需要建立超巨大的知识库和非常复杂的推理库，目前尚没好的解决方法[3～8]。

在用户对所要检索的图像进行描述方面，目前主要采用的是人类自然语言，这种方式的主要问题是：1）用自然语言进行描述本身就带有模糊性、不确定性，计算机在处理的时候就遇到了非常大的困难；2）不能把所要检索的图像的特征表示出来[1,4,7,9]。

有些学者研究后提出在特定领域内使用的自然语言的词汇、短语和句子是有限的，这样在一定程度上解决了用自然语言描述图像的模糊性、不确定性[3,4]。

为了准确地表达用户的需求、提高图像检索的速度和准确率，本文提出了一种把自然语言描述和图像各层语义描述相结合的形式方法来描述用户对检索图像的需求，变非结构化描述为非结构化描述+半结构化描述+结构化描述，使用户的需求得以比较准确、全面地表达出来，为图像检索提供更详细、全面、准确的查询要求。

1 面向用户需求的图像层次描述模型

根据人们在欣赏或观看一幅画（图像）时对画（图像）的评价方式和说明方法，以及图像中各对象的属性、对象之间的关系，结合图像层次化语义模型[3,10,11]，可将用户对图像的描述进行分层，称为图像层次描述模型（如图1所示）。

2 图像分层描述的方法

图1 图像描述层次的划分

图像分层描述的基础是图像中每一个对象的描述，在对每个对象正确描述的基础上，进行对象空间关系的描述，进而进行局部场景或全景的描述，再进行相关行为的描述，最后对搜素的图像所表达的情感进行描述。

2.1 对象及其特征特征描述方法

图像中对象的种类繁多，为了有效地描述对象，首先对对象进行分类，再选择每一类对象的特征，最后对这些特征进行描述。

因为对象之间的包含关系，如半身人物对象就包含了衣物（上衣）对象，上衣对象又可以包含钮扣对象，因而在对对象进行分类时，首先把最基本的对象选取出来是十分必要的；通过这些基本对象构造复杂的对象。如果对象太复杂或太大必要时可作以为两个或多个对象，把复杂和太大对象作为场景处理，以降低对象描述的复杂度。

在进行对象和对象特征选择时，主要考虑以下五个方面：

1）用户的需求；

2）对象本身的特点；

3）当前图像处理技术；

4）描述的复杂度；

5）计算机的处理速度、效率和查找的准确性。

对象特征的描述方式一部分是采用结构化方式（如颜色用256色位描述），还有一部分是采用半结构化的方式（如形状长方形的描述）。

通过对象及其特征的描述建立相应的对象描述库，该库是一个基础库，在进行高层描述时，该库作为比对库，保证描述的一致性。

2.2 对象空间关系描述方法

对象空间关系的描述主要是描述出两个对象之间的空间位置关系。

9-相交模型可以表达两个对象之间的不接触、包含、内部、相等、接触、覆盖、被覆盖、重叠等8种位置关系[3,12]。利用2D符号数组可以表达一个对象与多个对象之间的简单朝向关系[3,7]。结合这两种对象空间描述方法，本文采用从四个方面（即方向、相邻、相交和层次）描述两个对象之间的空间关系的方法。考虑到定义的复杂性和必要性，对四个方面的取值进行了定义。

在方向上选择了八个方向：正上、正下、正左、正右、左上、右上、左下和右下。

在相邻方面，定义了相邻和不相邻两种关系。

在相交方面，定义了包含相交、不包含相交、不相交三种关系。

在层次方面，定义了顶层和底层两种关系。

如果两个对象之间的空间关系复杂，那么在四个方面都要定义。通过定义这四个方面即可确定两个对象之间的空间关系，在确定了两两对象之间的空间关系之后，就可以确定多个对象之间的空间关系。

根据对象空间关系的描述，构造对象空间关系库，该库作为场景描述的比对库。

图2 中所示图像的描述：A、B和C三个对象，皆为圆形，空间位置关系描述：A在B的右上方，A与B不包含相交，A在顶层；A在C的左上方，A与C不包含相交，A在顶层；B在C的左方，B与C不包含相交，B在顶层。由此可得出三个对象A、B、C的空间关系。

2.3 局部场景和全景描述方法

图2 对象空间关系示例

人们将一组特定对象的特定空间关系的抽象看作为场景[14]。在一幅图像中可以包含一个或若干个局部场景，包含一个全景。对于场景的描述更接近人类的认识和表达习惯。如果完全用人类的表达方式和表达习惯进行图像场景描述，计算机处理起来是十分困难的。

既要考虑人类的表达方式和表达习惯，又要考虑计算机的处理，为此需要建立一个描述场景的词汇库。

目前在图像处理领域，已经针对一些特定场景建立了相应的词汇库。在词汇库中，场景是通过场景或对象之间的空间位置关系即场景或对象之间拓扑结构类表示的[3,15]。图3和图4是词汇库中草原日出和草原日落场景的定义。

图3 草原日出场景定义

图4 草原日落场景定义

在图3和图4中，包含的对象是相同的，由于对象红日和天空的位置关系的不同，描述的局部场景就不同（日出和日落），得到的全景也就不同（草原日出和草原日落）。

2.4 行为和情感描述方法

行为是人类特有的，是人类有意识的活动，其表现形式为在特定场景下的特定动作或状态[3,14]。

情感是人们内心对外界事物所持的肯定或否定态度[14]，是图像所表达的最高境界。由于人们的种族、信仰、风俗习惯、文化背景、所处场合、经历和心情的不同，同一幅图像对于不同的人群所表达的情感有所不同[1～4]。

人们用更符合自己的认识和习惯的表达方式，来描述图像中包含行为和图像所表达的情感。对这样的非结构化描述必须进行结构化的处理，之后才能再进一步的处理。进行结构化处理的主要方法：建立相应的行为知识库和情感知识库，再建立相应的处理机制，把自然语言表达的方式转换为特定结构的便于计算机处理的结构方式。

由于目前还没有一个有效的方法提取图像的行为语义和情感语义[1～3]，因此获取用户需求的行为和情感描述，主要是为了保证描述的一致性，为进一步的研究奠定基础。

3 结论

在用户对图像进行描述时，可以从最基本的对象开始进行描述，也可以从图像所表达的情感和包含的行为描述开始。图像的各个层的描述不是独立的，是相互关联的，各层的描述要保证一致性。在从描述对象开始时，建立对象描述库，把该库的知识作为原知识，比对其他描述，保证描述的一致性；如果从情感和行为描述开始，从中分离对象，建立初始对象描述库，再根据场景描述和对象及特征描述完善该库，并保证描述的一致性。总之保证描述的一致性是非常重要的，是进行进一步处理的前提。

在图像处理领域中，目前研究的热点主要集中在对检索图像的分析方面，而获取用户需求是保证检索准确率的重要方面之一，目前在这方面进行研究的人员非常少。作者在这方面进行了初步探索，构造了图像描述层次模型，对每层的描述进行了探索，下一步的工作主要在三个方面进行：1）进一步完善每一层描述所需的知识库；2）用户需求描述的相关性检查，保证描述的一致性；3）把获取的描述采用自动程序设计的方法自动生成与图像分析的结果相连接的图像检索程序。

[1] 李清勇,胡宏,施智平,史忠植.基于纹理语义特征的图像检索研究[J].计算机学报, 2006,29(1)：116-123.

[2] 毛玉萃.图像的物理内容和逻辑内容[J].微计算机应用,2005,26(6)：641-643.

[3] 吴楠,宋方敏.一种基于图像高层语义信息的图像检索方法[J].中国图象图形学报,2006,11(124)：1774-1780.

[4] 王伟凝,余英林.图像的情感语义研究进展[J].电路与系统学报,2003,8(5)：101-109.

[5] 刘忠伟,章毓晋.综合利用颜色和纹理特征的图像检索[J].通信学报,1999,20(5)：36-40.

[6] Pauwel E J,Frederix G. Fingding salient regions in images----Non-para metrie clustering for image segmentation and grouping[J].Computer Vision and Image Understanding,1999,75(1)：73-85.

[7] 王惠锋,孙正兴,王箭.语义图像检索研究与进展[J].计算机研究与发展,2002,39(5)：513-523.

[8] 罗沄,章毓晋,高水英.基于分析的图案像有意义区域提取[J].计算机学报,2003,23(12)：1313-1319.

[9] 乔荣华,周明全,耿国华.基于语义分类的文物图像标注研究[J].计算机技术与发展,2007,17(7)：200-203.

[10]Colombo C.etal.Semantics in visual information retrieval[J].IEEE Multimedia,1999,6(3)：38-53.

[11]Cavazza M,Green R .J,Palmer I.J. Multimedia semantic feature and image content description[C] . In ： Proceedings of the 5th international ICYC Cnference ,Nanjing China 1999,468-475.

[11]王惠锋,孙正兴.基于内容的图像检索中的语义处理方法[J].中国图象图形学报,2001,6(10)：945-952.

[12]Egenhofer M J,Franzosa R.On the epuivalence of topological relation[J].International Joumal of Geographical Information Systems,1992,9(2)：133-152.

[14]新华词典编纂组.新华词典[M].商务印书馆,1986.

[15]王众托,著.计算机在经营管理中的应用——新的系统构成[M].大连理工大学出版社,1994.

TP391

1009-0134(2010)10(下)-0204-03

10.3969/j.issn.1009-0134.2010.10(下).64

2009-11-05

辽宁省教育厅高校科研计划项目资助（20080043）

毛玉萃（1964 -），女，副教授，主要从事图像检索、图像描述以及自动程序设计研究。