基于本体的跨语言信息检索在数字图书馆中的应用
2011-08-05鲍丽倩张自然
鲍丽倩 张自然
[摘要]首先对跨语言信息检索和相关技术进行了介绍,了解当前跨语言信息检索技术的不足,然后阐述了传统跨语言信息检索技术在数字图书馆应用中的局限性,并由此引出了基于本体的跨语言技术。最后提出了一种基于本体的数字图书馆跨语言信息检索系统,并详细阐述了系统的流程,着重讲述了数字图书馆跨语言领域本体的构建。由于本体具有良好的概念层次和对逻辑推理的支持,对源语言和目标语言进行语义扩展,提高了数字图书馆跨语言系统的检索效率。
〔关键词〕跨语言检索;数字图书馆;本体
DOI:10.3969/j.issn.1008-0821.2011.07.041
〔中图分类号〕G254.92 〔文献标识码〕A 〔文章编号〕1008-0821(2011)07-0169-04
Application of Cross-language Retrieval Based
on Ontology in the Digital LibraryBao Liqian Zhang Ziran
(Department of Information Management,Huazhong Normal University,Wuhan 430081,China)
〔Abstract〕The thesis firstly analysed the sketch and technology of cross-language information retrieval,and acquaintances the demerits of current cross-language information retrieval technology,then demonstrated limitation of traditional cross-language information retrieval technology in digital library application.Therefore raised a new cross-language technology basing on ontology.Finally put forward a cross-language information retrieval system of digital library which based on ontology,and demonstrated the procedure of the system,then emphasized on telling the construction of ontology field of digital library.Due to its own sound concept levels and logical reasoning support,it extended the semantic source language and target language,on the other hand improved the speed of Cross-language retrieval in the digital library.
〔Keywords〕cross-language information retrieval;digital library;ontology
数字图书馆为用户提供了更方便快捷的信息资源共享,但同时语言障碍局限了检索范围,所以跨语言检索技术已经成为数字图书馆走向知识化和智能化必经历的关卡,如何提高跨语言检索的查全率和查准率成为当务之急。
本体是计算机科学中的一种重要方法,同时也是信息检索的重要应用领域。本体能使系统和用户达成语义层次的共享和共同理解,不仅能灵活更换语种进行检索,而且能够克服信息检索不能对概念关系处理的局限,从而返回用户最为满意的结果。已有越来越多的研究学者投入到基于本体的跨语言信息检索系统的开发和研制中,其中,Wang Jianqiang和D.W.Oard综合使用双向翻译和同义词进行跨语言检索的翻译[1];吴丹、王惠临使用中间语言,通过词典翻译对照与不同语种的词汇建立链接关系[2];吴芳建立了一个lecene全文检索工具和OWL本体的汉——英跨语言信息检索模型[3];郝嘉树、王惠临、刘耀关注基于本体的跨语言信息检索架构模块的技术流程[4]。本文则致力于研究基于本体的跨语言检索在数字图书馆中的应用,主要设计了两个本体库,有效提高了数字图书馆跨语言信息检索的性能。
1 跨语言信息检索概述
1.1 跨语言信息检索
跨语言信息检索(CLIR,Cross-language information retrieval),是指用户以自己所掌握的某一门语言构造检索提问式,计算机根据用户的检索要求在其他不同语种的信息中进行自动搜索,得到的检索结果包括用户所用语言在内的各种语种的信息。跨语言检索结合了传统文本信息检索技术和机器翻译技术,不仅可以使检索更加容易,还可以提高查全率[5]。用户查询提问式所使用的语言称之为源语言(Source language),而系统提供的信息所包涵的语言,称之为目标语言(Target language)。跨语言检索的实质就是实现这两种语言的翻译。
1.2 跨语言检索基本技术方式
当前的跨语言检索技术方法大体可以分成以下4种方式:将源语言表示的查询翻译到目标语言,即基于提问式翻译、基于文献翻译、基于中间语言翻译、非翻译。基于提问式翻译是将用户查询请求翻译成计算机提供的各种语言,然后对不同语言信息进行查询;基于文献翻译是将目标语言描述的文献翻译成为与源语言相一致的形式,再通过提问式与信息库的匹配,完成检索过程;基于中间语言翻译是把源语言的查询和目标语言的文献都转换为中间语言,然后实现最终的检索匹配[6],这种方式可以解决两种语言直接翻译的资源不存在问题;不翻译是将原始文档与对应的翻译文档建立联系,构建训练文档集,然后利用SVD技术(singular Value Decomposition)对其进行分析,获得双语文档集的特征信息和检索词的映射关系,最后,以平行文档中的语词检索出另一语种的相关信息[7]。
2011年7月第31卷第7期基于本体的跨语言信息检索在数字图书馆中的应用July,2011Vol.2 跨语言检索技术在数字图书馆中的应用及其瓶颈
2.1 跨语言检索在数字图书馆中的应用
随着Internet在世界范围的飞速发展,数字图书馆信息资源的种类和数量也越来越多,但是网络语言的多样化和用户所掌握语言的差异性和有限性导致了用户自由获取信息的困难。用户经常希望检索到多种语言的文献及参考文献以提高查全率,其中的语言障碍是限制数字图书馆发展的绊脚石,所以跨语言技术的发展为解决数字图书馆的多语种问题提供了契机,数字图书馆必然要使用跨语言信息检索技术来扩大查询范围,提高检索深度,提供更全面的检索服务。
2.2 将传统跨语言检索技术与数字图书馆结合遇到的困难传统跨语言检索技术在数字图书馆中的应用只是基于语法层面上的简单匹配,一味采取词典或其他方式进行字符级处理,缺乏对知识的表示、处理和理解能力,缺乏必要的智能性,在运用的过程中不可避免的会遇到以下困难:
(1)大多数情况下用户很难通过简单的几个关键词来忠实地表达其检索文献,希望能够通过语义检索,而传统信息检索技术不支持这种语义表达。
(2)数字图书馆中的信息资料并不是孤立的,它总是与其他概念之间存在各种各样的联系,用户希望能够搜索到与查询领域相关的文献,以上几种的跨语言信息检索寻找的仅仅是字面本身的信息,单纯的字符匹配无法提供基于概念的智能检索,计算机无法识别其语义。
(3)用题名、文摘或全文中出现的关键词来标识文献的内容,常常不能充分揭示源信息的实质内涵,降低了查全率。
(4)一味的追求信息量的提高,返回大量无关信息,缺乏智能化的整理。导致用户查询得到的结果过于庞大,根本没有时间和精力去处理检索得到的结果,查准率大大降低。
3 基于本体的数字图书馆跨语言信息检索系统的构建造成以上困难的实质在于传统的跨语言检索技术缺乏知识处理和理解能力,本体的引入应该说是一个非常有效的方法。通过概念间的关系来表达概念的语义,可以让机器从概念的层次来认识和处理用户的查询,从而提高整个检索系统的查全率和查准率,消除自然语言理解中的歧义,明确概念涵义。
数字图书馆跨语言信息检索领域本体的知识系统构建是系统核心,直接关系到检索结果的准确性。领域本体的特征是针对特定的学科领域,描述了某一学科中的概念、概念的属性、概念间的关系以及属性和关系的约束[8]。
优良的数字图书馆跨语言系统应该能灵活地处理多语种信息,通过围绕用户有效地组织集成各地域的信息资源和信息服务,从而方便和快捷地支持用户检索各类信息资源。根据这个目的本文构思了一个数字图书馆跨语言检索领域本体知识体系,主要包括以下几个模块,如图1所示。
3.1 查询预处理模块
基于本体的跨语言检索模型的第一步就是对用户输入的查询语句进行处理,词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,先去除停用词,然后进行词干化处理,并统计该词的词频、权重等相关信息[3];若是汉语作为提问词,则采用分词技术词语之间没有明显的区分标记,取出查询中的中心词,然后将它们传递给翻译模块。
3.2 翻译模块
翻译模块选择的翻译方法是基于词典的翻译策略。查询语句经过翻译模块的翻译后,把翻译结果和原语句一并传给领域本体库,在本体内查找查询语句的语义描述,通图1 数字图书馆跨语言信息检索系统模型
过领域本体库进行检索。如果没有在语义模块中找到,则直接传递给检索模块,得到检索结果。
3.3 领域本体系统模块
3.3.1 领域本体库
构建领域本体系统的前提是在领域内构建本体,领域本体一般是对某一领域知识体系元数据的描述。因此应该对要创建的领域本体所涵盖的领域有较深的理解。我们一方面可以基于领域内原始资源的元数据分析和处理,另一方面可以在对该领域深入了解的专家的协助下完成。
本体主要包括4个建模元语,概念或类、关系、公理和实例,我们应尽可能全面而又系统的列举领域中所有概念、概念的属性以及概念间和属性间的关系,对领域本体中的概念及概念间的关系进行定义和描述,如表1所示。再建立起本体框架把列举和划分好的概念植入框架内。表1 本体库中概念之间的联系
关 系关系描述例 子Is-A概念的泛化汽车与交通工具Kind of继承关系学生与研究生Attribute of概念属性关系学号与学生Instance of概念的实例关系鱼与金鱼
我们使用Protégé为构建本体的工具。Protégé是斯坦福大学医学院医学信息研究组开发的一个免费、开放源码的本体编辑器[9],它提供了一个可以构建领域本体的环境。在Protégé用建好本体之后,便要对本体进行解析。本体解析有许多思路和工具可以使用,甚至可以自己编写本体解析的模块。Jena是由HP实验室开发的一套API,用于支持语义网应用。它的功能非常强大,可以构建用各种语言(OWL,DAML+OIL,RDFS)描述的本体模型、RDF模型[10]。更重要的是可以使用它内置的推理机对本体进行推理,也可以与外界的推理机连接。
3.3.2 用户查询请求的语义处理
由于本体有丰富的概念关系,而且有推理功能,因此可以用来进行查询扩展。经过提问处理和翻译过的查询内容与构建的领域本体库一一对应,调用和遍历整个源语言本体库,找到与其对应的本体术语以及相关的概念术语,建立关系映射,找到其对应的概念,推理出检索请求中的关键词的精确语义,然后映射到目标语言本体库,完成语义匹配。然后通过本体模型推理出与用户查询词语义相关的类,也就是用户要查找的相关概念,确定该领域的概念和概念之间的联系,再对其进行语义化扩展和推理,挖掘隐含信息, 解决信息孤岛问题。
3.4 数字图书馆资源本体系统模块
3.4.1 数字图书馆资源本体库
数字图书馆的馆藏是基于知识的组织,不可缺少的要使用定义规范语义之间相互联系的“领域本体”,但是图书馆的资源本体库又不同于领域本体库,因为它集中体现的是数字图书馆的文献资源特点,是多个领域本体的集成。这里可以采用本体学习的方式创建,首先要从现有的数字图书馆的文献信息中收取学科概念的术语选项,采用信息抽取技术来确定概念之间的语义关系,在概念及其相互关系基础上构建本体。其中上下位关系是最主要的语义关系,首先是获取抽象程度高、涵义比较宽的概念,再寻找分别位于这些概念下级的较为具体的概念,由此形成树状或层次结构,概念在层次结构中体现了语义分类的属性,根据概念之间的语义关系构建出概念分类层次关系。所有的文献信息都依据这种体系集成。
3.4.2 图书馆资源本体库的语义处理
对数字图书馆中的资源本体库加工处理,以RDF/XML为描述模型对无结构或半结构的数据进行语义标注,形成机器可以理解的语义元数据,元数据包括:数据基本属性和数据扩展属性,包括类型、背景等信息。
从数字资源中抽取关键词汇,根据词频为关键词赋权值。计算抽取关键词与本体中概念的相似度,相似程度大者将其权值和文献一同标注在本体语义旁,则文献属于该本体。由于数字资源具有多样性、多领域性,必然要涉及到多个领域本体,因此在对数字图书馆数字资源进行语义标注时,除了利用数字资源本体库外,还可以应用其他成熟的本体进行标注,如WordNet、HowNet、中国百科全书、BNC语料、RFC文档等等。将实例与本体联系起来,通过分析实例,总结出实例的结构,将文献的隐含信息表示出来。
3.5 语义检索模块
完成语义扩展后,系统进入语义检索模块。把处理过的文献信息和查询扩展的查询概念进行领域、术语匹配。匹配的过程中不仅要考虑数据本身,还有同义、近义、上位、下位等信息,得到检索结果后,再按照查询信息与检索信息的相似度与将满足条件的检索结果进行加权结合处理后输出最终检索结果,并以良好的界面形式返回给检索用户。
4 结 语
本论文提出了基于本体的数字图书馆跨语言信息检索系统,其中包括5个模块和2个本体库,但这只是简单构想,如今图书馆跨语言检索体系还不健全,许多工作还停留在理论层面,在以下几个方面还有待进一步的研究:比如可以考虑通过数据挖掘进行自动化或半自动化处理以减少人工创建本体的压力;把用户的个性化因素加入本体建设中,针对不同的特点和偏好进行检索。相信随着研究的深入,各类技术不断的跟进,本体在跨语言检索中的应用会越来越普遍,在数字图书馆中的应用也更加实用化。
参考文献
[1]Wang J,Oard D W.Combining bidirectional translations and synonymy for cross-language information retrieval[A].Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2006:202-209.
[2]吴丹,王惠临.本体在跨语言信息检索中的应用机制研究[J].图书情报工作,2006,50(9):10-13.
[3]吴芳.基于本体的跨语言全文检索模型的研究[D].北京:北京邮电大学,2005,(5):27-28.
[4]郝嘉树,王惠临,刘耀.基于本体的跨语言信息检索模型和关键技术研究[J].情报科学,2009,27(2):271-275.
[5]夏立新,金燕,方志.信息检索原理与技术[M].北京:科学出版社,2009,(7):287-296.
[6]黄国斌.基于中间语义的跨语言信息检索研究[D].江西:.江西师范大学,2008,(7):32-36.
[7]任成梅.跨语言信息检索的发展与展望[J].图书馆学研究,2006,(4):80-81.
[8]王佐,王茜,李鹏.基于Ontology的多主体知识检索模型[J].情报杂志,2006,(6):77.
[9]welcome to Protégé[OL].http:∥protege.stanford.edu/overview,2011-05-11.
[10]HP releases new version of leading Semantic Web developers toolkit[EB].http:∥www.hpl.hp.com/news/2004/jan-mar/jena2.1.html?jumpid=regzR1002zUSEN,2011-05-11.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”