论本体论在智能信息检索中的作用
2013-04-10宋博
宋 博
(烟台大学图书馆,山东烟台264005)
以计算机为代表的现代信息技术的迅速发展促进了信息社会的形成,专家学者们更为关注如何有效地获取信息,研究不同的信息检索方式,其中与人工智能相结合,提出了智能信息检索这个概念,在如何实现智能信息检索方面,人们做了很大努力,从信息用户提问的理解、检索策略的制定、搜索引擎的使用、数据资源的检索、机器学习的研究到结果的给出,每一步都在不断地发展和完善。下面本文主要研究在智能信息检索的发展中,本体论所做出的贡献。
1 本体论与智能信息检索
知识的表示与利用是智能信息检索所面临的问题之一。人类的智能活动主要是一个获得并运用知识的过程,知识是智能的基础。为了让计算机具有智能,就必须使它具有知识。[1]为了解决知识表示的这一难题,通过研究和认识知识,专家学者们提出了本体知识表示方式。而本体论主要的研究和应用方面也是智能信息检索。
1.1 智能信息检索概论
智能信息检索其实质就是使信息检索过程具有智能性。从字面上来说,智能信息检索应该包含“智能”和“信息检索”(本处不细分信息检索)两个方面,智能是人所特有的能力,将其冠名于信息检索上,可以简单地理解为即在进行信息检索时达到“智能”的效果,形象地说就是在进行信息检索时像是由检索要求的提出者自己遍历于数据库之中,来选择他自己所需的信息。事实是我们不可能程序化一个人,他的知识、经验、习惯、偏爱、性情等,也不能让他去数据库这个虚拟的环境中,所以智能信息检索的研究任重而道远。从其演化过程来看,智能信息检索是由两条线发展而来的:第一条是,对人的心智的理解与表达,人工智能的部分实现,应用到信息检索中实现智能信息检索;第二条,传统的手工信息检索,随时代发展而来的机械信息检索和现代广泛应用的计算机信息检索(传统的批处理检索方式,联机信息检索,网络信息检索),[2]其检索从古至今都是根据两个思想来进行的,那就是分类检索和主题检索,其中主题检索,尤其是基于关键词的检索由于更适应网络信息的分布及其检索方式而发展起来。可是基于关键词的检索误检率也是很高,随着信息检索的深入而显得力不从心。目前,人工智能技术迅速发展,信息的自动标引技术研究有所突破,自然语言理解研究的深入,搜索引擎技术的提高,智能代理技术和机器学习的应用,和本体论概念的引入和研究的深化,给智能信息检索以强大的知识保障和技术支持,也正是智能信息检索研究及其发展的好时机。
智能信息检索是信息检索的高级阶段,实现起来非常的复杂和困难,可专家学者们为什么仍然不懈努力地在追求信息检索的“智能性”呢?正是由于信息检索环境随着计算机技术和通信技术的迅速发展而变得越来越庞大、复杂、隐晦,而信息检索结果要求更加的准确、专业、及时,关键词的检索又被人们发现了很多不尽人意的地方,所以,强烈要求新的适应现代发展的信息检索方式,而这正是智能信息检索。
1.2 本体论概述
上世纪70、80年代,在人工智能领域,为了解决通用问题求解方法研究的困境,研究者们引入了哲学领域的一个概念即本体论,来解决这一瓶颈问题。
哲学领域中的本体论就是关于存在及其本质的学说,它所揭示的是世界存在的始基、基本等,是用来“解释世界”,提供世界图景。正是这种本体论哲学含义的精髓与研究者们在知识获取、知识表达,进而在知识的复用和共享、数据库的集成、程序的重用、系统的互操作等方面都提出的一个共同的问题,即一个或多个领域内通用概念给予一致的理解,有异曲同工之处。因而将本体论研究纳入了新的领域,也赋予了新的内涵。在信息科学领域中,本体论最为广泛的定义是由Gruber于1993年提出的“An ontology is a formal,explicit specification of a shared conceptualization.”[3]即本体论是概念模型的明确规范说明。它有四大特征:明确,概念所属的上位类与概念的限制条件应得到明确的定义和说明;形式化,即机器的可理解性;概念化,又称概念模型,世界上某些现象的抽象模式,该模式是通过定义这些现象的相关概念形成的;共享,本体体现的是共同认可的知识,相关领域中公认的概念集,即不是限定到单个的人,而是一组人共同接受的知识。[4]
2 本体论在智能信息检索中的推动作用
人工智能的关键是知识表示,其强调:一个领域的表示方式,在很大程度上,决定了那个领域是怎样被“理解”的。[5]本体论知识表示方式作为一种新兴的知识组织体系,正是对一个或多个领域内知识的共同理解,提供了该领域内共同认同的概念。将本体论应用到智能信息检索中,使信息检索能够“拥有知识”,实现智能化,其主要影响可以从宏观和微观两个方面来说。
2.1 宏观上,影响信息检索的环境
以计算机为代表的现代信息技术的发展极大地改变了信息检索的环境,信息检索的主体——人,对检索结果的要求更加精确、快速、专业,而信息检索的客体(对象)——信息资源,有一个人人皆知的名词,信息大爆炸。为了更好地满足检索者的检索需求,专家学者引入了本体论这一概念来完善提高信息检索的效率,更是为实现信息检索的智能性。
作为起源自哲学的本体论更多地是引其思想来指引人,本体论是与实践论相对的唯心主义的哲学理论,西方的哲学是以本体论为核心的理论,相信世界是有一个先于人的终极存在,是“纯粹的理性主义”。应用于信息检索系统的本体论,由于哲学本身思想的影响和信息检索的要求是有着严格规范说明的知识表示体系,这种严谨、明确和复杂明显或潜在地影响人们在信息检索过程中的态度。
作为一种新兴的知识组织体系的本体论,对信息资源的处理作用是巨大的。信息检索方式很大程度上取决于信息的组织方式,因此本体论的知识组织作用对于智能信息检索的实现是不可替代的。本体论应用到各个领域其最初和最主要的目的就是对领域内知识的“共同理解”,规范领域内知识的表示与组织,应用本体论构建的各个信息系统,其知识可以实现共建共享,系统内容也很容易实现理解,互操作或信息集成。在进行信息检索时,这样相互理解的信息系统可无障碍地进行信息交流,甚至可以看作是统一的信息源,降低信息的误检率,加快信息处理的速度,减少后续检索结果处理的不少麻烦。
2.2 微观上,影响检索策略
本体论对智能信息系统的微观作用相对宏观环境而言是在具体的信息检索进程中对信息检索策略的影响。信息检索策略是在分析信息需求实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。[6]如果检索策略有误,无论检索工具、结果算法等多么的好,结果都不能尽善尽美。在基于本体论的智能信息检索时,一般本体论在智能信息系统中是有一层管理层的,我们叫做本体管理层或本体库管理。在一次信息检索进程中,当读者用户提出信息检索请求后,其请求要经过自然语言的理解、分析出有检索意义的关键词,这些关键词到达本体管理层进一步地处理。
第一步,进行概念的精确匹配。传统信息检索的检索词一般是用户给定的检索词或进行简单扩展的相似词,这些检索词并不是很规范,表达的概念也是模糊不清,一词多义的现象很多,并且很难表达用户所要检索的全面信息范围和用户潜在的检索需求,由这些检索词来制定信息检索策略,检索的结果存在着大量的无用信息,这些信息对我们无疑是一种干扰,同时还有一些未被检出的有用的信息。因些,我们引入本体论来解决这一问题。本体论是以概念为基石,[7]概念是本体论的核心,概念与词是有区别和联系的,概念可以以词为表示形式,但不是所有的词都是概念。本体论中概念要求有:①一个概念只有一个含义,不存在一个概念有多个含义或者多个概念对应一个含义的现象;②概念的类型、属性及属性的值是明确的;③概念之间的关系是明确的,而且它们之间的隐性关系被显性化;④这些概念是一个领域或多领域内得到大家共同认可的公共知识。[8]应用本体论进行信息检索,用户的检索要求都将会更加准确地表示,精确匹配用户的信息检索请求,大大提高信息检索的检准率。
第二步,语义扩展。本体论不仅仅揭示领域内的共同认可的知识,也注重揭示概念间的关系,尤其是概念间的隐含的关系,同时本体论提供了语义推理所必需的规则与条件。[9]本体论的语义推理能力是本体论有别于其他一些知识组织体系的关键特征,也是本体论使信息检索具有“智能性”的关键。在智能信息系统中,本体层上的推理机能推理挖掘出与信息检索要求相关的概念且加入到检索策略,本体论能够详细地表述这些概念及概念间显性和隐性的关系,因此,用户的信息检索要求不仅能够准确地表达,用户潜在的检索需求也能够被挖掘出,这大大提高信息检索的检全率。
经本体管理层精确匹配和语义推理挖掘出的概念及概念间的关系共同构建出一个信息检索策略,这个检索策略可以说是在目前信息技术下最大程度地提高信息检索的检准率和检全率。
3 本体论在智能信息检索中应用的不足
本体论目前还不是一个完善的理论,有其理论缺陷,对本体论要有一个客观的认识和理解,将这样的本体论应用到智能信息检索中也是有限制作用的。首先是要应用本体论就要有一个高质量的本体论系统,而这个系统的构建就是面临的一个难题;其次,将本体论实现于智能信息系统中,对其能够起到作用的能力也要有一个很好的认识,最后,就是应用本体论是要有一个应用的检索环境问题,环境的好坏对本体论能力的实现也是有着很大的影响的。
3.1 构建高质量的本体论困难重重
本体论是智能信息检索的基本组成部分,所以构建高质量的本体论是实现智能信息检索的基础。由于构建本体论是要付出昂贵的代价,所以构建全球性的本体论是不可以实现的,这样就只能建立领域本体,但是即使是仅仅构建基于一个领域的本体也是十分困难的。因为没有统一的标准,所以本体论构建中存在着一定的混乱,现在以技术为基础的工作还是比较粗放,本体建模主要由人工来完成。本体自动构建技术,减少本体论建模风险的技术等很多技术还有待突破;本体系统后期维护是比开发更复杂、长期和困难的工作,费用也往往占总费用的60%,所以,构建本体系统之初就要设想好前期开发与后期维护是否能承担这一现实问题。
3.2 应用本体论对智能信息检索的限制作用
虽然应用本体论可使信息检索具有“智能性”,同时我们也应该看到,本体论本身是有其理论缺陷的,所以本体论对智能信息检索有推动作用的同时也是有其限制作用的。本体论最大的理论问题是来自其哲学本质问题,对于信任实践论的我们来说,哲学本体论是唯心主义的,是纯粹理性主义的,是脱离了人和人本身的。因此,我们追求这样一个能够脱离实践、对知识完全“解释”和组织的知识组织体系本身就存在着问题,所以我们是不能创建一个终极的知识组织体系的,因此,在智能信息检索过程中,本体管理层对于用户检索请求的精确匹配或者潜在检索要求的推理和扩展都不能够做到“完美”,其“智能性”的实现也是不能够尽善尽美的,这使得所建的智能信息检索并不能完全满足用户信息检索的深度。
另一方面,本体论普遍认同是只能构建领域本体论,这就限制了智能信息检索的范围是针对一个领域内的,即智能信息检索是偏于专业性的,跨领域、跨专业的信息检索就显得力不从心。其次是本体论更适合于处理能够以分类方式来组织知识的领域,对于那些非结构化方式处理知识组织的领域如自然科学其应用反而会使问题更加复杂,这也限定了对智能信息检索的范围,这些使得所建的智能信息检索系统不能够满足人们对于信息检索广度的需求。
3.3 本体检索环境问题
这是很现实的一个问题,如果要进行信息检索,就要有信息源,如果这些信息源不是用语义来标注,也就不存在着应用本体论的智能信息检索,这就像我们有了汽车,却没有公路,汽车不仅没用,反而变得麻烦。但是由于自动的语义标注还没有很好实现,信息社会是信息爆炸的社会,人工来标注信息源是不可能做到了,可能大多数信息源还没有被标注就已经被淘汰了。因此自动化语义标注的研究迫在眉睫。
4 结束语
现代信息技术的迅速发展改变了信息检索的环境,促进和支持了智能信息检索的形成与发展,促成一种新兴的知识组织方式——本体论的出现并推展其应用到智能信息检索系统中。本体论对智能信息检索系统实现其“智能性”有重要的推动作用,同时也有其限制作用。在智能信息检索系统中,本体论主要是对知识进行处理,使智能信息检索系统“拥有知识”。本体论有其自身对领域的理解和知识的组织方式,影响着信息资源的组织进而影响到信息检索的环境。本体论在智能信息检索过程中主要的表现还是在微观、具体的检索过程中,通过对用户信息检索请求的精确匹配及其语义推理扩展来影响信息检索的策略。为了更好地实现本体论的功能,需要积极构建高质量的本体论,因此,标准的制定、领域内广泛的交流等是必不可少的,这是概念精确匹配和语义推理的基础。同时,客观地分析和理解应用本体论也是重要的,不可夸大本体论精确匹配中精确的程度和语义扩展的深度,了解本体论构建对领域的选择限制了智能信息检索的范围。总之,应用本体论的智能信息检索系统其检索的深度和广度都有不如意的地方。智能信息检索是非常复杂和困难的,其“智能性”的实现需要很多方面的知识和技术共同支撑,本体论在其中起到重要、基础但不唯一的作用,这些知识和技术与本体论的共同发展和完善也是智能信息检索的发展和完善,任重而道远。
〔1〕 陈远等.小议人工智能技术在信息检索系统中的应用[J].情报探索,2002(12):38-40
〔2〕 卢小宾,李景峰主编.信息检索[M].北京:科学出版,2003.1:1-2
〔3〕 Gruber T.A translation approach to portable ontology specification[J].Knowledge Acpuisition,1993(5):199-220
〔4〕 王英林,张申生.基于本体影射规则的软件集成重构研究[J].计算机学报,2001,24(7):776-783
〔5〕 侯世达.哥德尔、艾舍尔、巴赫——集异璧之大成[M].北京:商务印书馆,2010.8:810-811
〔6〕 卢小宾,李景峰主编.信息检索[M].北京:科学出版,2003.1:105
〔7〕 Christopher B,Kieron H.Knowledge representation with ontologies:Present challenges—Future possibilities[J].Int.J.Human-Computer Studies 2007,65:563-568
〔8〕 宋博.论本体论与传统整序方法的关系研究[D].硕士学位论文.东北师范大学,2010.5
〔9〕 邹景华.语义万维网在智能信息检索中的应用研究[D].硕士学位论文.重庆大学,2005