个性化智能信息资源检索入口机制探讨
2010-03-14张树东
张树东,陈 燕
(1.首都师范大学 信息工程学院,北京 100048;2.中国民航管理干部学院,北京 100102)
1 引言
随着三网融合的推进,综合多媒体资源将迅猛增长,传统的依靠浏览器、数据库字段、关键字匹配甚至人工的检索查询方式已经越来越难以满足人们对资源检索的需要,如何能够快速、准确地找出自己所需要的资源,已经越来越迫切地摆在人们面前。
资源检索是从大量的资源集合中找到与用户需求相关资源的技术。但信息资源的多样性发展为用户查询能力带来挑战,由于用户的工作和知识背景不同,对各领域了解程度不同,借助现有的信息自愿检索系统很难准确、有效地检索其需要的信息。目前,基于关键词或内容目录分类的检索方法仍占据信息检索领域的主要地位,但在查准率和查全率上已经无法满足用户要求。
2 系统结构
本体是共享概念模型的明确的形式化规范说明。领域本体是以某一领域为描述对象的本体,它描述领域中的概念、概念的属性以及概念之间的关系等内容,通过概念之间的关系来描述概念的语义,是对信息资源的共享的、明确的、形式化的抽象表示,强调信息资源的共享。由于领域本体能够挖掘领域概念之间的内在联系,借助领域本体思想,可以使检索结果更贴近用户的实际需求[1-5]。
笔者给出一种基于领域本体的个性化智能信息检索入口机制,可以实现有效的信息资源检索,结构如图1所示。
该机制充分考虑各类用户的领域知识层次,为其提供相应的检索途径,进行个性化的信息导引,使得各类用户在特定的查询环境下能够充分有效地表达自己的查询意图,包括提供多种检索模式(自由模式、固定模式、向导模式3种),以及个性化的定制和主动推送服务(实时链接、热链接、温链接、冷链接4种),并为初学者提供本体浏览和用户培训服务,为用户提供查询反馈服务等,从而解决传统信息检索的检索表达难、表达有差异等问题。
2.1 系统角色
该系统的使用对象主要包括几类用户,即领域专家、信息资源管理人员、终端用户和本体应用开发人员。
1)领域专家:指对领域背景知识相当了解的人员,他们是系统使用者和维护者,执行信息检索时可在各种检索模式之间自由选择。此外,他们还有一个特殊职责就是定期审阅用户的查询反馈信息,然后指导或协作信息资源管理人员通过本体维护管理组件来维护、更新本体,实现本体的自学习能力。
2)信息资源管理人员:指熟练掌握领域本体库和领域实例库中的信息结构和信息部署等详细内容的用户,可在领域专家指导下维护、更新本体及实例,使本体能更准确地反映领域信息资源的客观情况,提高智能信息检索的效率。此类用户多采用自由模式或固定模式。
3)终端用户:为领域内众多的管理人员和业务人员,多采用固定模式或向导模式来查询信息以提高其检索效率。
4)本体应用开发人员:此类用户需要了解领域本体的信息,或利用领域本体实现共享、重用、互操作,但不具备或具有较少的领域知识,多采用固定模式或向导模式进行检索。
2.2 身份和权限认证
该系统必须是注册用户方可使用,由系统管理员赋予各位用户相应的权限,并根据权限的不同,在服务器上开辟大小不等的用户个人文件箱。
2.3 本体浏览
该系统为初学用户提供了方便的本体浏览功能,利于初学用户快速熟悉和掌握领域本体中所定义的概念以及概念之间的关系,包括类、属性以及属性的约束等信息。
2.4 用户培训
该系统除为初学用户提供本体浏览功能外,还提供了用户培训功能,也是方便用户快速熟悉和掌握领域本体和领域实例的信息。
3 检索模式
检索模式是各类用户与系统交互的方式,用户可根据各自的使用意图、领域信息的掌握程度来决定使用哪种或哪几种检索模式。所以检索模式应能确实地反映不同用户的不同兴趣,以便进行个性化的信息导引。该系统为满足各类用户的需要,特意提供3种检索模式:自由模式、固定模式和向导模式。
1)自由模式
自由模式是3种模式中最灵活的一种,和传统的信息检索方式类似,采用自然语言来描述用户的查询需求。
自由模式最好由具有丰富领域知识的领域专家和信息资源管理人员查询使用,前者可以根据领域知识及查询反馈的统计信息提出对领域本体的修改意见,后者具体实施本体的维护和更新,包括增加新概念、删除过时概念、调换概念层次以及丰富本体与实例间的关系等,使领域本体可及时、准确地反映领域的本质特征。
自由模式也可以由对系统使用熟练的终端用户和本体应用开发人员使用。
自由模式需要用户能精确地描述查询需求,减少了浏览本体或设置查询需求的时间开销。当然在这种模式不能恰当反映查询需求的时候,可以相应选择固定模式或向导模式。
在自由模式的自然语言查询需求中,用户还可以使用“.”、“,”、“(“、”)”等运算符来表达更复杂的查询需求,其中:“.”代表逻辑与关系、“,”代表逻辑或关系、“(“、”)”代表优先关系。系统提供多种组合形式的灵活的查询需求输入方式,包括逻辑与方式、逻辑或方式、优先方式和组合方式,充分满足更高层次用户的需求。
2)固定模式
固定模式对用户的领域知识要求较低,用户只需按照检索界面进行操作,系统将根据用户的选择或输入自动生成符合领域语义检索要求的查询需求。固定模式适合各类用户。
固定模式检索界面为用户提供“资源-属性-值”三元组的形式输入查询需求,“资源”表示领域本体中的类概念;“属性”表示领域本体中为选中资源及其所有超类定义的所有属性概念;“值”表示用户要检索的资源具体取值。属性与值之间的关系依据属性取值类型不同而不同,例如:对字符型,关系可以为“等于”、“不等于”、“包含”、“不包含”、“开始于”、“结束于”等;对数值型,关系可以为“等于”、“不等于”、“大于”、“大于等于”、“小于”、“小于等于”等;对日期型,关系可以为“等于”、“不等于”、“早于”、“晚于”等;对对象属性,关系可以为“包含”、“不包含”等。
用户可以填写完整的三元组,表示要查询出该资源类及其所有子类、父类中满足属性与值约束关系的所有实例对象信息。用户也可以填写不完整的三元组,即只填写资源域部分的内容,对属性和值不作限定,表示要查询出该资源类及其所有子类、父类的所有实例对象信息。用户还可以输入多个三元组,各个三元组之间的逻辑关系可以为“并且”、“或者”、“不包含”,表示要查询出同时满足各三元组间逻辑关系组合的所有实例对象信息。
3)向导模式
向导模式对用户的领域知识要求最低,尤其适合刚刚接触某一领域工作的初学用户。用户只需根据向导提示来浏览领域本体并确定相应的查询内容,不需要主动提供关键词,而系统则会根据用户的操作自动生成符合领域语义检索要求的查询需求。
在以上3种模式中,用户随时都可以将自己感兴趣的查询需求,以热链接、温链接或冷链接等方式添加到用户定制库中,方便以后的查询。
4 个性定制和主动推送服务
个性化是指根据用户的需求特性提供具有针对性的信息服务内容。该系统为用户特意提供了个性化的定制服务,包括热链接、温链接、冷链接和实时链接等方式。
1)热链接
热链接是指用户可以定制自己的查询需求,并设置各条查询需求的发送周期,该周期可根据需要设置为以天、季、月、年等为单位。
系统经过批量的智能检索处理后,可将满足各查询需求的检索结果按各自的发送周期定期地、主动地推送到用户的电子邮箱中。如果某查询需求的检索结果在相邻的发送周期内没有变更,则不进行重复推送。
用户不必登录系统,通过查看自己的电子邮件即可获得各查询需求的检索结果。
2)温链接
温链接是指用户可以定制自己的查询需求,每条查询需求及其检索结果在系统内置的用户个人文件箱中最多可保留30天。
系统经过批量的智能检索处理后,首先将每条查询需求是否有满足条件的检索结果情况(有或无)主动推送到用户的电子邮箱中,然后将满足条件的检索结果保存在系统内置的用户个人文件箱中。
用户不必登录系统,通过查看自己的电子邮件即可了解各查询需求是否已有检索结果,如果已有结果,再登录系统,进入用户个人文件箱中进行结果查看。
用户对自己不再需要的查询需求可以进行删除,若用户自己没有删除,系统会自动判断并清除超过30天的查询需求及其检索结果。
3)冷链接
冷链接是指用户可以定制自己的查询需求,新近增加的需求状态为“新需求”。
系统经过批量的智能检索处理后,将每条查询需求是否有满足条件的检索结果情况(有或无)主动推送到用户的电子邮箱中,并且重置需求状态为“已有结果”或“尚无结果”。
用户通过查看自己的电子邮件即可了解各查询需求是否已有检索结果,如果已有结果,再登录系统,可以方便地选择其他链接方式获取检索结果。
4)实时链接
实时链接类似于普通的信息检索方式,用户登录系统后,缺省的就是实时链接方式。用户选择好按某种检索模式,根据检索模式界面输入自己的查询需求,将查询提交后,系统经过实时的智能检索处理后,立即在屏幕上为用户显示检索结果。
以上4种定制服务方式中,前3种方式适合领域用户在日常工作和管理决策中经常性地查询自己所需的信息,不用每次都重复输入查询需求,而且检索结果或是否有检索结果的信息能够主动推送到用户的电子邮箱中,或保留在系统内置的用户个人文件箱中,方便用户的工作。用户可以根据自己的需要,选择不同的服务方式,定制自己感兴趣的信息。而最后一种方式适合提交新的查询需求或临时查询某信息等。
5)主动性信息推送
随着联入互联网的主机数、用户数和信息源节点数的增长,信息推送已成为人们关注的焦点。在信息推送问世之前,人们往往利用浏览器在互联网或内联网上搜寻,“拉”出自己所需信息。面对浩如烟海的信息,很多用户,特别是某些专业信息用户颇有大海捞针之感。
信息推送服务是一项面向用户、以用户为中心自动收集并发送信息的集成化服务。信息推送可以将用户定制的信息通过固定途径向用户主动发送,让用户得到最新的信息,而避免其在信息搜索中造成的诸多问题。使用信息推送技术,可大大提高用户获取信息的能力,并且能做到用户订制、按需推送。
该系统采用信息推送技术,能够在没有用户干预的情况下(比如用户离线的情况下),根据用户定制的查询需求自动进行批量的智能信息检索处理,对通过热链接定制的查询需求,系统自动将检索结果按各自的发送周期定期推送到用户的电子邮箱中,用户无需登录系统,即可在个人计算机上查看检索结果;对通过温链接和冷链接定制的查询需求,系统自动将检索结果有或无的信息主动推送到用户的电子邮箱中,温链接的检索结果还将保留在系统内置的用户个人文件箱中。这样就实现了信息服务由被动地“拉”到主动地“推”的转变,提高了工作效率。
[1]KARIM S,TJOA A M.Towards the use of ontologies for improving user interaction for people with special needs[EB/OL].[2009-01-02].http://www.ifs.tuwien.ac.at/~skarim/Camera%20Ready-Ontologies%20for%20Special%20People-v3_reviewed.pdf.
[2]CATARCI T,DONGILLI P,MASCIO T D,et al.An ontology based visual tool for query formulation support[EB/OL].[2009-01-02].http://www.google.com.hk/url?q=http://citeseerx.ist.psu.edu/viewdoc/download%3Fdoi%3D10.1.1.4.7045%26rep%3Drep1%26type%3Dpdf&sa=U&ei=WWz_TJOcKsL3rQeTmaT-Bw&ved=0CBAQFjAA&usg=AFQjCNFAk4y Aq2BirvNTO_7cK06vri_rAg.
[3]GARCÍA E,SICILIA M A.Designing ontology-based interactive information retrieval interfaces[EB/OL].[2009-01-02].http://www.google.com.hk/url?q=http://citeseerx.ist.psu.edu/viewdoc/download%3Fdoi%3D10.1.1.59.8830%26rep%3Drep1%26type%3Dpdf&sa=U&ei=wGz_TIe2F4jYrQesiZWFCA&ved=0CA8QFjAA&usg=AFQjCNH p8rzWWVc_RpBvTsRMh7O4LY8Gfg.
[4]GAUCHS,CHAFFEEJ,PRETSCHNERA.Ontology-based personalized search and browsing[EB/OL].[2009-01-02].http://www.google.com.hk/url?q=http://citeseerx.ist.psu.edu/viewdoc/download%3Fdoi%3D10.1.1.93.3661%26rep%3Drep1%26type%3Dpdf&sa=U&ei=_mz_TNSv CMmrrAePl52iCA&ved=0CBAQFjAA&usg=AFQjCNHvcLjPNNmCzIt R5ZJIJ2BfFbJAyA.
[5]TRAJKOVA J.Improving ontology-based user profiles[D].Kansas:University of Kansas,2003.