基于web3.0的高校数字图书馆信息服务平台构建研究
2012-11-08许建林
许建林, 毛 烨
(江苏畜牧兽医职业技术学院,江苏 泰州 225300)
数字图书馆的发展,对高校图书馆提供的服务要求也越来越高,图书馆海量资源的数字化、服务手段的网络化,使图书馆由传统的资源管理、资源服务向知识化、个性化管理和服务转变。知识化、个性化业已成为现代高校数字图书馆信息服务工作的重要内涵,那么提供怎样的知识化、个性化的信息服务,这需要构建与之相适应的信息服务平台。传统的信息服务平台大多是基于web1.0和web2.0技术,而实现知识化、个性化信息服务,则需借助于web3.0技术。构建基于web3.0的数字图书馆信息服务平台,可以实现图书馆信息服务的个性化、智能化、精准化和高效化。
1 web1.0、web2.0、web3.0的发展
web1.0是一个静态的、以资源为中心并单向传递信息的网络,读者需主动访问基于web1.0的网站,才会获取相关信息,否则不会产生信息的流动,此时读者只是单纯的信息接受者。即在高校图书馆信息服务中,高校图书馆提供什么样的信息,读者只能被动的、单方面的接受什么样的信息,这种基于web1.0的信息服务是信息服务的机械化阶段。
web2.0是一个动态的、以读者为中心并双向互动的网络,读者在这里不仅可以接受服务,也可以参与到图书馆提供服务的过程中。基于web2.0的信息服务网站不仅具有信息推送、订阅、筛选等功能,它还允许读者上传信息、建立个人空间。在这里,读者既是信息的接受者,也是信息的生产者。这种信息服务模式,体现了人机的双向互动,实现了信息服务的半智能化。
web3.0是继 web1.0、web2.0后的进一步提升,它具有更好的互动性,可以为读者提供一个智能化、知识化、个性化的信息服务平台,是更加智能化的人机双向互动的网络模式。这种基于web3.0的信息服务平台具有强大的语义概念,使计算机能够智能化的满足读者的需求。读者只需要登录平台就可以获得个性化的服务,通过输入自然语言就可以迅速检索到一整套范围广、准确率高的信息。
2 构建基于web3.0信息服务平台的关键技术
传统的信息获取方式是基于关键词的匹配技术,对被检索的语义并不需要了解,因此检索结果就会因歧义、多义等因素而出现偏差。基于web 3.0信息平台的信息获取方式不再是单纯的关键词匹配模式,它理解检索者的需求,自动分析、筛选出符合要求的信息,使检索到的信息更为精确。下面是两种不同获取信息方式,如图1、图2所示:
信息服务平台能够理解检索者的需求,这需要借助于 web3.0中的语义网(Semantic Web)技术,它是一种能理解人类语言的智能网络,不同于因特网,它是因特网的扩展与延伸,而且因特网是面向文档的,而语义网的对象是文档所表示的数据,语义网相对于因特网更利于计算机理解读者的真实想法。在web3.0时代构建基于语义网的高校数字图书馆信息服务平台,让计算机为读者实现个性化、智能化的信息服务。这需要解决两个关键的技术,即 本 体 (Ontology)和 概 念 图 (Conceptual Graph)。
(1)本体一词起源于哲学,是研究客观事物存在及其本质的通用理论,本义为对世界上客观存在物的系统地描述、解释或说明,在图书馆信息服务平台中,它是对某一专业领域知识的共同理解。通过对某一领域知识定义其领域术语,用相同的术语对资源进行详细准确的描述,从而在具体应用中可以通过共享语言达到相互的理解,进而对其进行语义标注,使其具有语义功能,就能在计算机系统中表征和交换知识,并能够被自动解析和识别。所以本体的构建是实现语义网的根本,即要实现语义网首先要构建领域本体。
一个本体的构建一般也是针对现实生活中的某一特定的领域,构建时首先是掌握本体应用的背景、需求,以确定好本体应用的领域;其次是查询正在构建的领域本体与已存在的本体库是否重复,如有重复则直接可以套用;第三是尽量列举出该领域内所有的重要术语,经过领域专家的分析、整理,提取出该领域重要的、精准无二义性的术语并编辑形成概念汇总表;第四是对收集来的术语进行定义成类及各类之间的关系;第五是对领域本体进行编码,以便于计算机理解和处理,目前本体描述语言使用较多的是 OWL(Web Ontology Language)语言;最后就是需要进行检验和评价,以便发现问题进行完善。
(2)概念图是一种图形化的表示工具,是自然语言和计算机领域之间的桥梁,作为自然语言和计算机之间的语言,它为计算机进一步处理语句,理解语句的语义作了很好的铺垫。概念图的构造是由结点经有向弧连接而成的,其结点有两类,分别是概念结点和关系结点。概念结点一般由两实体构成,包括概念类型及实体对象,一般采用矩形来表示,用来表示实体、属性、状态或事件,关系结点一般用椭圆表示,用来表示概念间的交互关系。它们之间通过有向弧连接起来,这是三元组结构。
本体论从一定程度上来说其实就是一种特殊的概念图,将本体其中的类、实例及属性值与概念图中的结点相对应,类间的关系与概念图中的弧相对应。这样,本体的概念就可以通过概念图进行表达。从两者之间的关系,就可以使用基于概念图的匹配算法来计算本体论中用户查询请求和事实数据的相关度。所以,概念图在信息服务平台中起着承前启后的作用,如何准确判断出概念图中概念之间的关联关系对于计算机能否理解语义,实现语义的推理和计算有着关键的意义。
3 基于web3.0的信息服务平台模型构建
在高校数字图书馆中,由于web3.0技术的引入,使检索服务由传统的基于关键词匹配的模式上升到了语义知识的层次。读者在使用数字图书馆的过程中,使计算机能够理解读者的真实想法,与读者进行良好的人机交互,从而能够达到更好的共建共享、信息交流的服务。
图3 基于web3.0的数字图书馆个性化信息服务Fig.3 Web3.0based digital library personalized information service
构建基于web3.0的高校数字图书馆信息服务平台模型(图3),其操作流程是先由读者登陆平台界面开始,平台根据读者账号调动读者偏好库里相关数据自动构建个性化界面;读者在该平台界面里提出信息检索需求,平台系统根据对其进行语义分析处理,生成概念图形式;根据生成的概念图,平台一方面将其与个人偏好库进行匹配,若偏好库中包含与之相同的数据则增加其权重,否则对读者行为库进行更新,另一方面平台在领域本体库中采用概念图匹配算法进行匹配及相似度计算,然后对检索结果进行相关性排序后输出,最后平台还需将读者对检索出结果的评价、使用情况等信息反馈给个性偏好库,以更新并完善个性偏好库。
信息服务平台模型主要由语义分析处理、个性化、信息资源整合处理三个主要模块组成。
3.1 语义分析处理模块
本体可通过类、实例及其属性组成的三元组来表示,概念图中的结点可以与本体中的类、实例及其属性相对应,概念图中的弧可表示为类间的关系,所以本体可看做是一种特殊的概念图,而概念图也可看做是一种特殊的本体表现形式。于是,语义分析处理模块通过对读者的检索需求进行分析处理,通过对检索式进行抽词、词性标注、句法分析、概念识别等操作抽取出检索式中的词语,并向概念图进行映射,表示成概念图的模式,以便进行语义检索。
读者采用自然语言的方式来进行检索,语义分析处理模块在对读者信息需求进行抽词处理时,利用领域知识本体库所含有的专业词典,对检索式中包含的专有词汇进行一一映射、挖掘,提炼出检索表达式中有意义的词。抽词之后,将抽词结果进行词性标注处理,并进一步进行语法分析,然后通过概念识别,从而了解读者检索的类型,并最终可将读者需求表达为概念图模式,通过概念图匹配算法来计算读者查询请求与事实之间的相关度,反映出读者的真实需求。
3.2 个性化模块
个性化模块主要根据读者专业的侧重、检索的历史行为等,实现为不同的读者提供全面的、准确的个性化需求的信息。实现该功能需要对读者进行长期行为的跟踪,当读者登录信息服务平台时,平台会自动生成适合读者的个性化页面和内容。同样,在检索时,平台也会根据读者的个性偏好,即使不同读者提出相同要求,平台也会输出不同的检索结果。
读者在初次登录该平台时,须先进行注册,通过提供个人兴趣方向、专业背景、研究领域等信息,以便信息平台系统对读者进行个性化设置。当然,未免读者所填信息不全或者后期兴趣的转移,还需要求读者对自己提供的信息进行更改外,信息服务平台也可以根据读者的检索行为、检索结果的反馈、浏览记录等进行挖掘,实现对个性化偏好库的更新。
3.3 信息资源整合处理模块
目前,高校数字图书馆都拥有了大量的信息资源,传统的关键词检索方式,需要其检索对象,也就是这些资源提炼出相应的词语以供检索匹配。而基于web3.0的信息服务平台则需要通过语义方式检索,所以需要对图书馆中存储的信息资源创建本体模型,进而构建领域本体库。
在创建领域本体库的过程中,需要创建人员与领域专家进行沟通,在领域专家的协助下,充分挖掘领域的知识,达到对领域概念的一致性理解,形成一致认可的领域词汇。同时,由于元数据所描述的结构化数据容易被计算机所理解及处理,所以对数字图书馆信息资源元数据信息的挖掘也显得尤为重要,因为数量庞大,我们可以使用图书馆中成熟的元数据(MARC)。领域本体库的构建并不是一劳永逸的,随着数字图书馆的信息资源不断的积累发展,读者的信息需求也在不断发展,因此,领域本体库也需要不停的维护更新。
4 结束语
web3.0作为 web1.0与 web2.0的继承与发展,使计算机的运用达到了语义的级别,计算机所识别的不再是简单的一堆字符标志及字符处理,更能够理解字符中所包含的语义。本文探讨基于web3.0时代的语义网技术,改善目前高校数字图书馆信息资源服务中利用传统技术难以查全、查准相关资源的状况,并探索本体构建的方法和过程,利用概念图匹配来表示 语义网的理论和方法,提出开发基于本体的语义信息服务平台的框架,体现信息聚合的个性化、信息检索的精准化和智能化、信息服务的整合化和高效化。当然由于基于web3.0的数字图书馆个性化信息服务平台是建立在语义网技术之上的,平台的建立和完善还需要进一步完善领域知识本体的构建,这是一个工作量很大也很复杂的工程。
[1]朱巧明,李培峰,吴娴,等.中文信息处理技术教程[M].北京:清华大学出版社,2005.
[2]陈刚.基于Web3.0的数字图书馆个性化信息服务平台的研究[D].南京:南京信息工程大学计算机与软件学院,2011.
[3]吴一平.基于 Web3.0思想的图书馆3.0服务新模式的研究与应用[J].图书馆,2011(1):90-92.