语义网环境下数字图书馆信息资源集成模型研究
2014-01-13刘卫宁
刘卫宁
(中南民族大学民族学与社会学学院,武汉430074)
语义网环境下数字图书馆信息资源集成模型研究
刘卫宁
(中南民族大学民族学与社会学学院,武汉430074)
语义网;数字图书馆;信息集成
语义网环境下数字信息呈现多样性、异构性等特点,造成了大量冗余信息的产生,这些信息资源关联度低,语义异构问题严重,影响了用户获取信息的体验和效率。本文为了提高数字图书馆信息资源集成的质量,运用有关语义网的方法和技术实现语义网环境下数字信息资源的整合、集成,并提出了模型框架,在本质上改变现有整合方式的缺陷和不足。
1 引言
互联网的普及、信息资源的数字化、信息系统的虚拟化,信息的获取日益方便、简单和全面,使得用户能够比以前更加快捷地查找和获取所需的信息,导致了信息服务的“非中介化”。[1]加上Web2.0概念的普及,许多Web2.0应用包括博客、微博、社交网站、社区论坛、维基和视频/音乐/图像分享网站等进入人们的视野,用户原创内容(User Generated Content,UGC)网站吸引了众多用户,普通用户的角色开始转变,从信息用户变成了信息创造者,提供了大量有价值的信息。人类真正步入了信息大爆炸时代。对海量数字信息资源进行充分的整合、集成,可大大提高用户使用信息的效率。数字图书馆正是在这样的背景下应运而生,并成为评价一个国家信息基础设施水平的重要标志。
2 语义网环境下数字图书馆信息资源集成模型
数字图书馆是基于分布式网络存在的系统,从分布在不同地理位置的数据库中抽取元数据,建立元数据库,同时对元数据库中的信息进行组织和加工,建立不同领域的本体库,促进多领域之间的交流和合作,从而实现分布式异构数字信息资源的集成。语义网环境下实现了对信息资源和它们之间的语义关系的描述,呈现数字图书馆信息资源的关联关系和层次体系,统一标识不同类型的数字化与非数字化资源。通过统一的元数据标准描述和组织信息,当信息资源增长的时候自动更新和改善领域本体库,实现了信息的语义推理功能,解决信息的语义异构问题。语义网环境下,以信息用户的需求为导向,将语义技术的优势融入数字图书馆信息资源集成模型的构建过程中去,使信息用户获取和利用信息的过程与数字图书馆信息资源集成的流程保持一致,为数字图书馆信息资源集成模型研究提供了一种新的思路。
有学者提过基于元数据的信息资源集成模型,引入本体技术后又有人提出了基于本体和多Agent的信息资源集成模型,诸如此类的模型很多,但是实际操作性并不强。要么模型过于抽象,不易把握;要么功能模块过于透明,不易扩展。因此,为了更好地解决信息资源集成问题,本文充分考虑模型的设计目标,遵循模型的设计原则和要求,参照Tim Berners-Lee提出的语义网结构层次模型,探讨语义网技术的特点及其在信息资源集成中的作用,提出了一种新的数字图书馆信息资源集成模型,该模型共五层,分别是数据源层、信息描述和组织层、语义整合层、资源存储层和用户交互层,如图1所示。
图1 语义网环境下数字图书馆信息资源集成模型
该模型在获取数字图书馆信息资源的基础上制定元数据标准,使用RDF描述信息,引入语义网中的本体技术构建全局模式,通过RDF/RDFS和OWL赋予信息语义,为了提高本体的语义表达能力,在语义整合层加入语义规则,实现本体的一致性检测和语义推理,[2]保证本体的准确性,然后运用数据仓库和本体存储技术将数字信息资源统一存储在云端,使整合后的信息可以为用户提供更加优质的服务。由于信息包括结构化、半结构化和非结构化信息,在数据获取层需要将非结构化信息和半结构化信息先转化为结构化信息。为了实现信息的标准化描述,在信息描述和标准化层需要制定统一的元数据标准,参照元数据标准,将数据获取层的信息同时存储在RDF/XML文件和数据库中,在语义整合层构建全局本体,为每个数据源分别构建局部本体,局部本体的构建需要领域专家的参与和完善,在局部本体与全局本体之间建立映射关系,创建映射规则库,解决语义异构问题。将RDF和OWL本体中的信息存储在数据库中,经过ETL后把所有信息可以暂时存储在ODS(Operational Data Store)中,进一步存储在数据仓库中,通过统一人机交互界面接入数据访问接口,根据不同的需求访问不同存储形式的信息资源(包括数据库、数据仓库和RDF/OWL文件),实现语义检索功能,针对不同的使用目的向用户提供个性化、专业化和智能化的协同检索和推荐服务;智能检索引擎既能够访问数据库和数据仓库,也能够遍历RDF/XML和OWL文件中的信息。
3 语义网环境下数字图书馆信息资源集成模型构建过程
3.1 数字图书馆用户兴趣模型的表示
为了满足用户的信息需求和兴趣偏好,本文提出的模型需要收集用户基本信息,构建数字图书馆用户兴趣本体库,通过用户兴趣本体表示用户的兴趣偏好,采用动态机器学习机制获取用户兴趣概念。[3]根据用户主动提供的信息以及系统对用户行为的挖掘和分析(包括分析用户的Web访问日志和缓存信息),运用挖掘算法分析用户的兴趣需求,建立高质高效的用户兴趣模型,如图2所示。根据用户的实际选择和反馈信息对已经建立的用户兴趣模型进行修正,确保用户兴趣模型能够自我更新和不断完善,从而使得最终的用户兴趣模型能全面而准确地反映用户的兴趣。系统按照初步建立的模型把检索到的信息推荐给用户,根据用户模型对文本进行预处理后形成的关键词集合进行过滤,同时发掘具有共同兴趣的用户群,为数字图书馆用户提供个性化、专业化和智能化的协同检索和推送服务。
图2 数字图书馆用户兴趣模型的构建过程
用户兴趣模型描述了用户的兴趣偏好,同时根据用户对信息的反馈和评价,更新用户模型,从而更新知识产品。构建用户兴趣模型需要分析用户获取信息的方式,借助领域本体准确、规范地描述用户感兴趣的信息,建立用户兴趣挖掘模型,向用户提供所需的信息。数字图书馆用户兴趣挖掘运用适当的挖掘算法,计算分析用户浏览网页时留下的日志记录信息,发现用户感兴趣的内容。
用户访问数字图书馆会产生日志记录文件,包括访问日志、引用日志、代理日志和错误日志等。日志文件中记录了大量的用户访问信息,包括用户的ⅠP地址、访问时间、浏览页面URL、请求方式和字节数等,还有网站服务器接受、处理请求以及运行错误等多种信息。通过挖掘相关的Web日志记录,可以发现用户访问Web页面的模式;通过分析日志中的记录规律,可以识别用户的忠诚度、喜好、满意度,发现潜在用户,改进服务效果,提高服务竞争力。通过用户提供的信息,结合用户的浏览行为和访问日志获得用户的偏好,利用本体库中的相应概念表示用户模型,根据模型将符合条件的内容推荐给用户,并在相关反馈的基础上改进用户模型。
3.2 数字图书馆领域本体的构建
领域本体库包含着一个领域中最基本的概念、概念的定义以及各个概念之间的语义关系网络,它在整个语义检索过程中起着非常重要的作用。领域本体确定了该领域内普遍认同的确切概念,通过对概念之间的关系进行语义描述,使用户与机器之间的交流上升到语义层次。用户在进行查询时会调用领域本体库,从中找出与关键词相对应的概念所在的领域,将该领域下的相关概念提供给用户,帮助用户生成更精确地查询,提高查询效率;领域本体的构建方法如图3所示。
图3 领域本体构建
Noy和Hafner提出了本体构建的七个步骤:确定领域和范围;重用现有本体是否可行;列出本体中的重要术语和主题词;定义类和类的继承关系;定义属性和关系;定义属性的限制;构建具体实例。[4]
领域本体库构建完成之后,运用SWRL和描述逻辑对构建的领域本体进行推理得出隐含的信息,同时完成一致性检测。例如,在某领域本体库中,许多概念具有交叉相关性,因此,在构建本体过程中,需要定义概念之间的逻辑关系,使用推理机制完成概念相互关系的说明,避免概念的重复构建,保持概念应有的逻辑关系。领域本体库的构建不是一劳永逸的,因为数字图书馆信息资源是动态变化的。因此,必须根据数字图书馆信息资源的变化及时调整和更新已经构建的本体,维持领域本体在整个系统中的作用,不断适应用户的需求。需要利用推理机对本体进行预处理以消除冲突,选择利用Racer推理机来对本体的概念和实例进行层次分类和调整,消除本体内部不一致性冲突,从而形成一个完整、有效的OWL知识库。从OWL本体和SWRL规则库到Jess事实库和规则库,要经过事实转换和规则转换。由于Jess推理机不能识别OWL格式的本体和SWRL格式的规则,所以在进行推理之前,要对OWL本体和SWRL规则进行转换。Jess推理引擎是推理过程的核心部分,它基于事实库和规则库进行推理,从而得出新的事实。然后,将新的事实添加进原来的本体中,令原本体中隐含的语义关联得到显性化,从而为数字信息资源的智能检索、个性化推送等功能打下基础。
常用的规则推理引擎有Jess、CLⅠPS、Prolog等,而目前还没有专门针对SWRL的推理引擎。Jess(Java Expert System Shell)由推理机、事实库和规则库三部分构成,支持正向推理和后向推理。尽管Jess不支持基于OWL的本体和基于SWRL的规则,但是我们可以将OWL本体和SWRL规则转换成Jess推理引擎能够识别的格式。基于SWRL的本体推理过程如图4所示。
图4 基于SWRL的推理
利用领域本体对数字信息资源进行标引,即对文档集进行内容抽取并分析特征词,建立概念集之间的关联,形成具有语义关联的知识库。本体提供了学科领域的概念、概念之间的关联以及领域的核心理论,可以通过本体将信息资源组织成具有网状结构的、可共享的知识结构体系,表达显性和隐性的语义信息。这样文献资源能够被更好地组织和划分,概念间的语义关联也能被精确定义,为实现知识推理和智能化检索提供了铺垫。借助领域本体对信息集合进行语义分析与标注后,形成具有语义关联的资源元数据集合,然后存入本体知识库。
3.3 数字图书馆元数据描述框架
对数字图书馆不同数据源的元数据信息分别进行提取,借助XML/RDF文档加以组织,在无人工干预的情况下,参照原有的数字图书馆元数据标准重新定义,提取不同的应用模式,并存储在元数据库中。由于RDF模式(RDFS)具有开放性,用户可以自行定义和扩展RDF模式,通过XML/RDF对信息资源进行无二义性的描述。为了保护现有的数字图书馆信息资源,充分挖掘数字信息资源,数字图书馆适宜采用多种元数据标准并存的方法。
可行的方案是以Dublin Core元数据为核心元数据库,多种对应于不同资源类型的元数据方案并存,并以基于XML语法的RDF/RDFS语言将它们封装在一起,使基于该模型的元数据资源能够为机器所理解,如图5所示。
图5 数字图书馆元数据描述框架
该元数据描述框架是一个灵活可扩展的元数据方案,主要是利用RDF将多种不同类型的元数据进行封装,既充分保留和利用了数字图书馆中原有的元数据信息,也确保了对不同类型的资源性元数据描述。此外,RDF具有开放、标准和统一的特性,为将来数字图书馆信息资源的迁移奠定了良好的基础。由于不同类型的元数据集合之间往往需要进行互操作以完成应用需求,定义一个统一的元数据库是十分必要的,有利于实现不同元数据集之间的转换和映射。
3.4 数字图书馆信息资源存储平台的搭建
数字信息资源的存储需要搭建一个云计算平台,将所有信息存储在云端,数据仓库和本体存储技术实现了资源的云存储,云存储是一个以数据存储和管理为核心的云计算系统。通过云计算机技术存储整合后的信息,能够为用户提供更加优质高效的服务。
数据库中的信息通过抽取、清洗和转换等ETL过程存储在ODS、数据集市和数据仓库中,可以根据需要进行多次数据处理;多媒体文件存储在多媒体资源库;网络信息资源在预处理后参照元数据标准存储在本体中,表现形式为XML、RDF和OWL文件,RDF信息最为直观,XML其次,OWL最为复杂,进一步可以将这些文件中的信息存储在数据仓库。通过开源框架可以进行本体存储,常用的有Jena和Sesame。如果是使用Oralce这样的支持语义功能的数据库,则需要将RDF/XML和OWL文件先转换为N-triples格式才能存储。
4 结语
本文探讨了语义网技术在数字图书馆信息资源集成中的作用,并运用语义网技术解决了数字图书馆信息资源集成中的信息表示和语义异构问题,提出了一种基于语义网技术的数字图书馆信息资源集成模型。该模型具有很强的可操作性,各个层次完成相应的工作,通过层与层之间的接口紧密结合,从而实现数字图书馆信息资源的整合,旨在为用户提供更加优质的个性化服务。考虑到数字图书馆信息资源的多样性、复杂性、海量数据和个性化等特点,该模型力求抽象,为进一步的完善和扩展打下基础。
[1]张晓林.走向知识服务——寻找新世纪图书情报工作的生长点[J].中国图书馆学报,2000(5):32-37.
[2]唐晓波,金钟鸣.基于本体与规则的语义推理研究[J].情报学报,2011,30(7):695-703.
[3]左晖,等.个性化知识服务中基于Ontology的用户兴趣挖掘研究[J].情报学报,2008,27(1): 18-23.
[4]NoyN,HafnerC.The stateoftheartinontologydesign[J].AⅠMagazine,1997,18(3):53-74.
G250.76
A
1005-8214(2014)01-0086-04
刘卫宁(1975-),男,汉族,山东枣庄人,中南民族大学民族学与社会学学院博士生。
2012-09-27[责任编辑]王钧梅