APP下载

基于Heraclitus II的数字资源长期保存系统

2016-02-23鞠彦辉牟冬梅

计算机技术与发展 2016年3期
关键词:演化过程知识库本体

鞠彦辉,牟冬梅

(1.渤海大学 管理学院,辽宁 锦州 121000;2.吉林大学 公共卫生学院,吉林 长春 130021)

基于Heraclitus II的数字资源长期保存系统

(1.渤海大学 管理学院,辽宁 锦州 121000;2.吉林大学 公共卫生学院,吉林 长春 130021)

为了改进当前数字资源长期保存技术存在的缺点,有效构建数字资源长期保存系统,在分析当前基于本体的数字资源长期保存系统存在的如本体集成度差、不能提供本体进化时的时间语义信息、忽视一致性维护和更改传播等缺点的基础上,介绍了Heraclitus II双时态本体模型及其应用特点,主要基于Heraclitus II本体技术构建了数字资源长期保存系统。具体包括本体构建和集成、协同本体管理、本体演化需求、本体演化过程等组件,详细分析了各个组件的功能。研究结果表明,应用Heraclitus II双时态本体技术能有效构建数字资源长期保存系统,实现数字资源长期保存的要求。研究结果对新媒体环境下数字资源长期保存系统的构建有一定参考作用。

Heraclitus II本体;本体;长期保存;数字资源

0 引 言

现在如图书馆、档案馆、文化机构、科学组织和政府机构等相关部门信息组织面临的一个主要挑战是数字资源的长期保存和访问问题。每隔几年数字对象保存所依赖的硬件、软件、数字资源、数据模型和标准就得升级或更换,数字对象保存需要持续和昂贵的维护成本。数据收集和内容创作的加速,数字资源日益增加的复杂性意味着许多组织已经不能满足数据保存的需要。数字资源长期保存是指随着时间的推移,长时间保存和管理数字资源。它要求数字资源长期、准确无误的存储,在信息需求的整个时间跨度内能被检索、获取和解释[1-2]。

元数据(metadata)和本体(ontology)已被证明是数字资源长期保存的重要因素。然而,元数据是描述性的,它将一个对象作为一组属性的记录,这使得元数据在描述数字对象间存在的依赖关系时效率低下,特别是时间关系的描述,对数字资源保存过程来说过于简单,数字对象之间关系的描述对长期保存来说是一个关键的要求。此外,由于需要元数据有处理继承的能力,对特定领域的要求来说核心元素集的可扩展性也是一个问题。本体提供组织和表示知识库语义的方法,以面向对象的方式使用本体可以更好地描述数字对象之间的依赖关系[3-4]。通过调查发现,现有主要的本体管理和演化方法如GATE,Ellogon,UIMA,Sesame &OMM,OntoView,PROMPT,KAON,SHOE等存在某些不足。首先,本体集成度差,很少采用本体的分层结构。其次,缺乏捕获和提高本体中时态信息的本体模型,不能提供本体进化时足够的时间语义信息。最后,本体演化的关键问题,如一致性维护和更改传播往往被忽视。

为了解决这些数字资源长期保存中存在的问题,文中研究基于Heraclitus II(赫拉克利特II)双时态(temporal)本体分层结构模型构建数字资源长期保存系统。

1 Heraclitus II双时态本体模型简介

本体论模型描述不同组件之间复杂的关系,以及它们随时间的推移与演化。为了捕获需要保存的本体的时间因素,有学者提出了Heraclitus II双时态本体模型[5]。概念、关系和实例是Heraclitus II本体的基本对象。Heraclitus II框架把本体作为信息管理语义丰富的知识库,并提出这个知识库管理和演化的方法。Heraclitus II采用本体分层结构,从下到上依次为词汇(Lexical)本体层、领域(Domain)本体层、数据源(Data Source)本体层和应用(Application)本体层。低层代表更通用的、所有目的的本体,上层是为信息管理系统内的某些用途定制。当从底部到顶部穿过每一层时,每层复用和扩展以前的层,这些通过使用相邻层本体构建单元(如概念、关系和实例)间的映射执行。此外,当一层扩展它下面的层时(例如插入新概念),这些扩展传播到较低的层。每一层由本体作者的不同群组保持,依靠每一层需求的专门知识。通过属于同一层(内层)或不同层(跨层)本体映射实现本体金字塔层级集成。

2 基于Heraclitus II双时态本体的数字资源长期保存系统构建

为了有效管理数字资源相关的语义及其提供的服务,使用Heraclitus II构建一个分层的数字资源语义知识库。首先,根据研究的要求构建每个本体层。其次,为了定义不同层的集成,在不同层间创建适当的链接,完成Heraclitus II本体金字塔的构建。最后,实现本体演化。

2.1 本体构建和集成

为了在数字资源长期保存系统中应用Heraclitus II框架,采取以下步骤。首先,根据研究需求构建每个本体层。层间进行彼此映射,以便被集成进Heraclitus II本体金字塔。为建设每个本体层,需要指定参与的本体作者群体。本体映射取决于它们的范围,它们的维持需要一或两个作者群体共同努力。层内本体映射被分配给负责相应层的作者群。通过本体映射,本体金字塔层集成到一个可管理的模式。Heraclitus II本体映射由属于同一个或不同层本体对象间的关系组成[10]。

在数字资源长期保存系统中,使用本体的一个基本问题是建立一个被所有不同背景的用户接受的一致的本体版本。每个参与方,基于他们的专业知识和要求,对问题有不同的概念化。在本体构建和维护中,Heraclitus II多层次结构通过分配给每个用户组一个不同的角色来解决这个问题。在这种方式中,因为每个用户组重点研究他们感兴趣的领域,本体构建的任务变得更加容易。

自顶向下的本体建模方法,不适合表达专家如何看待他们的专业技术领域。在模型化一定领域中本体的层级分类可能引起严重的问题。此外,为了完全覆盖领域的所有方面,本体作者要付出大量的努力以创造用于逻辑推理的本体和元数据。Heraclitus II通过演化解决这个问题,即使开始的本体是不完整的,它可以通过一个有效的演化过程随时间提高质量。

为Heraclitus II进行本体构建与本体金字塔结构密切相关。在构建Heraclitus II金字塔时,本体作者关心的主要问题是“本体对象被放置在哪一层?”,有些情况下构建的本体可以属于一个以上的层。由于一层结束下一层开始,这会引起混乱。在这种情况下,本体的作者必须达成一致协议,使用层间映射处理包括的层,在演化过程中可以修订、纠正[11]。

2.2 协同本体管理的挑战

在构建和维护本体过程中,不同部分之间的协同是现代数字资源长期保存系统一个重要的成功因素[12]。因为随着知识库在规模和多样性方面的不断成长,需要增加更多样化的本体作者,以支持协同本体管理环境的一些重要任务。使用以下指标评价Heraclitus II协同情况[13]。

知识集成:协同环境的一个基本任务是整合多个参与者的贡献。Heraclitus II提供了一个由多方构建和管理的多层结构体系。通过本体映射支持可重用性和集成。

并发管理:本体作者需要在知识库不同部分同时工作。在知识库同一部分由一个以上作者同时编辑的情况下,可能会导致冲突。Heraclitus II提供各种技术(非实时)解决这个问题,如并发版本系统(Concurrent Versions System,CVS)、维基(Wiki)或点对点(peer-to-peer)为基础的解决方案。

一致性维护:因为本体通常反映每个作者的观点,部分知识库由不同作者开发可能引起相互不一致。Heraclitus II提供结构和语义一致性维护机制和变更传播以确保知识库总是保持完全一致。

权限管理:为了保证知识库的准确性,根据自己的专业、权限和责任,依需要给用户分配不同级别的权限。通过给每个用户组负责的层相同的特权,实现权限管理的完整方案。

历史维护:协同环境应该提供从错误恢复和解决知识库意外变化的手段。为了能够跟踪变化的作者和防止重要信息的丢失,知识库的所有变化都应该记录下来。

可扩展性:知识库多个部分长期合作通常会增加其大小,协同环境不得不扩展到更大的本体[14]。

2.3 本体演化需求

Heraclitus II框架在本体演化方面有一些需求特性。首先,演化过程对作者是透明的。Heraclitus II本体的分层方案为每个本体层定义相应的作者。这些作者的任务是监督本体的建设和维护。特别地,本体金字塔建设是半自动的,通过聚类或分类算法辅助作者工作。在演化过程中,作者可能需要捕获变化并复查系统捕获的变化,从而改进由此产生的本体质量。一致性维护是Heraclitus II本体演化的另一个目标。去除一个有子概念的概念会影响本体的一致性。执行变化后需要一组操作保持一致性。这组操作或关注改变的本体,或关注依赖改变本体的其他本体。在后一种情况下,为了变化被传播到依赖本体的相应部位将考虑Heraclitus II元本体映射。例如,由于被删除、合并或分裂,两个映射概念之一不存在了,这也会影响到其他的映射概念。为了实现演化过程的进一步自动化,作者需要定义一致性维护操作集或传播策略。通过定义涵盖最常见不一致情况下的传播策略以减少作者的负荷。然而,作者应该能够检查所有提出的本体的变化,包括依赖的任何级联影响。如果需要,允许作者通过重写传播策略以保持对演化过程的完全控制。

本体演化过程也应该是可逆的,即提供撤消一套本体变化回到一致性以前状态的能力。主要有两种方法来实现可逆性:每一组变化应用后保持同一本体的不同版本,或通过保持演化的历史数据,包含所有执行变化的集合。为了实现高效的版本管理,所有本体版本需要互联[15]。在这种情况下,可以应用元本体描述不同版本之间的关系。此外,查询进化的历史数据将提供本体结构演化的时间信息。例如,通过分析其历史信息捕获概念表现出的时间运动的“概念漂移”现象,保存在策略知识库中。使用时态关联规则挖掘,传播策略里尚未被捕获的概念之间的依赖性识别也是可能的[5]。

Heraclitus II本体演化的另一个目标是一致性保存。这在两个层次上进行:结构和语义。解决因为变化导致本体结构或语义产生的不一致。此外,特殊本体里产生的变化传播到内部(内部改变的本体),以及外部(依靠内外层映射的本体),实现所有本体层同时演化。Heraclitus II本体金字塔建设是半自动的,通过聚类或分类算法辅助进行。为构建每个本体层,需要指定的本体作者群参与。

2.4 本体演化过程

图1 本体演化过程

使用Web挖掘和聚类技术自动捕捉变化,或由作者手动捕捉变化[16]。捕获的变化主要是应用驱动或数据驱动。本体应用驱动的变化源于本体使用方式的变化,被捕捉的数据驱动的变化源于本体中数据的变化。这种差异只影响变化产生的方式。当一个应用以相应的本体与应用持续正常运行相一致的方式修改时,在应用层捕获应用驱动的变化。被捕获的本体变化包括在概念间插入新关系。进一步的改进包括创建新的类别、去除现有的类别以及改变概念所属层次的水平。每当数据源的结构修改时在数据源层发生数据驱动的变化,例如一个新的主题分类加到一个门户网站或一个主题分类分为更多新的分类。在领域层,从领域的变化捕获数据驱动的变化。例如,当一个新公司介绍到该领域或发生合并时,模型化一个市场领域的本体需要更新。在词汇层,数据驱动的变化关系语言上词典编纂的变化。

本体演化周期的下一步是不一致性检测和解决方案。由于检测到本体的变化或依赖本体的变化,每个捕获的变化都可能导致不一致[17]。不一致检测在两个层面进行:本地(本体内部的改变)和远程(独立本体)。在第二种情况下,元本体(metaontologies)用于抽取不同层相同本体间的关系;基于这些关系,确定受影响的本体部分。

变化及其结果建立后,让作者审查到目前为止演化过程的结果。在这一阶段,涉及相应的受影响的本体层的作者。

在演化的后一阶段,审查应用和传播的变化。特别地,修改各层本体以适应在演化第一阶段捕获的变化,以及通过认可的传播政策展示的传播结果。

最后,元本体包括在与前一阶段的应用变化对齐的不一致解决方案中。例如,元本体含有两个实例映射,其中一个被删除就需要更新。因此,在元本体上执行一个新的演化周期。变化捕获阶段识别元本体的变化。任何不一致都被检测并用适当的传播策略解决。这个周期执行期间唯一的区别是除了修改没有传播到元本体,因为元本体之间没有依赖关系。作者审查后,更新元本体保存一致性状态[18]。

3 结束语

文中构建了基于HeraclitusII本体的数字资源保存系统模型。提出的知识库分层结构定义了不同类型的保存本体,在本体作者不同群体中分配责任。这种架构的本体(从通用的到专业的)通过本体映射集成。详述了本体构建、协同本体管理、本体演化需求、本体演化过程等内容。研究结果对新媒体环境下数字资源长期保存系统的构建有一定的参考作用。

[1]JonesM,BeagrieN.Preservationmanagementofdigitalmaterials:ahandbook[M].London,UK:BritishLibraryPublish,2001.

[2] 赵玉宇.国外数字资源长期保存的热点问题研究[J].图书馆建设,2011(6):19-23.

[3]NgK,PhamTV,OngB,etal.Ontologyforpreservationofinteractivemultimediaperformances[M]//Metadataandsemantics.US:Springer,2009:37-38.

[4] 刘金花,张友华,李绍稳,等.本体演化研究进展[J].计算机系统应用,2011,20(7):239-243.

[5]MikroyannidisA,TheodoulidisB.HeraclitusII:aframeworkforontologymanagementandevolution[C]//Procof2006IEEE/WIC/ACMinternationalconferenceonwebintelligence.HongKong,China:IEEE,2006:514-521.

[6]KakoudakisI,TheodoulidisB.TAU:towardsatemporalobject-orientedDBMS[C]//Procof9thinternationaldatabaseconference.HongKong:[s.n.],1999.

[7]MikroyannidisA,OngB,NgK,etal.Ontology-basedtemporalmodellingofprovenanceinformation[C]//Procof14thIEEEmediterraneanelectrotechnicalconference.Ajaccio,France:IEEE,2008:178-179.

[8] 田晓云,方丽英,闫健卓,等.有时态本体模型及其管理原型系统[J].计算机工程,2010,36(3):41-43.

[9]MikroyannidisA,OngB,NgK.Ontology-drivendigitalpreservationofinteractivemultimediaperformances[C]//Proceedingsofthe3rdinternationalconferenceonautomatedproductionofcrossmediacontentformulti-channeldistribution.[s.l.]:[s.n.],2008:3-5.

[10]NgK,MikroyannidisA,OngB,etal.Ontologymanagementfor

preservation of interactive multimedia performances[C]//Proceedings of the international computer music conference.Belfast:[s.n.],2008.

[11] Mikroyannidis A,Theodoulidis B.Ontology management and evolution for business intelligence[J].International Journal of Information Management,2010,30(6):559-566.

[12] 李伟超.数字资源长期协同保存问题研究[J].创新科技,2013(7):58-59.

[13] Bao J,Hu Z,Caragea D,et al.A tool for collaborative construction of large biological ontologies[C]//Proc of 17th international conference on database and expert systems applications.Krakow,Poland:[s.n.],2006.

[14] Mikroyannidis A.A semantic framework for cloud learning environments[M]//Cloud computing for teaching and learning:strategies for design and implementatio.[s.l.]:IGI Global,2012:17-31.

[15] 王 兴,何婷婷,庄 超.本体演化及本体的版本管理机制研究[J].计算机与数字工程,2006,34(7):7-10.

[16] 徐 静,宋 文.本体演化管理的方法和关键技术研究进展[J].图书情报工作,2011,55(14):122-124.

[17] 薛建武,赵 娜,高俊萍,等.本体演化过程中的实例完备性研究[J].情报杂志,2013,32(9):175-179.

[18] Mikroyannidis A.Evolving e-learning ontologies for personal and cloud learning environments[C]//Proc of 2011 seventh international conference on signal image technology & internet-based systems.[s.l.]:[s.n.],2011.

Long-term Preservation System of Digital Resources Based on Heraclitus II

JU Yan-hui1,MU Dong-mei2

(1.Management School of Bohai University,Jinzhou 121000,China;2.School of Public Health,Jilin University,Changchun 130021,China)

In order to improve the shortcomings of current long-term preservation technology of digital resources and effectively construct long-term preservation system of digital resources,based on the analysis of the problems such as poor ontology integration,not providing time semantic information of ontology evolution,neglecting consistency maintenance and propagating changes of long-term preservation system of digital resources based on ontology,the Heraclitus II bitemporal ontology model and its application characteristics are introduced.It mainly constructs long term preservation system of digital resources based on Heraclitus II ontology technology in this paper.The system includes the ontology construction and integration,ontology collaborative management,ontology evolution requirements,ontology evolution process components,and the function of each component is analyzed in detail.The research indicates that long-term preservation system of digital resources can be effectively constructed based on Heraclitus II bitemporal ontology technology,achieving requirements of long-term preservation system of digital resources,which gives a certain reference to construct long-term preservation system of digital resources under the environment of new media.

Heraclitus II ontology;ontology;long-term preservation;digital resources

2015-06-12

2015-09-16

时间:2016-02-18

国家自然科学基金资助项目(71273111)

鞠彦辉(1974-),男,副教授,硕导,博士,研究方向为信息资源管理。

http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1630.038.html

G250.76

A

1673-629X(2016)03-0172-04

10.3969/j.issn.1673-629X.2016.03.040

猜你喜欢

演化过程知识库本体
模因论视角下韩语“먹다”表“喝”动作演化过程研究
时间非齐次二态量子游荡的演化过程分析
眼睛是“本体”
重庆万盛石林的形成时代及发育演化过程
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于耗散结构的农产品冷链物流系统演化分析
基于本体的机械产品工艺知识表示
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
专题