动物疫情信息分析系统本体的构建
2018-01-06徐全刚李金花柳宜江韦美伊孙向东
徐全刚,李金花,柳宜江,刘 平,曾 恒,高 璐,韦美伊,孙向东
(1. 中国动物卫生与流行病学中心,山东青岛 266032;2. 武汉大学计算机学院,湖北武汉 430072;3. 北京邮电大学,北京 100876)
动物疫情信息分析系统本体的构建
徐全刚1,李金花1,柳宜江2,刘 平1,曾 恒1,高 璐1,韦美伊3,孙向东1
(1. 中国动物卫生与流行病学中心,山东青岛 266032;2. 武汉大学计算机学院,湖北武汉 430072;3. 北京邮电大学,北京 100876)
本研究以动物疫病为特定领域,在理解本体论理论和方法的基础上,探讨基于本体论的动物疫病领域本体构建方法。即采用七步法,自上向下构建领域本体,以Protégé 3.0为本体编辑工具,初步建立了动物疫病领域本体框架模型,并验证了该本体用于网络检索的可行性。该本体的构建为动物疫情信息分析系统本体的开发和应用奠定了基础。
动物疫病;领域本体;知识组织;信息分析系统;构建方法
随着计算机及信息技术的发展和因特网的普及,社会各领域信息化程度日益提高,动物疫病领域信息化进程也得到快速发展。目前网络上存在大量的文字、图像、数据、音频、视频等多种形式的动物疫病信息资源。各种类型数字资源既丰富了动物疫病相关数据的存储和传播方式,又形成了广阔的信息海洋。然而,不同软件系统运用各自的术语体系或词表来描述信息资源,导致不同系统间的知识共享和重用十分困难。而对于信息资源丰富的互联网来说,大量的非结构或半结构化数据,使得智能软件代理对互联网上异构和分布信息的有效访问和检索得不到保证,因而降低了信息资源的利用效率。
如何充分利用计算机来解读和表达动物疫病领域的理论与实践经验,利用互联网动态监视动物疫病流行情况,使动物疫病领域的海量信息得到高效准确采集、存储与利用?这些问题不仅是动物疫病领域数字化进程中必须面对的,也是全人类知识数字化进程中必须解决的难题。
建立统一、规范的知识模型,是解决上述问题的有效方法之一。就当今计算机科学及信息技术研究领域的发展状况来看,本体(Ontology)作为一种有效的知识组织方法,得到广泛关注和研究,已被广泛应用于信息系统、知识工程、自然语言理解和信息检索等方面。而领域本体的构建是各种应用得以实现的前提。
1 本体概述
所谓本体,最著名或最多被引用的定义是由Gruber[1]提出的“本体是概念模型的明确规范说明”。通俗地讲,本体是用来描述某个领域甚至更广范围内的概念,以及概念之间的关系,使这些概念和关系在共享范围内具有大家共同认可的、明确的、唯一的定义。
Maedche[2]把本体结构定义为一个五元组O:={C,R,HC,rel,AO}。C和R是两个不相交的集合,其中:C为概念(Concept)集合;R为关系(Relation)集合;HC表示概念层次或分类层次,即概念间的分类关系(Taxonomy relation):rel表示概念间的非分类关系(Non-taxonomy relation);AO表示使用某种逻辑语言表达的本体公理(Axiom)集。
Studer[3]等学者认为本体有四大特征:第一,本体是明确的(Explicit),指概念所属的上位类与在使用次概念时的限制条件应预先得到明确定义和说明;第二,本体是形式化的(Formal),指本体应该具有机器可读性;第三,本体是共享的(Shared),指在一个本体中,知识所表达的观念、观点应该抓住知识的共性;第四,本体是概念化的,它是一个概念体系,又称概念模型(Conceptualization)。
本体清晰地描述了领域知识的结构,进而为知识的表示打好基础。动物疫病本体就是刻画动物疫病领域实体、属性、关系和过程的一种模型,目的是让动物疫病知识更好地被重用、共享和处理。这种形式化描述可成为知识软件系统中可重用和共享的组件,让机器能够理解,也为人与人、组织与组织及计算机之间的通信提供统一的术语和概念,使知识共享成为可能,同时也有利于知识的获取,并提高获取的速度和可靠性。
2 动物疫情分析系统本体构建
2.1 一般原则
领域本体构建应面向特定领域和特定应用目的。虽然构建本体的目的都是为了实现知识共享和重用,从客观意义上说,本体的描述应和特定的任务、目的无关,但人们在构建领域本体时总是基于一定的应用目的,因此对于所描述知识的选择是与特定任务相关的。本文所构建的本体库是为开发动物疫情分析系统而量身定制的。领域本体中包含的概念数目应该是尽可能最小化冗余的,领域本体规模应该是有限增长的。领域本体构建不可能一蹴而就,而是一个不断反复修改、逐步完善的过程。鉴于缺少相关实践经验指导,动物疫病领域本体的构建需要不断摸索和重复以下流程[4]:确定本体的应用目的和范围;领域分析:定义本体所有术语的意义及术语之间的各种关系;本体表示:一般用语义模型来表示本体;本体评价:评价的标准是“清晰性、一致性、完整性、可扩展性”;本体的建立:对于符合上述标准的本体,以文件形式存放,否则要重新进行领域分析(图1)。
图1 本体构建流程
2.2 构建方法
由于研究者来自于不同领域,有着不同的学科背景,因此关于本体构建,目前还没有统一的标准。在构建方法上,有骨架法、METHONTOLOGY法、TOVE法、KACTUS工程法、SENSUS法、IDEF5法和七步法等。有分析指出,上述7种方法均允许在系统间进行互操作,提供知识共享和复用机制,其成熟度依次为七步法、METHONTOLOGY法、IDEF5法、TOVE法、骨架法、SENSUS法、KACTUS工程法[5]。其中,七步法是由美国斯坦福大学医学院开发的,主要用于领域本体的构建。本研究在构建动物疫病领域本体时,结合自身的学科特点,较多地参考了该方法和流程[6]。
2.2.1确定专业领域和范畴 在构建本体时必须首先明确本体覆盖哪个专业领域、构建本体的目标是什么等问题。本研究以动物疫病作为特定研究领域,以基于动物疫病领域本体的知识查询和检索为应用目的,探讨基于本体论的领域知识、组织方法。
2.2.2列举动物疫病领域中的术语清单 原则上,应尽可能多地收集该学科的术语,做到领域的全覆盖。从动物疫病相关教材、书籍和辞典、国家标准和行业标准等文献中筛选出专业术语,列出术语清单,并将术语解释一并收入。
2.2.3定义类及类的等级关系 建立一个领域本体的等级体系,有几种可行的方法[7]。自上向下法:由领域中最大的概念开始,再将这些概念按照学科知识结构分级细化,形成概念的等级体系。自下向上法:由底层最小类的概念开始(它们是这个等级体系的叶子节点),将这些细化的类归并在其上层概念之下,逐级递进,形成概念的等级体系。综合法:是上述两种方法的综合运用,先定义领域中各种不同的类,再按照学科知识结构将其组织起来,逐步形成概念的等级体系。研究者可以根据自身对专业领域的理解程度来确定采取什么方法定义“类”。在构建动物疫病知识本体时,采用自上向下法。关于动物疫病知识本体等级体系分类的表达方式,可参考通用教材和领域专家编撰的专业著作当中的相关动物疫病知识体系结构。这样比较符合学科体系的分类习惯,易于被最终用户所理解和接受。本文按照农业部发布的第1125号公告[8],将动物疫病分为一、二、三类动物疫病(图2);每类动物疫病又可分为多种动物共患病、牛病、绵羊和山羊病、猪病、禽病、兔病、蚕蜂病、犬猫病、鱼类病、甲壳类病、贝类病、两栖与爬行类病等12个类别;最后一级就是具体的动物疫病名称,如口蹄疫、牛瘟、非洲猪瘟、禽流感等。鉴于一类动物疫病只有17种,也没有完全覆盖上述12个类别,所以也可将这17种疫病直接归入一类动物疫病的下一层级。在定义类及其等级关系过程中,首先要理解和辨析术语释义,在此基础上,再对上述清单中的术语进行语义分析,确定术语之间的关系,如同义关系、等级关系、类与实例关系(Is-A关系)、概念与属性关系,等等。本研究以protégé 3.0为本体编辑工具,按照下述过程,初步建立了动物疫病领域本体框架。
图2 动物疫病本体体系
2.2.3.1词义辨析 动物疫病领域也是由多个学科相互支撑配合的一个有机整体,包含传染病学、微生物学、流行病学、免疫学等多方面的知识。随着科技的不断进步,动物疫病领域的发展也是日新月异。总体来看,该领域的专业性很强。该领域的概念体系具有鲜明特色,是通过独特的术语表达出来的。由于语言的变迁、学科的融合和发展等因素影响,以及长期以来该领域术语缺乏规范化,导致了部分术语外延宽泛、内涵不清,常出现一词多用、多词一义、词义演变等现象。因此,在构建本体时,理解和辨析术语释义是一个相当重要的基础工作。
2.2.3.2合并与归类 “合并”是将同义词放在一起,作为同一概念的不同称谓,如布鲁氏菌病又称“布病”“懒汉病”“地中海弛张热”“马尔他热”等。“归类”是参照术语注释,将一个术语归并到它的上位概念中去,成为其上位概念的子概念或实例。例如:高致病性禽流感是禽流感的子概念,而H5N1、H5N2、H5N6、H5N8、H7N7等亚型禽流感则是高致病性禽流感病毒的实例。
2.2.3.3一词多用情况的处理 分析一词多用及词义演变的情况。当一个术语出现在多种动物疫病中时,为其加上括号和修饰词,以保证其唯一性。例如:猪瘟、高致病性猪蓝耳病、猪细小病毒病、猪伪狂犬病都能引起母猪流产,在构建本体时分别标示为“流产(猪瘟)”“流产(高致病性猪蓝耳病)”“流产(猪细小病毒病)”“流产(猪伪狂犬病)”。以上3项工作是交互进行,不能截然分开的。然后在此基础上进行概念抽提,以确定领域本体的核心概念。核心概念应是相对稳定的,在对动物疫病领域本体进行扩展时,只需要在层次结构的某些分支下增加新的概念。
2.2.4定义类及其等级体系的属性及分面 这是一个描述类内在结构的过程,同时也是描述某个类实例与其他类实例之间关系的过程。属性的建立以学科知识和应用目的为基础,在确立了属性之后,还要对其分面进行限制。属性的分面主要有取值限定、取值类型、应用范围等。有一点需要注意,某个类的所有子类都要继承该类的属性。因此,一个属性应被定义在拥有该属性的最大类上。
2.2.5创建实例 实例是领域本体中的最小概念。创建实例的过程就是为属性和关系赋值的过程。
3 讨论
本研究探讨了基于本体理论的动物疫病领域知识组织方法,初步建立了动物疫病领域本体框架,并验证了该本体应用于网络检索的可行性。研究表明,本体论是对领域知识的概念化说明,是采用框架系统对概念及其关系进行的描述,也是动物疫病知识的一种可行的表达方法。在方法学上,构建动物疫病领域本体可借鉴美国斯坦福大学医学院提出的“七步法”,并结合自身的学科特点和研究目的进行适当调整。类及其等级的建立要符合学科的知识体系结构,属性的设置根据应用目的和学科内容。另外,要在属性充分完善的基础上创建实例,以防止数据丢失。protégé 3.0是一个方便实用的本体编辑工具,既可以表示知识的等级结构,也可以表示知识的组成结构。在进一步的大规模研究中,应先对其进行本地化,以提供更方便、合理的使用。
本研究应用本体论作为动物疫病知识表示的理论和方法。建立动物疫病领域本体,必将有利于改善和解决动物疫病防控数字化进程中所面临的问题,并为动物疫病信息检索系统、教育系统、自然语言理解等研究提供智能基础作为目的,最终通过建立基于本体论的动物疫病领域知识的结构化表达,推进动物疫病防治信息化的发展,实现知识的高效准确采集、存储与利用,促进领域知识的共享和重用。这是一项具有开创性的、意义深远的工作,也是一项十分艰辛的工作。
构建领域本体需要在深入理解领域知识的基础上进行,离不开领域专家的参与。这在本体论工程中已经形成共识。领域专家的参与可以保证领域本体中概念层次结构、概念关联关系等的完备性和正确性。作为动物疫病领域的专业人员,在理解本体理论和方法的基础上构建动物疫病领域本体,是信息时代赋予我们的使命。
[1] GRUBER T R. A translation approach to portable ontology specifications[J]. Knowledge acquisition,1993,5(2):199-220.
[2] MAEDCHE A. Ontology learning for the semantic web[M]. Boston:Kluwer Academic Publishers,2002.
[3] ERDMANN M,STUDER R. Ontologies as conceptual models for xml documents[R]. Banff:Proceedings of the 12thWorkshop on Knowledge Acquisition,Modeling and Management,1999.
[4] 杨秋芬,陈跃新. Ontology 方法学综述[J]. 计算机应用研究,2002,19(4):5-7.
[5] 李景,孟连生. 构建知识本体方法体系的比较研究[J].现代图书情报技术,2004,20(7):17-22.
[6] NOY N F,MCGUINNESS D L. Ontology development l01:A guide to creating your first ontology [EB/OL].[2017-10-22]. http://protege.stanford.edu/publieations/ontology_development/ontology l01.pdf.
[7] USCHOLD M,GRUNINGER M. Ontologies:principles,methods and applications[J]. Knowledge engineering review,1996,11(2):93-136.
[8] 农业部兽医局. 中华人民共和国农业部公告第1125号[A]. 北京:农业部,2008.
Ontology Construction of Animal Disease Information Analysis System
Xu Quangang1,Li Jinhua1,Liu Yijiang2,Liu Ping1,Zeng Heng1,Gao Lu1,Wei Meiyi3,Sun Xiangdong1
(1. China Animal Health and Epidemiology Center,Qingdao,Shandong 266032,China;2. College of Computer Science,Wuhan University,Wuhan,Hubei 430072,China;3. Beijing University of Posts and Telecommunications,Beijing 100876,China)
Based on understanding ontology theory and method,taking animal disease as a specific field,the construction method of animal disease domain ontology based on ontology was discussed in this research. Taking the seven-step method and top-down strategy,an ontology model of animal disease was set up initially by software protege 3.0,and the feasibility of the ontology for network retrieval was verified. The foundation was laid for development and application of animal disease information analysis system by ontology constructed in this study.
animal disease;domain ontology;knowledge organization;information analysis system;construction method
国家重点研发计划项目(2016YFC1201304)
同等贡献作者:徐全刚、李金花
孙向东
S831.7
A
1005-944X(2018)01-0013-04
10.3969/j.issn.1005-944X.2018.01.004
朱迪国)