APP下载

ISO技术规范“中医药学语言系统语义网络框架”的应用研究

2016-11-19于彤崔蒙李海燕

中国医药导报 2016年4期
关键词:本体标准化

于彤 崔蒙 李海燕 等

[摘要] 中医药学语言系统是一个采用本体方法构建的大型术语系统。“中医药学语言系统语义网络框架”已于2014年成为国际标准化组织(ISO)的一项正式的技术规范,如何实施这一技术规范成为一个重要的问题。本研究采用语义网技术,根据该技术规范构建中医药领域的顶层本体,并进一步实现了用于本体发布的网络服务。该本体对中医药领域最基本的语义类型和语义关系进行了精确描述,可被用于构建符合规范的术语系统和知识库,为ISO技术规范的推广应用提供了一种便捷、可靠的方式。

[关键词] 中医药学语言系统;本体;标准化;语义网

[中图分类号] R2-03 [文献标识码] A [文章编号] 1673-7210(2016)02(a)-0089-04

Research on the application of ISO technical specification “semantic network framework of traditional Chinese medicine language system”

YU Tong CUI Meng LI Haiyan LIU Jing YANG Shuo JIA Lirong

Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China

[Abstract] Traditional Chinese medicine language system is a large-scale ontology for traditional Chinese medicine (TCM) domain. In 2014, international organization for standardization (ISO) published a technical specification named “semantic network framework of traditional Chinese medicine language system”, how to implement this technical specification remains to be an important problem. This study utilizes semantic web technologies, to translate the content of this specification into an upper-level ontology, and to establish a web service for the ontology. This ontology accurately describes the fundamental semantic types and semantic relations in TCM domain, which can be used to construct standardized language systems and knowledge bases, and provides a convenient and reliable way for the application of this technical specification.

[Key words] Traditional Chinese medicine language system; Ontology; Standardization; Semantic web

近年来,本体(ontology)因其强大的知识表示和推理能力成为构建中医药术语系统的一项新兴技术[1]。作为一项代表性工作,中医药学语言系统(traditional Chinese medicine language system,TCMLS)是根据中医药领域的语言特点及学科体系特色,采用本体的设计理念和方法研制而成的大型术语系统[2]。TCMLS的语义网络框架(以下简称“TCMLS-SN”)定义了中医药领域最基本的语义类型(semantic type)和語义关系(semantic relation),为TCMLS的构建提供了必要的参考和约束[3]。

经过中医药工作者的反复论证与修改,TCMLS-SN已于2014年7月成为国际标准化组织(ISO)的一项正式的技术规范:“ISO/TS17938 health informatics-semantic network framework of traditional Chinese medicine language system(中医药学语言系统语义网络框架)”[4]。它为TCMLS中的所有概念提供了一体化的概念框架,对于TCMLS的规范化和国际化具有重要意义[5]。新兴的语义网(semantic web)技术[6]为该规范的实施提供了理想的技术平台。下面讨论ISO技术规范在语义网环境中的实施方法,阐述本体的构建过程以及配套的网络服务。

1 ISO技术规范在语义网环境中的实施

在这一ISO技术规范中,列举了中医药领域中的96种语义类型和58种语义关系,并对它们进行了定义和说明。其中,“中医药语义类型”[7]是在语义层面上对中医药领域概念进行分类的语义类型系统,它为中医药领域概念提供了一个系统性的分类架构;“中医药语义关系”[8]则是对中医药概念之间的语义相关性的表征,它用于将中医药领域概念关联起来,构成一张大型的复杂语义网络。ISO技术规范为中医药术语系统的规范化加工和处理提供了依据,将在中医药术语系统的质量保证和国际推广工作中发挥关键作用。

在ISO技术规范发布之后,如何实施该技术规范成为一个重要的问题。在中医药领域,已建成了TCMLS、中医临床术语系统[9]、中医古籍语言系统[10]等许多大型的术语系统,它们都不完全符合ISO技术规范。为了实现这些系统的规范化,需要对它们进行审校和修订。单靠领域专家进行人工作业,工作量很大且难免出现疏漏,术语系统规范化的操作成本很高。若能基于机器推理等技术手段,实现半自动甚至自动化的规范性检测和规范化工具,辅助领域专家进行审校和修订工作,则可显著提升术语系统规范化的效率。本体能使计算机“理解”领域知识并具备一定的推理能力[11],为实现上述技术策略奠定了基础。

ISO技术规范有利于中医药领域的术语系统的规范化,使术语系统可以彼此兼容。然而,ISO技术规范以自然语言描述,机器无法直接识别和处理。为解决这个问题,可将ISO技术规范“翻译”为一个计算机可理解的顶层本体,再基于本体推理方法实现半自动的规范性检测机制,并将这套机制嵌入术语加工系统中发挥实际作用。基于本体的技术方案可提升术语审校工作的自动化水平,缩短术语系统的更新周期,提升术语系统之间的兼容性。

语义网为实现上述思路提供了理想的技术手段[6]。万维网之父Tim Berners-Lee于2001年提出了语义网的理念,认为它将是一部人类与机器都能理解的“数据百科全书”,其中蕴含着极其丰富且相互关联的数据资源,能显著提升机器的数据处理能力[12]。经过十余年的发展,语义网建设取得了长足发展,制订了RDF、OWL、SPARQL等一系列基础性规范,使语义网从一个构想发展为一套完整的技术体系[13]。语义网在生物医学领域的本体工程、数据集成和知识管理中发挥了积极的作用[14]。语义网在中医药领域中也得到了成功的应用,为知识建模、知识融合和知识发现提供了有效的技术手段[15]。

万维网本体语言(web ontology language,OWL)是语义网中的一项核心技术,旨在构建内容丰富、逻辑严谨且能在万维网上共享的领域本体[16]。在生物医学领域,将传统的本体或术语系统转换为OWL形式的本体并在语义网上发布,已成为本体工程的一个重要趋势[17]。OWL在中医药领域也得到了成功应用,为表达复杂的中医药知识体系提供了解决方案[18]。语义网为本体工程提供了表示语言、编辑工具及强大的推理机制,能有效支持對本体进行一致性检测,减少本体的冗余,改进本体的质量。鉴于此,本研究采用语义网技术,根据ISO技术规范构建了中医药领域的顶层本体。该本体可被用于构建符合ISO技术规范的术语系统和知识库,为建立网络化的中医药术语服务平台奠定基础。

2 中医药顶层本体

近年来,本体技术在中医药领域中得到了成功的应用[1]。本体的构建实质上是针对中医药领域的概念化过程。本研究采用OWL语言来构建中医药顶层本体,从而对ISO技术规范中规定的顶层概念模型进行形式化表达。通过与领域专家的交流与合作,获取ISO技术规范的确切解释和相关领域知识,解决本体构建中涉及的知识建模问题,从而建成符合ISO技术规范以及中医药领域实际情况的顶层本体。

这个顶层本体对中医药领域中最基本的语义类型和语义关系进行定义、描述和限定。其中,语义类型对应于OWL语言中的类型(class);语义关系对应于OWL语言中的属性(property)。该本体的主要内容包括:①对类型和属性进行定义和描述;②建立类型的层次结构,对类型之间的关系进行描述和限定;③明确属性之间的互逆关系,诠释属性的传递性、函数性、反函数性等性质;④对属性的定义域和值域进行约束。

本研究采用Protégé[19]本体编辑工具构建这个顶层本体。Protégé是一个被广泛使用的开源本体编辑工具,对OWL等语义网语言提供了完整的支持。如图1所示,采用Protégé本体编辑工具,将技术规范的核心内容都写入一个OWL本体之中。该过程分如下步骤:①将ISO规范中定义的语义类型加入OWL本体,并建立它们之间的层次关系。将“syndrome(证候)”等语义类型声明为OWL class,并通过sub class of声明父子类关系。②将ISO规范中定义的语义关系加入OWL本体,建立它们之间的层次关系。将“location of(位于...)”等语义关系定义为OWL本体中的object property,并通过sub property of定义父子属性关系。③按照ISO规范文本添加类型和属性的中、英文标签和说明。④在语义类型之下建立实例(例如“中药”下的“人参”),再使用本体中定义的语义关系将这些实例关联起来。

在本体建成后,由领域专家评估该顶层本体的逻辑严谨性,从而保证本体的质量。可用Protégé等工具对该本体进行浏览和编辑,查看类型、属性和实例的信息;可用OntoGraf等[20]本体可视化工具查看类型以及实体之间的语义关系;也可用Pellet等[21]推理机进行本体推理实验。可基于该本体,进行术语系统以及领域知识库的加工工作,所得的系统将符合ISO规范。由于ISO规范的内容体现在了OWL本体中,Protégé的工作机制就保证了数据的规范性。各方可基于该本体分别进行数据加工,并将做出的系统在网上发布。这些系统将彼此兼容,可被任何支持该ISO规范的程序“理解”和使用。

3 本体网络服务

为促进ISO技术规范和本体的推广使用,采用PHP编程语言搭建了本体服务网站,部署于Apache万维网服务器中[22]。该网站包括内容概览、本体描述、更新和扩展、主要模块、相关标准、类和属性列表、例子、相关参考文献等内容,还实现了本体文件下载、语义类型展示、语义关系展示以及实例展示等功能。下面进行具体介绍:①语义类型展示:列出ISO技术规范中定义的语义类型,给出语义类型的中英文标签、中英文定义、中英文注释、父类、子类、实例等。②语义关系展示:列出ISO技术规范中定义的语义关系,给出语义关系的中英文标签、中英文定义、中英文注释、父属性、子属性、定义域、值域等。③实例展示:提供一个示例性知识库,它定义了四君子汤、人参、白术等一些实例,并描述了这些实例的中英文标签、类型、语义关系等信息,用于演示该本体的应用。

该网站面向中医药工作者以及信息标准研制人员提供术语和本体的访问服务,便于用户浏览TCMLS-SN的内容,并获取中医药领域的顶层本体。任何人只要从网站上下载本体,用Protégé等工具打开,即可开始编辑符合ISO技术规范的语义数据;也可利用语义网上的其他工具来处理该本体,实施ISO技术规范。

4 小结

术语系统的研制是中医药信息标准化工作的重点之一。TCMLS是采用本体方法构建大型术语系统的一个成功范例,其设计理念和方法具有国际推广价值。TCMLS的语义网络框架已于2014年成为ISO的一项正式的技术规范。该技术规范不仅规范和支持了TCMLS的建设,还为中医药学术语系统和本体创建提供了语义标准,对中医药学术语信息的交换具有重要意义。本研究实质上是将ISO技术规范转换为可计算模型的过程,其结果是一个规范化的中医药顶层本体。该本体及与之配套的网络服务,为ISO规范的推广使用提供了一种便捷、可靠的方式。

[参考文献]

[1] 于彤,崔蒙,李敬华,等.中医药本体工程研究现状[J].中国中医药信息杂志,2013,20(7):110-112.

[2] 贾李蓉,于彤,崔蒙,等.中医药学语言系统研究进展[J].中国数字医学,2014,9(10):57-59,62.

[3] Cui M,Jia LR,Yu T,et al. Current status of traditional Chinese medicine language system [C]// International Symposium on IT in Medicine and Education(ITME2013),Xining,China,July 1921. Berlin Heidelberg:Springer,2013: 413-420.

[4] 于彤,崔蒙,李海燕,等.中医药学语言系统的语义网络框架:一个面向中医药领域的规范化顶层本体[J].中国数字医学,2014,9(1):44-47.

[5] 贾李蓉,于彤,李海燕,等.中医药语义网络的顶层框架研究[J].中国数字医学,2015,10(3):54-57.

[6] Horrocks I. Ontologies and the semantic web [J]. Communications of the ACM,2008,51(12):58-67.

[7] 贾李蓉,董燕,田野,等.中医药学语言系统中的语义类型分析[J].世界中医药,2013,8(5):563-565.

[8] 于彤,贾李蓉,张竹绿,等.面向中医药文献的语义关系发现方法研究[J].中国中医药图书情报杂志,2014,38(12):1-5.

[9] 董燕,李海燕,崔蒙,等.中医临床术语系统建设概况与改进措施[J].医学信息学杂志,2014,35(8):43-48.

[10] 朱玲,尹爱宁,崔蒙,等.中医古籍语言系统构建的关键问题与对策[J].中国中医药信息杂志,2010,17(4):98-99.

[11] Gruber TR. A translation approach to portable ontology specifications [J]. Knowledge Acquisition,1993,5(2):199-220.

[12] Berners-Lee T,Hendler J,Lassila O. The semantic web [J]. Scientific American,2001,284(5):28-37.

[13] Feigenbaum L,Herman I,Hongsermeier T,et al. The semantic web in action [J]. Scientific American,2007,297(6):90-97.

[14] Chen H,Ding L,Wu Z,et al. Semantic web for integrated network analysis in biomedicine [J]. Briefings in Bioinformatics,2009,10(2):177-192.

[15] 于彤,崔蒙,李敬華.语义Web在中医药领域的应用研究综述[J].世界中医药,2013,8(1):107-109.

[16] Horrocks I,Patel-Schneider PF,Harmelen F. From SHIQ and RDF to OWL:the making of a web ontology language [J]. Web Semantics:Science,Services and Agents on the World Wide Web,2003,1(1):7-26.

[17] 于彤,崔蒙,杨硕,等.生物医学本体工程进展[J].中国数字医学,2012,7(11):3-6.

[18] 于彤,杨硕,贾李蓉,等.基于OWL的中医证候知识建模方法研究[J].中国数字医学,2014,9(10):76-78,81.

[19] Knublauch H,Fergerson RW,Noy NF,et al. The Protégé OWL plugin:an open development environment for semantic web applications[C]// McIlraith SA,Plexousakis D,Harmelen F. Third International Semantic Web Conference. Berlin Heidelberg:Springer,2004:229-243.

[20] Sean Falconer. OntoGraf [EB/OL]. Stanford,California,USA:Stanford University,2010 [2015-7-23]. http://protegewiki.stanford.edu/wiki/OntoGraf.

[21] Sirin E,Parsia B,Grau BC,et al. Pellet:a practical OWL-DL reasoned [J]. Web Semantics:Science,Services and Agents on the World Wide Web,2007,5(2):51-53.

[22] The Apache Software Foundation. The Apache HTTP Server Project [EB/OL]. Los Angeles,USA:The Apache Software Foundation,1999.[2015-07-20]. http://httpd.apache.org/.

(收稿日期:2015-07-28 本文编辑:张瑜杰)

猜你喜欢

本体标准化
Abstracts and Key Words
标准化简述
对姜夔自度曲音乐本体的现代解读
企业标准化管理信息系统
标准化是综合交通运输的保障——解读《交通运输标准化体系》
基于本体的机械产品工艺知识表示
《我应该感到自豪才对》的本体性教学内容及启示
以标准化引领科技创新
论汽车维修诊断标准化(上)
交通运输标准化