基于主动学习的传统中医症状本体构建方法研究综述
2016-07-10白宁超
领域本体的构建方法是当前本体研究的热点问题之一。已被广泛应用于知识工程、自然语言处理、系统建模、信息处理、信息检索和语义Web、软件复用等领域之中 。但是,目前的领域本体的创建还缺乏系统的、针对所有领域的、工程化的方法。本文介绍一种基于主动学习的传统中医症状本体的文本知识自动获取方法的设计和实现。通过引入领域本体,实现半结构化文本知识的完全自动获取。该方法具有较好的通用性,把人们从繁重的手工劳动中解放出来,并能极大地提高中医知识获取的效率和应用价值。
【关键词】领域本体 中医症状名 语义标注 主动学习
本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,本体可以促进各种领域之间的交流,这种交流实现了给定领域中不同知识的重用和共享。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义 Web 等领域之中。“传统中医”领域知识主要来源于古中医文献、临床记录、老中医经验手稿等。这些知识的主要载体常常是非结构或半结构的数据。中医诊断是通过对症状的总体观察和分析得到结果。由此可知中医古籍文献中症状名识别问题十分重要。
如何让计算机对自由文本中症状名自动分析获取知识,进行病症诊断是知识工程领域需要解决的难题。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库,必将严重影响知识服务的能力和质量。因此,目前当务之急是寻求一种通用的自动的文本知识获取方法。传统的文本知识获取方法主要有两种:一种是采用通用的算法处理自然语言文本,从文本中抽取概念以及概念之间的关系 。这种方法知识获取量大,但所获取的知识类型较单一,知识的表示形式也相对简单。另一种方法是通过与知识工程师进行交互,使用一些知识获取平台或管理环境,实现知识的获取。这种方法不仅手工工作量大,而且通用性也较差。鉴于现有文本知识获取方法的缺陷,本文提出一种从古籍文本的表征及内容特征出发,抽取实义词,为实现中医文献标引和检索从单汉字层次向词、概念层次的过渡。基于主动学习的方法进行文本标注,再进行自动领域本体构建。
本文第1、2章介绍本体以及领域本体发展;第3章介绍传统中医症状本体的研究背景与意义;第4章介绍基于主动学习的传统中医症状本体构建方法可行性分析及结果和性能评价;第5章总结全文。
1 研究的范畴和发展现状
1.1 本体的概述
本体最早是一个源于哲学的概念,是一种对“存在”的系统化解释,用于描述事务的本质。后来知识工程学者借用了这个概念,在开发知识系统时用于领域知识的获取 。近年来,本体的概念被越来越多的应用于计算机知识工程领域,用于对客观世界的存在进行系统化描述,方便知识的重用和交互。 本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。
1.2 本体的分类
目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究建立了各种各具特色的本体。针对目前出现的各种各样的本体,也出现了不同的分类方法,最为广泛的分类方法是根据本体应用主题,将这些为数众多的本体划分为五种类型:领域本体、通用或常识本体、知识本体、语言学本体和任务本体。
领域本体主要有以下作用: 可以明确专业术语、关系及其领域公理, 使其形式化;在人与人之间、人与机器之间达到共享;实现一定程度的领域知识复用。此外,Guarin也提出以详细程度和领域依赖度两个方面对本体进行划分。其中,根据本体对领域的依赖程度由高到低可分为四个类别:顶级本体(top-level Ontologies)、领域本体(domain Ontologies)、任务本体(task Ontologies)和应用本体(application Ontologies)。
1.3 本体的应用领域
目前,本体已经被广泛应用于知识工程、自然语言处理、数字图书馆、信息检索和Web异构信息的处理、软件复用、面向对象技术和语义Web等领域 。典型的应用有:
(1)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。
(2)基于本体的数据集成、机器学习等。
(3)领域本体的应用。
(4)语义Web服务。
(5)在线元数据管理和自动信息发布。
1.4 本体研究的现状
对本体的研究和应用近年来发展很快。在1998年6月,第一届“信息系统中的形式化本体论国际会议”的召开标志着这一领域在逐渐走向成熟 。从国外的研究情况来看,20世纪80年代末至90年代初,哲学领域的概念“Ontology”被AI领域所借鉴,本体的建模方法也初步确立,本体论把知识工程中的知识向更深入的方向推进。近年来,国外对本体建模作了大量研究并将其运用于知识工程领域。主要代表为:
(1)万维网联盟W3C(World Wide Web Consortium)的研究;
(2)德国卡尔斯鲁厄大学的Rudi Studer,Alexander Maeche和以他们为首的AIFB研究所从事的创建基于本体的知识门户和语义门户研究;
(3)美国斯坦福大学的知识系统实验室(KSL)对本体建模工具和本体应用层面的研究。
与国外相比,国内无论是在理论研究、实证研究还是在技术手段的实现和应用方面都相对落后,与国外高水平的研究相比存在很大差距。国内对于本体的研究大约始于20世纪90年代初。 目前,国内进行本体研究的主要有三支科研力量。一是中国科学院计算所、数学所、自动化所的若干实验室,代表人物是陆汝铃院士、金芝博士、武成岗、曹存根等人 。二是哈尔滨工业大学计算机系,代表人物是王念滨博士。三是浙江大学人工智能研究所,代表人物是博士生导师高济教授。
2 中医领域本体的构建研究
领域本体(Domain ontology) 是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述 。目前本体构建主要有手工构建、复用已有本体(半自动构建)以及自动构建本体三种方法。本节主要介绍中医本体自动构建的方法,并归纳出构建领域本体的一般步骤。
2.1 领域本体构建遵循的原则
目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。通过分析总结,本体的设计原则可以概括如下:
(1)明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。
(2)完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。
(3) 一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。
(4) 最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。
(5)最小承诺:即对待建模对象给出尽可能少的约束。
(6)最小编码偏差:本体的建立应尽可能独立于具体的编码语言。
(7)兄弟概念间的语义差别应尽可能小。
(8) 使用多样的概念层次结构实现多继承机制。
(9)尽可能使用标准化的术语名称。
2.2 构建中医领域本体的步骤
本体的开发和完善是一个反反复复不断补充的迭代过程。领域本体中的概念应该贴近于要研究的专业领域中的客观实体和关系法则。综合上节几种本体构建的工程思想,归纳并总结出构建领域本体的几个步骤:
(1)确定领域本体的专业领域和范畴;
(2)考虑复用现有的本体;
(3)列出本体涉及领域中的重要术语;
(4)定义分类概念和概念分类层次;
(5)定义概念之间的关系。
3 传统中医症状本体的研究背景与意义
3.1 传统中医症状本体研究背景
国内进行本体研究的起步比较晚,主要研究包括知识工程、自然语言处理、信息检索、产品信息建模、常识知识库等。比如中科院计算所的大规模知识系统研究、中科院数学研究所常识知识库、浙江大学智能研究所基于本体的产品信息研究集成等。其中比较有影响的有:中国中医科学院的研究。借鉴UMLS的成功经验,2001年由国家科技部基础性工作专项资金支持,中国中医科学院为首的集中全国近30多家中医院校和多家科研单位的力量,建立了“中医症状学一体化语言系统”,福建中医学院图书馆全程参加了该项研究 。综上所述,国内对本体的研究工作特别是与中医症状结合方面还处于摸索阶段,尚未全面铺开。
3.2 传统中医症状本体研究的意义
研究意义及作用中医症状信息资源存在的古今概念差异、一词多义、多词一义等问题成为知识工程建设的瓶颈,给中医症状学科发展、中医症状信息资源共享造成了困难 。本体的出现为描述中医症状知识提供了一种新的思路。运用本体构建的知识库可应用于将来的语义网,使中医症状走向互联网。因此,做好中医本体研究意义重大,具体表现在以下几个方面:
(1)本体是可共享、可复用的数据模式,本体是中医症状知识实现共享的资源描述新模式。
(2)通过本体的语义分析及语义研究,消除中医骨伤资源,特别是古医籍概念理解和使用上的歧义,达到古今概念汇通的目的。
(3)利用关系数据库对本体描述语言OWL表达的语义关系进行解析,探索中医症状的语义检索。
3.3 中医症状本体自动构建过程中存在的问题
领域本体构建的主要三种方法:手工构建、复用已有本体以及自动构建本体,其中前两种方法最为常用。 自动构建本体是目前的一个研究热点。研究者借鉴知识获取的相关技术,有基于自然语言规则的方法和基于统计分析的机器学习方法。目前这种构建方法还处于研究阶段,利用机器学习会产生大量的噪音数据,缺乏必要的语义逻辑基础, 抽取的概念关系松散且可信度无法得到很好的保障。利用自然语言处理技术,概念间潜在关系的分析则需要依赖复杂的语言处理模型。尽管机器学习应用于本体自动构建有巨大的潜力,但是距离良好的可理解性尚有很大的距离,随着研究的深入这种状况应该有望得到改善。
4 基于主动学习的传统中医症状本体构建方法可行性分析
Active learning 算法由耶鲁大学Angluin 教授提出 。它选择部分未标记样例进行标记,然后把它们放入之前已有的标记样例集合,重新训练分类器,利用分类器再次选择未标记样例。通过有选择地扩大有标记样例集合和循环训练,使得分类器逐步获得更强的泛化能力。与以往的算法相比,它具有模拟人的学习过程的特点,因此受到广泛注,近年来被大量地应用于信息检索和文本分类等自然语言处理领域,成为机器学习领域中最重要的方向之一。
为了更加直观地展示 Active learning 算法的有效性和它对分类器训练精度的提高程度,下面用一个对二维空间中的点进行分类的问题为例来介绍 Active learning 。假设有一个布满红绿两种共 400个点的平面,找到红绿两种点的分界线。已知红绿两种点在坐标x附近产生分界。常规的被动学习的方法,随机选择并标记点,通常它标记的点比较分散,只有很少的点分布在 x 附近,这样很难找到正确的分界线。用这种方法分类的精度较低,据统计结果显示正确率只有 70%。而 Active learning 方法是通过选择运算,最终选择红绿两种点混合分布比较紧密的位置,也就是位于 x附近的点进行标记,这就为找到正确的分界线提供了有效的信息。利用这种方法训练得到的分类器的精度较高,据统计结果显示正确率可达到 90%。这个例子充分说明,Active learning 选择的样本点比盲目选择的样本点更有利于高精度分类器的训练,在同等的标注代价下能够得到更多的区分信息,有利于提高分类模型的精确度。
5 结语
本体是某一领域共享的、概念化、形式化表示的知识体系。第二代互联网的发展需要大量的领域本体作为支撑。目前,领域本体主要依赖手工构建,需要耗费大量的人力, 因此本体的构建成为第二代互联网发展的瓶颈 。本文对中医症状本体的相关理论进行介绍,结合中医本体一般构建原则,对各种领域本体构建方法以及存在的问题进行了详细分析。然后结合主动学习对进行标准,使其智能标注中医症状,然后对症状与其相关的实体关系进行构建,最终完成中医领域症状本体的构建。中医症状本体的构建是一项极其艰巨的任务, 如何应用知识获取技术来降低本体构建的开销以及在现实生活中推广应用,目前也是一个很有意义的研究方向。
参考文献
[1]刘仁宁,李禹生.领域本体构建方法[J].武汉工业学院学报,2008,27(1):73-77.
[2]李景,苏晓鹭,钱平.构建领域本体的方法[J].计算机与农业,2003(7):7-10.
[3]张小鹏.汉语特定领域本体的自动构造研究[D].武汉:华中师范大学,2007.
[4]翟林.领域本体的半自动构建方法研究与实现[D]. 南京:东南大学,2005.
[5]陈建.领域本体的创建和应用研究[D].北京:对外经济贸易大学,2006.
[6]孙倩,万建成.基于叙词表的领域本体构建方法研究[J].计算机工程与设计,2007,28(20):5054-5056.
[7]Rabiner L,Juang B.An introduction to hidden Markov models[J].ASSP Magazine,1986:4-16.
[8]John L,Andrew M,et al.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].ICML,2001:45-54.
[9]Guo Z,Zhang Y,Su C,et al. Exploration of n-gram Features for the Domain Adaptation of Chinese Word Segmentation[J].Nature Language Processing and Chinese Computing. Springer Berlin Heidelberg,2012: 121-131.
[10]苏晨,张玉洁,郭振等.适用于特定领域机器翻译的汉语分词方法[J].中文信息学报,2013,27(5):184-190.
[11]Burr S.Active Learning Literature Survey[J].University of Wisconsinmadison,2009,39(2):127-131.
作者简介
白宁超(1990-),男,河南省驻马店市人。现为成都信息工程大学研究生,主要研究自然语言处理和数据挖掘。
唐聃(1982-),男,四川省人。博士学位。现为成都信息工程大学研究生导师,主要从事算法分析方面的研究。
王亚强(1984-),男,吉林省人。博士学位。现为成都信息工程大学研究生导师,主要研究自然语言处理,词序标注等。
作者单位
成都信息工程大学软件工程学院 四川省成都市 610225