APP下载

面向语义检索的中医理论知识库构建方法的研究

2012-06-29王莹莹丁长林戴俭宇蔡东风

中文信息学报 2012年5期
关键词:基础理论知识库术语

王莹莹,白 宇,丁长林,戴俭宇,蔡东风

(1. 沈阳航空航天大学 知识工程研究中心,辽宁 沈阳 110136;2. 辽宁中医药大学 针灸推拿学院, 辽宁 沈阳 110032)

1 引言

把信息表示为计算机能够理解和处理的形式,实现人和计算机之间的交互与合作,增进资源的共享,是实现语义检索的重要内容。知识库作为语义搜索引擎进行推理和知识积累的基础和关键,将具有丰富语义信息的知识资源加以整合,为判断知识语义的相似相关程度提供依据[1]。

从20世纪80年代开始,随着语义学的快速发展,语义知识库作为自然语言处理中的语义计算的基础资源得到研究人员的广泛关注。目前,被广泛使用的语义知识库包括WordNet[2]、MindNet[3]、FrameNet[4]、Cyc常识知识库[5]、HowNet[6]等。其中,以HowNet(《知网》)为代表的揭示概念与概念之间以及概念属性之间关系的常识知识库,为语言信息处理的研究和发展提供了丰富的知识资源,被成功应用于语义计算、信息检索等领域。

然而,目前多数的语义知识库都是面向常识性知识的表示和描述,而对于特定领域的信息处理,就需要进行面向该领域的语义知识库的开发,或者,基于常识知识库实现该领域知识的扩充工作。本文为实现中医基础理论文献的语义检索,在分析中医基础理论术语特点的基础上,借鉴知网的构建思想,提出一种基于KDML[7]的中医基础理论知识库的构建方法。本文第二节首先对知识表示采用的KDML方法进行简要描述,然后对用于构建中医基础理论知识库的知识来源进行分析说明,第三节详细阐述知识库的设计及构建步骤,并对义原选择和关系抽取等方法的实现进行阐述。

2 相关工作

2.1 KDML简介

描述语言KDML[6](Knowledge Database Mark-up Language)是由《知网》研发并使用的一种知识描述规范体系。《知网》由1988年提出至今已有20多年的历史,被公认为规模最大,收录词语最多,提供信息最多的语义词典。而《知网》知识库中的知识就是通过KDML进行语义描述的,《知网》的成功更加证实了KDML具有很强的描述能力,为此香港科技大学的颜国伟博士曾经给予了KDML最高的评价,称其是根据计算机的信息处理特点所特定的[8]。

在《知网》2006版[7]中共描述了84 826个中文概念,KDML对于概念的描述需要满足概括性与一般性的特点,同时也要保证概念描述的一致性与准确性要求,为此KDML给出如下规定。

(1) “DEF= ”表示概念的描述的开始,任一概念中出现的义原或符号必须源于《知网》中定义的义原或符号。

(2) 概念描述中的第一个义原应选用事件、实体、属性和属性值这四类义原中的一个义原进行标注,并且具有指出当前概念的最基本意义的能力。

(3) KDML中具有七种特定标识符,包括“{”,“}”,“: ”,“=”,“;”,“,”,“"”。其中,“{”,“}”是概念开始结束的标志;而对于复杂概念的语义描述,利用“: ”对其作进一步的语义描述,具体形式如表1所示。

表1 复杂概念语义描述

表1中具体词表示专有的名词,一般都和“"”一起出现,“,”表示当前概念包含多个属性 “,”的意思是“和”。另外,在对概念描述中还存在“~”, “{?}”,“$”等标识符,其中“~”代表的是它上一个层次的义原。“?”代表这个值必须有,对于“属于”,DEF={BelongTo|属于:possessor={?}},DEF={BeMember|隶属:whole={?}}表示该义原中的属于对象必须存在,不能省略。“$”代表的是“被” 的意思,例如,“可保存”DEF={able|能:scope={store|保存:patient={$}}}表示的是被的意思,$可以被保存,假如没有$的话就是可保存$,这个可保存的能力是$的。

(4) KDML通过89种动态角色来描述概念所表述的义原间的关系,其中使用频度最高的有modi-fier、domain、whole、belong及patient等,具体代表的含义如表2所示。

表2 KDML中语义角色实例

通过对《知网》中概念的描述,证明KDML具有很强的描述能力,具有直观,计算机可读等优点,能够将概念的描述明确化、立体化,为概念的关系计算提供了良好的途径。

2.2 知识来源

《中医基础理论术语表》为构建知识库的主要知识来源,该标准由国家中医药管理局科技教育司提出,辽宁中医药大学起草并编制,共包含术语、参考文献和索引三个部分。其中,术语为中医基础理论中常用的基本的科学术语共1 130条;参考文献是术语表中内容涉及到的主要文献依据;而索引是为本标准中术语的汉字笔画、拼音索引以及英文对应词的索引。

术语表是中医专家根据中医基础理论[9]知识体系对基础理论领域知识人工总结的成果。该体系将知识划分为哲学基础、臧象经络、病因病机、养生与防治和五运六气五个大类,每个大类按内容再进行小类划分,最后分成11个小类。术语表中术语的名称、英文名称、同义术语及释义内容构成了知识数据单元(以下称为TERM),对于任一TERM可以采用以下五元组进行表示,其中S可为空:

TERM=(ID,W,E,S,C)

五元组中的ID表示当前术语的分类标号;W表示术语的中文名称;E表示术语的英文名称;C表述术语的释义内容;S为当前术语的同义术语,当不存在同义术语时,S为空。图1和图2分别给出了S为空和S非空的TERM实例。

图1 S为空的情况实例

图2 S不为空的情况实例

3 知识库构建

3.1 系统设计

中医基础理论知识库(以下简称“知识库”)有别于通用知识库,具有很强的专业领域特性,面对这类知识库的构建目前主要有两种方法,一种是直接进行该领域的语义知识库的开发,另一种是以现有常识知识库为原型然后实现该领域知识的扩充工作。本文知识库的构建选择以《知网》知识库为基础再向中医领域知识扩展和延伸方法开展,这主要基于以下分析。

首先,知识库中的知识表述来源于术语表,而术语表中对术语的解释采用自然语言描述,其中包含大量常识概念,这些概念的描述已被《知网》涵盖,不需要重新构建。

其次,《知网》是以揭示概念内部属性之间以及概念与概念之间的关系为基本内容的知识系统。而本知识库构建的目的是实现一个中医基础理论术语本身以及术语与术语间关系的知识网络。这与《知网》知识库相似,都是以挖掘关系,描述对象的语义特性为重点。

《知网》作为基础语义资源已经广泛应用于文本分类、机器翻译、信息检索等语言信息处理领域,充分证实了《知网》的合理性、可靠性。因此,本文在知识库构建方法中,选择借鉴《知网》的知识库构建思想,首先在术语表中选取中医基础理论义原,人工定义知识库中的关系类型,确定当前术语语义描述的规则模板,再通过KDML中义原、语义角色以及特殊符号间的组合,实例填充知识库,实现中医基础理论术语的语义描述。

图3给出了中医基础理论知识库构建模型,整个构建过程包括数据处理、知识获取以及人工校对。

图3 知识库构建框架图

数据处理的主要任务是将表达术语的语义内容由句子级别降至词语级别,具体做法是对TERM中术语释义进行分词。因在该领域术语表中,除单字词外,未登录词较少,为实现简便,本文采用最大匹配分词方法。

知识获取任务主要分为义原获取和关系获取两个过程开展。其中对于义原的定义,本文在参照义原在《知网》中的规定前提下,认为中医理论义原是指在理论知识中最基本的、不易于再分割的最小意义单元。所谓的关系获取主要是挖掘术语间存在的语义关系。

3.2 义原获取

将中医基础理论义原确立为术语表中术语描述的基本单位,义原获取是基础步骤。义原,这一说法最早来源于《知网》。《知网》中的概念内容涵盖面广,涉及到万物、部件、属性、属性值、时间、空间以及事件这七大类[10],而义原是概念语义描述的最小单位,《知网》中义原是利用人工方法从4 000个汉字的所有义项中经过人工观察、挑选以及合并同类项获得。本文义原获取的知识来自人工总结的术语表,在术语表所包含的1 130个术语及其释义的描述中挑选中医基础理论涉及的实体义原。基于义原是意义的最小单位的原则,假设义原具有组成形式简单以及在术语释义中应用频繁这两个特点。本文将义原获取分为术语分类、义原选择和人工评价三个步骤。

术语分类是指从组成形式上将术语分为简单术语和复杂术语,为此对于简单术语和复杂术语给出以下定义: 复杂术语是指那些在构成上需要其他术语进行组合描述的术语,相反则称为简单术语。例如,心、木、血、五脏等为简单术语,而心主血、五脏化液、脾主运化等则为复杂术语。最终将术语表中的1 130个术语划分为425个简单术语和705个复杂术语,具体数据见表3。

上述术语分类方法,以组成形式或粒度将术语划分为简单术语和复杂术语,而义原在意义上表现的作用主要体现在术语表中术语的释义中,为此还需要在释义集合中进行候选义原的频数统计,实现义原的自动筛选。

表3 义原选择中数据统计

通过与释义集合内容对照发现,出现频度较高的复杂术语对应组成的简单术语频度也较高,例如,“阳气”、“阴气”、“肺气”等,这些复杂术语在释义集合中出现的频率都超过20次,而在释义集合中发现这类术语都为“气”,其中“阳气”、“阴气”是由“气”的属性来区分的,而“肺气”为“肺藏之气”,对应简单术语频度统计信息发现,“气”的频度最高,“阴”,“阳”次之,进而证明了利用术语组成结构来选取义原是有效的。

在释义集合中对频数为1的230个简单术语分析发现,例如,“水克火”、“表里同病”等,都是描述两个实体之间的关系,不符合意义最小单位的定义,为此,取频度大于1的简单术语作为候选义原。最后通过人工校对的方法筛选补充义原,目前义原表中共包含99个义原,候选义原见表4。

表4 候选义原

3.3 关系获取

关系获取实现了知识由树状结构向知识网络转换,揭示了术语表中术语内部以及术语与术语间的关系。

术语表中术语按照基本概念、基本原理和科学推论这一逻辑结构进行知识组织,并且这三者之间具有由简到繁,演绎推理的关系,为此本文将术语表中术语进行逻辑分类,分别考虑基本概念、基本原理和科学推论三个类别中术语的语义描述。对术语表中知识的逻辑分类,需要借助术语释义信息从语义层次上考虑术语描述的具体内容进行划分。通过对中医基础理论知识分析发现,表示基本概念、基本原理与科学推论三个类别中的术语具有以下特点,如表5所示。

表5 术语逻辑分类的特点

根据基本概念、基本原理以及科学推论的特点,选择利用基于模板的方法实现术语表中术语的逻辑划分,具体实现步骤如下。

(1) 将义原表中的义原归于基本概念类别中,由于基本概念在中医基础理论知识间语义关系构建的基础,因此该类别中术语具有长度一般较短,在术语释义集合中频度较高,描述的一般为静态关系等特点,例如,“脾阴”的释义为脾之阴精,“心阳”释义为心之阳气等等,因此可以提取模板“*之阴(阳)*”,其中“*”表示的是义原。

(2) 基本原理类别中的术语作为中医基础理论最普遍关系的反应,在术语组成形式上具有“*主*”、“*+动作+功能”等形式,其中“*主*”表示两个义原间直接作用,例如,“心主血”,“*+动作+功能”模板是义原通过具有某一个功能,若当前术语满足后一个模板的形式,需要进一步分析该术语的释义内容,查看是否涉及到的义原是当前术语的组成子集,进而选择将该术语归于基本原理或是科学推论类别。例如,“肺司呼吸”,“肺朝百脉”都满足“*+动作+功能”模板,但“肺司呼吸”的释义描述的是肺具有呼吸的功能,而“肺朝百脉”描述的是肺助心行血于周身血脉的功能, 释义内容中涉及到了“心”, 因此将“肺司呼吸”归于基本原理, 将“肺朝百脉”归于科学推论类别。

关系获取主要在基本原理和科学推论两类术语中进行。

文献[11]中规定中医学语言系统中的语义关系包含等级关系和相关关系两大类别,相互关系中主要包括物理上、空间上、时间上、功能上以及概念上的关系五类。理论作为中医学中的组成部分,研究中医学概念、原理以及规律的科学体系。理论中的等级关系一般表现为整部关系,以“五脏”为例,五脏是肝、心、脾、肺、肾的总称,那么“五脏”和“肝”、“心”、“脾”、“肺”、“肾”构成了单向的整部关系。除等级关系外,在描述概念、原理以及规律时更多表现为相关关系中的功能关系。在本文中,我们提取了六种相关关系类型,包括取象比类关系、产生关系、相互作用、控制关系、反映关系以及概念关系。每一种关系类型都具有一个特定的关系词(以下称为种子)集合[12],其中取象比类是中医特有的采取事物的性质、作用和形态,以得知事物的五行属性,该类关系的种子词为“归属”,例如,五脏配五行,脾主运化而类于土之化物,故脾归属于土;产生关系是A化生B的单向关系,种子词有产生,化生等,例如,气与血的关系,气具有化生血液的作用,那么气跟血之间就是单向的产生关系;相互作用既包括单向的关系也包括双向的相互作用,种子词包括相互作用、相生、相克等,例如,五行相生的主要内容是木生火、火生土、土生金、金生水和水生木,其中木、火、土、金、水之间的相互作用就是单向的,而“心合小肠”是表示心与小肠相互络属,这时心和小肠之间就是双向的相互作用关系;控制关系是表示A控制B的传送运输的关系,相关种子词有主持、控制等,例如,心主持血液循行,那么心和血之间就是控制关系;肝开窍于目表示目为肝窍,肝功能的好坏可由目反映出来,该定义的关键词是“反映”,表达了目与肝之间具有反映关系;最后一种是概念关系,描述一个事物所具有的功能以及属性时总会有其特定的概念理论支撑,比如说五脏所具有的功能就来源于臧象学说等等,具体的关系类型和该关系所包含的种子词以及相关实例描述如表6所示。

表6 中医基础理论中的关系

续表

在给定语义关系类型基础上,基础理论知识的关系获取问题相应地转化为关系分类问题[13]。通过由术语释义中提取出的表达义原间关系的关键字获取所属关系类型,该方法主要利用计算语义相似度[14]的方法进行关系类别选取。获取关系的伪代码如下:

relation(R,key) //R为关系类型集合,R={T1,T2,T3,T4,T5,T6,T7},任意Ti={s1,s2,,…, sj,…,sn}

{ // sj为Ti关系类型中的种子词,抽取术语释义中描述义原关系的关键词key

ifkey∈Ti// key关系类型Ti的种子词集合中出现

return Ti

else {

对关系类型集合中的所有Ti,执行以下循环:{

SIM(key,Ti) = 0;

对于Ti中的所有sj,执行以下循环:

SIM(key , Ti) += sim(key,sj) ;

SIM(key,Ti)=/n //n表示Ti中种子词总数}

取 max = SIM(key,T1);

由k取2开始,k<=7执行以下循环:{

if SIM(key,Tk)> max

执行 max = SIM(key,Tk);

k++; }

执行 max中的Ti为key所表示的关系类型,并将key作为新的种子sj+1加入Ti

return Ti}}

在获取关系类型函数relation中,首先将关键字key与Ti中的种子词sj进行匹配,若匹配成功,则Ti为key所表达的是关系类型;否则,利用key与Ti中的所有种子词分别进行相似度计算,求和取平均值后得到的数值作为key与关系类型Ti的打分值,最后取得分最高的关系类型Ti作为获取到的关系类型,并将key作为新的种子加入Ti中。

表7以“胃阳”,“气能生血”以及“脾为气血之源”的KDML语义描述为例,其中“胃阳”属于基本概念,由KDML语义表达含义为胃中的阳气与释义内容相符;“气能生血”属于基本原理,释义为“气化生血液的作用”,术语名称中外来词“生”表达了气和血间具有的关系。释义中的关键词为“化生”,因此气与血属于产生关系,利用KDML描述含义为气具有产生血的功能;“脾为气血之源”属于科学推论,是由基本概念“水谷精微”,“气”,“血”,“脾”和基本原理“脾主运化”推导得出的结论,利用KDML描述为脾控制水谷精微的产生,而水谷精微产生了气和血,因此可以得到脾为气血产生的源泉。

表7 KDML描述术语相关实例

4 结论

参照《知网》知识库的构建方法,结合理论知识的特点,构建了义原表,该义原表是由99个义原构成的描述义原间上下位关系的树状结构,然后通过给定的理论中知识的关系类型,挖掘术语表中的知识,完成知识库中关系的实例填充,实现义原表中知识由树状结构向网状结构的转变,并利用KDML的知识表示方法利用特定的标识符实现义原的组合构成语义表达式,描述中医基础理论中的概念。

将中医基础理论信息表示为计算机能够理解和处理的形式,使其能够作为判断中医领域的术语语义相似相关程度的依据,从而为实现面向中医基础理论文献的语义检索,以及中医基本理论概念间语义计算等工作提供了一个知识库资源。

[1] 马中杰,郑诚,苏喻. 一种基于知识库的语义检索系统模型[J]. 微型机与应用,2010,29(20): 70-73.

[2] Fellbaum,Christiane,et al. WordNet: An Electronic Lexical Database[M]. MIT Press,1998.

[3] Richardson,Stephen D. MindNet: acquiring and structuring semantic information from text [M], Coling98,1998: 1098-1102.

[4] Fillmore C.J. Frame semantics. In Linguistics in the Morning Calm[M]. Korea: The Linguistic Society of Korea ed. Hanshin Publishing Co. Seoul,1982: 111-137.

[5] CYC[DB/OL]. http://www.eye.Com/. 2008.

[6] Zhengdong Dong,Qiang Dong. HowNet and the Computation of Meaning[M]. Singapore: World Scientific Publishment,2006.

[7] KDML—《知网》知识系统描述语言[DB/OL]. http://www.keengage.com. 1999.

[8] 董振东,董强. 面向信息处理的词汇语义研究中的若干问题[J]. 语言文字应用,2001,3: 27-32.

[9] 李德新. 中医基础理论讲稿[M]. 北京: 人民卫生出版社,2007: 25-31.

[10] 董振东,董强,郝长伶. 《知网》的理论发现[J]. 中文信息学报, 2007,21(4): 3-9.

[11] 贾李蓉. 中医药学语言系统语义关系初探[D]. 北京: 中国中医研究院中医药信息研究所,2005.

[12] 范岩. 基于条件随机场模型的中医文献知识发现方法研究[D]. 北京: 北京交通大学硕士学位论文,2009.

[13] 康生巧,白宇. 基于句子相似的古今句子检索[C].哈尔滨: 全国信息检索会议,2010: 275-282.

[14] 李杰. 基于语义相似度计算的词汇语义自动分类系统[J]. 计算机仿真,2008,28: 295-307.

猜你喜欢

基础理论知识库术语
汉语近义词辨析知识库构建研究
李达与党的基础理论建设
山西省2018年专升本选拔考试 中医基础理论
高速公路智慧服务区基础理论探析
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
卫星状态智能诊断知识库设计方法
基于会计学发展战略的会计基础理论初探
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
位置与方向测试题