APP下载

基于中医疾病相关语义关系的正则表达式及知识抽取研究*

2016-03-20玲,朱彦,杨

世界科学技术-中医药现代化 2016年8期
关键词:因果关系古籍病因

朱 玲,朱 彦,杨 峰

(中国中医科学院中医药信息研究所 北京 100700)

基于中医疾病相关语义关系的正则表达式及知识抽取研究*

朱 玲,朱 彦,杨 峰**

(中国中医科学院中医药信息研究所 北京 100700)

目的:目前已有的知识抽取方法虽然多面向英文,但中文医学文献的数量也正在迅速增长,而且中医古籍文献中也有很多有价值的知识需要获取。基于此,本文以疾病“崩漏”为例,以正则表达式为规则,试图抽取中医古籍中疾病相关的知识,以构建中医疾病知识的语义框架。方法:建立崩漏相关的等同关系、因果关系、治疗关系的正则表达式,进而建立以正则表达式为规则的知识抽取及可视化平台。结果:实现对崩漏相关知识框架的抽取与表达,通过人工抽取和计算机知识平台抽取方式构建中医疾病语义框架,并在此基础上完成中医疾病相关的知识框架描述。结论:研究发现,以正则表达式为规则的知识抽取可视化平台,可以实现对崩漏相关知识框架的抽取与表达,并为中医疾病知识的逻辑化描述与未来的抽取及应用提供了方法,为实现中医疾病相关的知识框架描述奠定基础,可单一地基于正则表达式的信息抽取方式难以达到很好的召回率,如果在正则表达规则的基础上考虑篇章结构,同时整合机器学习与语义标注的混合信息抽取方法可能进一步提高抽取的效能。

崩漏 疾病 正则表达式 知识抽取

中医药学历经2000余年的历史,积累了数以万计的经典文献,其中蕴含的宝贵知识至今都有指导临床的实际意义,但如何从大量的中医文献中获取需要的知识,是极具研究价值的领域。而信息抽取是可行的方法之一。

目前,信息抽取主要有两大方法∶ 一是知识工程方法,二是自动训练方法[1]。

知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。正则表达式[2]是一种强大、快捷、高效的文本处理工具,描述了一种字符串匹配的模式,可以用来检查一个串是否含有某个子串、将匹配的子串进行替换以及从某个串中取出符合某个条件的子串等,其具有字符串所不具备的强大和灵活的表达能力,能够准确地表达出复杂的特征。

知识抽取是属于知识工程的方法,是根据本体识别并抽取无语义标注的信息中与本体匹配的事实知识,用来构建各种基于知识的服务,如基于语义的智能知识搜索等[3]。目前已有的知识抽取方法多面向英文[4],但中文医学文献的数量正在迅速增长,而且中医古籍文献中也有很多有价值的知识需要获取。基于此,本文以疾病“崩漏”为例,以正则表达式为规则,试图抽取中医古籍中疾病相关的知识。

本研究从中医古籍中抽取崩漏相关语义,从病因病机、并发症以及中医治疗3个方面构建崩漏相关语义框架,并以此为例,分别通过人工抽取和计算机知识平台抽取方式构建中医疾病语义框架。

1 “崩漏”之语义关系及行文规则

本文以第5版《中华医典》为研究对象,完成“崩漏”相关的文献检索及数据整合,建立相关文献数据库[5]。全文区以“崩漏”、“崩中”、“崩”、“暴崩”、“漏下”、“经崩”、“经漏”、“血崩”、“败血”、“漏血”、“崩下”、“崩中暴下”、“血山崩”、“暴下血”、“崩血”、“血淋”、“崩淋”、“漏” 为检索词[6],检索共得到数据846条(对于以崩漏为名的整段内容描述则未作拆分)。以书名、篇章名、前后相关内容为纲组成崩漏相关中医古籍文献的小型文献数据库。以此数据库为基础,进行“崩漏”相关的语义关系及行文规则的人工抽取。

1.1 等同关系

如“者……也”、“曰”、“又名”、“以……当”、“为”、“乃”、“皆”、“,名”、“,……也”这些经典的古文句式提示文中前后存在等同关系。如“先天归一汤又名启扁汤”则提示这两首方剂是同名方,属于同名方的还有“灶心土亦名伏龙肝,乃灶中对釜月下黄土也”。

1.2 因果关系

原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。因果关系所考察的是两种现象之间引起与被引起的关系,这种关系是内在的、本质的,又是必然的、规律性的关系[7]。病因病机是因果关系在古籍疾病相关描述中最为直观的表述形式。病因就是致病因素,分为内因、外因、不内外因3种。凡病从外来者为外因,病从内起者为内因,不属以上范围内的如意外创伤和虫兽伤害等为不内外因。病机是对疾病发生、发展和变化机理的关键性概括。即致病因素作用于人体,破坏了人体阴阳平衡以后,所出现的症状体征的改变。病机就是从复杂的临证变化中,提炼出机要性的纲领,作为审证求因的依据[8]。

表1 “崩漏”相关的疾病与病因病机知识表述形式

1.2.1 病因病机

由表1可知,“因”、“由……”、“皆由”、“皆致……”、“若……,乃……”、“若……,故……”、“若因……”、“此乃……”、“属……”、“属……所致”、“由……所致”、“遂致”、“盖……所得”、“主于……”、“乃……”是中医古籍文中常见的与病因病机相关的知识表达句式。其中“因”、“致”等是最为常用的行文规则,在进行计算机知识抽取的时候当是最值得关注的特征之一。

其中“乃”一字值得关注,其基本字义有多种,如:才、是、为、竟、于是、就、你,但在中医古籍的行文描述中,除去表示上述的等同关系,即后者所述之物与前者一致,也会与“……之故”一起出现,以表示后者乃前者出现的原因所在,即形成对病因的经典表述形式,如“治经水先期而来,乃血热之故”,则提示血热是经水先期而来的病因描述。

中医古籍语义关系词“多属”、“属”与中医药学语言系统(TCMLS)中语义关系“引起”、“导致”类似[9],是论元A、B前后倒置句式,论元A(主体元素)为病因,论元B(客体元素)为疾病或症状名,“多属”、“属”之后的词是施动词,如“产后发热,多属虚寒”。

从知识梳理的层面来看崩漏的病因,有过度劳累,有悲哀太甚,有饮食失节,有年老体虚,有寒,有热,从病机看有虚热,有实热,有血虚,有血瘀,有肝郁,有脾虚,有阳虚,有阴虚,有气血不足,有肝家不能收摄荣气,有浊气郁滞冲任,有阴阳盛衰,阴气乘阳,可谓虚实夹杂,寒热交错,十分复杂。

1.2.2 并发症

所谓并发症,是指一种疾病在发展过程中引起另一种疾病或症状的发生,后者即为前者的并发症[10]。其实细究之,关于并发症有两层含义,其中有一种是后一种疾病的发生是由前一种疾病所引起的;第二层含义是从后一种疾病的发生规律上看,前后疾病之间不具有必然的因果关系,只具有偶然的因果关系。因此,后种疾病的出现属于突发性的。所以此处崩漏所涉及的并发症,两层含义均有,并未进行区分。

表2 崩漏并发症相关表述举隅

由表2可知,崩漏的并发症在中医古籍中有很多记载,其常见的并发症有头晕、面色萎黄、心神不安、心痛、胎弱、不孕、发热、足跟痛、巅顶痛、症瘕、眼珠痛、错语失神、抽搐、肤肿等,其中大多是因为崩漏导致血虚,由血虚导致脏腑经络失之濡养的一系列症状,肤肿则是血虚导致的水停。

描述形式有“继以……”、“因而……”、“转为”、“由……而成”,与表示病因病机的句式颇多类似,但更强调时间上的先后关系,如“血崩后继以溺血,溺血后继以白带,淋沥不已”与“崩漏之后,转为肤肿”等。

1.3 治疗关系

治疗关系对于以疾病为核心的知识模型表示来说,可谓最重要的语义关系,以“崩漏”为核心的疾病与方剂或中药或腧穴相关知识表述形式举隅。

由表3可见,“治”在疾病知识的相关表述中还是占有很重要的地位,共出现550次,占全部数据的65%,如“用……汤,治崩漏”,或“治以……”,“治……,用……”,“兼治……”。方剂或出现在“治”的前面,或出现在后面,两种情况均十分常见。和“治”同义的词“疗”也在行文中出现,如“地榆疗崩漏下行诸血”,共出现46次,占全部数据的5.4%。

表3 以“崩漏”为核心的疾病与方剂或中药或腧穴相关知识表述形式

“宜”、“治宜”、“宜服”、“宜……主之”、“宜进”也是与方剂一起出现的描述方式,但有时会与治则治法同时出现,如“宜大补其气血”,在进行知识抽取时当注意。与“宜”相关的数据,占全部数据的1/4之多,也是属于相对比较常见的行文规则。

“主之”作为动宾倒置的经典句式,在数据库中也有32次出现,占3.8%,如“如经脉崩漏者……以艾叶姜苓汤主之”、“血崩之人,如服煎药不效者,火也,三黄汤主之”。又如“热体崩漏之侧柏、蓟根,寒体崩漏之乌贼、禹粮”则仅仅使用“之”来作为疾病名与中药名之间的连接动词,亦是中医古籍的一大特色。

“血山崩漏。贴阴交穴”,“气门二穴在关元旁三寸主治妇人崩漏”,“崩漏不止取血海阴谷三阴交行间大冲中极”,“行间在足大指间动脉应手陷中……主治……崩漏白浊”,“气门二穴在关元旁三寸。主妇人崩漏”则描述了几种腧穴治疗的方法,与中药方剂基本类似,但“取……”、“贴……”的行文规则还是颇有针灸推拿治疗的特点。

此外,“……加减”,加减之前必然是一方剂名,并与该病治疗相关,这也是抽取的规则之一。

2 语义关系的正则表达式及知识抽取

从古籍文献中人工抽取出崩漏的病因病机、并发症、疾病治疗相关语义,并按照语义关系分为等同关系、因果关系和治疗关系,其中病因病机和并发症相关语句属于因果关系。基于这些人工抽取结果,下面将采用计算机知识平台进行知识抽取,以形成病因病机、并发症、治疗三者关联的语义网络。

为了宏观快速地了解某研究领域的进展情况,科研人员往往需要掌握具体的性能指标[11]。这样,只在句子级别粒度的信息抽取就不能满足需求。正则表达式可以迅速准确地抽取出需要的内容,如:等同关系、因果关系和治疗关系,下文将用vb.net开发完成基于正则表达式的知识抽取及可视化平台。

2.1 相关结果

根据真实中医古籍文本总结的行文规则及对应语义关系,建立相关正则表达式,结合崩漏疾病本体及中医药古籍语言系统进行知识抽取[12]。相关正则表达式见图1。

2.2 知识抽取的程序实现

用vb.net开发完成基于正则表达式的知识抽取及可视化平台1.0版本。其主要功能有3个:①自然语言处理,从粗文本里面提取基于分词和正则表达式的相关概念术语及关系;②用基于抽取的术语和现有的本体知识库[13]匹配,获得已有的实体关系以及可能潜在的实体及关系,并以网络图的形式进行可视化;③人工筛选审核抽取的知识,归入已有崩漏知识库。

图2-图4分别是中医崩漏疾病语义中等同关系、因果关系和治疗关系的抽取样例其展示了等同关系、因果关系以及治疗关系的多种表现形式。如:启扁汤又名先天归一汤,桑寄生主崩漏,崩漏取三阴交,崩漏皆由血气伤这些崩漏相关的核心知识就被图形化的抽取并展示。

由图5可见,灰色框内为古籍原文,红色框内为古籍语义关系的表述方式,粉色框内为崩漏本体中已经存在的概念,经过抽取可以得到实体与实体之间的语义关联,经过人工审核,补充进入崩漏的知识库。

图1 正则表达式

图2 基于计算机知识平台的中医崩漏疾病等同关系的抽取结果

图4 基于计算机知识平台的中医崩漏疾病治疗关系的抽取结果

图3 基于计算机知识平台的中医崩漏疾病因果关系的抽取结果

3 抽取结果

经过上述人工抽取和计算机平台抽取过程,已完成以正则表达式规则为崩漏相关知识的抽取和表达。在此基础上,又构建崩漏相关的知识语义框架,从而将崩漏的辨证论治思路可视化。并通过崩漏语义框架的构建,完成整个中医疾病知识框架的信息模型。

3.1 崩漏知识语义框架

由图6可知,崩漏的常见病因有七情所伤、劳役过度、产后失调、饮食不节等,病因可以导致冲任虚损、心火亢盛、气血不足、湿旺木郁、肝不藏血等病机的出现,与此同时在临床会有不同的症状表现,如下血过多、四肢无力、面色萎黄等,根据这些症状,进行辨证论治就可以得到气虚证、水湿证,还是阴盛阳虚证等相关诊断,相应的证候决定了采用什么样的治则治法,是扶正,还是祛邪,是选择大补气血的药物治疗,还是针灸治疗。针灸治疗一般是作用于经络或者腧穴,常见的腧穴实例有关元、期门、血海、三阴交等。方药治疗的常用方剂有七灰散、三黄汤、乌贼丸、乌金散等。此外,还有崩漏日久可能导致的并发症,如眩晕、经闭、胎弱、血风证等。崩漏期间禁服的药物有花椒、胡椒、王不留行等。

3.2 疾病知识语义框架

图7是由崩漏启发而联想完成的整个中医的疾病知识框架,为构建中医药概念信息模型奠定基础[14]。对于一个疾病而言,其必须具有的属性是症状,进而就可以辨治为某种证候,可以被方剂、中成药或某种其他疗法治疗,也可能会导致某个并发症,如果在疾病的过程中出现某个症状可能提示不好的预后,同时也可以决定方剂中具体药物的加减。

图5 经人工审核后的中医崩漏疾病语义网络抽取结果

图6 崩漏知识语义框架

4 小结

本文通过对中医古籍中疾病“崩漏”相关的语义关系抽取,建立等同关系、因果关系、治疗关系的正则表达式,建立以正则表达式为规则的知识抽取及可视化平台,实现对崩漏相关知识框架的抽取与表达,并在此基础上完成中医疾病相关的知识框架描述。

但研究发现,单一的基于正则表达式的信息抽取难以达到很好的召回率,而且中医古籍的信息抽取更是知识抽取的瓶颈所在。如果在正则表达规则的基础上考虑篇章结构,同时整合机器学习[15]与语义标注的混合信息抽取方法可能进一步提高抽取的效能。此外如何对信息抽取后出现的噪音数据进行自动处理也是未来的研究工作之一。

图7 疾病的知识框架

1 周顺先. 文本信息抽取模型及算法研究. 长沙: 湖南大学博士学位论文, 2007.

2 秦元坤. 正则表达式匹配中的DFA优化技术研究. 北京: 清华大学硕士学位论文, 2008: 9-10.

3 车海燕, 冯铁, 张家晨, 等. 面向中文自然语言文档的自动知识抽取方法. 计算机研究与发展, 2013, 50(4): 834-842.

4 Toepfer M, Corovic H, Fette G, et al. Fine-grained information extraction from German transthoracic echocardiography reports. BMC Med Inform Decis Mak, 2015, 15: 103.

5 中华医典. 湖南电子音像出版社, 2000(2): 21.

6 王东梅. 崩漏文献及方药证治规律研究. 济南: 山东中医药大学博士学位论文, 2006: 3-5.

7 曹照洁. 因果关系研究述评. 重庆: 西南师范大学硕士学位论文, 2004: 7-8.

8 李经纬, 区永欣, 余瀛鳌, 等. 简明中医辞典. 北京: 中国中医药出版社, 2001: 840.

9 于彤, 崔蒙, 李海燕, 等. 中医药学语言系统的语义网络框架: 一个面向中医药领域的规范化顶层本体. 中国数字医学, 2014, 9(1): 44-47.

10 王翔朴, 王营通, 李珏声. 卫生学大辞典. 青岛: 青岛出版社, 2000: 40.

11 冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究. 图书情报工作, 2013, 57(11): 112-119.

12 朱玲, 尹爱宁, 崔蒙. 中医古籍语言系统构建的关键问题与对策.中国中医药信息杂志, 2010, 17(4): 98-99.

13 朱玲, 刘静, 贾李蓉, 等. 知识本体的构建研究. 中国数字医学, 2014, 9(2): 85-87.

14 谢琪, 崔蒙, 曹存根, 等. 基于领域本体方法构建中医概念信息模型的思考. 世界科学技术-中医药现代化, 2009, 11(4): 621-625.

15 周俊生, 戴新宇, 尹存燕, 等. 自然语言信息抽取中的机器学习方法研究. 计算机科学, 2005, 32(3): 186-189, 199.

Knowledge Extraction Research for Semantic Expression of Diseases in Chinese Medicine

Zhu Ling, Zhu Yan, Yang Feng
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

At present most knowledge extraction methods were from English literatures. As a surge of literature study and lots of values in ancient books, the semantic network of diseases and the principle of regular expression of traditional Chinese medicine (TCM) were described. In this study, uterine bleeding in TCM was taken for instance. Regular expression of semantic relations, including equivalence relationship, causal relationship and therapeutic relationship was constructed before establishing the visualization platform of knowledge extraction. As a result, the framework of diseases in TCM was formed after completing knowledge extraction for uterine bleeding. The later was implemented by the principle of regular expression, and laid a fundamental for the application of knowledge extraction in TCM. However, the recall rate was undesirable through single principle of regular expression for the knowledge framework of uterine bleeding and other diseases. The efficiency of knowledge extraction in the further exploration could have been advisable and improved by means of hybrid information extraction method, including machine learning and semantic annotation.

Uterine bleeding, disease, regular expression, knowledge extraction

10.11842/wst.2016.08.004

R277.7

A

(责任编辑:朱黎婷 张志华,责任译审:朱黎婷)

2015-12-07

修回日期:2015-12-09

* 国家自然科学基金委青年科学基金项目(81202758):基于语义网络的传统针灸概念体系表示及应用研究,负责人:朱玲;国家自然科学基金委青年科学基金项目(81403491):基于语义相似度的古代散在针灸知识框架构建研究,负责人:杨峰。

** 通讯作者:杨峰,副研究员,主要研究方向:针灸文献、理论研究。

猜你喜欢

因果关系古籍病因
中医古籍“疒”部俗字考辨举隅
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
关于版本学的问答——《古籍善本》修订重版说明
捋捋新冠肺炎的中医病因
视疲劳病因及中医治疗研究进展
关于古籍保护人才培养的若干思考
做完形填空题,需考虑的逻辑关系
电视的病因
我是古籍修复师
帮助犯因果关系刍议