APP下载

岭南温病古籍知识库构建的思路探讨

2020-05-25汤伟平许坚李兵吴蕾

中国医药导报 2020年11期
关键词:温病知识库岭南

汤伟平 许坚 李兵 吴蕾

[摘要] 岭南温病学是中医药学领域一个重要的学术流派,自晋代以降,古籍记载了大量岭南温病医家的学术思想与病案。将本体引入古籍数字资源中,可将散在的信息集中并使其具有关联性。本文在总结古籍知识库研究现状的基础上,探讨如何基于本体构建岭南温病古籍知识库的思路,包括信息提取和转换、自动语义标注、本体和本体知识库的构建,以及信息挖掘等,进而探索古籍中的隐含知识,实现古籍文献的知识提取、知识推理与知识发现。

[关键词] 岭南;温病;古籍;知识库

[中图分类号] R2-09          [文献标识码] A          [文章编号] 1673-7210(2020)04(b)-0136-04

Discussion on the construction idea of knowledge base of ancient books for Lingnan warm disease

TANG Weiping1   XU Jian1   LI Bing2   WU Lei1

1.Department of Respiration, the Second Clinical College of Guangzhou University of Chinese Medicine, Guangdong Province, Guangzhou   510120, China; 2.Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing   100700, China

[Abstract] Lingnan warm disease is an important academic school in the field of traditional Chinese medicine. Since the Jin Dynasty, ancient books have recorded a large number of academic thoughts and medical records of Lingnan warm disease doctors. Scattered information could be centralized and correlated through introducing ontology into the digital resources of ancient books. This manuscript summarizes the current research situation of the knowledge base of ancient books and discusses how to build the knowledge base of Lingnan warm disease of ancient books based on ontology. It includes information extraction and transformation, automatic semantic annotation, construction of ontology and ontology knowledge base, and information mining. Thus explore the implicit knowledge in ancient books and realize the knowledge extraction, knowledge reasoning and knowledge discovery of ancient books.

[Key words] Lingnan; Warm disease; Ancient books; Knowledge base

嶺南温病学是中医药学领域一个重要的学术流派,其在继承中医学经典理论的基础上,结合岭南地区特点作出的创新,既发展了中医药学术,又充实了岭南医学的学术内涵[1]。岭南温病学起源于晋代至宋代,蜕变与更替于元明两个朝代,独立发展于清代;从民国时期至今,岭南温病学已形成成熟的学术体系[2]。岭南位于我国南端,北枕五岭,南濒大海,主要包括广东、海南两省以及广西壮族自治区的一部分[3]。其环境特点是炎热多湿、地处卑下、植物繁茂、瘴疠虫蛇侵袭[4],独特的自然环境使温病成为岭南地区的多发病[5]。古代岭南医家对外感热病的认识早到晋代葛洪,后至清代何梦瑶,对后世岭南温病学的发展均产生了深远的影响。

古代文献是古代医家临证思想光芒最直接的载体,在指导现代中医临床实践中发挥着举足轻重的作用。古籍数字化已成为保存、整理和利用古籍的必然趋势,其功能不仅在于一般的信息查询,更重要的是构建知识库,实现古籍文献中的知识发现和知识推理。因此,我们在古籍数字化和数据挖掘相关研究的基础上,拟探讨岭南温病古籍知识库的构建思路,以推动岭南温病古籍中的诊治知识更好地被挖掘和利用,从而更好地为临床服务。

1 中医药古籍知识库研究现状

我国中医古籍数字化资源建设工作始于20世纪80年代,已逐步有一些数字化成果产出,其中知识库结合了数据库与人工智能的特点,存入大量高度结构化的符号数据,能够进行深入的数据挖掘,并实现不同的作者之间,以及目录到全文等多个知识点之间的关联检索[6-7]。目前大部分中医药高校图书馆都在建设中医古籍数据库,但书目数据库多,全文数据库相对不足[8]。现代信息技术在古籍研究领域应用的主要难点在于古籍内容繁杂,各种关系的命题不清晰,复杂逻辑关系得不到充分表达,因此,对古籍知识的深度加工处理尤为重要[9]。

近年来研究者针对古籍知识库开展了许多有益的探索,如贾凤旭[10]提出基于知识类聚的古籍知识库构建方法,包括对古籍的注疏文献进行收集和关联,与原文形成一个整体的知识系统,相互参考佐证;罗晨光等[11]提出在现有的古籍描述元数据著录规则的基础上,结合本体理论,将古籍元数据映射为一个基于本体的知识库结构框架;李兵等[12]通过语义属性关联形成温病古籍知识体系,描述温病古籍所蕴含的知识及内在联系,进而构建温病古籍知识检索系统;李芹[13]提出主题图技术是一种描述知识的元数据格式,作为一项国际标准,可用于描述复杂的知识内容,构成相对完整的知识体系,并实现资源的有机整合,还以《伤寒论》为例探讨了主题图技术在中医药领域的应用;还有学者通过中医古籍知识库平台,对草乌、山豆根的古代毒性记载、现代毒性研究及其临床不良反应报道进行系统研究[14-15]。

2 岭南温病古籍知识库的构建方法

2.1 书目选取、信息提取及数字化转换

以电子检索和手工检索相结合,纳入成书时间于1840年之前;作者籍贯属岭南并在岭南行医如《医碥》作者何梦瑶,或作者籍贯不属岭南,但生平曾长期在岭南行医,如《肘后备急方》的作者葛洪;医籍中包含了温病诊治的信息。检出并获取以上古籍后,提取以下信息:医家、书名、年代、病名、病因病机、证候、治法、方药、预后等。

按照本体构建和知识库开发的数据格式要求进行数据的格式化规范处理和数据清洗。对原文中出现的错误进行校正,对提取的知识术语进行规范。以《中国中医药学主题词表》《中医药学名词》《中医临床诊疗术语》等作为基本术语库,对以上检出的文档进行预处理,对前期提取的病名、医籍、病因病机、诊断、治则治法、方药、预后等知识术语进行规范和数据清洗,并以文本块为单位,识别出包含一个概念的所有文本块。根据知识库构建和知识分析的数据格式要求,增加收录古籍书目的范围,对所提取的古籍文本進行结构化加工和段落属性标注,能够自由选择按照不同的知识类型进行知识检索和分析,增强知识库的检索和分析功能。

2.2 自动语义标注与本体构建

通过对语义数据云图进行查询,获得概念在语义数据云图中对应的具体类。再提取出这些类的属性实例,以及和其他类之间的关系实例。依次提取概念名称、类、属性、关系后,在此基础之上生成RDF文档三元组,即概念1-关系-概念2。

构建中医古籍知识库既要基于数字化和结构化的古籍数据,又要有规范的知识概念、术语和语义词表作为支撑[9]。为实现古籍知识的规范表达与利用,构建岭南温病古籍知识的本体框架,包括类知识的概念类型和概念关系定义,实现知识的规范表达和语义关联,我们设计并开发了基于计算机的中医古籍知识加工和语义标注工具(软著登字第2562997号)。工具的主要功能:古籍文本的结构化加工,文本分词与语义标注,知识分析,OWL本体生成,后台管理及自定义设置,其应用流程见图1。该工具能够基于古籍原文数据和概念关系实现对文本数据进行结构化加工、段落及文本分词,语义标注、新词发现、本体和结构化数据的导出。通过概念术语及其语义关系建立温病知识间的规范化本体表达,并生成和导出OWL本体描述语言,用于相关本体研究。

图1   中医古籍知识标注工具应用流程

2.3 基于本体的岭南温病古籍知识库构建

本体论原是一哲学分支,其研究方法是将世界诸个体按照一定的准则划分为概念,探讨各概念的属性及其相互关系。本体通常被称为领域模型或概念模型,是关于特定知识领域内各种对象、对象特性以及对象之间可能存在关系的理论[16],是某一领域共享的、概念化、形式化表示的知识体系[17]。领域本体是近年来计算机及相关领域普遍关注的一个研究热点,能够用于描述指定领域知识,给出了领域实体概念及相互关系领域活动以及该领域所具有的特征和规律的一种形式化描述,将人对现实世界的认识抽象出来,形成一个概念[18]。在古籍数字资源中引入“本体”,可使散在于各部古书以及各卷或各篇之间的某种特定信息具有某种关联性,以重整资源,实现知识发现[19]。将本体论应用于中医古籍知识表达的理论与方法,构建中医古籍的领域本体,有助于突破深度利用古籍知识的困境[19]。

知识库的构建分为对本体模型的建模与对关系模型的建模两个部分。中医本体是比较专业化的本体,描述的是中医学科领域中概念与概念间的关系,并由此构成了中医的知识组织模型;中医学是一本庞大的学科,构建需要领域专家的参与,工作量巨大。为此,我们拟先确立古籍全文、结构化知识的层数据结构表,能够实现古籍全文及知识词表的关联、管理和维护。再进行岭南温病中医古籍知识库的整体架构的方案设计,包括原文检索阅读、知识检索、知识分析与可视化等部分。系统包括以下功能模块:古籍文献的全文阅读模块;古籍文献全文检索和段落阅读;古籍文献结构化数据识别、分词;基于词表实现内容的自动语义标注;温病相关知识的关联分析、网络分析、结果导出;后台数据管理与维护。在知识库构建过程中可利用本体构建工具如Protege,建立了以疾病为核心的医疗知识本体模型,而知识库的架构可采用Jena框架。

3 古籍的信息挖掘与知识发现

利用人工智能中的机器学习、知识处理和神经网络等方法,可用通过对其内容的解析、标引、关联、重组等知识组织实现中医古籍中病、证、方、药等知识的关联检索及交互检索[11],可实现岭南温病古籍知识库的知识因子的有序化和知识关联的网络化,从知识库中挖掘信息和发现知识。例如基于无尺度网络现象,选取药物配伍网络中的“Hub”药物节点,寻找一定代表性和覆盖度的共性处方配伍网络。根据处方配伍网络中的节点度分布,发现处方配伍网络的核心节点,并根据这些节点在处方中的同现频度计算其覆盖度,从而推理出核心组方。此外,将反复出现的药对关系连成网络结构。通过对处方药物功效、性味、归经的分析,反向推论疾病某一阶段的证候特征,进而推导中医古籍中岭南温病的药证关系。

4 小结与讨论

岭南温病学是具有鲜明的地理、气候、环境特点的中医学术流派。岭南名医刘仕昌曾谓:“岭南地区气候炎热,四季淫雨,湿热特甚,加上人体阴虚内热者多,脾胃湿困者多,故岭南温病具有明显的热象偏盛、易伤气津和多兼湿困的特点。”近年来暴发的SARS、禽流感、甲流等在岭南均有较高的发病率。挖掘和整理古代岭南中医家治疗温病的临床经验和学术思想,对岭南地区急性传染病的防控具有重要意义。

历代中医学家通过不断的传承、实践和创新,形成日益成熟的学术思想和体系,对于现代中医临床仍发挥着重要的指导作用。古籍中记载了大量的病因病机和诊治的信息,始终指导着中医学的理论发展和临床实践,同时也赋予了现代研究无穷的启示和灵感[20]。如获得诺贝尔奖和国家最高科学技术奖的屠呦呦教授在研究“青蒿素”的提取方法时,正是受到中医古籍《肘后备急方》中有关“青蒿截疟”记载的启发。中医古籍中隐含的大量治法方药、药证关系等信息,如何借助信息技术手段进行更好的呈现,建立起能够实现知识提取和知识推理的中医古籍知识库,已成为中医文献研究的热点。

构建中医古籍知识库,在科研、教学、新药开发等方面均有良好的应用前景。目前中医古籍数字化虽然已经有了一定基础,但深度的开发和利用不足,包括偏重于基础理论研究,而对数字化应用中的系统分析不足,同时由于统一的数字化标准的缺乏,限制了深度开发和利用古籍[21]。因此,我们拟采用基于计算机的自动语义标注和本体构建工具,实现古籍知识的规范表达与利用,建立岭南温病古籍知识的本体框架,并通过信息技术手段构建基于本体的岭南温病古籍知识库,使之能够实现知识提取和知识推理,同时借助数据挖掘技术探索古籍中的核心组方、药证关系等隐含知识,从而深度挖掘岭南医学特色与内涵,以更好地指导临床诊疗与实践。

[参考文献]

[1]  黃子天,刘小斌.岭南医家对叶天士温病学术的传承[J].中国中医基础医学杂志,2016,22(2):156-159.

[2]  黄子天,刘小斌.岭南温病学术源流[J].中华中医药杂志,2015,30(5):1585-1588.

[3]  高日阳,刘小斌.岭南医籍考[M].广州:广东科技出版社,2011.

[4]  刘小斌,郑洪,靳士英.岭南医学史[M].广州:广东科技出版社,2010.

[5]  黄子天,刘小斌.岭南医家辨治岭南温病[J].中国中医基础医学杂志,2016,22(5):597-598.

[6]  杨继红.中医古籍数字化资源建设概述[J].现代情报,2008,28(5):136-138.

[7]  刘毅.中医古籍数字化与知识挖掘[J].图书馆工作与研究,2010,32(12):92-94.

[8]  李兵,符永驰,张华敏,等.中医药行业古籍数据库的建设与服务[J].西部中医药,2014,27(2):85-87.

[9]  李兵,张华敏,李莎莎,等.中医古籍知识深度利用方法与知识库构建[J].中国数字医学,2018,13(8):33-35.

[10]  贾凤旭.基于知识类聚的古籍知识库构建方法[J].图书馆学刊,2015,37(5):45-48.

[11]  罗晨光,山川,王珊.基于本体的古籍知识库建设初探[J].现代图书情报技术,2007(4):8-11.

[12]  李兵,张华敏,符永驰,等.基于语义关联的温病古籍知识检索系统的构建研究[J].辽宁中医杂志,2012,39(2):2403-2404.

[13]  李芹.主题图技术在《伤寒论》知识组织中的应用研究[D].北京:中国中医科学院,2017.

[14]  王丹.基于文献研究的中药草乌安全性综合评价[D].北京:北京中医药大学,2019.

[15]  陆丹.山豆根安全性的文献研究[D].北京:北京中医药大学,2018.

[16]  甘健侯,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011:5.

[17]  Bollegala D,Matsuo Y,Ishizuka M. Relational duality:unsupervised extraction of semantic relations between entities on the Web [C]. 10 Proceedings of the 19th international conference on World wide web,2010:151-160.

[18]  邓仲华,黄鑫,陆颖隽,等.论中文古籍版本本体库的构建[J].图书情报知识,2014(4):80-93.

[19]  孙海舒,符永驰,张华敏,等.基于本体论构建中医古籍知识库的探索[J].医学信息学杂志,2011,32(3):64-68.

[20]  刘迈兰,吴曦,任玉兰,等.借鉴循证医学实践方法研究中医古籍的思考[J].时珍国医国药,2010,21(3):726-727.

[21]  张文亮,敦楚男.近十年我国古籍数字化研究综述[J].图书馆学刊,2017,39(3):126-130,137.

(收稿日期:2019-10-10  本文编辑:李亚聪)

猜你喜欢

温病知识库岭南
忆岭南
浅谈温病特色诊法之舌诊
雨岭南
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
不辞长作岭南人
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
参与式教学法在温病学教学中的应用
留学生温病学教学体会
易说岭南