中医病证本体库的构建研究
2018-07-09冒宇清李新霞
肖 洁,冒宇清,李新霞
(南京中医药大学 信息技术学院,江苏 南京 210023)
中医在长期的医疗实践中积累了大量的数据,在中医古籍中存在大量的病例和药方,如何挖掘出其中的宝贵经验,具有极大的研究价值。由于从现实生活或中医药古籍中获取的原始数据存在完整性不足、冗余程度高、模糊不清、杂乱无章等问题,易造成知识的无效归纳,且严重影响数据挖掘算法的执行效率,不能直接满足数据挖掘的需要[1]。因此,首先需要构建中医病证的本体库,依据本体库对原始数据进行预处理操作。
本体库提供了一套对特定领域知识的共享和共同认识,以实现计算机对领域知识的语义理解。利用本体技术构建领域知识库,不仅可以清晰地描述领域中的概念及其关系,还可以实现基于本体推理的语义检索,有利于领域知识的共享和重用[2]。
本文通过建立中医病证本体库,进行数据整理操作,优化对中医药信息元数据的搜索归纳,提高中医病证相关数据查询和获取的效率。
1 本体
1.1 本体的概念
本体(Ontology)的概念来源于哲学领域,原意是关于客观存在及其本质和规律的说明,关心的是客观现实的抽象本质。信息技术和语义网的出现使本体在计算机科学领域得到了广泛的应用,特指在特定领域公认的对象及对象关系的概念化表达,其中的对象包括实际对象和逻辑对象,领域本体强调领域的本质概念和这些概念之间的关联。
1.2 本体的构建方法
目前领域本体主要有以下几种构建方法:IDEF-5方法、骨架法、TOVE企业建模法、METHONTOLOGY方法、循环获取法、七步法等,经过对以上方法的比较分析,本文采用七步法来构建中医病证本体库。
七步法是由斯坦福大学医学院开发的,它将本体构建过程大致分为7个步骤,每个步骤分别确立人物和目标,具体步骤如下:(1)确定本体的专业领域和范畴,明确本体的构建需求、范围和目的。(2)考查复用现有本体的可能性。(3)列出领域中的重要术语,方便用户对本体的理解。(4)定义类和类的等级体系,通过自顶向下法、自底向上法和综合法等方法完善等级体系。(5)定义类的属性。(6)定义属性的分面,分面描述属性的取值类型、基数等特征。(7)创建实例[3]。
1.3 本体的构建工具
目前较为成熟的本体开发工具主要有:KAON,WebODE,OntoEdit,Protégé等,本研究选择Protégé作为本体构建工具,因为Protégé可以支持多种常见的本体描述语言如XML,OWL,RDF等的导入和导出。
Protégé是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,既是本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体库的核心开发工具。Protégé提供了本体概念类、关系、属性和实例的构建,用户只需在概念层次上进行领域本体模型的构建,而不需要关心具体的本体描述语言[4]。
2 中医病证
在中医学中,“病”“症”和“证”是3个重要的概念,它们都有自己的定义,相互之间也有显著的区别。“病”是对疾病发展全过程中出现的、与其他疾病表现有所不同的特点,以及病情发展的独特规律所做出的概括。“症”是症状、体征,是指患病后出现的背离正常生理范围的异常现象,如发热、恶寒等,这是人体出现疾病的反映。“证”即证候,是疾病发生和演变过程中某阶段本质的反映,也可认为是人体生命活动状态的划分,是根据中医四诊所获信息,对病因(如内伤、外感等)、病位(如表、里、脏、腑等)、病性(如寒、热等)、病机、病势(如邪正盛衰、疾病发展趋势等),以及病人自身的体质和患病时的季节气候与周围环境等的概括。
在中医理论中,辩证就是在中医理论指导下,对临床病情资料进行分析、归纳,从而确定病人患有何证的过程。中医的很多病名和症状是一致的,比如患者症状是下肢水肿,疾病诊断就是水肿;还有些病名和症状不一样,比如患者有发热、恶寒、无汗、周身酸楚等症状,中医诊断则是感冒。以水肿为例,水肿包含风水相搏证、湿毒浸淫证、水湿浸渍证、湿热壅盛证、脾阳虚衰证、肾阳衰微证等证。而对于同一病名以下的不同的证,又会用不同的治法,采用不同的药方来进行治疗,例如水肿的水湿浸渍证其治法是健脾化湿,通阳利水,采用的药方是五皮饮合胃苓汤;而湿毒浸淫证其治法却是宣肺解毒,利湿消肿,采用的药方则是麻黄连翘赤小豆汤合五味消毒饮[5]。
针对以上问题,通过建立一个中医病证本体库,能够有效地整合现有的中医病证相关知识,使得各病证之间的显性关系以及隐形关联能够通过相应的规则表现出来,以利于后续对于中医病证相关知识的进一步挖掘与研究。
3 构建中医病证本体库
3.1 收集数据
中医病证本体库来源于相关的真实世界数据,本文通过严格的考察与比较,经过反复斟酌,从中医教材、典籍和名家医案中抽取了大量中医病证的相关内容,建立了中医病证数据库。以病名水肿为例,相关属性的取值如下。
(1)分型(证型):风水相搏证、湿毒浸淫证、水湿浸渍证、湿热壅盛证、脾阳虚衰证、肾阳衰微证、瘀水互结证。
(2)治法:疏风清热,宣肺行水、宣肺解毒,利湿消肿、健脾化湿,通阳利水、分利湿热、健脾温阳,利水、温肾助阳,化气行水、活血祛瘀,化气行水。
(3)代表方:越婢加术汤加减、麻黄连翘赤小豆汤合五味消毒饮、五皮饮合胃苓汤、疏凿饮子、实脾饮、济生肾气丸合真武汤、桃红四物汤合五苓散。
3.2 定义中医病证相关联系,建立本体库
使用Protégé工具构建中医病证信息的概念以及分类。在中医病证本体库中,建立了4个大类:病名、分型、治法、代表方,其中“病名”下又有儿科、内科、外科、妇科、男科、皮肤科、眼科、耳鼻咽喉口腔科、肛肠科、骨伤科10个小类。定义本体库中的关系有:“代表方为”“分型是”“包含有”“治法是”“用药有”“症状是”。最后创建中医病证本体库中类的实例,为基于语义的检索应用奠定基础[6]。
在Protégé中可以直观地看到所构建本体的框架图,与水肿相关的本体详细展开后如图1所示。
3.3 本体的存储
本体在构建完成后,还需要考虑相关的存储问题。目前本体存储方法主要有3种:纯文本格式存储、数据库方式存储和专门管理工具方式存储。文本格式存储本体管理方便,然而在进行基于本体规则的推理时,执行效率不高且可移植性不佳;专门管理工具不具备普遍性,扩展性差;而数据库存储方式能使用SQL语言对本体进行高效管理,对本体的操作可以发挥数据库技术成熟的优势。因此,本研究对利用Protégé生成的中医病证本体文件采用数据库方式进行存储[7]。
4 结语
在当今大数据、“互联网+”的时代背景下,如何充分利用中医药领域大量知识密集型数据,通过计算机对中医领域知识的表达和推理,实现名老中医经验的挖掘和传承,具有非常重要的现实意义。构建中医病证本体库是基于语义网的中医药知识发现的必要条件。本文在对中医病证的相关概念全面分析的基础上,依据现实世界中的中医病证相关数据,完成了中医病证本体的结构设计和实例设计,利用Protégé工具构建了中医病证本体库,为利用OWL语言进行基于本体关联关系的规则推理,实现基于语义的检索以及进一步的数据挖掘工作奠定了基础。
图1 以水肿为例的中医病证本体库
[1]付苓.基于本体的单元信息知识库构建研究[J].现代情报,2017(12):74-78.
[2]王美琴,吴庆斌.基于本体的医学知识库构建方法综述[J].医学信息学杂志,2017(3):73-76.
[3]方芳,徐天馥,沈同平.糖尿病医案本体库的构建及应用研究[J].中医学报,2016(11):1680-1683.
[4]冯瑶,冯锡炜.基于元数据标准的语义化教育资源本体库构建与实现[J].电子设计工程,2015(18):12-15.
[5]张俊波.本体库与数据库相融合的民族信息资源语义检索研究[D].昆明:云南师范大学,2014.
[6]张志斌,李强,申晓伟,等.关于中医病证名词研究的思考[J].中国中医基础医学杂志,2014(1):2-5.
[7]刘琼,李宝敏.一种果品领域本体库的构建方法[J].计算机技术与发展,2009(1):197-199,203.