痤疮的中医药本体构建研究*
2019-04-20崔一迪王明强陈欣然李国正
崔一迪,王明强,陈欣然,张 磊,李国正
(1. 中国中医科学院中医药信息研究所 北京 100700;2. 中国中国科学院中医临床基础医学研究所北京 100700;3. 中国中医科学院中医药数据中心 北京 100700)
痤疮是一种毛囊皮脂腺的慢性炎症性皮肤病,临床上以面部粉刺、丘疹、脓疱或结节、囊肿为特征,易反复发作,具有损容性。根据相关调查[1-3],痤疮在青少年中发病率高,但发病群体并不局限于青少年。近年来,由于社会的发展进步,人们的生活节奏和生活习惯发生了巨大的改变,痤疮的发病率也呈上升趋势[4],同时,痤疮的发病年龄呈现年轻化和中年化的趋势。痤疮由于具有损容性等致病特点,给人们的心理和生活带来了很大的困扰,尤其给青少年产生了严重的心理影响。痤疮的中医病名为“肺风粉刺”,中医对痤疮的病名、病因病机、治疗原则、治疗方法的研究已有悠久的历史,中医药治疗痤疮以方法多样、效果明显、安全、无刺激而独具优势[5-6]。研究痤疮的病因病机、治疗方法等,并构建相应的中医药知识体系对痤疮知识的整合、知识库的构建[7]以及临床辅助决策的构建等具有重要意义。痤疮的中医药知识广泛分布于医话、医案、期刊等形式的古、现代文献中,存在知识散在分布的问题,而构建相应的本体可以整合知识、将多种来源的数据以知识的形式在同一体系中表达,并构建知识库或知识图谱,为日后的知识共享、应用以及中医药经验的传承奠定基础。
本体是起源于西方哲学的一个概念,是对世界上客观存在物系统的描述[8],随着计算机、人工智能的发展,逐渐被引入信息科学领域,其含义也发生了变化,其中被广泛接受和认同的定义是Gruber 提出的“概念化的规范说明”[9-10],在此基础上,其内涵包括四层含义,即概念化、明确、形式化和共享。其建模元素包括类(class)或概念(concopts)、关系、函数、公理和实例[8,11-12],本体是一种概念的形式化表达模型,一方面,本体能够明确表达某一具体领域的知识,这些知识被领域内的学者认同,且被大众复用,另一方面,本体也是人-机交互的基础[13]。本体自被引入科学信息领域以来就得到了国内外的广泛关注与应用,目前本体在生物医学领域也得到了广泛的应用,例如已经开发并投入应用的临床医学术语系统(SNOMED-CT)[14]、统一医学术语系统(UMLS)[15]、基因本体(Gene Ontology)[15]、中医药语言系统(TCMLS)[16]、中医临床术语系统[17]等,以及研究人员在研究中构建的许多面向具体病种[18-21]或具体方向的中医药领域本体[22-25]。
图1 七步法步骤
目前,中医药领域所构建的本体具有不同的服务目的,包括智能诊断、辅助决策[19]和构建顶层本体以整合中医药知识等。本研究构建的是中医药痤疮的领域本体,构建目的一是整合中医药痤疮知识,使不同来源的知识能够并存于一个知识系统中,为后续的知识库构建奠定基础;二是痤疮为一种常见的皮肤病,构建痤疮本体可为痤疮的疾病预防、诊断、治疗和护理等提供知识支撑,为后续痤疮的知识服务、知识查询和临床辅助决策系统奠定基础;三是痤疮本体的构建是皮肤病本体以及中医药顶层本体的一个分支,现在中医药本体中还暂无痤疮和皮肤病本体,因此构建此本体也是日后本体融合的必要工作。
1 本体构建
1.1 构建工具
本体的构建工具有很多,包括protégé、WebOnto、Ontolingua、OntoEdit、Ontosaurus、OntoEdit 等,其 中,protégé 是美国斯坦福大学基于Java 语言开发的免费的、开源的本体编辑器,支持多方面的知识表示要素,具有很强的扩展性,含有许多插件,且用户操作简单[26],是目前主流的本体编辑软件,被广泛地应用于医学领域的本体构建。在知识表示和操作方式等方面protégé 均可满足本研究的构建需求,所以本研究选取protégé5.2.0作为构建工具。
1.2 描述语言
网络本体语言(Web Ontology Language,OWL)是W3C发布的语义网标准表示语言,建立在RDF的基础上,OWL 语言为概念间的描述提供了丰富的建模元素,是用来构建本体的一个通用的标准,且得到了成功的应用实践[27],具有很好的表达能力[28],本研究选择OWL作为痤疮本体的表示语言。
1.3 构建过程
本体的构建方法有很多,例如TOVE 法、骨架法、IDEF5 法、METHONTOLOGY 法和七步法[29]等,可根据不同的构建目的选择不同的构建方法。鉴于此研究构建痤疮本体的目的是整理痤疮的相关知识,以达到相关知识的整合和共享;并为临床辅助决策系统提供知识支撑和推理的基础。于本研究而言,七步法可引导我们完成知识的整理与本体的构建,所以选取七步法为本研究的构建方法。七步法是斯坦福大学开发的一种构建本体的方法,广泛地应用于医学本体的构建,其中,七步法中的第6 步用来描述属性值的类型、属性值的个数等,在中医药痤疮的本体构建中不涉及此过程,故予以省略(七步法具体步骤见图1)。
本研究的具体构建过程如下。
(1)确定本体的专业领域和范畴:本研究构建的中医药痤疮本体,是为了整合中医药痤疮知识,为后期知识图谱、知识库、临床辅助决策系统的构建等应用提供知识基础。其具体内容包括痤疮的病名、病因病机、症状体征、证候、治则治法、治疗方法和方剂中药等。目前,中医药痤疮知识散布于不同类型的知识载体中,考虑到本研究的构建目的,选择数据来源为相关教材[30]、国家名老中医专著[31]、痤疮临床指南[3]、中医临床术语系统[32]、中医药学主题词表[33]等。
(2)考查复用现有本体的可能性:目前中医药研究领域没有已发表的痤疮的相关本体,但是已有中医临床术语系统等本体覆盖部分痤疮知识,具有很高的借鉴意义,因此本研究在构建本体时借鉴了中医临床术语系统的语义类型和语义关系以及中医药学主题词表的语义类型和上下位关系等。
(3)列出本体中的重要术语:人工提取上述来源中痤疮的相关实体,提取的内容包括概念、属性等,并将其术语化。由于中医药领域用词习惯各异,所以此处所讲的术语化并非是完全的术语化,而是在参考术语相关的标准[34-35]或书籍[36]等的基础上将用语用尽量准确且符合习惯的方式来表达。在术语化时有四种情况:①抽取的实体本身就是术语,无须转化;②将实体转化为相对应的术语;③抽取的实体为多个词组合而成,需将此实体拆分,分为相对应的两个或多个术语来表达,例如舌红苔黄转化为舌质红与舌苔黄;④抽取的实体尚未有与之对应的术语,则选择常用且较规范的词语来表示。
图2 中医药痤疮本体的中医理论框架
图3 痤疮本体的等级构建
(4)定义类和类的等级:对已产生的大量术语,需建立一定等级关系。本研究采用混合法构建类的等级[29],一方面在中医理论的指导下设置痤疮本体的一级类目(中医理论框架见图2),例如“病因病机”、“病症”、“症状体征”“方剂和中药”、“治则治法”等作为疾病本体所需要的基本要素,并依据中医理论细分下级类目;另一方面,根据所列举的术语归纳总结能够概括同类术语的上层类目或补充中间缺少的类目。例如痤疮本体中定义的一级类目中包含“病因病机”,二级类目为“病因”,对于抽取的术语中有“饮食不节”这一病因,根据中医理论,需要在“饮食不节”与“病因”之间再增加“内因”这一类目,具体见图3。
图4 痤疮本体的部分可视化
表1 对象属性及注释
(5)定义类的属性:类的属性包括类与类之间的对象属性(object property)和类的数据属性(data property)等。首先,建立类与类之间的对象属性,根据自然语言的描述和中医理论框架(图2)提取类与类之间的关系。类的对象属性包括类与子类之间的上下级关系和人工定义的类与类之间的语义关系,例如教材中所述“痤疮主要发生于面部的前额、两颊和口周”,在构建时定义一个名为“病发于”的对象属性来描述“疾病”和“形体官窍”之间的语义关系,并限定其定义域(domain)和值域(range),定义域为“疾病”,值域为“形体官窍”,从而使类与类之间可以通过对象属性相互联系,同时类之间的语义关系也具有继承性,下级类可继承上级类之间的语义关系。类的属性的构建起到知识表示的作用,同时使此本体具有推理等功能。类与类的关系定义完成后,需要建立类的数据属性,例如“疾病”有与之相对应的中医病名,因此可以为“疾病”建立一个“中医病名”的数据属性,建立的数据属性能够较为全面地描述类,并且在以后本体的应用中为检索、查询等应用奠定基础。本研究中类的属性按照临床诊疗过程中的思维模式来构建,首先通过患者的一些典型症状,例如“丘疹、脓疱、粉刺”等来判断为痤疮,由此可用一些痤疮常用方药或其他疗法,此为辨病论治;再则,当患者伴随“口干、心烦、舌红少苔和脉细数”等症状时,此时则应辨证论治,判断此证为“阴虚内热证”,使用滋阴泻火的方药予以治疗。可见,属性的构建对本体的知识推理起到了重要的作用。
(6)创建实例:上层本体构建之后,需要创建类的实例,所创建的实例在protégé 中可继承类的属性。创建实例包括创建实例的个体和实例的属性,例如,在步骤(4)中已经构建“疾病”和“证候”这两个类,并在步骤(5)中构建对象属性“阶段性表现为”,并设置其定义域为“疾病”,值域为“证候”。现在分别在“疾病”和“证候”这两个类之下添加实例“痤疮”和“阴虚内热证”,并构建两者之间的对象属性“阶段性表现为”,建立实例之间的语义关系。
1.4 本体完整性检验和可视化
在本体构建完成后,需要对已构建的本体进行检验。首先人工检验各级类目的设置和类的属性设置是否符合中医理论,然后用protégé 自带的推理机进行推理[23],一方面可以检验本体的逻辑一致性,另一方面也可从中发现新的关系。最后利用protégé5.2.0 自带的可视化工具(ontoGraf)进行可视化。
2 结果
在本研究痤疮本体的构建中,共构建各级类目77个,13 个对象属性(皆为单向属性)(见表1),2 个数据属性和139 个实例。经检验,符合中医基础理论和逻辑一致性。图4为本体内容的部分可视化。
3 讨论
痤疮是一种长期、慢性、具有损容性的皮肤病,中医药治疗效果理想,所以,建立痤疮的中医药知识本体,对痤疮的防治具有重要意义。本研究所构建的中医药痤疮本体选取了教材、名老中医专著、临床指南的中医部分等现代的显性知识作为知识来源,此本体可作为上层框架,在此基础上补充实例,形成中医药痤疮知识图谱,最终为临床辅助决策系统提供知识基础;同时,此本体的构建以中医理论为基础,还原了临床医生的辨证诊疗思路,表示了病、证、症、方、药与其他疗法之间的语义关联,我们尝试以此为基础发现新的隐形知识;且由于痤疮发病率高,治疗周期长,容易复发,此本体可作为知识框架构建中医药痤疮知识库,为痤疮患者提供预防、辅助治疗和调理的建议。
本研究以中医理论为核心,以多种来源的数据为切入点,人工对痤疮相关的中医药知识进行收集、整理与组织,抽取概念、建立语义关系,最终以三元组的表达形式,建立中医药痤疮本体的知识表达模型。这不仅有利于知识的共享和利用,并为中医药痤疮知识库的构建、中医药顶层本体的构建以及后续知识的查询、检索、推理等应用奠定了基础。
在接下来的工作中,本课题组将更为全面地纳入不同来源的知识,例如中医药古籍文献、临床相关数据等,使中医药痤疮本体更为完整和丰富,同时在此本体的基础上构建中医药痤疮知识图谱和临床辅助决策系统,同时也期待发现一些隐性知识,在一定意义上为中医药传承做出贡献。