APP下载

基于Protege的糖尿病本体构建

2020-03-30王玉廷

科学咨询 2020年11期
关键词:本体图谱定义

张 莉 王玉廷

(重庆医科大学附属第二医院病案统计科 重庆渝中 400010)

前言

目前,糖尿病已经成为威胁人类健康的重要慢性疾病之一,由国际糖尿病联盟统计,中国的糖尿病患者占全球四分之一[1],糖尿病及并发症对人体的危害极大,患有糖尿病及其并发症,而导致的机体损伤,使得糖尿病致死率升高。据国际糖尿病联盟(International Diabetes Federation,IDF)的统计,2017年,全球有4.25亿糖尿病患者,预计到2045年,将会有近7亿糖尿病患者。糖尿病作为一个不能完全根治的慢性疾病,医学上还没有可以准确预防糖尿病的方法。如何更高效率的治疗和预防糖尿病,已成为当今社会无法忽视的重大问题[2]。

近年来,国内对糖尿病的研究主要集中在并发症、临床诊断、护理、流行病学、检查检验及治疗等方向。何永静通过对老年糖尿病并发症的临床分析,为防止老年糖尿病并发症提供依据[3];林婉媚等将疑似糖尿病患者作为研究对象,对其进行生化检验与常规检验对比,得出生化检验在糖尿病诊断中的灵敏度及特异性上较常规检验更高[4]。国外的糖尿病相关研究也集中在并发症、相关治疗及护理等方面。但是,国外研究更关注与糖尿病的分型和临床护理方向。

知识图谱(Knowledge Graph/Vault)又称为科学知识图谱,是显示知识发展进程与结构关系的一种图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

国内对知识图谱的研究主要集中于图书馆学、情报学在经济与管理,以及科学计量学在具体学科的应用领域。胡泽文等对情报学中应用知识图谱现状及必要性展开叙述,提出知识图谱可用于对各学科研究热点及前沿等进行可视化的分析[5];杜湘等运用文献计量及知识图谱的可视化分析,对高原湿地相关文献在发表时间、核心作者及研究热点等方面进行推理,得到高原湿地相关研究热点及研究轨迹[6]。相对国内研究情况,国外的知识图谱研究层次及研究范围更加广泛,且更注重知识图谱与本体,以及信息检索等方面的研究。

一、本体的概念及其构建工具、方法

(一)本体的概念

由于本体(ontology)被不同领域的专家引用,各个领域的专家对本体的概念也会有一定的差异。最早的人工智能领域的学者是这样定义本体的:本体是构成相关领域词汇的基本术语和关系,以及利用这些本体和关系,构成规定的这些词汇外延规则的定义。后来美国斯坦福大学有学者提出:“本体是概念化的规范说明”。接着,有学者补充该定义:本体是共享概念模型的明确的形式化规范说明。这一概念得到各领域专家学者的认可。同时,也被广泛应用推广[7]。我国对本体的研究起步相对国外较晚。汤艳莉、赖茂生教授认为:本体是语义网的重要组成部分,是对世界或者领域知识、概念、实体及其关系的一种明确的、规范的概念化描述[8]。

由此可以知到,不同学科的专家给出的本体概念存在一定的差异。总的来看,本体都包含了五大特征,分别是:概念、形式、共享、明确及描述领域知识。

(二)本体构建方法

本体构建方法是指专家或者学者根据需求和基本步骤进行本体的构建,即将非结构化的相关知识进行搜集,并提取。然后,再用计算机可以理解的方式表达出来。尽管本体的概念有相对的一致性。但由于不同领域的要求存在一定的差异性,在进行本体构建时也会有相对的不同。

本文主要对糖尿病并发症、治疗情况及临床症状表现进行本体构建,即通过对糖尿病及其并发症知识体系进行非结构化的提取,收集相关症状体征、发病因素、治疗方法、预防等数据进行整合,并作为构建糖尿病知识图谱的实体及属性的相关结构框架。

首先,我们需要对糖尿病相关知识进行类(Class)的划分,必须将各个类进行概念化,明确各类的突出信息,把糖尿病知识体系表达完整。其次,我们要将数据类型属性(Data Properties)进行描述,并根据不同的属性对类进行约束,完成对类的标识。再次,我们将各类之间的关系进行定义,即对象属性(Object Properties)定义[9]。把握住各类的关系,才能完整的表示出该知识体系结构情况。最后,我们要对类及属性进行约束,只有对约束进行准确的描述表达,本体的构建才能更加完整精确。

(三)本体的构建工具

目前,在我们构建本体的工具中,较为成熟且使用率较高的主要有Ontolingua Server、Onosiris、Webonto、Protege等。本文主要借助Protege进行糖尿病本体的构建[10]。

二、糖尿病本体知识相关概念及联系

(一)糖尿病相关属性构成

1.定义

糖尿病是一组以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损,或两者兼有引起。高血糖可以导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍[11]。

2.名称

(1)中文名:糖尿病;(2)英文名:diabetes mellitus(DM);(3)别名:消渴症。

3.病因

糖尿病的病因主要分为环境因素及遗传因素两大因素。我们通过对糖尿病病因的遗传因素进行研究表明:糖尿病发病具有种族和家族遗传易感性[12]。1型糖尿病主要诱发原因有以下三点:(1)遗传易感性;(2)自身免疫性;(3)病毒感染。

2型糖尿病患病的遗传因素相比1型糖尿病更高。同时,环境因素和胰岛旁分泌功能失调也会导致患2型糖尿病的概率升高。对糖尿病影响最大的环境因素,主要表现在:身体活动减少、饮食过多,而形成的肥胖及精神状态的降低,使得糖尿病的患病率升高。

4.糖尿病并发症

依据文献,目前常见的慢性糖尿病并发症包含:糖尿病周围神经病变、糖尿病脑血管病、糖尿病肾病、糖尿病足及糖尿病眼部的并发症等。其中,糖尿病足是最常见的糖尿病并发病症合并感染中的一类,是由于患者足部神经病变,致下肢功能障碍,导致的下肢产生的坏疽和溃疡[13]。糖尿病眼部并发症患者常常会出现视力模糊。其中,较严重的会导致患者失明。而常见的急性糖尿病并发症包括:乳酸性酸中毒、糖尿病酮症酸中毒等。

5.糖尿病分型

根据是否需要依赖胰岛素治疗,一般将糖尿病分为1型糖尿病和2型糖尿病。另外,按照患病人群的年龄划分,可分为:新生儿糖尿病,小儿糖尿病,妊娠糖尿病,青年的成人发病型糖尿病及老年糖尿病。

6.糖尿病疾病诊断

包括糖尿病的诊断指标及诊断相关注意事项。查找有关糖尿病的文献,进行简单的整理归纳,得到相关的糖尿病诊断指标:

(1)测定果糖胺;(2)测定糖化血浆蛋白;(3)测定血红蛋白A1;(4)测定血浆胰岛素;(5)葡萄糖耐量试验;(6)测定尿糖。

(二)糖尿病治疗方法

本文将糖尿病的治疗方法主要分为三大类:药物治疗、胰岛素治疗及营养治疗。糖尿病患者不能仅靠依赖药物或胰岛素进行治疗,需要结合多种方法治疗,加上适合的运动、饮食,按时服药等相结合,才能达到更好地效果。

(三)糖尿病的症状表现

糖尿病是一组以血糖升高为主的代谢性疾病,临床上主要表现多为“三多一少”症状(多饮、多尿、多食和消瘦),也有存在体质下降,乏力等情况。通常情况下,1型糖尿病多在青少年及儿童中,且发病较急,部分患者会出现身体消瘦,体质虚弱的情况。2型糖尿病相对无明显的“三多一少”症状,更多情况下表现出慢性疾病,通常患病较高的是中老年人及肥胖人群[14]。

三、糖尿病本体的构建

本文借助本体构建工具Protege对糖尿病进行本体构建,选用版本为protege 5.2版本。构建过程主要分为类的构建、对象属性定义及数据类型的构建,通过本体的构建展示糖尿病知识及其相关关系[15]。

(一)糖尿病本体类的构建

选择标签class,创建基本类结构[16],设置三个大类。包括:糖尿病治疗方法(Diabetes_treatment)、糖尿病症状(Symptoms_of_diabetes)及糖尿病相关疾病(Diabetes_related_diseases),分别定义出各类。

(二)糖尿病本体对象属性定义

对已构建好的类进行对象属性的定义,分别对糖尿病治疗方法(Diabetes_treatment)、糖尿病症状(Symptoms_of_diabetes)及糖尿病相关并发症(Diabetes_related_diseases),用于表示类与类之间的关系[17]。

1.part of:表示整体与部分的关系。

2.cure:表示糖尿病治疗方法可以治疗糖尿病相关疾病。

3.has_symptom:表示糖尿病相关疾病的相关症状。

4.need_cure:表示糖尿病相关疾病需要的治疗方法。

5.related_disease:表示糖尿病症状是由于糖尿病相关疾病引起的。

其中,cure与need cure,has_symptom与related_disease是两组相反的对象属性,需要在描述中进行相关的定义。

(三)糖尿病本体数据类型定义

我们在对糖尿病类进行描述时,需要通过数据类型的定义进行完善。在本体的构建中,类相当于数据库中的表的形式,而数据类则相当于数据库中的列[18]。这个需要对每一类进行定义。比如,糖尿病治疗方法的描述有治疗类型及治疗名称。

(四)糖尿病本体类及类层次结构图

我们通过以上对本体类、对象属性及数据属性的定义,可以看到糖尿病本体类及其层次结构图与本体结构图,本体结构图是对整个糖尿病知识结构的描述[19]。其中的箭头表示不同的关系,实线箭头表示其父类与子类的关系,虚线箭头则是针对其对象属性的定义,不同颜色的虚线箭头表示不同的对象属性。即图1和图2:

图1 糖尿病类及其层次结构图

图2 糖尿病本体结构图

四、总结

本文通过对目前糖尿病现状及具体知识情况的掌握,对糖尿病病因、临床表现、并发症及药物治疗等进行综合的知识汇总,借助工具Protege构建糖尿病本体,将糖尿病疾病病因及药物治疗相关知识进行关联,最终进行可视化的图形展示,完成最基础糖尿病知识结构构建。对于Protege工具在糖尿病知识构建的方面,深入研究可以实现知识索引的,建立更加全面、完整的糖尿病知识库。

猜你喜欢

本体图谱定义
高清大脑皮层发育新图谱绘成
基于图对比注意力网络的知识图谱补全
眼睛是“本体”
绘一张成长图谱
一种基于社会选择的本体聚类与合并机制
主动对接你思维的知识图谱
成功的定义
修辞学的重大定义
专题
Care about the virtue moral education