APP下载

面向事件本体的医学文本语义关联化研究

2022-06-07李跃艳邓三鸿

情报学报 2022年5期
关键词:医学知识本体语义

李跃艳,王 昊,邓三鸿,陈 艳

(1.南京大学信息管理学院,南京 210023;2.江苏省数据工程与知识服务重点实验室,南京 210023;3.南京大学生命科学学院,南京 210023)

1 引 言

近年来,亚健康问题突出,伴随着互联网医疗和智慧健康兴起,医学文本数据量快速增长,公众对医学文本知识结构化的需求不断增加,对海量的医学文本形式的数据进行有效的抽取、组织和分析,是有效发挥医学健康大数据的价值并成功推进现代医学应用的关键。本体和语义网技术的引入和发展,为医学知识结构化管理提供了切实可行的行动方案,扩展了智慧健康知识结构化管理的内涵,是实现精准医学的有力保障。其中,医学知识的完整性和系统性是计算机正确理解知识并发现知识的前提保障。然而,以往医学本体往往描述了对象的静态特征,并给出了对象的状态属性,仅描述了一些既定的知识,例如,疾病本体、基因-蛋白本体、疾病-表型本体,对这些本体结构缺乏动态特征的描述,无法揭示知识之间的动态关联,因此无法基于动态特征实现医学知识发现。

叙事性文本是一种以叙事功能为主的文学作品,是对现实世界的记录,是人文学者通过文字等方式对一系列事件的清晰描述和有序组织,其一直以来是人文学者的研究对象。叙事医学(narrative medicine)是一门新兴学科,最初由美国哥伦比亚大学Rita Charon医师于2001年提出[1]。“叙事医学”指的是一种医疗模式,通过培养临床医生认识、感知、解释、回应患者疾病的故事及患者困境的叙事能力,提升医生对患者的亲和、理解与共情能力及对自身医疗行为的反思[2]。本文提出了医学叙事性文本的概念。医学叙事性文本是采用文字语言表达一系列医学领域事件及其之间的关系,包括人为引发的,例如,现实发生的医疗事件等;还包括其他非人为引发的,例如,微生物的入侵、机体的防御、炎症反应机制、免疫机制和药物作用过程等。与一般的叙事性文本不同的是,参与对象有所差异。一般的叙事性文本的对象主体是人物、机构、团体等由人发起的,而这里的医学叙事性文本的对象主体除了人物等,还包括一些自然力和非自然力物体,例如,细胞、微生物、生物分子等。

日奈特认为叙事着重表现行动和事件[3]。由此可以看出,事件是构成叙事的基础。以“事件域”为单位来体验、认识和理解现实世界,并将其作为知识块以本体形式结构化展示,这是符合人们的一般认知规律的。与“概念”相比,“事件”关系到多方面的概念。传统本体所使用的概念模型属于静态模型,能够较好地反映客观世界中静态事物的存在规律,特别是事物的分类与非分类关系,但却难以反映更高层次和更复杂的语义信息。而事件本体是一种粒度更大的、动态的、具有完整意义的结构化知识,它可以描述包含事件的动作、时间、对象、地点等要素的完整事件信息,同时可以描述事件之间复杂的关联关系。

综上所述,医学领域知识结构化被越来越多的学者关注,建设高质量、大规模、机器可理解的医学文本语料库,促进医学文本向智慧数据的转变已经成为研究者的共识,而事件知识域表示方法可以保留更加丰富的语义内涵。因此,本文基于事件本体构建医学知识本体模型,旨在满足医学研究在大数据情境下的智慧健康需求。

2 相关研究

2.1 医学知识库构建

目前,国外关于医学知识库的构建、规范化程度以及具体应用研究已经较为成熟。关于知识库的构建包括DO(disease ontology)[4]、OMIM(online mendelian inheritance in man)[5]、MEDLINEplus[6]、eDGAR[7]、IDO (infectious disease ontology)[8]、ORDO(Orphanet rare disease ontology)[9]、ERNEYE(European reference network on rare eye dis‐ease)[10]、MalaCards[11]等以疾病为主的知识库,HPO(human phenotype ontology)[12]、PhenPath[13]等以表型为主的知识库,SYMP(symptom ontology)[14]等以症状为主的知识库,ChEBI(chemical entities of biological interest)[15]等与生物相关的化学实体知识库,UniProt[16]、STITCH(search tool for interac‐tions of chemicals)[17]、PDB(protein data bank)[18]、BioGRID(biological general repository for interaction datasets)[19]等以蛋白质为主的知识库,GO(gene ontology)[20]、QuickGo[21]、HGNC(the HUGO gene nomenclature committee)[22]等以基因为主的知识库,Cellosaurus[23]等以细胞系为主的细胞知识库,TC‐MID (traditional Chinese medicine integrated data‐base)[24]、HIT(herb ingredients'targets)[25]、Drug‐Bank[26]等以药物为主的知识库,VO(vaccine ontol‐ogy)[27]等以疫苗为主的知识库。这些知识库通过重用已有知识本体实现了知识库之间的关联,为医学信息的相关查询和决策提供了有力支持和帮助。关于规范化描述,主要通过遵循统一的开发原则,解决知识库之间的互操作和可扩展问题,进而实现知识库之间的语义关联。其中,OBO库(OBO Foundry)[28]旨在开发一系列非冗余且可互操作的本体,这些本体的语法统一,逻辑结构科学合理;在OBO开发原则的基础上,XOD(eXtensible ontol‐ogy development)提出本体开发的四个关键原则[29],包括本体术语重用,本体语义对齐,使用ODP(ontology design patterns)本体设计模式开发和编辑新术语、注释和关系[30-32],以及采用多社区协作的众包模式开发本体。关于医学知识库的具体应用研究包括:基于基因型和表型的疾病分类方法[33],基于基因和中药化学成分寻找新药[34],基于基因、生物学过程和症状与疾病的关系发现密切相关的疾病[35],利用化学物质、基因、疾病和症状之间的关系推断生物医学中的潜在关系[36]等。

然而,国内关于医学知识库的研究才刚刚起步,虽有一些有意义的理论探索,但是还未形成有一定影响力、可以规模应用的知识库。其中大多是由企业主导的,例如,OpenKG[37]旨在构建可信的包括医学在内的中文开放知识图谱,EpiK[38]铭识协议旨在依托区块链技术构建人类永恒知识库,“千言”计划[39]旨在构建面向自然语言处理和生成任务的中文开源数据集合;CDD(China Disease Knowl‐edge Total Database,中国疾病知识总库)[40]、上海曙光医院中医药知识图谱[41]等尚未公开发布数据集,无法获得底层数据,难以实现深层次利用、开发和关联。

2.2 事件与事件本体模型

基于事件的研究已经发展成为将“事件”看作一种知识表示的方式。Nelson[42]早在1986年提出了基于脚本的通用事件表示模型,他认为事件是由对象和关系组成的,并将事件作为分类知识的基础。Langacker[43]结合弹子球模型、舞台模型以及原型角色提出“典型事件模型”结构,包括施事者、受事者和背景。Filatova等[44]提出了“元事件”是由动词(或者动名词)和动词连接的行为构成的,这些行为的主要连接成分是三类命名实体:参与者(人名和机构名)、地点和时间。王寅[45]提出了“事件域认知模型”(event-domain cognitive model,ECM),认为一个基本事件域主要包括行为(action)和事体(being);一个行为包括动态性行为和静态性行为,是由很多具体的子行为或动作构成的,一个事体是由很多个体构成的,相当于将事件定义为一个三元组{事体,动作,事体}。事件多元组模型认为事件包括动词和动词连接的高频名词或者命名实体[46]。刘宗田等[47]采用六元组形式化表示事件,包括动作、对象、时间、环境、断言、语言表现。在此基础上,事件的概念逐渐被信息检索[48]、信息抽取[49]、自动文摘[50]、自动问答[51]等知识处理领域所采用。在语义网中,事件本体的引入,使知识表示、知识组织更加结构化,更加符合人类认知过程。

典型的事件本体语义表示模型,包括Event On‐tology[52]、ABC[53]、Event-Model-F[54]、SEM(simple event model)[55]等通用领域的事件本体模型和NIAO(narrative image annotation ontology)[56]、CIDOC CRM(CIDOC conceptual reference model)[57]、sche‐ma.org[58]等专业领域事件本体模型。但是这些事件本体模型仅定义了事件的构成要素,即仅描述了静态知识,缺少对动作这一动态性行为的描述以及事件间的动态关联,导致事件信息不够全面和具体。朱文跃等[59]构建了突发领域事件本体模型,实验结果表明,通过考虑事件的动作要素以及事件间的关联关系可以清晰地描述事件的完整性、语义性和可扩展性。宋宁远等[60]通过引入叙事和事件等概念,构建基于情节本体的叙事性文本语义结构化表示方法,标注结果表明,叙事性本体表示能很好地展示和描述小说文学作品中事件动态发展的有序性和语义性。

综上所述,从研究对象来看,以往医学知识库只能体现医学静态知识之间的简单关系,无法体现医学知识之间的复杂关系;从研究方法来看,以往事件本体主要是概念和概念关系的集合,忽略了事件的动态性,很难描述事件的状态变化,仅是在传统本体模型的基础上整合了事件的部分构成元素,如人物、时间、地点等,并没有实现真正意义上的基于事件知识表示的本体构建;从研究内容来看,关于医学文本知识表示和组织对“事件”这一整体知识结构单元认识不够深入,缺乏对医学动态知识的组织和描述,事件间关系揭示不够全面,实际应用不够完善。因此,构建符合实际用户需求的医学知识库成为时代所需,实现更细粒度的医学知识结构化表示成为关键所在。基于此,本文基于叙事性理论和事件知识表示,借鉴国外构建医学知识库的成功经验,通过深入分析医学文本内部特征,挖掘细粒度医学知识及其之间的关联,从而构建完整的、计算机能够理解的、符合人们一般认知规律的、基于事件本体的医学知识本体模型,并在此基础上探索医学知识的发现,为医学知识发现和决策提供有力支持和帮助。

本文能够为实现医学知识组织提供新的路径,为实现更高层次和更复杂的医学语义知识的结构化表示提出新的研究视角,为构建完整的医学知识本体提供系统性研究方法,为计算机辅助实现基于结构化知识的新知识挖掘任务提供可能性。

3 基于叙事性文本的医学知识库构建框架

医学领域涉及广泛的学科知识,其数据、信息和知识呈现高度复杂性。为实现医学知识结构化组织、推进医学知识深层次利用、打造医学智能知识服务体系,本文基于叙事性理论,根据事件知识表示方法,采用本体和语义网技术,设计了从数据建模到数据融合再到数据联勤的基于叙事性文本的医学知识库构建框架,如图1所示。

将医学健康知识标准化和规范化,有助于降低医生误诊率、提高医生决策能力和提升国民医学素质。实现医学知识库构建主要有以下几个任务和目标:①多源异构医学数据采集。将不同来源、不同类型、不同结构、不同格式的医学数据转换成统一的形式。②医学知识本体模型构建。根据是否具有叙事性特征,将医学知识分为静态概念和动态事件,分别构建医学静态概念本体模型和医学动态事件本体模型。③医学知识抽取。借助已有的外部数据库(结构化词表和已有本体知识库),采用自动抽取方式从非结构化文本数据中抽取具体的知识,包括概念、属性、关系、事件等。④医学知识融合。借助自然语言处理和已有关联数据模型结构特征实现实体对齐和属性对齐,将不同来源的知识元素分门别类,形成完整的没有歧义的知识体系。⑤医学知识存储和展示。通过设置公理规则实现知识补全,从而采用自动编码生成本体文件,结合第三方可视化库进行知识图谱结果展示。⑥医学知识挖掘。借助医学知识本体能够以机器理解的方式表达完整的规范化的领域知识优势,结合自然语言处理、机器学习、深度学习、社会网络分析方法,融合医学信息多维度内容特征和结构特征,实现智能检索、自动问答、信息推荐、决策支持和药物发现等医学知识挖掘任务。

本文的主要贡献是基于事件本体构建完整的符合人们一般认知规律的医学知识本体模型,其人工方式主要体现在前期基础模型构建,而最终医学知识库主要采用文本挖掘和机器学习等方法实现自动构建;其系列研究目标旨在通过引入事件本体将具有叙事性特征的医学文本采用计算机可以理解的语义网思维进行描述,并通过机器学习等方法实现最终医学知识库构建。图1中最后一列表示每一阶段任务所采用的自动构建方法。

图1 基于叙事性文本的医学知识库构建框架

3.1 医学知识本体模型

如何按照知识的内在关系将医学知识进行结构化表示与组织,成为目前医学大数据时代亟待深入研究的问题。本文根据是否具有叙事性特征,将医学文本数据分为医学叙事性文本数据和医学概念性文本数据。医学叙事性文本数据是对医学动态事件的描述,医学概念性文本数据是对医学静态概念的描述。为了构建医学知识本体模型,本文通过分析医学叙事性文本特征和医学概念性文本特征分别构建医学动态事件本体模型和医学静态概念本体模型,并实现两者的深层次关联。

定义1.将医学知识本体模型(medical knowl‐edge ontology model,MKOM)形式化表示为

其中,MDEOM表示医学动态事件本体模型;MSCOM表示医学静态概念本体模型。

定义2.将医学静态概念本体模型(medical static concepts ontology model,MSCOM)形式化定义为一个四元组结构:

其中,MSC_Classes表示医学静态概念类;MSC_Relations表示医学静态概念所有关系的集合,包括分类关系和非分类关系,分类关系可构成概念类之间的层次关系,非分类关系可构成概念类之间或概念类和属性之间的语义关系;MK_Individuals表示医学静态概念的实例集合;MK_Rules表示医学静态概念的规则集合,用于概念间的推理。

定义3.将医学动态事件本体模型(medical dy‐namic event ontology model,MDEOM)形式化定义为一个四元组结构:

其中,MDE_Classes表示医学动态事件;MDE_Re‐lations表示医学动态事件所有关系的集合,包括事件类之间的分类关系和非分类关系,分类关系可构成事件类之间的层次关系,非分类关系可构成事件类之间的语义关系;MK_Individuals表示医学动态事件的实例集合;MK_Rules表示医学动态事件的规则集合,用于事件间的推理。

3.2 医学静态概念本体模型

为了实现医学知识之间的动态关联,我们需要根据具体应用厘清并定义医学中的静态概念,以便更好地展示医学动态事件与静态概念之间的知识体系和关联关系。静态概念类是医学相关概念的集合,包括医学实体概念和医学学术社交网络实体概念。其中医学实体是指与医学知识相关的实体概念,是为了建立医学概念之间的简单关联;学术社交网络实体是为了实现医学科学学的统计分析。

基于此,借鉴PKG(PubMed knowledge graph)知识结构模型思想[61],本文设计了医学静态概念本体模型,使医学实体之间、学术社交网络实体之间以及医学实体和学术社交网络实体之间实现关联,其不仅有利于医学实体的实时监测、动态管理和统计分析,例如,了解相关医学人员的科研动态及其国家医学科研水平;而且有利于医学知识发现,例如,发现权威学者,推荐相似学者,合理分配科研资源,实现医生之间相互合作。

在当下的防疫工作中,新冠疫情已成为国家重视、社会关注、人民关心的热点话题。尽管病毒很小,但人类对付它们的手段十分有限,一直以来,病毒变异速度快、靶点数量少、开发周期长等原因,导致疫苗及其特效药的研制成为医学工作者不易解决的问题。现阶段,治疗病毒疾病的主要途径是通过药物干扰并破坏病毒感染过程。其中,病毒入侵是病毒感染环节的第一步,也是最重要的一步,针对病毒入侵过程采取药物治疗是最根本的治疗手段。因此,深入了解并厘清病毒的入侵机制,对病毒疫苗和药物的快速研发以及干预措施的及时制定具有至关重要的作用。

基于此,本文对病毒入侵机体过程中涉及的静态概念进行知识结构化表示,来说明医学静态概念的知识结构化表示方法。图2是本文设计的关于病毒入侵过程的静态概念本体模型图。

图2 病毒入侵过程静态概念本体模型图

3.2.1 静态概念类

由于许多医学本体相互重叠,缺乏与其他更广泛使用的本体的互操作性而形成了孤岛。为了促进本体的开放性和互操作性,支持数据的共享和集成,通过调研大量医学相关本体[62],根据本文提出的11个核心实体概念(图2),结合已有医学本体中的术语及其属性关系(包括DO[4]、HPO[12]、ChEBI[15]、UniProt[16]、GO[20]、TCMID[24]、PKG[61]),来 实现 与常用医学本体的关联和集成。通过集成这些可信的外部数据集,可以在医学实体之间、学术社交网络实体之间以及医学实体和学术社交网络实体之间建立关联,从而实现更深层次、更广范围的研究。图2反映了与病毒入侵机体过程相关的医学领域和学术社交领域之间的静态概念及其静态概念之间的逻辑结构,其中主要包括7个医学实体:病毒实体(virus)、疾病实体(disease)、细胞实体(cell)、化学成分实体(chemical)、药物实体(drug)、生物分子实体(biomacromolecule)、疾病过程实体(process),以及4个学术社交网络实体:学者实体(author)、论文实体(article)、项目实体(project)和地理位置实体(location)。

3.2.2 静态概念的属性设置

为了构造并设计一个系统的、稳健的且功能强大的病毒入侵机体过程静态概念知识本体,本文根据病毒入侵机体过程知识体系结构及其学术社交关系结构定义医学静态概念之间的关联关系,主要包括分类关系和非分类关系。

分类关系用于描述实体间的层次结构语义关系,其中包括类与子类(SubClassOf)关系以及概念实例(InstanceOf)关系等,例如,冠状病毒传染性疾病是病毒传染性疾病的子类,新型冠状病毒是冠状病毒的实例。

非层次关系是在关系集合中除去分类关系之外的剩余所有关系。表1是医学静态概念间的主要非层次关系。

其中药物和疾病之间的治疗关系,具体包括实验用药(TreatOf_EM)、临床用药(TreatOf_CM)、理论计算发现(Treat Of_TC)、数据挖掘发现(Treat Of_DM)。

从表1可知,除了医学实体之间的关系,本文进一步定义了医学实体和医学学术社交网络实体之间的关系,例如,学者和医学实体之间的关注关系(FocusOn)、学者和论文之间的发表关系(Publish)、论文和项目之间的资助关系(FundedBy)等。

表1 医学静态核心概念间的主要非层次关系

综上所述,通过分类关系和非分类关系的设置将不同的医学静态概念实体进行关联,从而形成完整的医学静态概念本体模型。

3.3 医学动态事件本体模型

医学动态事件本体模型是医学知识本体模型的核心。相比于医学静态概念本体模型,动态事件本体模型的引入可以更清晰、全面、深入地描述医学知识,解释医学内部知识之间的复杂关系。也就是说,动态事件类的引入可以解释医学静态概念之间的关联原因,这对于实现医学知识的深层次挖掘和医学知识服务等决策支持至关重要。

医学动态事件本体模型主要以“事件”为知识结构单元,“事件”知识表示方法本身就是一种具有动态特征知识组织方法。通过动作这一动态性描述,可以使事件信息更加全面和具体;通过事件之间的时序关系和语义关系,可以进一步动态揭示事件发展顺序特征以及逻辑结构特征。

3.3.1 事件和事件类

(1)事件(event):本文在已有事件本体模型的基础上,结合医学叙事性文本内容和结构特征,将医学叙事性文本中的事件形式化表示为一个四元组e={A,O,T,V},其中,事件四元组中的元素称为事件要素,分别表示动作、对象、时间和环境。

A(动作,action):动作是事件的核心元素,表示事件的发生方式,描述了事件的动态变化特征,例如,“入侵”“转录”“翻译”等动作指示词是区分不同事件类的主要依据,通过动作这一动态性描述,事件信息更加形象和具体。

O(角色,role):角色表示事件的参与对象,通常包括:主体(subject),动作的发起者;媒介(medium),动作的推动者;客体(object),动作的承受者。角色可以是人物、机构、团体等,也可以是微生物、细胞或者生物分子,如病毒、细胞、蛋白质、酶、氨基酸、核苷酸和糖蛋白等。

T(时间,time):在现实的医疗事件中,时间要素指具体的时间指示词,例如,“2019年1月5日,武汉一名女性不幸感染新冠”事件中的时间要素是“2019年1月5日”。在自然力和非自然力医学事件中,时间要素往往没有具体的时间指示词,但是动作状态的变化往往呈现出一定的时序特征,因此,可以根据动作信息挖掘时间信息。将动作显性映射为对象的状态随时间变化而变化的过程,可以使动作描述更加具体。

V(环境,environment):环境表示事件发生所处的空间位置,具体包括:以位置指示词等用来指明事件发生所处的具体空间区域(place),例如,武汉等地名指示词,细胞膜等病毒吸附发生所处的空间位置;以及事件发生所处的环境特征(fea‐ture),例如,天气晴朗等表示自然环境特征的指示词,弱酸性条件等生物变化过程所需的环境特征。

基于此,本文定义了7个对象属性,表示事件及其事件要素之间的关系,分别为:hasAction,表示事件发生的动作;hasSubject,表示事件的发起者;hasMedium,表示事件的推动者;hasObject,表示事件的承受者;hasTime,表示事件发生的时间;hasPlace,表示事件发生的地点;hasFeature,表示事件发生所处的环境特征。

(2)事件类:是具有相同动作要素的一系列事件的统称。

为支持医学事件类型的正确识别和映射,本文参照突发事件层次关系结构[39],进一步构建了医学事件类的本体层次结构。第一和第二层是上层事件本体结构,第三层及其更细层次是具体医学事件类层次关系结构,如图3所示。

图3 医学事件类的本体层次结构

第一层根据事件类主体类别划分为两类:人类事件类和自然事件类。

第二层进一步根据事件类的主体数量把人类事件类划分为个人事件类和公共事件类。多人参与的事件类为公共事件类,单个人参与的事件类为个人事件,例如,死亡和医疗事故的区别。除人类事件类外,自然事件类可以分为自然力事件类和非自然力事件类。自然力事件类通常是大自然作用下发生的医学事件,如空气污染致病等;非自然力事件类是指一切除了人类和大自然的物体作用下发生的医学事件,如微生物污染致病等。

第三层及其更细层次划分是指具体医学事件类层次关系结构。主要根据事件类之间的组成关系确定医学事件类之间的层次关系,例如,“病毒生命历程”包括“病毒入侵”“病毒转录”“病毒翻译”“病毒复制”和“病毒释放”等事件类。其中“病毒入侵”过程包括“受体结合”“膜融合”等过程。因此,“病毒入侵”是“受体结合”和“膜融合”的上位事件类,“受体结合”和“膜融合”是“病毒入侵”的下位事件类。

3.3.2 事件间的关系

叙事性文本的复杂性在于强调以事件为基础,事件间具有较为丰富的关联关系。事件间的关系较为复杂,并且事件之间的关系具有方向性和动态性。Speer等[63]、Mann等[64]认为事件间的关系通常包括时间关系和因果关系两大类。仲兆满等[65]认为事件间的关系包括分类关系和非分类关系。宋宁远等[60]将叙事性文本中的事件关系分为时序关系和语义关系两大类;其中,时序关系用于动态表示事件在时间维度上的先后次序,语义关系用于动态表示事件在逻辑发展上的语义关联;这两类关系共同作用于事件关联,是构成叙事的核心,是构成事件网络的基础,是事件动态特征的主要表现。基于此,本文对医学事件之间的时序关系和语义关系进行语义建模。

(1)时序关系。时序关系是事件间的基本关系,决定事件发生的先后顺序,是事件动态发展的重要特征。结合事件本体模型中关于事件间时序关系的定义,本文认为事件间的时序关系包括11种,如表2所示。

表2 事件间的时序关系

为了实现本体知识的时序推理和时序扩展,本文定义了时间属性特性,主要包括互逆属性(in‐verseOf)和对称属性(SymmetricProperty)。其中,属性:Before和属性:After是一对互逆属性,属性:Be‐ginMeetsEnd和属性:EndMeetsBegin是一对互逆属性,属性:BeingOverlapsHad和属性:HadOverlapsBe‐ing是一对互逆属性,属性:During和属性:Outside是一对互逆属性;属性:Equals、属性:Starts和属性:Finishes是对称属性。例如,事件A的发生时间在事件B的发生时间之前,那么可以推理出事件B的发生时间在事件A的发生时间之后。

(2)语义关系。事件的动态发展往往遵循一定的逻辑秩序。语义关系是事件逻辑发展的主要线索,通常决定事件的动态发展方向。结合相关事件本体模型中关于事件间语义关系的定义,本文认为事件间的语义关系包括10种,如表3所示。

表3 事件间的语义关系

因果关系、跟随关系、并发关系和条件关系都属于相关关系,但关联强度不同。因果关系是有因才有果;跟随关系不是因果关系,但是经常一前一后出现,可能跟随发生,时间上有先后但不能间隔太久,并且没有重叠以及经常一起出现的即为跟随关系;并发关系,时间上有重叠但不完全重叠,以及经常一起出现并同时发生;条件关系,一个事件发生需要满足另一个事件的发生。其中,因果关系和条件关系突出强调了两个事件之间的语义相关性,是决定事件动态发展方向的直接推动力;跟随关系和并发关系,从时间发展顺序上看,是时序关系,但是这两种关系更强调了两个事件之间的相关性,即不仅是简单的时间发生上的先后次序,而且表明两者是具有语义相关的,是维持事件动态发展方向的潜在作用力;排斥关系则表明两个事件不可能同时发生;组成关系用于确定事件和事件类之间的层次关系。

为了实现本体知识的语义推理和语义扩展,本文定义了语义属性特性,主要包括互逆属性(in‐verseOf)和对称属性(SymmetricProperty)。其中,属性:Reason和属性:Result是一对互逆属性,属性:PreFollow和属性:ProFollow是一对互逆属性,属性:Condition和属性:Conclusion是一对互逆属性,属性:isComposeOf和属性:Composed是一对互逆属性;属性:Concur和属性:Opposite是对称属性。例如,已知事件A是事件B发生的原因,那么可以推理出事件B是事件A发生的结果。

3.4 本体模型融合方式

静态概念本体模型和动态事件本体模型的关联融合是实现医学知识本体模型完整构建的基础,它们之间的关联融合是通过静态概念本体模型中定义的医学实体实现关联的,即动态事件本体模型中事件四要素——角色的定义域是静态概念本体模型中的4种医学实体——病毒实体、细胞实体、化学成分实体和生物分子实体,这些医学实体是医学动态事件的参与对象,是医学事件发生的必要条件,是区分不同医学事件的显著特征。在静态概念本体模型中,以“概念”为知识表示单元,医学实体通过对象属性将不同医学实体进行关联,其建立的是医学实体之间的简单关联,例如,病毒与疾病之间的致病关系;在动态事件本体模型中,以“事件”为知识表示单元,医学实体是事件四要素中的一个元素,通过“事件”知识结构单元建立关联关系,使医学实体之间的关系更加具体、形象,例如,“SARS-CoV-2病毒S蛋白”和“心肌细胞的ACE2蛋白”是“SARS-CoV-2病毒受体结合”事件的主体参与对象,两者是该事件发生的必要条件,如果没有这两种蛋白的结合,SARS-CoV-2病毒无法完成病毒入侵细胞过程。

至此,医学知识本体模型构建完成。为判断模型的可行性和合理性,本文通过案例分析验证以“事件”为知识表示单元构建的医学知识本体模型能够更好地组织和表示具有叙事性特征的医学文本,使计算机和人类能够更加系统地基于人类逻辑思维理解和揭示医学知识;同时为验证本体模型在医学知识发现上的有效性,本文根据参与事件的事件要素以及事件间关系等分析医学事件相似性,寻找用于治疗疾病的有效药物等。

4 医学文本语义结构化表示

4.1 基于事件本体的医学文本语义标注

本文基于事件知识表示单元,根据文本的叙事性特征,将医学知识分为静态概念知识和动态事件知识,旨在构建语义更加全面、立体的多维度医学知识库。为实现对医学文本的深层次语义结构化表示,根据本文提出的医学知识本体模型,首先需要对医学文本进行语义标注。语义标注是以已有本体和受控词表为基础,通过文本分析、术语抽取、关系识别等路径,采用规则模板、机器学习、深度学习和迁移学习等方法,使文本从非结构化向结构化转变的关键。其语义标注流程如图4所示。

图4 医学文本语义标注流程

4.2 病毒入侵过程语义结构化表示应用案例

新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)是继2003年严重急性呼吸综合征(se‐vere acute respiratory syndrome,SARS)和2012年中东呼吸综合征(Middle East respiratory syndrome,MERS)以后更为严重的肺部传染病。因此,本文选取新型冠状病毒(SARS-CoV-2,又称2019-nCoV)入侵过程相关医学文本作为实验样本,通过本文提出的本体模型进行语义标注,并对标注结果进行重新组织与关联,再以知识图谱的方式对其语义结构化表示结果进行展示,如图5所示,从而验证本文提出的医学知识本体模型的可行性和实用性,最后,通过分析SARS-CoV-2入侵过程与其他病毒入侵过程的相似性,为病毒疾病防治提供基于数据支持的药物筛选。

图5 SARS-CoV-2病毒入侵过程的语义结构化表示

根据本文构建的医学静态概念本体模型,相关医学实体之间的关系表现为:SARS-CoV-2病毒的受体是“刺突蛋白(S蛋白)”,受体结合位点是“血管紧张素转换酶2(ACE2)”,受纳细胞(即易感染细胞)包括“心肌细胞”,属于“β属冠状病毒”,是一种“正链RNA病毒”,其病毒体结构包括“囊膜”和“核衣壳”,“ACE2”在“心肌细胞”高表达,“COVID-19”疾病由“SARS-CoV-2”病毒引起,“COVID-19”疾病属于“冠状病毒传染性疾病”,“COVID-19”疾病的临床用药包括“卡莫司他”,“卡莫司他”药物的靶标是“跨膜丝氨酸蛋白酶(TMPRSS2)”。学术社交网络实体之间以及学术社交网络实体和医学实体之间的关系表现为:论文《抗新型冠状病毒肺炎药物磷酸氯喹的安全性分析》,其所属机构是“海军军医大学基础医学院”,其学者是“吕强”,其关键词包括“新型冠状病毒肺炎”和“磷酸氯喹”,基于此,可以说明学者“吕强”关注的医学实体包括疾病“新型冠状病毒肺炎”和药物“磷酸氯喹”,这说明吕强对于新型冠状病毒肺炎以及磷酸氯喹有一定的研究。因此,医学静态概念本体模型的构建实现了医学实体和学术社交网络实体之间的相互关联,这对于促进医生之间相互合作等医学决策支持具有重要作用。

根据本文提出的医学动态事件本体模型构建框架,由图5可知:①SARS-CoV-2病毒入侵过程包括7个子事件:“受体结合”“S2亚基构象发生变化”“S蛋白裂解”“融合肽区暴露”“内吞”“囊膜内吞体膜融合”和“囊膜质膜直接融合”;②每个子事件分别具有不同的事件要素,例如,“受体结合”事件的主体是“S蛋白”和“ACE2”,动作是“结合”,由此可以推断出ACE2在SARS-CoV-2入侵事件中所扮演的角色,即SARS-CoV-2表面S蛋白与心肌细胞膜上ACE2通过特异性结合的方式启动病毒感染;③通过事件间时序关系可以清晰地看出,“受体结合”是病毒入侵细胞的第一步,也是病毒能否成功感染细胞的关键;④通过事件间语义关系可以清晰地看出事件之间的逻辑语义关系,例如,“受体结合”事件是“S2亚基构象发生变化”事件发生的原因,“S蛋白裂解”事件是“融合肽区暴露”事件发生的条件,“融合肽区暴露”事件是“膜融合”事件发生的条件。

通过分析SARS-CoV-2病毒入侵过程可以寻找用于治疗疾病的有效药物。由图5可知,基于SARS-CoV-2病毒入侵过程采取干预措施的策略主要包括三种:第一,阻碍SARS-CoV-2病毒S蛋白靠近ACE2;第二,阻碍S蛋白裂解;第三,破坏病毒囊膜与宿主细胞膜的融合。由图5可知,现有用于治疗SARS-CoV-2的药物包括磷酸氯喹、卡莫司他、阿洛司他丁,这与SARS-CoV和MERS-CoV的治疗药物具有很高的相似性。结合文献调研结果[66-67]可以验证本文模型在知识发现上的有效性,SARS-CoV-2、SARS-CoV和MERS-CoV都属于冠状病毒,三者的入侵机制相似,例如,SARS-CoV-2和SARS-CoV都是通过病毒S蛋白和人类细胞的ACE2结合,三种病毒和细胞融合过程需要酸性条件,都需要宿主蛋白酶(TMPRSS2)激活,都需要组织蛋白酶B和L完成病毒内吞等。所以,在药物筛选过程中,可以根据病毒入侵过程的相似性进行药物的初步筛选;在SARS-CoV和MERS-CoV治疗中,使用磷酸氯喹上调病毒和细胞融合所需的pH值及干扰细胞糖基化来阻止病毒感染,使用卡莫司他干扰病毒蛋白激活,使用阿洛司他丁干扰阻碍病毒内吞。因此,根据病毒入侵过程的相似性,磷酸氯喹、卡莫司他和阿洛司他丁可以作为SARS-CoV-2疾病的初筛药物,临床数据也表明这些药物对COVID-19具有一定疗效。

根据以上分析,可以直观地发现通过事件本体将病毒入侵机制进行知识结构化表示是有必要的。通过本文提出的医学知识本体模型对SARS-CoV-2入侵心肌细胞的整个过程采用动态事件本体形式进行知识结构化表示,可以验证本文提出的基于事件本体的医学知识结构化表示方法能够更加全面、规范地描述医学知识并清晰地组织医学事件,对于快速了解疾病的发病原因、发病过程以及药物初筛都具有非常重要的作用。

5 总结

医学是一门严谨的科学,仅将疾病、药物、化学成分、蛋白质、基因等实体进行简单的关联远远不够,还要将其参与的主要的作用机制进行知识结构化描述,只有这样,计算机才能更加完整地对医学知识进行深层次理解,才能更好地为医学诊断、治疗和防控发挥积极的借鉴和指导作用,更好地为循证医学提供语义化技术手段。

目前,深度学习等方法被广泛用于提升知识服务精度,但严重依赖于计算机对知识粒度的理解能力和区分能力,通过本体等知识结构化组织方式,将不同知识结构单元及其之间的关联关系进行规范化和概念化,使计算机能够模拟人类逻辑思维,这为实现医学知识计算、知识推理等智能服务奠定了语义基础。

基于“概念”知识表示单元无法全面揭示复杂的医学知识,通过引入“事件”知识表示单元,能够更好地组织和表示医学文本中具有叙事性特征的文本,使计算机和人类能够更加系统地基于人类逻辑思维理解和推理医学知识。因此,本文以“事件”为知识表示单元,引入动态性作用机制,提出医学叙事性文本的概念,并在此基础上展开一系列探讨。首先,从宏观层面设计了基于叙事性文本的医学知识库构建流程,清晰地阐明了从数据收集到医学知识库构建再到医学知识挖掘等阶段性任务目标,即如何将非结构化医学文本数据转化成结构化医学数据并应用于具体现实场景。其次,根据是否具有叙事性特征,本文将医学文本分为医学叙事性文本和医学概念性文本,并在此基础上分别形式化定义医学动态事件本体模型和医学静态概念本体模型,这为医学知识结构化表示的进一步发展奠定了理论基础,有助于提高医学知识深层次表示的完整性、全面性、系统性,为实现医学智能服务提供理论支撑。接着,本文分别对医学动态事件和医学静态概念进行本体建模,通过结合已有医学本体,对医学概念性文本中存在实体和实体关系进行语义建模和表示,通过事件知识表示单元对医学叙事性文本中存在的事件、事件间关系进行语义建模和表示,从而严格定义和区分医学文本中存在的静态知识和动态知识,两者通过事件元素和概念实体之间的对应关系建立关联,进而实现医学知识本体模型构建。最后,根据本文提出的医学知识本体模型构建框架,以构建SARS-CoV-2病毒入侵过程本体模型为案例,分别从静态概念和动态事件两个维度对病毒入侵过程进行结构化、语义化描述和表示。通过标注结果说明本文提出的医学知识本体模型能够更好地考虑医学本体与学术社交网络本体之间的关联关系,能够更加完整地表达叙事性医学知识,能够更好地揭示语义结构特征,能够为药物初筛等提供支持。

本文的价值在于提出一种面向事件知识表示单元的医学知识本体组织方法,为探索基于智能医学数据环境下医学知识挖掘任务提供底层数据支持,为医学智能化服务奠定理论基础,其有助于提高医学知识检索效率和推动医学知识的普及,同时有助于提升医学知识的深层次利用,通过知识推理、知识挖掘任务提高疾病预防和治疗水平,从而真正发挥医学大数据背后隐藏的数据价值。

在未来的研究中,我们将基于医学知识本体模型,采用机器学习等方法实现病毒致病过程本体知识库自动构建,从而基于知识组织方式还原病毒感染机体的全过程,为病毒感染性疾病提供标准化的人和计算机可解释的注释,并在此基础上,为支持循证医学研究和实现药物发现等智能推荐任务提供可能。同时,基于医学学术社交网络结构,通过充分考虑论文的质量、影响力以及根据学者发表论文情况计算学者对不同医学实体的关注程度,发现拥有共同兴趣的研究团队,为疫情期间合理、高效、有组织地开展医学研究提供人力资源决策支持。

猜你喜欢

医学知识本体语义
真实场景水下语义分割方法及数据集
眼睛是“本体”
一种基于社会选择的本体聚类与合并机制
思维导图在医学中的应用
加强班级凝聚力建设,激发学生学习的积极性
“吃+NP”的语义生成机制研究
新环境下《解剖学》教学资源开发探讨分析
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴
卫校化学教学中渗透医学知识的实践