APP下载

基于在线问诊记录的医疗疼痛感知知识图谱构建及查询应用

2022-02-17王世钰崔超宁由丽萍

情报工程 2022年5期
关键词:实例本体图谱

王世钰 崔超宁 由丽萍

山西大学经济与管理学院 太原 030006

引言

随着信息技术在医疗卫生领域的广泛应用,众多医疗网站及APP开始涌现,且积累了大量疼痛相关的问诊记录信息。由于该类信息对于患者疼痛感知的表达更为准确与全面,因此获取及分析此类信息可以为高效判断患者的病情及提高医疗服务质量提供决策支持。

知识图谱(Knowledge Graph)是一种基于关系与结构化的知识表达方式。既可以与不同的实体相连接,实现“实体-关系-实体”的三元组,以表示实体之间的关系,也可以连接实体与其相关属性-值对,从而构成网状的知识结构;并根据用户的需求,运用可视化技术以图片形式向用户反馈结构化的知识,更为直观的展示出其各种关系,使用户不必自行从大量信息中进行梳理及筛选,就能获取准确的信息。本体(ontology)[1]提供了特定领域中概念或对象类型及其属性和相互关系的表示,可实现语义网中的信息及关系的结构化描述,是知识图谱的一种信息描述形式,并且有助于计算机处理效率的提升。因此,知识图谱可以将信息存储与语义相融合,有效的组织疼痛感知信息,从而完善语义推理机制对于医疗领域知识的应用。

国外对于知识图谱在医疗领域的应用与研究均早于国内。当前具有最大影响力的医疗知识库UMLS[2]即通过知识图谱的方式对医学各概念之间的关系进行描述,其中包含了100多万个医学概念,133类医学领域语义类型、54种语义关系。在UMLS的基础上,中国医学科学院医学信息研究所开发研制了中文一体化医学语言系统CUMLS[3]。国外的研究工作主要集中在对于医疗领域实体知识及关系知识的抽取[4-6],而国内相关研究则以特定范围或特定载体信息为主[7-12]。目前,总体上我国缺乏对某一具体领域语义层面的深入研究,就医疗领域知识图谱的相关研究仍处于起步阶段。

在疼痛感知信息分析领域中,由Melzack[13]提 出 的McGill疼 痛 问 卷(McGill Pain Questionnaire,MPQ)是目前常用的临床及研究工具。但由于制定年代久远而有一定的局限性,Dworkin等[14]基于简版MPQ(Short-form MPQ,SF-MPQ)制定了SF-MPQ-2。随后中国各地10家三甲医院的疼痛科在中华医学会疼痛学分会倡导下相互合作,制定与验证了中文版SF-MPQ-2[15]。SF-MPQ和SF-MPQ-2为疼痛感知信息分析提供了专业的概念框架和参考标准,但其中的信息太过概括。由于疼痛感知作为一种在患者体验的基础上所得到的柔性信息,具有较强的主观性,因此,用这种量表描述患者的疼痛信息在描述深度上是远远不够的。随着在线医疗应用的蓬勃发展,网络上积累了大量医患之间的对话信息,其具有真实性、全面性和语义丰富性,可以作为疼痛感知信息描述的重要知识源,但这一点在学术界还没有引起足够的重视。同时,随着自然语言处理和语义网相关技术日趋成熟,目前基于问诊记录的知识获取和信息查询具有高度的可行性。

因此,本文结合在线医疗问诊记录相关验证数据与医疗领域疼痛感知专业知识,结构分析患者疼痛信息;基于自然语言处理和语义网相关技术分析在线医疗问诊记录,实现疼痛感知的知识获取;运用知识图谱工具描述和组织疼痛感知信息,实现相关知识的表示与存储;最后,在应用方面通过语义推理查询疼痛感知知识图谱。

1 疼痛感知信息分析及知识图谱构建

1.1 疼痛感知信息分析

1.1.1 疼痛感知定义及类型

不同种类的疼痛是人主观感觉的集成,对疼痛感知信息的全面描述,不仅要科学分类疼痛感知的性质,还要描述疼痛感知的部位、程度等特征。本文从文献[15]中获取了中文版SFMPQ-2的疼痛感知的相关分类,结果如图1所示。

图1 疼痛感知分类

1.1.2 疼痛感知属性

本文以医疗领域公认综合疼痛评估的关键组成部分的标准[16]为主,同时咨询相关领域医学专家,共同作为疼痛感知相关属性定义的主要参考。由于疼痛感知信息主要以语言作为交际媒介在医患之间进行相互传递,因此,语言中蕴含了相应的属性信息。所以,参考语言学领域关于感知场景的相关论述[17],将身体感知的语义角色类型——身体部位、程度、原因、时间等也纳入描述范围。疼痛感知属性定义,如表1所示。

表1 疼痛感知属性定义表

1.1.3 疼痛感知因果关系

造成疼痛程度变化的因素分为缓解因素和加重因素,其对于医生评估病情十分重要。同时,疼痛的产生必然伴随着对自身生活及情绪上的影响。因此,疼痛感知变化原因及其影响对于疼痛感知信息分析是必不可少的部分,其定义如表2所示。

表2 疼痛感知因果关系定义表

1.1.4 检查和诊断信息

问诊过程中的疼痛感知信息,即可以体现出描述疼痛感知状态的细化信息,还可以体现出患者的病史信息、医生的检查建议及诊断结果,其定义如表3所示。

表3 检查和诊断信息定义表

1.2 疼痛感知知识图谱构建

1.2.1 疼痛感知概念模型设计

在概念模型设计上,首先确定本体顶层大类,即具有共同属性和行为的对象集合,包括患者、疼痛部位、疼痛类型、疼痛程度和病史,且将其设定为同级关系(Sibling Class);在此基础上,采用自顶向下的方法,参考医患问诊对话记录,对上层概念逐步细化,为顶层类添加子类(Subclass),从而建立类与类之间及类与自身属性之间的关系,即定义对象属性和数据属性,数据属性包括:患者年龄、性别、疼痛影响因素等。结果如图2所示。

图2 本体类与属性结构图

1.2.2 疼痛感知知识获取

(1)语义分类词表构建

由于患者缺乏医学专业知识,所以,多采用自然语言表达方式描述病情,而非医疗专业术语。因此,需构建能够与医疗领域疼痛感知类型进行匹配的专业词表。本文以在线问诊量比较大且疼痛现象比较多的颈椎病为例,从好大夫在线(https://www.haodf.com)爬取医患对话记录2500条,采用哈工大语言技术平台(LTP)进行文本预处理,再以形容词和动词为主进行人工筛查,初步实现疼痛类型词语的提取;继而利用语言学词典《新编同义词词林》和《现代汉语分类词典》等补充相关同义词以便丰富词表。共收集了89个词语,按疼痛类型进行语义分类,结果如表4所示。

表4 疼痛感知词表

(2)疼痛等级词表构建

目前,对疼痛程度的描述医疗领域普遍采用的是十级量表,即0代表没有疼痛,10代表疼痛最严重,1到10代表疼痛程度依次加重。但在问诊记录中患者描述症状时通常使用的是程度副词,如“一点点”“有点”“不严重”“很”“厉害”等。由于语言中的程度词与十级量表并不能够相互对应,为分析文本中的疼痛程度等级信息,则需通过语义分析识别程度词,并根据十级量表对其进行合理赋值。因此,本文将十级量表调整为三个区间以对应程度词,如表5所示。

表5 疼痛程度词与十级量表对应表

(3)本体实例添加

由于类和属性与语言表达中的语义角色相对应,因此,需对文本进行语义角色标注。本文利用课题组自主研发的语义标注软件,即“基于框架本体的中文情感语义标注与查询系统”(软件著作权登记号:2018SR823004),标注出文本中的疼痛部位、程度、因果关系、时间等角色。以此为基础,将所标注出的疼痛感知知识作为实例,添加至疼痛感知本体中。其中,主要类包括疼痛部位、疼痛类型、病史等,主要属性包括年龄、性别、疼痛时长等,共97个实例,其实例添加结果如表6、表7所示。

表6 主要类的实例添加结果表

表7 主要属性的实例添加结果表

1.2.3 疼痛感知知识存储

疼痛感知知识图谱存储格式为RDF格式。RDF标准语法基于可扩展标记语言(Extensible Markup Language,XML)进行设计,利用XML文件的开头命名空间对不同领域资源进行划分,同一领域实体和关系URI前缀相同,将前缀定义为 URIref,即标签术语。利用标签术语与URI中的关键词对资源进行描述,语句简单清晰,有助于提高计算机的理解效率。例如以下问诊记录:

用RDF/XML语言对上述例子中疼痛感知本体进行描述,如图3所示:

图3 RDF/XML语言描述疼痛感知本体

其中,用“contact”和标签术语(pain_location等)描述数据的具体内容。例如:“contact”和“疼痛感知文本1”以关键词“about”确认其URI,contactant:pain_location 表示在该URL下的疼痛部位是“手指”。由于在一个RDF文件中可能存在多个“手指”,利用 URI即可表示特定的“手指”。

将问诊记录中的实例相对应于其不同的类和属性,实现疼痛感知的知识存储。上述例子中知识存储如表8所示。

表8 问诊记录实例对应的类与属性表

1.2.4 疼痛感知知识图谱可视化

利用Protégé5.2.0进行可视化,其插件OntoGraf支持中文本体多种形式的展示,利于理解整体结构及类之间、实例之间的语义关联,将知识直观地展示给用户,满足读取和查询的需求。本文构建的疼痛感知领域知识图谱包括5个类,10个属性,13种实体间关系以及182个实例,部分展示如图4。

图4 疼痛感知本体中部分类与属性关系图

2 疼痛感知知识图谱查询应用

本文应用可视化工具Fuseki以及查询语言

SPARQL(Simple Protocol and RDF Query Language),对疼痛感知知识图谱进行推理式查询。SPARQL结合了rdfDB、RDQL和SeRQL等RDF查询语言的优势,可以在语义层面进行检索,进而满足用户多种查询需求,与传统的SQL语句相比,提高了数据查询的有效性和全面性。

SPARQL查询是以一个三元组为单位进行检索,即将任意一个元素设置为缺失值,通过限定另外两个元素来完成查询。在RDF数据库中,数据存储格式为“主语-谓语-对象”,即主谓宾结构,通过限制主语和谓语得出宾语、限制谓语和宾语得出主语、限制主语和宾语得出谓语。以疼痛类型、疼痛部位、检查方式为例,可以同时限制“疼痛部位”“疼痛类型”得出相应的疼痛感知文本,再通过得到的疼痛感知文本得出最后需要的“检查方式”。

根据症状描述查询相应的问诊实例是最为常见的信息需求,因此,以“手麻”为例进行查询,结果如图5所示。

图5 疼痛感知知识图谱查询结果

以“麻”为关键词进行精确检索,结果可呈现出涉及该疼痛类型的所有患者信息,结果如图6所示。

图6 精确检索可视化结果

知识图谱按照三元组的方式对信息进行存储,为各实例之间加入多种语义关系,提供了不同的关系链种类,利于搜索结果的发散性。传统的关键词检索结果多而杂,用户需对检索结果自行甄别和筛选,从而可能导致遗漏信息。然而,知识图谱提升了信息的密度及关联度,可降低检索结果的单一性,并向用户反馈结构化的知识,使用户可以准确定位和深度获取知识,进一步提高检索效率,但由于医学领域的专业性,在其应用方面仍需基于专业人员的判断进一步加以考量。

3 结束语

本文通过对医疗领域疼痛感知信息分析从而构建知识图谱,并进行查询应用,具体研究贡献包括:(1)结构分析患者疼痛感知信息,并基于自然语言处理技术构建了医疗领域疼痛感知词表。(2)利用知识图谱工具及相关技术构建了疼痛感知知识图谱。(3)将疼痛感知知识图谱应用于语义查询,实验结果表明基于知识图谱的检索具有较高的效率和准确性,具有一定的应用价值。

本文研究结果提供了计算机可读、可理解的疼痛感知知识资源,从技术层面构建了疼痛感知专业领域知识图谱,并于一定程度上实现了推理式语义查询,为医疗健康领域知识图谱的应用提供借鉴,但仍存在一定的局限性,即在该知识图谱的专业应用方面仍需基于医学专业人员的判断进一步加以考量。

猜你喜欢

实例本体图谱
眼睛是“本体”
绘一张成长图谱
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education
杂草图谱