APP下载

心力衰竭知识图谱的构建

2019-09-11

中华医学图书情报杂志 2019年5期
关键词:词表层级图谱

知识图谱是一种比较通用的语义知识的形式化描述框架,应用节点表示语义符号,用边表示符号之间的语义关系[1]。医学是知识图谱应用最广的垂直领域之一,可提供高效的检索、查询和支持知识推理,为患者教育、智能导诊、药物研发、药物监测、辅助诊断、决策支持提供强大的数据支撑[2]。随着区域卫生信息化和医疗信息系统的发展,如何在海量医学数据中提炼信息、知识,并进行合理的组织、管理、共享和应用是推进医学智能化的关键问题之一。

目前国内外已开展了一些医学领域知识图谱构建及其应用的研究,涉及医学大领域的图谱构建[3]、特定临床科室知识图谱构建[4-5]、单病种知识图谱构建[6]等。构建知识图谱应用的数据源包括电子病历(Electronic Health Record,EHR)、临床指南、专家共识、文献、书籍以及医学领域词表,如医学主题词表(Medical Subject Heading、MeSH)等。通用领域的知识图谱构建的主要环节通常包括知识体系构建、知识获取、知识融合、知识存储、知识推理和知识应用等[1]。由于医学数据的结构复杂和专业性强等特点,现有知识图谱构建技术在医学领域中普遍存在效率低、限制多、拓展性差[7]等问题。本文以心力衰竭为例构建医学领域的知识图谱,探索利用现有词表、本体、数据库等资源构建专病知识图谱的可行性,为单病种医学知识图谱构建提供参考和为临床决策支持提供知识技术支撑。

1 研究方法

1.1 数据概况及实验平台

本文以“心力衰竭”为核心,构建包含疾病、检查、手术、药物、科室、症状、解剖学7大类语义概念的知识图谱。通过文献调研与网络调研,选取生物医学领域的常用词表、本体对上述的生物医学大类进行组织,构建层级结构。本文的实验数据存储及知识图谱的主要构建过程依托支持分类表、词表、应用本体等术语系统的概念复用、拆分合并及语义关系创建与关联的多语言领域术语系统构建工具TBench[8]平台。

1.2 知识体系构建

知识体系构建主要分为人工定义构建和自动学习构建两种方法,通常包括概念分类、属性描述、概念间关系的定义3个主要方面。本文将范围限定在心力衰竭领域,为了确保准确性与合理性,采用人工定义构建的方式对知识体系进行定义。概念分类主要针对心力衰竭相关的疾病、检查、手术、药物、科室、症状、解剖学。属性描述分为概念属性和概念间语义关系属性的描述,概念属性={CID,AID,SID,概念名称,是否为优选词,来源,语义类型 };语义关系属性= {RID,关系名称,定义域,值域,定义,反向关系名称}。其中,CID为概念的唯一标识符,AID为来源术语ID,SID为术语ID,RID为语义关系的唯一标识符。语义关系设定如表1所示,共14类,包括同义词关系、层级关系和12类概念间非层级关系。其中12类概念间非层级关系为6对互为相反的关系,是疾病概念与其他6类概念的关系。

表1 知识图谱中的关系类型设定

1.3 层级关系构建

本文通过对“心力衰竭”相关的疾病、检查、手术、药物、科室、症状、解剖学7个大类的相关知识进行组织,构建知识图谱的层级关系,主要参考国内外现有词表、本体,综合这些词表的特点。表2显示了具体的参考资源,如疾病的分类和层级结构主要参考“医学系统命名法-临床术语(Systematized Nomenclature of Medicine-Clinical Term, SNOMED-CT)”和“医学主题词表(Medical Subject Headings,MeSH)”两个词表构建。

收集数据资源之后,根据资源的实际情况,将部分目前没有中文版的资源首先进行机器翻译。为了保证准确性,在机器翻译之后进行了人工校对。

1.4 同义关系构建

同义关系的构建方法包括继承、基于规则和同义词传导3类。某些词表、本体本身会包含一些同义词的信息,如MeSH词表,这部分的同义关系直接继承到知识图谱中。

表2 知识图谱的语义类型与相关参考资源

本文利用网络爬虫工具从来源于网络版的临床知识库的数据中抽取包含“心衰”和“心力衰竭”疾病相关的所有词条,再根据基于规则的方法抽取相关同义词。如该疾病描述中出现了特定词语“简称”“别称”“别名”“又名”“又称”等,则在这些词语后出现的词语名称视为该疾病的同义词,进行人工审核确定无误后纳入为同义词。对于不同来源的术语的同义关系的确定,这部分可以称为“实体对齐”,通常通过判断不同知识库中的两个实体是否表示同一物理对象从而链接异构知识库。这类数据主要通过同义关系传导的方法进行实体对齐,即如果A的同义词A’与B或者B的同义词B’相同,则认为A和B是同一个实体,是同义词的关系。对于非继承得到的同义关系需要人工审核以确保其准确性。

1.5 概念间非层级关系构建

概念间非层级关系即具体实体间的关联。如“疾病-疾病相关科室-科室”,主要从网络临床知识库中利用自然语言处理方法进行关系的抽取。网络版的临床知识库中通常包括半结构化的医学知识。如“中国公众健康网”关于心力衰竭的描述包括概述、病因、症状、并发症、诊断及同义词等,其中每个版块都会有自然语言的文本对相应问题进行描述。概念间的非层级关系构建主要利用IK Analyzer分词工具,通过基于规则的词语共现方法实现。

首先确定待抽取数据源。如抽取“疾病-检查”关系,通常会截取特定字段,如疾病相关描述的“实验室检查及辅助检查”字段,进行进一步抽取工作。其次,汇总所有描述待抽取词的相关词表。同样以“疾病-检查”关系抽取为例,汇总与检验检查相关的词表列表,利用其中的概念及其同义词生成IK Analyzer的自定义词典,这样便不会随意分开某些特定的词(如“结肠镜检查”不会被分成“结肠镜”和“检查”两个词),还可以过滤掉一些常见的停用词以提升文本处理的速度和精确度。在配置好IK Analyzer工具之后,导入第一步处理得到的半结构化数据,进行分词。在该步骤中,同样需要第二步的词表列表,得到基于原始半结构化文本中的相关内容,形成关系对。最后,经过人工审核生成知识体系中定义的双向关系(图1),以“疾病-检查”的非层级关系构建为例说明构建的流程,构建了上述12类概念间非层级关系。

如果不同来源的数据存在不一致或者矛盾的问题,优先采用可靠性高的数据,如继承的词表中的数据。此外,为了控制数据的质量,利用共现规则提取的数据需要经过有临床背景的医学生、医生审阅,以保证数据可靠、可用。人工审核的数据形式以三元组列表形式,即“概念1-语义关系-概念2”的形式展示。采用交叉验证的方法,即两人同时评估关系的可靠性,如果都通过则保留关系,都不通过则删除关系,一人通过一人拒绝则邀请第三人审核,选择第三人的审核结果,以减小误差。

图1 概念间的非层级关系构建示例

2 结果

本文旨在构建医学领域的专病知识图谱,以“心力衰竭”这一小领域为例重点构建了同义关系、层级关系和12类概念间非层级关系。知识图谱中包括126个心衰疾病概念和398个心力衰竭直接关联的非疾病概念(表3),因此该心力衰竭知识图谱共包括524个概念。

表3 心力衰竭知识图谱概念数据量与关联数据量与统计

心力衰竭的相关关系包括1 581对“疾病-检查”关系,684对“疾病-手术”关系,94对“疾病-药物”关系,292对“疾病-科室”关系,1 558对“疾病-症状”关系,151对“疾病-解剖”关系,共包括4 360对概念间的非层级关系。该统计是基于未去重的数据统计的,如急性左心力衰竭是心力衰竭的下位类,这两种疾病的症状都有呼吸困难、乏力的症状,都会被纳入统计数据。

由于数据量较多,仅对心力衰竭知识图谱的部分数据进行了图形化展示。在上文中定义的14类关系,即药物、解剖学、检查、手术、症状、科室和疾病相互关联的关系、部分同义词关系和层级关系如图2所示。如急性左心衰的同义词包括急性左侧心力衰竭、急性左心功能不全、急性左侧心功能降低、急性左心衰竭,该疾病的症状有呼吸困难。呼吸困难属于呼吸道症状,如此关联了心力衰竭下位概念急性左心衰与症状类数据,其他数据同理。

3 讨论

本文主要利用现有资源构建了心力衰竭领域的知识图谱,但在数据的完整性方面没有追求涵盖所有现阶段心衰知识。今后在知识图谱应用时可以通过纳入更多的资源以扩充数据量,尤其是临床指南、电子病历等具有高价值但结构化不高的数据。此外本文的应用场景主要是面向普通大众或者基层医生进行医学科普,在综合性和易用性方面应优于教科书和临床指南,但在严谨性和科学性方面可能会不如教科书和临床指南,如“疾病-症状“关系可加上可信度或发生概率,在今后的研究中将探索相关数据的挖掘与集成。

本文在知识图谱的构建过程中,利用基于规则的方法较多,优点是准确率较高,较为接近人类的思考方式,但需要较多的人工干预,可能较难移植到其他医学领域[1]。在今后的研究中,将继续探索机器学习方法在实体识别、实体对齐、关系抽取方面的应用。目前还未探索利用一些工具(如XSLT转换工具和XMedlan工具)直接结构化、语义化文献资源,从而集成不同类型的领域知识,如像黄智生等人通过对“川崎病“相关的文献、临床试验、药物知识库等数据语义化集成可查询的图谱数据[6]。由于考虑到利用工具对本文中的部分中文数据资源及部分数据资源的数据类型进行处理的难度较大,因此主要对抽取的重点信息进行了关联与集成。

图2 心力衰竭知识图谱可视化示例

此外,现有的研究中对于本体、知识图谱评价主要集中在专家评价[9],与已有临床指南等进行对比[10]或通过实际应用效果[11]对图谱的准确性、全面性进行评估。本文后续会将构建的模型投入到实际应用中,根据使用者的反馈与评价不断完善数据结构与内容。

4 结语

知识图谱为海量异构数据的集成提供了有效的方式,目前已应用于智能检索、问答及医学垂直领域等方面,具有很好的应用前景。本文基于目前知识图谱的构建流程和方法,构建了包含524个概念和4 360对关系的心力衰竭知识图谱,证明了基于现有资源构建专病知识图谱可以为专病领域的知识图谱构建提供参考。医学知识图谱的构建与持续完善将为基层医疗、大众科普等方面提供数据支撑,也可以在应用中不断提升其可用性与可靠性。

猜你喜欢

词表层级图谱
基于VOLT的藏汉双向机器翻译
科室层级护理质量控制网的实施与探讨
绘一张成长图谱
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
近十年国内外专业学术词表建立文献综述*
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱