医学知识图谱应用研究进展*
2022-02-17胡红娟
胡红娟 周 阳
(南华大学附属第一医院护理部 衡阳 421001) (南华大学护理学院 衡阳 421001)
匡泽民 谭 玲
(首都医科大学附属北京安贞医院高血压科 北京 100029) (北京邮电大学计算机学院 北京 100876)
1 引言
《“健康中国2030”纲要》提出,鼓励医疗卫生机构与互联网合作,加强区域医疗卫生信息资源整合及临床、科研数据整合共享和应用,支持研发医疗健康相关的人工智能技术。近年来各类知识图谱不断涌现[1-3],逐渐融入到医学领域,医学知识图谱成为人工智能辅助医疗系统的基本组成部分[4]。知识图谱将医学知识与互联网充分结合,探索科研数据整合共享和应用的方法,为人工智能研发提供依据。2017年我国学科目录进行调整,首次出现知识图谱学科方向。目前医学是知识图谱应用最广的领域之一,医学知识图谱应用也是目前智能大数据的前沿研究问题。
有学者[5]提出狭义的知识图谱是一种大规模的语义网络,包含实体、概念及其之间的各种语义关系。但与传统语义网络相比,知识图谱具有规模巨大、语义丰富、质量精良、结构友好等特性。广义知识图谱则是指一种技术体系,指大数据时代知识工程的一系列代表性技术的总和。总的来说,知识图谱实质是建立在语义网络上的知识系统[6]。医学知识图谱将知识图谱与医学知识结合,将互联网技术与医学情境融合,实现医学数据的自动化与智能化处理。构建医学知识图谱可为临床辅助决策、文献可视化分析、智能问答以及智慧搜索提供支持。
2 医学知识图谱应用
2.1 临床决策支持
临床决策支持系统(Clinical Decision Support System,CDSS)使用个体化数据对患者进行特定评估并向临床医师提出决策建议。医学知识图谱的诞生为CDSS提供了深层关系发现与推理能力。目前研究人员积极探索临床环境中决策支持的潜力[7],与知识图谱结合开发适用于医疗环境的临床决策支持系统。Zhao C、Jiang J和Guan Y等[8]开发电子病历(Electronic Medical Record,EMR)驱动的CDSS。该系统利用电子病历中的医学知识网络表示医学知识,构建由症状、检查、检查结果、疾病和治疗5类实体组成的知识网络,将患者现状输入后可获得关于疾病测试、初始诊断及治疗相应建议。在知识推理方面,由于贝叶斯网络受到推理及学习的计算复杂性限制,该系统选择马尔可夫随机场(Markov Random Field,MRF)执行推理任务。Goodwin T和Harabagiu S[9]设计一个用于回答医学问题的CDSS,利用MiMic-III提供一个公开的电子病历集合,自动生成一个庞大的医学知识图谱,通过概率推理方法获得问题答案,自动发现与主题相关的问题答案可能性,生成包含答案的相关科学文章。Sheng M、Hu Q和Zhang Y等[10]提出一种基于知识图谱的数据密集型临床决策支持平台IDS,该平台围绕患者就诊过程提供一系列CDSS服务,即查询、检查、诊断、药物、治疗及预后等。IDS从医学样本库中提取三元组形成知识图谱,然后通过规则检测构建新的三元组丰富医学样本库。目前该平台已应用于乡村医疗,有利于降低误诊率。朱超宇和刘雷[11]构建一个知识图谱辅助的肺部影像诊断系统,其结合指南和文献中肺癌及肺结核的相关知识构建知识图谱,医生诊断时将患者影像特征与知识图谱中的影像特征相结合进行分析,得到更加全面的结果。研究显示CDSS主要来源于临床数据,其中41.66%来自数据集存储库或临床中心,33.33%来自电子健康档案(Electronic Health Record,EHR)[12]。近年来由于大数据和自然语言处理技术的快速发展,从电子病历中自动挖掘知识成为新的研究趋势[13-14]。基于知识图谱的CDSS充分利用电子病历,但不同医院平台的电子病历数据录入有自己的语言,使得跨越平台开发CDSS出现障碍,这就要求电子健康记录中数据创建语言的一致性[15]。临床指南、科研文献也是知识的重要来源,通过文本计算机化构建知识图谱,更科学地为临床决策提供指导。
2.2 医学文献可视化
目前医学行业积累了规模可观的大数据,但是这些数据并未创造价值,其中一个重要原因就是数据混杂,隐匿于大量文献当中,用户无法精确定位。知识图谱的可视化数据分析、视觉知识图谱构建[16]、CiteSpace[17]使用能够帮助用户直观理解医学信息内容,实现大数据的价值变现。例如田元祥、刘莎莎和周新宇等[18]利用CiteSpace构建中医肝郁脾虚证候诊断标准知识图谱;李新宇、李翔和廖林丽等[19]基于CiteSpace构建中医药论治干眼知识图谱;张琪、曹林忠和蒋玮等[20]基于CiteSpace分析股骨头坏死中医药治疗知识图谱等。通过计量软件的可视化分析可以直观了解中医子领域研究现状,通过关键词聚类分析还可了解该子领域研究集中度。该方法还广泛应用于心血管慢病分析中,王伟帅、李阳兵和刘鑫源等[21]通过从CNKI中检索高原高血压相关文献,利用CiteSpace分析直观了解到该领域文献在2011发文量最高,军区医院在该领域有突出贡献,研究重点从氧化应激转换到血管紧张素,目前研究热点为高血压用药及护理。知识图谱在文献可视化中的应用使文献阅读变得简单直观,但将多篇文献构建成图谱,可能会缺失其中某些数据的展现。因此利用图谱技术时需加强对文献重点内容的提取能力。
2.3 智能问答
问答系统的构建要求机器能够理解自然语言,需要机器具备强大的背景知识,而知识图谱就是这类背景知识中的重要形式之一。Ruan T、Huang Y和 Liu X等[22]设计一个基于知识图谱的智能问答工具QAnalysis。用户可用自然语言输入其分析需求,该系统会以图表形式返回答案。该系统实现3个方面的改进:不是直接从知识库中提取答案,而是从统计上推导出答案;利用患者图和临床术语图相结合改善以往语义解析易混淆的现状;提高问题回答的精度。Fecho K、Balhoff J和 Bizon C等[23]首先采用知识图谱生产翻译程序,然后基于3个翻译推理器ROBOKOP(用面向知识的路径链接的生物医学对象推理)、RTX(推理工具)和midiKanren等生产问答系统,以生物链路模型作为高级本体将领域知识表示为医学实体之间关系的知识图谱,应用MCAT问题评估问答系统改进问答系统以提高性能。李贺、刘嘉宇和李世钰等[24]利用公开数据库构建疾病知识图谱,基于知识图谱确定检查、症状、科室、病因及传染性5类问题,通过AC多模式匹配算法,结合语义相似度计算进行症状实体识别,封装匹配词转换成查询语言,实现问题回答。同时优化问句分析、信息检索及答案抽取,从而提高医疗问答系统与网络技术、医学知识的融合度。Li C、Hang S和Hu X等[25]构建老年医疗保健知识图谱,利用爬虫技术从百科网站获取老年健康信息构建本体库,采用变体的关联规则挖掘算法检测实体之间关系,使用Limes算法将实体与88 446个实体的关系融合,建立度量表达式最终形成知识图谱,利用知识图谱构建一个历史行为驱动的问答平台KnowHealth,该平台将健康问题分成12类并根据老年人的历史行为回答老年保健相关问题。尽管利用知识图谱在构建医疗问答系统方面开展了相关研究,但受限于现有医学知识图谱的推理能力,知识图谱和问答系统的结合还有一定局限,并且大部分问答系统主要是针对简单问题,对于复杂医疗问题的解决有一定限制[26]。因此迫切需要推进相关研究的创新。
2.4 智慧搜索
互联网时代医疗信息呈现爆炸式增长,要精准、便捷获取重要信息显得更加困难,因此智能化、情景化、社会化的智慧搜索技术应用成为研究热点。而知识图谱可为有效查询和搜索数据提供更为灵活的数据结果。Hasan S、Rivera D和Wu X C等[27]提出用于癌症数据的科学数字图书馆框架,核心是知识图谱。该平台利用基于语义网络的知识图谱储存癌症注册表数据,实现特点场景数据查询,例如乳腺癌治疗序列变化的查询。将知识图谱与外部数据集链接,以便于使用多个数据集执行复杂查询。同时该平台还可实现癌症知识可视化,用户通过索引检索和信息检索进行查询和搜索。Shenoi S J、Vi L和Sarvesh S等[28]开发肿瘤搜索引擎,检索与患者状况、遗传特征、年龄和性别相关的科学文章和临床试验,构建知识图谱,对疾病、基因和人口统计学信息进行扩展查询。Struck A、Walsh B和 Buchanan A等[29]构建一个生物医学证据图谱(BioMedical Evidence Graph,BMEG),内容包括患者样本信息、突变、基因表达、药物反应数据、基因组注释和文献分析。BMEG通过导入和取消几个相关资源来构建连贯图表,将这些复杂数据进行整合和分析,实现癌症生物数据查询。医学知识图谱搜索不仅提供用户网页间超链接的文档关系,还包括不同类型实体间丰富的语义关系。然而受限于医学知识图谱的知识数量和质量,需要不断改进和完善技术框架。
3 结语
知识图谱作为互联网领域的新兴技术,是信息处理和知识组织的强大工具。知识图谱将领域内的复杂知识通过信息抽取、数据挖掘、语义匹配、语义计算和知识推理等过程精准地描述出来,描述知识及其演化过程、发展规律,从而为研究和决策提供准确、可追踪、可解释、可推理的知识数据。但目前知识图谱研究还不够完善和深入,需要在以下方面进行进一步尝试:一是知识图谱应用应标准化,丰富其功能,例如基于高血压指南构建高血压用药知识图谱,实现用药推荐、药物查询、药物问询等功能;二是知识图谱普及应公开化,如临床决策与健康管理相结合,增加其利用率并实现真正落地。