APP下载

基于护理知识图谱的智能问答系统研究

2024-06-15陈兰珍郑泾飞王华珍方昱龙潘琼蓉苏艺津

医学信息 2024年11期

陈兰珍 郑泾飞 王华珍 方昱龙 潘琼蓉 苏艺津

摘要:护士培养机制信息化和统一化是减少护士培养成本、增强护士专业素养、减缓护理教师不足的重要解决方案。针对当前护理知识问答引擎无法回答护士提出复杂问题等局限,本文研发了一种基于用户自然语言提问的护理知识图谱问答系统。首先通过本体设计、知识获取、知识融合、知识存储等技术构建出护理知识图谱,其次针对护士提出的自然语言问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案。该系统不仅能将查询到的精确答案返回给用户,还能将以答案为核心的知识图谱进行同步可视化,从而帮助护士准确理解场景、捕捉上下文语境等信息。

关键词:智能问答系统;护理知识图谱;交互可视化;护士培养

中图分类号:TP315;R197                              文献标识码:B                            DOI:10.3969/j.issn.1006-1959.2024.11.010

文章编号:1006-1959(2024)11-0058-06

Research on Intelligent Question Answering System Based on Nursing Knowledge Graph

Abstract:The informatization and unification of nurse training mechanism is an important solution to reduce the cost of nurse training, enhance the professional quality of nurses and alleviate the shortage of nursing teachers. In view of the limitations that the current nursing knowledge question answering engine cannot answer nurses' complex questions, this paper develops a nursing knowledge graph question answering system based on user natural language questions. Firstly, the nursing knowledge graph is constructed by ontology design, knowledge acquisition, knowledge fusion, knowledge storage and other technologies. Secondly, the semantic understanding and analysis of natural language problems proposed by nurses are carried out, and then the knowledge graph is used for query and reasoning to obtain the answer. The system can not only return the exact answer to the user, but also synchronously visualize the knowledge graph with the answer as the core, so as to help the nurse accurately understand the scene, capture the context and other information.

Key words:Intelligent question answering system;Nursing knowledge graph;Interactive visualization;Nurse training

护士队伍建设是完善护理服务体系和实现护理高质量发展的关键[1]。2022年4月29日国家卫生健康委员会印发《全国护理事业发展规划(2021-2025年)》[2](以下简称《规划》)中指出护士培养水平在经济社会发展和人民群众日益增长的健康需求面前,存在着不平衡、不充分的问题,而信息化技术的飞速发展将为护理事业创造了新机遇,应加强护理信息化建设等。护士培养方式可分为在校教育和岗位培训[3]两部分,前者主要依靠高校制定相关的课程和实训,后者遵循《新入职护士培训大纲(试行)》[4](以下简称《大纲》)制定培养方案。现有研究提出了多种培养模式[5],如成功能力模型[6]、全程导师制带教法[7]、“南丁格尔+”模式[8]、“三明治”教学法[9]、构思-设计-实现-运作培训模式[10]等。然而这些培养模式都离不开教师的参与且以大课教学模式为主,面临如何减少护士培养的成本,增强护士专业素养,减缓护理教师不足等挑战。在信息化时代,护理与科技的融合是大势所趋,通过互联网、云技术和人工智能拓展护理教育创新模式,可实现护士培养的提效增速。

随着知识图谱迅速发展,已经在语义搜索、问答系统、智能客服、个性化推荐等通用领域得到广泛的应用,同时在金融证券、医疗、电商、司法和教育等垂直领域也逐渐落地。知识图谱问答(Knowledge-based Question Answering, KBQA)是指给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案。护理教育中的岗前、岗中、岗后全链路多个场景中都存在大量的咨询问题。复杂问题往往具有在知识图谱上的多跳、聚合、比较、判断等多种特点中的一个甚至多个。对于这些自然语言问题,基于知识图谱的复杂问答系统可以给出传统的搜索引擎等方式无法给出的答案,实现快速、准确的信息获取需求。

本文研发基于知识语义精准搜索的护理知识图谱问答系统。首先通过本体设计,知识获取、知识融合、知识存储等技术构建出护理知识图谱,其次通过对问题进行语义理解和解析,并对护理知识图谱进行查询、推理,进而将查询到的精确答案返回给用户。本文不仅能将查询到的精确答案返回给用户,还能将以答案为核心的知识图谱进行同步可视化,从而帮助护士准确理解场景、捕捉上下文语境等信息。本系统是护理大数据垂直搜索需求而产生专业化、知识化、智能化的新一代搜索引擎。不仅能帮助新入职护士培训的带课教师统一护理教学标准,减少带课教师理论指导时间,提升教学质量,还能帮助护士进行护理知识学习和巩固,提高护士专业知识素养。

本研究研发了一种基于知识语义精准搜索的护理知识图谱问答系统。通过问答系统统一护理教学,护理教学涉及到大量的知识,对话系统将知识具象化、统一化给护士、护理学生带来标准化、系统化的教学内容,帮助其更好地理解和应用护理理论和实践知识,从而增强学习效率;通过问答系统进一步减轻护师教学压力,传统的护理教学模式需要教师花费大量的时间和精力进行课堂教学、作业批改和学生指导。而护理对话系统可以作为教师的助手,自动回答学生的问题,提供学习资源和辅导材料,从而提高教学质量,同时减轻教师的工作压力。通过与护理对话系统的互动,护士可以不断巩固和更新自己的专业知识,了解最新的护理研究和实践成果。同时,对话系统还可以模拟真实的临床场景,帮助护士进行虚拟实践和技能培训,提高护理质量和安全性。

1护理问答系统的主要目标和意义

1.1主要目标  护理问答系统以护理知识图谱和问答系统两部分为核心。该系统通过收集整理多方数据源,如护理团体标准、专家共识、护理教材和护理指南等,构建完备可靠的护理知识图谱,作为问答系统的数据支撑;在问答系统层面,设计了一种处理复杂问句的问答生成模型。护理问答系统有效缓解当前护理教学标准不统一的问题,极大减轻带课老师的授课压力,缓解专职护理教师人才不足的问题,提高护士学习过程的积极性,增加护士学习知识的效率。具体而言,系统要做到以下内容:①护理教学资源初始素材库构建:根据现有护理团体标准、护理指南、专家共识和护理教材等构建阅读资源初始素材库。②护理教学素材库中包含结构化数据和非结构化数据,通过AI知识抽取技术将非结构化数据转化为结构化知识,并构建护理知识图谱。③护理教学素材智能检索:根据输入的关键词和自然语言表达查询语句,采用 AI 复杂问句检索技术在护理知识图谱中搜索答案。④护理知识点可视化:采用AI知识抽取技术从护理教学资源,将知识以节点-边-节点的形式展示,利用知识网络可视护理知识。

1.2重要意义  ①本系统通过辅助护理教师教学任务,以缓解教师教学压力,弥补专职护理教师的不足。②本系统采用自然语言的方式进行问答,提高护士学习的交互体验;问答知识图谱的展现,增强了用户对检索结果语义关联性理解,提升了护士学习的效率。③系统采用知识图谱作为数据库,保证用户交互过程中答案的准确性和可靠性,避免传统搜索引擎答案不明确的问题。

2医学知识图谱与问答系统

2.1医学知识图谱发展现状  2012年,谷歌提出了知识图谱(Knowledge Graph),它是一种有向图结构的知识库,包含实体、概念以及它们之间的语义关系,已应用于搜索引擎等领域。在医学领域引入知识图谱技术,有助于解决医学数据处理和实际应用需求。与常规知识图谱不同,医学知识图谱具有实体鲜明、属性明确、数据量大且迭代更新快的特点,同时还涉及复杂的关系和强逻辑性。医学知识图谱的构建包括知识抽取、知识融合和知识推理三个过程,见图1。

知识图谱将知识实例化作为节点和边存储,以知识三元组(首实体、关系、尾实体)的方式存储,表达为首实体在某种关系下的尾实体,如(三叉神经痛,所属科室,神经内科)表示三叉神经痛属于神经内科科室。在2019年由北京大学等提出了中文医学知识图谱(Chinese Medical Knowledge Graph, CMeKG),是目前中国最大的医疗领域知识图谱,多达30多种的关系类型、20余万个实体和100余万个三元组。CMeKG的出现填补了中文医疗领域知识图谱的空白,但其仍然缺失相关护理领域的知识。

医学知识图谱发展至今,鲜有关于护理领域的知识图谱研究,然而护理知识又是医学知识图谱不可缺少的一环,构建一个完备可靠的护理领域的知识图谱成为目前至关重要的任务。

2.2 知识图谱问答系统发展现状  在互联网大数据时代,如何迅速检索特定信息,尚未得到有效地解决。市面中层出不穷的搜索引擎,但用户仍然依赖于关键字搜索答案,另一方面对于领域知识而言,搜索系统缺少可解释性的问题。面对这些问题,问答系统应运而生。对于问答系统,一般输入为以自然语言形式的描述问题,输出为对该问题的完整回答,相较于搜索引擎而言,问答系统更加具有针对性,更加简洁明了。目前问答系统,从早期的基于规则到基于检索匹配的方法。其主要核心为利用自然语言中的关键词,通过分析关键词,对问题进行解析和查询答案。但是上述方法仍存在许多问题,比如基于检索的方法,对于复杂问题的解析能力差,基于检索匹配的方法抽取出的答案质量良莠不齐,影响了问答系统的准确度。直至知识图谱的出现,问答系统结合知识图谱的形式,很大程度上解决了传统问答系统的弊端,实现了从文档问答到知识图谱问答。

知识图谱问答系统已经在多个领域中实现,比如金融领域,电商领域,其具有可解释性的特点使其成为问答系统的热门研究方向。特别对于医疗领域而言,知识图谱问答天然具有可解释的性质,为其发展带来了便利性。其中,张崇宇[12]先通过知识抽取、知识融合和知识存储三个阶段构建了一个临床领域的知识图谱,进一步基于神经网络的有监督方法构建了可以回答简单问题的中文医学问答系统。曹明宇等[13]专注于特定疾病肝细胞癌,结合知识抽取技术和公开的英文医学知识图谱,构建了原发性肝癌的知识图谱,并在此基础上,实现了流水线式的问答系统。贾李蓉等[14]完成了基于中医药学语言的问答系统,用户可以使用自然语言进行提问,系统会自动地利用信息搜索功能在互联网上搜集相似的病例,并根据最可能的疾病为给用户提供相应的医疗咨询服务。马晨浩[15]则关注于甲状腺结节类疾病领域,经过认真筛选分析之后,创建甲状腺知识图谱,实现了一个针对甲状腺类疾病的自动问答系统。

现有知识图谱问答系统在护理领域的研究不足,如何设计护理领域问答系统仍然需要探索,特别是针对复杂问句,如“与三叉神经痛类似疾病的护理措施?”,这样的复杂语句,在知识图谱问答中涉及多跳推理。现有的知识图谱问答系统尚不能很好的解决上述问题。目前急待设计一种面向护理领域的知识图谱问答系统,帮助护士准确理解场景、捕捉上下文语境等信息,从而帮助护士的培养。

3系统的基础结构、构建思路和方法

3.1基础结构  系统第一层是资源层,其包含庞大的临床护理实施场景数据,包括“护理团体标准”“专家共识”“护理指南”和“护理教材”,这些数据格式多样,包含多种疾病的护理方案。第二层是数据汇聚层,处理资源层中各类原始数据,以转化为可存储入知识图谱形式的数据,处理数据过程为:数据清理、知识抽取、知识融合和图数据存储。第三层是技术服务层,包括护理知识图谱构建、实体链接模型和查询图生成模型。第四层是应用层,将提供一个面向护理领域的问答系统和护理知识图谱。访问层以web应用系统发布到互联网中,可会员制模式提供护士、护理教师、管理者或其它感兴趣人群。护理知识图谱问答系统场景示意图见图2。

3.2构建思路和方法

3.2.1 构建护理教学资源初始素材库  本系统收集并整理了“护理团体标准”“专家共识”“护理指南”和“护理教材”等相关护理知识数据,作为构建知识图谱的原始数据。①护理团体标准:以中华护理学会发布团体标准文件为基础,收集从2019-2022年关于护理学学会团体标准的文章。共收集32项护理团体标准,包括便秘的耳穴贴穴技术、成人癌性疼痛护理和成人肠造口护理等。②专家共识:以知网、万方和维普数据库为基础,收集从2015-2022年所有关于护理学的专家共识,收集领域包括但不限于神经内科、心脏外科、呼吸外科和泌尿外科等。共收集135份专家共识,包括心脏康复护理专家共识、成人肠造口皮肤黏膜分离护理专家共识和神经重症患者肠内喂养护理专家共识。③护理指南:以知网、万方和维普数据库为基础,收集从2010-2022年所有关于护理学的指南。注意:所有数据均采用最新版护理指南。共收集56份护理指南,包括急性缺血性脑卒中静脉溶栓护理指南、神经源性膀胱护理实践指南和成人急性心力衰竭护理实践指南等。④护理教材:以现行的护理教材为基础素材来源。资源初始素材库见表1。

3.2.2 数据处理与知识图谱构建  ①数据处理:考虑到数据来源广泛且数据样式多变,处理数据前先进行数据格式转化,将所有数据转化为可读形式,如:将pdf转化为doc格式,将图片转化为doc格式。在doc格式数据的基础上进行数据清洗,如:特殊符号去除、剔除无效数据和去除重复数据。②知识图谱构建:知识图谱构建过程可分为知识图谱模式层设计、知识抽取、知识融合和知识图谱存储。

知识图谱模式层设计:通过护理领域专家的共同研究,确定护理知识图谱的模式层。护理知识图谱模式层(部分)见图3。

知识抽取:护理教学资源初始素材库中数据分为非结构化数据和结构化数据,对于结构数据,将其转化为知识三元组。对于非结构化数据,护理知识图谱模式层为基础,采用AI知识抽取技术,抽取出知识三元组。

知识融合:考虑到图谱完备性的因素,对知识信息进行补全,采用AI知识图谱融合技术,将现有知识三元组与CMeKG进行知识融合,构成更加完备丰富的知识三元组。

知识图谱存储:将上述所有知识三元组以图数据形式保存,采用Neo4j数据库进行存储。

3.2.3知识图谱表示学习  系统采用基于翻译模型[16]的图谱表示学习方法。该方法能将知识图谱向量化,即获得实体节点表示,进而协助问答生成过程,其步骤包括:利用BERT模型[17]编码实体信息,实体信息包括实体类型和实体描述,得到实体嵌入。将实体嵌入输入GCN模型[18],以捕获实体间结构信息,得到实体编码。利用路径资源约束算法PCRA,以获得两实体间的关系路径表示。使用翻译模型对知识抽取和知识融合中得到的实体表示和关系路径表示进行学习。最终得到实体表示和关系表示。

3.2.4 实体链接模型  系统采用基于文本和图拓扑的实体链接模型(以下简称为EL模型),该模型将问句中的实体映射到知识图谱的实体。其步骤包括采用字典法和NER模型[19]抽取出问句中的实体提及,并在知识图谱中找到对应的候选实体集。将问句序列和候选实体集拼接后送入BERT+BiLSTM[20]模型中,得到候选实体表示。采用余弦相似度算法,比较候选实体表示与知识图谱实体表示相似度,并挑选相似度最大的前三个实体。

3.2.5 查询图生成模型  系统采用基于搜索策略和图编码的查询图生成模型,在EL模型得到的实体集的基础上,生成实体的查询图,进而挑选最佳查询图并生成问句答案,具体步骤为:生成从EL模型得到实体的查询图,将问句文本和查询图作为输入,其中问句文本将通过BERT-BiLSTM模型进行编码,得到问句向量,查询图将通过BERT-CNN模型进行编码,得到查询图向量。采用欧式距离公式计算问句向量和查询图向量相似度。利用相似度最高的查询图生成问题答句。

3.3知识检索与可视化效果展示  该系统采用知识图谱的形式,通过问答的形式,将护理领域的复杂知识和关系进行结构化展示,见图4。通过采用图形化的展示形式,用户可以更加直观地查询多重关系,同时使用图算法还可以实现更为复杂的图匹配查询和问答等功能。这种基于图结构的知识表示和查询方式,不仅能够提高查询效率,还可以帮助用户更加深入地理解知识之间的联系和本质,进一步拓展知识广度和深度。

4总结

知识图谱是人工智能的核心技术之一,它以首实体、关系、尾实体的形式构成三元组为知识单元进行存储,通过图形化的方式展示知识的发展进程和结构关系,能够揭示知识之间的联系和本质,并且实现知识的快速响应和推理。本文研发的护理问答系统采用知识抽取模型从非结构化的护理教材文本中提取实体、实体属性和实体之间的关系,然后将这些抽取到的知识三元组存储在Neo4j图数据库中。在Web前端,该系统采用Echart可视化技术来展示护理领域的知识图谱结构,使用户可以更加直观地了解知识之间的联系和层次结构。通过这种方式,护理问答系统可以更加高效地实现知识管理、查询和推理,提高知识的应用价值和推广效果。护理问答系统能满足护理教育工作的实际需求,有效缓解专职护理教师不足的问题,减轻了护理教师的课程压力,提升了护士学习的效率和积极性,是护士培养现代化、信息化的创新模式。

参考文献:

[1]国家卫生健康委员会.2021年我国卫生健康事业发展统计公报[EB/OL].(2022-07-19)[2023-07-01].https://www.gov.cn/xinwen/2022-07/12/content_5700670.htm.

[2]国家卫生健康委员会.卫生健康委关于印发《全国护理事业发展规划(2021-2025年)》的通知[J].中华人民共和国国务院公报,2022,1778(23):57-63.

[3]朱珑,张克英.3年规范化培训考核在提高新入职护士职业能力中的作用[J].中华护理杂志,2016,51(7):836-839.

[4]中华人民共和国国家卫生和计划生育委员会.关于印发《新入职护士培训大纲(试行)》的通知[Z].北京:中华人民共和国国家卫生和计划生育委员会,2016.

[5]李旭英,李星凤,汤新辉,等.《新入职护士规范化培训大纲》的践行与效果评价[J].护理学杂志,2017,32(6):61-63,98.

[6]丁娟,张凤勤,陈红宇,等.成功能力模型在新护士规范化培训中的应用研究[J].护理管理杂志,2018,18(9):657-660.

[7]沈雅萍,张晓红.全程导师制带教法在新护士规范化培训中的应用[J].中国高等医学教育,2018(3):92-93.

[8]蔡莹,徐宇红,陈燕,等.基于“南丁格尔+”SPOC教育模式在骨科年轻护士规范化培训中的应用[J].实用临床医药杂志,2018,22(18):122-124.

[9]郑佳,杨建国,阮海涛.“三明治”教学法在新入职护士规范化培训中的应用[J].护理学杂志,2018,33(15):19-21.

[10]汤敏,王雪菲,陈莉霞,等.构思-设计-实现-运作培训模式在新入职护士临床带教中的应用[J].临床护理杂志,2018,17(5):66-68.

[11]索佩珩,徐翠荣.新入职护士规范化培训评价的研究现状与思考[J].护士进修杂志,2019,34(6):513-515.

[12]张崇宇.基于知识图谱的自动问答系统的应用研究与实现[D].北京:北京邮电大学,2019.

[13]曹明宇,李青青,杨志豪,等.基于知识图谱的原发性肝癌知识问答系统[J].中文信息学报,2019,33(6):88-93.

[14]贾李蓉,刘丽红,刘静,等.基于中医药学语言系统的知识问答系统的设计与构建[J].中华医学图书情报杂志,2019,28(5):11-14.

[15]马晨浩.基于甲状腺知识图谱的自动问答系统的设计与实现[J].智能计算机与应用,2018,8(3):102-107.

[16]Bordes A,Usunier N,Garcia-Durán A,et al.Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems-Volume 2.2013:2787-2795.

[17]Kenton JDMWC,Toutanova LK.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT.2019:4171-4186.

[18]Velickovic P,Cucurull G,Casanova A,et al.Graph attention networks[C]//The 6th International Conference on Learning Representations,Vancouver,Canada:ICLR.2018:1-12.

[19]Lu Y,Liu Q,Dai D,et al.Unified Structure Generation for Universal Information Extraction[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).2022:5755-5772.

[20]Cai R,Qin B,Chen Y,et al.Sentiment analysis about investors and consumers in energy market based on BERT-BiLSTM[J].IEEE Access,2020,8:171408-171415.