融合关键字的注意力机制的淋巴水肿病历诊断推理算法
2022-05-11王帅帅
王帅帅, 徐 臻
(中国电子科技南湖研究院, 浙江 嘉兴 314000)
0 引 言
淋巴水肿是以淋巴管堵塞引起肢体肿胀为代表的一种疾病。 根据世界卫生组织统计,淋巴水肿在常见慢性病中列第11 位,致残类疾病中列第2 位,全球淋巴水肿患者约达1.7 亿,中国淋巴水肿患者也高达千万人。 淋巴水肿是世界医学难题,目前尚不可治愈,如果早期发现,诊断治疗及时得当,可以不同程度得以缓解。 目前国内系统有效诊断治疗淋巴水肿的医疗机构还很少,相关专业医生缺口巨大,淋巴水肿的相关知识尚不普及,大多数患者在发病后得不到有效的诊断和治疗,导致病情不断恶化,因此构建一个淋巴水肿疾病的智能诊断模型具有重要意义。 本文利用深度学习技术,使数字赋能病理诊断,通过训练和学习医院收集的淋巴水肿电子病历,快速实现对电子病历内容的的识别与理解,从而大大提升病理诊断的效率和准确率,辅助专业医师,服务更多的患者。
1 诊断推理模型
1.1 电子病历关键词的提取
关键词是文档中能够表达重要内容的词语,关键词提取在信息检索、自动摘要、文本聚类等方面有重要应用。 本文认为电子病历中一些关键词语和检查结果对病历诊断结果有重要作用,尤其淋巴水肿相关疾病,不仅要识别出淋巴水肿类型,还需要识别出身体患淋巴水肿的部位。 提取病历中关键症状、部位、疾病等关键词,可以更好地帮助模型理解病历的内容。 关键词抽取常用的算法有词频-逆文本频率(TF-IDF)、文本排序(TEXTRANK)算法和主题模型算法。 本文关键词提取使用TF-IDF 算法。 TF-IDF 的含义是如果某个词或短语在一篇文章中出现的频率() 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 词频() 是指某一个给定的词语在该文中出现的频率,式(1)。
其中,n 表示该词在文件中的出现次数,分母为文件中所有词的出现次数之和。
TF-IDF 假设高频率词应该具有高权重,除非其在所有的文档中出现的频率都很高。 而逆文档频率() 的大小与一个词的常见程度成反比,即最常见的词赋予最小的权重,较常见的词赋予较小的权重,而较小频率的词赋予较大的权重,式(2)。
其中,|D |表示语料库中的文档总数,{:t∈d}表示包含词语t的文档数目。
在分别计算得到和后,将其相乘就能得到TF-IDF 的值,如式(3)所示。
计算得到文本的关键词特征向量和TF-IDF 特征向量后,将其拼接为一维的长向量,该向量就是最终机器学习算法要学习的特征向量。 本文使用的淋巴水肿电子病历数据,如图1 所示。 对其中一个电子病历主诉、现病史、个人史、家族史和体格检查内容使用TIIDF 提取关键词,按重要性排序如图2 所示。
图1 淋巴水肿电子病历Fig.1 Lymphedema electronic medical record
图2 关键词排序Fig.2 Keyword ranking
1.2 融合关键词的注意力诊断推理模型
在自然语言领域序列到序列(seq2seq)模型和注意力机制(attention)为生成式推理提供了一种可行方法。 但这些模型存在两个问题:
(1)不能准确把握文章细节,无法处理未登录单词问题;
(2)倾向于重复自己的内容,使生成的句子不连贯。
指针生成网络(PGN)通过指向从源文本中复制单词,有助于准确地复制信息,同时保留通过生成器产生新单词的能力,使用覆盖(coverage)机制来跟踪已总结的内容,防止重复。 PGN 是在seq2seq 模型的基础上构建,PGN 模型架构如图3 所示。
图3 PGN 模型Fig.3 PGN model
该模型在seq2seq+attention 模型的基础上增加了P,在每个解码器过程中,计算一个生成概率P[0,1],该值决定有多大的概率从单词表中生成单词,模型中的最终分布根据词汇分布和注意分布加权求和得到,根据最终分布进行预测。 PGN 既允许通过指针复制单词,也允许根据词汇生成单词。在指针生成器模型中,时间步长的生成概率P是根据上下文向量h、解码器状态S和解码器输入x计算,如式(4)式(6) 所示。 本文的编码端和解码端使用的是长短时记忆网络(LSTM)。 编码端的输入为(,…,x), 解码端的输入为(,…,y)。
其中,(x) 为单词的词向量;向量w、w、w、b是学习参数;是激活函数。
P用来决定从词汇表生成单词,还是从源文本复制单词的概率,用来对词汇分布和注意力分布进行加权平均,得到扩展词汇表上的概率分布,如式(7)所示。
使用PGN 进行病历诊断结果生成的结果往往会忽略一些重要的词,比如部位等,而且现有的深度学习生成方法只关注结果与原始文本的总体关系,有时可能会对文本中的主要细节内容把握不准确,导致生成的结果不全面,很容易丢失病历中部位、症状等关键信息。 将病例中关键词作为PGN 模型生成结果的提示,病历的关键词可以是部位、疾病之类名词,也可以是症状类的描述性短语,让模型在解码时更加关注这些关键词汇,从而使生成的结果更加准确。 如图4 所示,将病历关键词通过注意力机制融入到PGN 模型中,模型就可以通过关键词所包含的语义和病历中其他信息生成概括性的诊断结论。
图4 融合关键词的注意力模型Fig.4 Attention model fused with keywords
病历输入时使用word2vec 训练生成词向量,对于本文选取到的关键词,使用word2vec 生成词向量{,,…,k},将所有的相加作为输入融合注意力机制。 计算方法如式(8) 和式(9) 所示。
2 数据与验证
2.1 实验设置与数据
本文使用8 000 份电子病例作为实验的训练集,使用500 份电子病历作为测试集,300 份淋巴水肿病历作为验证数据集。 实验在GPU 服务器上进行,采用pytorch 深度学习框架。 本文使用的词汇表大小为8 000 词,单词向量的维度是128,编码器和解码器的输入维度是256,batch_size 大小为64。
2.2 评价方法
本实验使用的评价指标为rouge(recall-oriented understudy forgisting evaluation),是文章摘要提取和机器翻译常用的评价指标。 ROUGE 主要有ROUGEN、ROUGE-L 和ROUGE-W 3 种方法,本文使用的是ROUGE-L 方法, l 指最长公共子序列,使用了机器译文C 和参考译文S 的最长公共子序列,式(10)~式(12)。
其中,表示文本公共长度;R表示召回率;P表示精确率; F就是ROUGE-L。
3 结果与分析
本文使用每个病历数据集经处理后长度为900字左右,一个病历诊断结果生成示例如图5 所示。
图5 诊断结果生成Fig.5 Diagnosis result generation
为了验证算法的有效性,本文对比了序列到序列,注意力机制和指针生成网络模型,评价指标使用ROUGE-1、ROUGE-2,ROUGE-L,实验结果见表1。实验表明, 本文提出的融合关键字的注意力机制疾病诊断推理模型识别准确率优于其他的算法。
表1 模型结果对比Tab.1 Comparison of model results
由表1 可以看出,在将病历中关键信息加入到模型后,本文的融合关键字的注意力机制明显优于指针生成网络,在生成的诊断结论中,融合关键字的注意力机制可以有效的提取到病历中关键信息,ROUGE-2 指标提升最多,能够得到性能更好地淋巴水肿诊断推理模型,为淋巴水肿相关疾病诊断提供了可靠的辅助支持。
4 结束语
本文提出的融合关键词的注意力机制模型即保持了模型的文本生成能力,又可以让模型可以向医生一样依据病历中的核心症状和核心部位等信息进行疾病的推理,生成的诊断结果更加连贯,更能覆盖病历信息。 利用深度学习技术构建水肿诊断推理模型可以帮助医生进行疾病的快速诊断,让患者可以及时得到治疗,在一定程度上缓解医疗资源不足问题。