APP下载

基于BiLSTM-CRF模型的医学影像检查报告信息实体识别

2023-11-09尤丽珏尹远芳

微型电脑应用 2023年10期
关键词:检查报告知识型医学影像

尤丽珏, 尹远芳

(华东医院,上海 200040)

0 引言

临床医学检查是医生确定患者病因的重要手段,为疾病对症治疗提供客观性证据。医学影像检查报告是影像科通过摄片的诊断记录,详细描述病灶位置、大小、形态等信息,帮助医生快速确定诊疗方案[1]。随着医疗大数据、人工智能的发展,医学影像检查报告的科研价值日益受到重视,成为疾病风险预测和临床决策支持的重要依据[2]。然而,医学影像检查报告通常以非结构化的自然语言方式书写,面临着术语不规范、语义不一致等问题,关键信息的汇总分析较困难[3]。因此,如何高效准确抽取出结构化、可统计的特征数据成为医疗机构关注的重点。

命名实体识别(NER)是自然语言处理(NLP)的核心技术,通过自主学习识别医学文本的疾病、症状等特定实体,替代人工标注[4]。BiLSTM-CRF属于命名实体识别的经典序列标注模型,双向长短期记忆神经网络(BiLSTM)利用输入序列的上下文信息加强识别度,条件随机场(CRF)负责分离输出层的关联性,预测标签考虑上下文关联,准确判断命名实体[5]。本文旨在基于BiLSTM-CRF模型构建一种适用于医学影像检查报告的NER方法,对报告文本内容进行实体识别,构建专项术语知识库,实现特征数据的智能匹配和提示功能,为其他医疗机构应用医疗大数据工作提供借鉴。

多数酒店知识型员工的薪资水平不高,而且相互之间差距不大。酒店的高层管理人员没有体会到知识型员工的重要性和能够为酒店所带来的附加值,或者对于其认识不够。将知识型员工的收入水平与一般员工的收入水平等同起来。这样的后果就是使得知识型员工产生消极感和对自我价值的过低评估,觉得自己的努力没有获得应该的回报,自身的价值在工作中得不到认可与体现。有些酒店甚至没有为知识型员工办理相对应的社会保障例如:社会养老保险、失业保险和社会医疗保险,偏偏知识型员工的学习能力信息接收能力强,对自身的风险规避意识较高,酒店这种对知识型员工安全心理的不作为会导致知识型员工对企业的信任感较低。

1 相关工作

医疗命名实体识别技术分为基于规则、机器学习和深度学习3类。基于规则方法依赖预先设定的规则,KOCAMAN等[6]通过分析临床报告的语义和句法结构,结合医学词典和专家规则构建处理模型;机器学习方法通常将实体识别任务转化为标签分类任务,包括隐马尔科夫(HMM)、决策树 (Decision Tree)和CRF等[7],叶枫等[8]使用CRF方法识别电子病历的实体,特征模板用小规模的语料库训练,取得较理想的F1值;深度学习方法能够自动学习语义级别的特征,属于目前主流的研究领域,GLIGIC等[9]使用医学语料库训练Word2Vec词嵌入算法,将嵌入矩阵和词汇表用于电子病历的结构化转换,提升识别效果。

医学影像检查报告包含大量的专有长组合词,处理常规医疗文本的NER方法在区分征象边界的正确率不高,容易产生结构化信息的丢失[10]。医学影像检查报告应用于很多医疗管理和质控场景,加强其关键特征数据的识别有着重要意义[11]。

2 智能实体识别

2.1 总体框架

本文围绕BiLSTM-CRF模型建立医学影像检查报告特定语料环境的智能识别系统,识别并提取关键的特征数据,以结构化的数据形式存储,实现书写时的智能逻辑提示。首先,基于影像报告软件(RIS)产生的报告文本进行BiLSTM-CRF模型训练,提取部位、症状、阳性标志等结构化内容,与人工标注匹配;其次,加入补偿验证环节,抽取病理信息系统(PIS)里患者一定周期内的病理结果,按部位、阳性标志等与识别结果进行Word2Vec算法的相似度计算,若两者结论不一致,及时推送消息提醒医生,纠正可能存在的遗漏;最后,系统后台将医生正确反馈的结构化数据入库,将更正的识别信息注入模型,自学习结果纳入专项术语词库,形成一套闭环完整的实体识别体系框架。总体流程如图1所示。

实验硬件平台为Intel Core i7-8700 3.2 GHz CPU,NVIDIA RTX 3080 GPU,软件环境为深度学习框架Python 3.7。参数设置方面,批处理大小=16,字向量维度=300,学习率=0.001,丢失率=0.5,LSTM长度=128,BiLSTM网络层数=2。

图1 医学影像检查报告智能识别流程

2.2 实体识别算法原理

输入层对原始非结构化的医学影像检查报告文本进行预处理及中文分词。预处理去除标点符号、特殊符号、空格等无关信息,强调特定词语和词语组合,避免关键信息的歧义。中文分词使用4标签(single:单字;begin:多字词首字;middle:多字词中间字;end:多字词尾字),标注句中每个字的标签,例如:句子“左肺下叶肺隔离症伴粘液栓形成”,标注为“左/b 肺/m 下/m 叶/e 肺/b 隔/m 离/m 症/e 伴/s 粘/b液/e 栓/s 形/b 成/e”,即“bmmebmmesbesbe”作为输入。

图2 BiLSTM-CRF实体识别模型

本文的BiLSTM-CRF模型分为5层,包括输入层、Embedding层、BiLSTM层、CRF层和输出层,模型结构如图2所示。

陈至立在致辞中指出,《辞海》要紧跟数字网络技术迅猛发展的步伐,推出丰富多样的知识产品,提供个性化、公益性的知识服务,到2019年第七版面世时,同步推出纸质版、网络版,并努力建成“面向知识服务的《辞海》数字出版云平台”,完成从编纂、管理到发布、运营全流程的网络化和数字化,以更好地满足广大读者和用户需求,为中国特色社会主义文化大发展、大繁荣作出新贡献。

总之,在数学课堂教学中,要提高学生在40分钟内的学习效率,提高自身的教学质量,我们就应该充分做到备教材、备教法,提高自身的教学能力,发挥自身的主导。

结合中文医学检查结论的特点及临床实际应用,设定为部位(B)、症状(S)、程度(D)、判断(J)和阳性(Y)等5大实体类型,对训练数据集进行手动标注,最终标注38 839个实体,如表2所示。

CRF 层从训练集获取约束性规则以保证预测标签的合理性,降低非法序列出现的概率[13]。每个句子预测值即为一个标注序列,转换为CRF的一个特征函数。若特征函数的输出值为1时,表示此标注序列符合特征;若输出值为0,表示不符合。每个特征函数均赋有权重,实现对标注序列的分值评判。对分值指数化和标准化,得到标注序列的概率,选择最优概率作为结果传递输出层,实现医学影像检查报告文本的实体识别。

3 数据选取和模型训练

3.1 数据选取

采用命名实体识别常用的3个定量评价指标,即准确率(Precision-P)、召回率(Recall-R)和F值[15],对识别性能进行衡量,计算公式为

表1 医学影像检查报告的段落示例

BiLSTM层由拥有捕获更长距离信息的前向和后向LSTM组成,前者用于学习医学影像检查报告的前向序列信息,后者用于学习后向的序列信息,例如:“左肺下叶”和“叶下肺左”的序列信息提取,双向的LSTM结构考虑了句子前后的信息,充分结合上下文的特征,经标注的单个字“左”、“肺”具有同等权值。BiLSTM层实现上下文信息的有效提取与整合,保证部位等实体预测结果的准确性。

表2 实体类型标注情况

3.2 模型训练

合理分组是实施合作学习的前提,也是营造良好合作学习氛围的重要举措。分组过程中,教师要尊重学情,充分考虑学生之间存在的差异,包括学习能力存在的差异,使不同学习能力的学生得到合理搭配;要考虑学生之间的性格不同,使不同性格的学生进行合理配合,达到取长补短的作用。

Embedding层采用Word2Vec算法的词嵌入。Word2-Vec主要分为2类,连续词袋(CBOW)和连续跳跃元语法(Skip-gram)。CBOW通过词的上下文对当前词预测学习词向量,Skip-gram根据当前词对上下文预测实现学习过程[12]。本文采用CBOW算法,可视作一种映射关系,其输入为单个词汇构成的词表,伴随降维过程输出每个词的向量表示,如图3所示。

考虑数据完整性等因素,模型前期训练基于既往的医学影像检查报告进行。随机筛选2021年度RIS的1000份CT报告作为训练样本,以8∶1∶1的比例划分训练数据集、测试数据集和验证集[14]。其中,每份报告均包含检查部位和名称、检查方法等段落,如表1所示。

(1)

(2)

(3)

3.3 实验结果

实验结果显示,模型整体的P达到89.98%,R和F值为83.95%和86.85%。进一步按类型分析,可以看出识别准确率均在80%以上,如图4所示。其中,阳性(Y)的识别精度最高,症状(S)相对较低。由于医生对同一症状的表述差异,例如“见索条影”,可能有些医生描述为“阴影呈索条状”,因此,模型依赖更多的自学习,提升对表达方式多变的文本识别效果。

图4 按类型识别效果的评价(%)

4 应用效果

在前期工作基础上,医学影像检查报告智能识别系统投入试运行,覆盖范围限于胸部相关的CT报告,1个月内共纳入3446份报告。如图5所示,系统对检查报告预处理,过滤特殊符号、分词等;处理后文本传入BiLSTM-CRF模型实体识别,若置信度高于阈值,将实体词条与专项术语库预设对应,拆分成部位、症状等小项;提取的特征数据在RIS报告右端显示,医生查看校对确认后,以结构化数据形式入库,以便科研统计使用。

由表3可知,不同配方速溶油茶得率不同,配方1~7的茶叶均为春绿茶,得率在17.64%~19.62%;配方9为冰鲜乌龙茶(成熟叶片),CK为市场上油茶企业常用的原料(粗老茶),得率分别为8.13%和10.77%。因此,速溶油茶得率与原料嫩度呈正相关,原料越老,内含物越少,得率越低。另外,此次试验只浸提1次,下一步会增加浸提试验次数,研究最佳浸提次数,提高得率。

后台管理模块对实际运行的识别效果进行了统计,如表4所示。由表4可以看出,第一周的识别效果并不理想,原因是训练集未能完全覆盖特征数据的多元化。经过磨合,第四周准确率已经达到92.64%,基本满足业务预期。识别结果存在错误时,医生根据实际情况人工校正,系统对纠正结果进行自学习,将选择的小项映射到正确的实体类别,模型推导正确结果的逻辑得以优化。同时,本次检查报告与近期病理结果的阳性若有差异,系统以闪烁的红色字体反馈,先后共推送4次提醒,保障了检查报告书写的质量。

表4 按周评价医学影像检查报告识别效果 单位:%

5 总结

本文将命名实体识别技术运用于医疗业务软件,利用BiLSTM-CRF模型进行医学影像检查报告的实体识别,有效地提取了关键特征数据。采用准确率、召回率和F值对识别效果进行评价,证明了方法的可行性和可靠性。智能识别系统应用后,结构化特征数据的自动提取精度达到了较高水平,提高了医学影像检查报告的数据使用价值。调查显示,系统提供的智能提示功能,医生在使用满意度方面有着5.3%的提升。当然,实际使用过程中仍存在着待改进的内容,如专业词汇库不够丰富,逻辑规则的匹配错误率有待降低。后续,医院将进一步纳入其他疾病的检查报告,提高模型训练的自学习能力,以期达到更好的应用效果。随着医学检查专业词汇和后结构化数据的不断累积,将为科研领域的知识挖掘奠定坚实基础。

猜你喜欢

检查报告知识型医学影像
医学影像技术在医学影像诊断中的合理运用
《当代医学影像误诊学》出版
《当代医学影像误诊学》正式出版
牛奶企业食品生产许可现场核查的常见问题及对策研究
牛奶企业食品生产许可现场核查的常见问题及对策研究
中小企业知识型员工工作压力与对策建议
锅炉定期检验与检验结论评定的技术
核电站第一、二阶段役前检查综述
知识型新移民城市生态融合机制研究
基于平衡计分卡的知识型企业创新激励体系研究