APP下载

1种应用于医学影像诊断报告的智能纠错方法

2019-11-05李文杰王小冬唐武斌

影像研究与医学应用 2019年21期
关键词:拼写错误词库语序

李文杰,王小冬,简 刚,唐武斌

(宁波市科技园区明天医网科技有限公司 浙江 宁波 315000)

1 引言

随着医院信息化建设的发展,医技检查报告也在由纸张化向电子化方向过渡,但是随之带来了报告中拼写错误检查的问题。不同地区、医院,报告系统中结构化模板的存在着较大差异,医生还需要手动大量输入检查报告内容,对报告内容的准确性进行快速分析检测成为了一个亟待解决的问题。

传统用于医学文本检测的方法多是检测文本中的错别字,没有考虑到句子中的语序和词语搭配的错误。本文将深度学习领域中的RCNN(循环卷积神经网络)文本分类模型应用到了医学影像诊断报告的检查中来,将文本分类模型用来判断分句的正误,结合恰当的纠错策略筛选出错误分句中的词语,并提示潜在可能的正确词语。

本方法可以自动检测影像科医生在评估病人病情时所写的影像所见和影像诊断报告,快速定位到报告中的拼写错误、语序错误或词语搭配错误的位置,并依据拼音和上下文词语关联提示可能替换的正确词语。

深度学习火热,各种网络层出不穷,其中应用于文本分类的模型也有多种。2014年,Kim[1]提出了一种将CNN应用到英文文本分类中的方法,语料的最小粒度为单词,取得了不错的效果。2015年,Zhang[2]等提出了一种基于字母粒度级别的CNN英文文本分类模型。同年,Lai[3]等提出了一种基于单词粒度级别的RCNN的英文文本分类模型,效果显著。2016年,Conneau[4]等将VDNN应用到了文本分类,Zhou[5]等发表了基于注意力机制的BiLSTM应用于文本分类的模型。经过调研,本文借鉴了准确率最高的Lai[3]等提出的RCNN模型,将这种模型结构应用到了纠错模型中,表1是几种模型的文本分类效果测试对比。

表1 不同模型的文本分类准确度对比(%)

2 报告纠错过程

通常报告中的错误包括拼写错误、语序错误和词语搭配错误,本方法对文本进行纠错的过程如下。

首先通过导入了自定义医学词库的jieba分词方法分词,使用词语搜索词库依次对句子中的中文单词进行拼写检查,如果发现了潜在错误单词,标注出来。然后,将文本通过句子分隔符号(如逗号、句号、感叹号、问号等)分隔为一个个分句,通过训练的RCNN模型判断每个分句的语序和词组搭配正误,筛选出来潜在的有问题的分句。接下来,通过词组词库依次对有问题分句中相邻的中文单词词组进行检查,对有问题的词组进行标注。最后依据拼音词库和词语关联词库对标注有问题的单词给出一组替代的建议词。

比如,对于样本“两肺门结构清晰,其内未见明显肿大淋巴结影。”应用中文分词方法jieba分词后的结果为“两肺门结构清晰,其内未见明显肿大淋巴结影。”对其中的每个中文单词依据词语搜索词库对词语拼写进行检查,并标记出有拼写错误的单词。

然后,按照逗号和中文结束标点符号分隔,两个分句分别为“两肺门结构清晰”、“其内未见明显肿大淋巴结影”。通过编码词库编码后送入到模型中进行检测,如果返回结果为正确,认为两句子的语序和词语搭配均不存在问题。假如其中一个模型对第一个分句返回结果为错误,依据词组词库对分句中的词语搭配进行检查,并标记出来有问题的词组。对标记出来的错误词语,依据拼音词库和词语关联词库,给出一组可替代错误分词的建议词,表2中给出了纠错样例,下划线是通过模型检测出来的错误。

3 模型构建和训练

3.1 数据准备

采集网络上的医学词库,加入到jieba的自定义词库中,目的在于辅助对医学上专业词汇的分词。

影像报告数据采集了16万余条影像诊断报告数据。通过人工的审核,基本保证了所有数据的正确性。

3.2 词库和编码词典构建

通过导入了医学词典的jieba分词将所有的影像报告数据进行分词,构建出编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5。DIC1是用来对分词后词语编码,变成模型可以识别的格式;DIC2是用来检测有拼写错误的单词;DIC3是用来定为问题的分句的错误单词位置;DIC4和DIC5是用来对错误词语进行提示的词库。

3.3 训练数据构建

将jieba分词后的影像报告,通过标点符号分隔为一个个分句。原始的分句标记为1,代表是正样本,然后将分句中的单词随机打乱顺序,标记为0,代表是负样本,这样就构建出了语序训练集。类似的,将分句中的单词,通过随机替换的方式,构建出来词语替换训练集。

表2 纠错样例

3.4 模型构建

本方法中的循环卷积神经网络RCNN是一种由RNN和CNN结合构成的人工神经网络,模型中的RNN(Recurrent Neural Network)结构是一种层数为2层的双向循环神经网络,能够最大程度的捕捉句子中的语义信息,然后引入了一个CNN中的最大池化层,捕获文本中的关键字信息。通过结合循环结构和最大池化层,模型同时利用了RNN和CNN的优点。图中展示了模型RCNN的结构,该模型能够整合了一个单词和它的上下文来表示这个单词,能够帮助我们获得一个更精确的词语含义,模型中使用了双向RNN(循环神经网络)结构用来整合上下文。从卷积神经网络(CNN)的角度来看,我们之前描述的循环结构是属于卷积层,当所有单词的表示都被计算完毕,连接到一个最大池化层,最大池化层将不同长度的文本转化到固定长度的向量,帮助我们抓取到了整段文本中的信息,最后传入到了输出层,关于网络的详细介绍见Lai[3]等的论文。

图:循环卷积神经网络(RCNN)结构示意图[3],假定下角标的数字代表分词在原始分句中的位置。

3.5 模型训练

通过语序训练集和词语替换训练集分别训练得到语序纠错模型Model1和词语搭配模型Model2。测试集事先随机抽取出了10%,剩余的用于训练,训练过程中采用的训练集占和验证集的比例分别为85%和15%。

3.6 结果

表3 训练结果(%)

为了让模型对错误更加敏感,构建的语序数据集所采用的正负样本比例为1:4,而词语替换数据集中所采用的正负样本比例为1:3。表3中显示,通过语序训练集训练得到的模型Model1对语序的正误识别的准确率达到了99%以上,而通过词语搭配训练集训练得到模型Model2对词语替换句子正误识别的准确率达到了98%以上。本训练集、测试集和验证集中所采用的负样本比例较高,如果换成正负样本比例1:1的数据集,准确率会有一定的降低。

4 结论

本文提供了一种应用于医学影像诊断报告的智能纠错方法,包括词库构建过程、模型构建过程和智能纠错过程。本方法不仅能够检测常规的拼写错误,另外通过使用训练循环卷积神经网络得到的纠错模型,考虑了语序和词语搭配,依据拼音词库和词语关联词库,给出一组可替代错误分词的建议词。

猜你喜欢

拼写错误词库语序
初中生英语词汇学习策略探究
从2017年6月四级翻译阅卷看段落翻译中的词汇错误类型
语序类语法填空题的解题技巧
as引导状语从句的倒装语序
汉韩“在”字句的语序类型及习得研究
词库音系学的几个理论问题刍议
由wrong错拼成worry引发的行动研究
环境变了,词库别变
可提醒拼写错误的智能笔
QQ手机输入法如何导入分类词库