循证医学RCT文献自动识别研究
2020-03-15姚攀
姚攀
(四川大学计算机学院,成都 610065)
0 引言
随着医学的不断发展,当前的医疗模式逐步从传统的经验医学向循证医学(EBM)转变[1],循证医学将医生的临床经验、患者自身的实际情况、当前最佳临床证据三者相结合,综合考虑为患者制定最佳的科学诊疗方案。循证医学的目标是在现有高质量证据的基础上改善医疗结果,最佳证据来源于现存的医学文献,以证据为基础的指导方针和政策才不会轻易地被以经验为导向的临床判断所干扰,而随机对照试验类文献被认为是高质量的证据文献[2]。随机对照试验是验证医疗干预效果的金标准,对干预以及对照进行了实验记录,它描述了试验结果及结论等,为临床医学提供了有力的证据支持和科学的临床科研设计。医学工作者通过随机对照试验类文献不仅能有针对性的制定相关治疗方案、做出相关指导方针,而且有助于医学系统评价(systematic review)、meta分析、临床决策等相关研究的完善。
现有的随机对照试验类文献主要由生物医学文献数据库(如:MEDLINE数据库,中国生物医学文献数据库)的工作人员手工标注,将其打上RCT类标签。当医学工作者查阅相关问题的随机对照试验文献的时候,可通过RCT标签过滤这类文献。但相关研究发现,由于文献数量快速增长及标注难度大等不确定性因素,使得MEDLINE数据中随机对照试验文献的标注质量存在一定问题,其遗漏掉了15%的随机对照试验文献[3]。由于随机对照试验文献筛选的过程严格,且需要极高灵敏度,使得医学人员耗费大量的时间与精力对相关问题的文献进行阅读筛选。因此,通过自然语言处理技术与机器学习算法对随机对照试验文献自动识别,不仅有助于循证医学发展,而且促进了医学信息检索的发展。
1 研究内容及现状
循证医学作为一种新的医疗模式,利用最佳的临床证据为基础进行医疗决策,需要医学工作者带着临床问题进行文献检索,对检索结果进行进一步筛选,寻找有价值的文献证据。随机对照试验类文献作为高质量的主要证据载体,在海量的生物医学文献中仅占很小的比例[4],想要查询相关医学证据绝非易事。现有生物医学文献数据库对文献标注RCT类别的标签,如:MEDLINE、中国生物医学文献数据库,但有相关研究发现MEDLINE中标注的随机对照试验文献存在7%的错误,而且漏掉了15%的随机对照试验文献[3]。循证医学相关的Cochrane网站发起了随机对照试验人工筛选项目,由志愿者筛选出主要来自MEDLINE与EMBASE医学数据库及临床研究注册平台CT的随机对照临床试验[5],筛选出的随机对照试验文献具有高质量,但是需要耗费极大的人力成本。
现有对文献人工标注RCT类标签的做法耗时费力,因此,有研究者们通过机器学习与自然语言处理技术自动识别随机对照试验类文献,并且已经取得一定成果。目前,在Cochrane合作组织所积累的工作基础上,Wallace等人总共选用了Cochrane Library数据库中的标注数据(包含RCT阳性实例,以及非RCT阴性实例),对其使用的线性内核支持向量机(Support Vector Machine,SVM)不断进行训练、调试和测试,最终得到了能够减少60%-80%无关文献、检出98%的随机对照试验模型[6]。近年来也有相关研究尝试将文献分为RCT与非RCT两类,如Cohen等人利用MEDLINE数据库中标注RCT标签的文献作为正例,其他作为负例,利用N-gram表示标题摘要的信息,通过支持向量机(SVM)模型对RCT类文献进行识别,最后根据其与超平面距离转化所得置信度高低排序[3]。随着深度学习在自然语言处理应用上的兴起,Marshall等人利用卷积神经网络(CNN)对随机对照试验文献进行识别,最后按照RCT类别置信度进行排序筛选[4]。相比SVM方法利用专业背景知识构造特征主观性较强且工作量大,深度学习方法不仅具有自动捕获特征的优势,而且神经网络词向量的引入有助于模型编码更好语义信息,好的文本语义表达促进模型更好地识别随机对照试验文献。随机对照试验文献的筛选要求高的灵敏度,目前的算法用于随机对照试验筛选普遍能够达到灵敏度95%以上,特异度在30%~70%之间,算法自动筛选的不同评估方法相继出现,使得RCT文献自动识别任务也日趋完善。
2 RCT文献自动识别方法
为了进行RCT文献的自动识别,首先需要对已有的文献信息进行预处理,获取文献的特征信息,最后利用这些特征表达进行RCT类的预测,如从图1所示。现有RCT文献自动识别方法采用的文献数据,主要来自生物医学文献数据库(如:MEDLINE)或其他人工标注有RCT类标签标区分的数据,所导出的文献数据保留了标题、摘要、作者、Mesh等信息。现有方法通过预测文献是随机对照试验的可能性,并基于置信度进行排序筛选。目前,针对随机对照试验文献的自动识别主要有支持向量机(SVM)与卷积神经网络(CNN)两种做法。
图1 RCT文献识别流程
2.1 支持向量机自动识别RCT
支持向量机(SVM)已被证明在许多机器学习任务均能取得很好效果,可应用于自然语言处理等相关应用。支持向量机方法的目标是构建一个超平面,该平面将在特征空间中的样例的相应类分开,而支持向量机仅利用部分样例来确定超平面即可。
使用线性支持向量机模型可进行文本分类[7],通常通过BOW编码文本信息(标题、摘要等信息)进行表示。这种方法抽象表示文献为一个高维稀疏的向量,其中向量的每个索引位置对应一个特定词(unigram)或一组相邻词(bigram)或其他条件特征,并且仅当文献中出现了对应维度的特征,其表达才为非零。线性核支持向量机进行RCT识别的目标是在这个高维空间中识别一个超平面,该超平面最后用于将RCT与非RCT类别的文本分开。
研究者利用SVM确定的最佳超平面,进一步将样本到超平面的有符号距离转换为RCT类别概率的置信度做预测分析,设定阈值筛选RCT文献[3]。
2.2 卷积神经网络自动识别RCT
随着深度学习的兴起,许多深度学习模型被证明在自然语言处理应用中优于其他的统计模型。卷积神经网络(CNN)[8],在文本分类[9,10]和生物医学文本分类(特别是生物医学文本分类)任务中取得了很好的结果。CNN方法通过自动捕获文本特征,代替了BOW编码,用相对低维连续向量来表示词(词嵌入)。对于词的向量形式表达学习,可使用大量未标记的数据进行词嵌入预训练。
对于一篇随机对照试验类文献,在标题摘要部分会对试验进行简述,对于判断文献类型也是最为重要
的。有研究者通过TextCNN方法进行随机对照试验文献识别,利用文献的标题和摘要信息作词嵌入,形成一个词矩阵,其维数分别为词的个数以及词嵌入大小[4]。卷积神经网络模型通过不同大小的filter进行卷积操作,滑动窗口从文本开头向下移动,在相邻词嵌入上传递由相应权重向量参数化的过滤器filter。每个filter将产生与输入文本长度成比例的大小的标量输出向量。然后在每个输出向量上进行最大池化合并来提取特征。然后,每个滤波器最终将生成单个标量输出,将它们连接起来形成整个摘要的向量表示,与预测的输出层做全连接。最后,通过输出层的RCT类别置信度预测文献是否为RCT文献。
2.3 评价指标
为了评价模型对随机对照试验文献的识别性能,采用了多种指标结合评价。针对模型预测结果,常用的评价指标有准确率(ACC)、精确率(P)、召回率(R)、F1值,灵敏度(Sensitivity)、特异度(Specificity)。如下所示表格及公式:
表1 混淆矩阵
鉴于随机对照试验文献自动识别要求尽量不要漏掉相关高质量文献,可按RCT类别阈值对置信度划分,进一步确定其类别并评估模型性能。
3 结语
综上所述,随着生物医学文献的不断增加,医学工作者快速全面地获取感兴趣的高质量文献证据变得愈加困难,随机对照试验文献的自动识别将能弥补医学信息检索的一些不足,更好地辅助医务工作者的业务开展。针对此识别任务的模型从传统机器学习向深度学习不断发展,也使得面向循证医学的RCT文献自动识别成为自然语言处理领域中的重要研究方向。随着RCT文献自动识别的进一步发展,将对医学相关的系统评价、META分析、医学QA、医学信息学等子领域有深远影响。