深度学习在生物医学领域的应用进展述评*
2020-11-13朱冬亮
朱冬亮 文 奕 陶 欣
(1.中国科学院成都文献情报中心,成都610041;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京100190;3.美国胚胎能力研究基金会,巴斯金里奇07920)
深度学习(Deep Learning,DL)作为机器学习(Machine Learning,ML)领域的一个新兴学科和快速发展的分支,已经被广泛应用于图像识别、自动语音识别、自动机器翻译、自然语言处理等多个领域[1-3]。深度学习框架最早在20世纪80年代建立,由于计算机计算能力的大幅度提升和大量可获取数据集的涌现,其在2006年开始快速发展,并逐渐扩大在计算机领域的影响[4,5]。
在机器学习过程中,构建学习模型需要领域专家参与设计特征抽取器,从而提高算法的识别精度。而深度学习作为一种表示学习的形式,并不需要太多相关领域的专家知识。它是由多个顺序排列的表示层与大量原始的非线性操作组合而成,使得一层的表示(从原始数据输入开始)被馈入下一层,并转换成更抽象的表示,反复操作直到数据点变得可区分。通过这种方式,该模型可以学习高度复杂的函数[6],实现准确的数据预测。深度学习可以提供更高准确度、处理更复杂问题,因此也意味着需要海量的数据样本、大量的计算资源、特定的模型架构和高额的成本投入。
表1 深度学习各模型对比表Tab.1 Comparison Table of Deep Learning Models
深度学习最常见的几种模型主要有卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)和深度置信网络(Deep Belief Networks,DBN)(表1)。典型的CNN拥有卷积层、池化层和全连接层三部分,其中卷积层负责提取目标的局部特征;池化层用来大幅降低参数量级(降维);全连接层用来输出想要的结果。CNN通过卷积层的特征提取和池化层的数据降维,具有共享权值和局部感知的特点,能够较好地识别对象特征,在生物医学领域的图像配准、影像识别方面应用较多[7];RNN结构简单,主要由输入层、隐藏层和输出层组成,较传统神经网络的区别在于每次都会将前一隐藏层的输出数据带入下一隐藏层一起训练。RNN由于对时域序列的输入数据处理更胜一筹,能够对序列的演进方向进行递归,因此在生物医学领域主要应用于患者的病例识别、文本处理等自然语言处理过程(Natural Language Processing,NLP);深度置信网络由多层受限玻尔兹曼感知机(Restricted Boltzmann Machine,RBM)和前馈反向传播(Back Propagation,BP)网络组成,其不仅克服了BP网络局部最优与训练时间长的缺点,而且结合了有监督学习与无监督学习的优点,具有高灵活性、容易扩展的特点[8]。
近年来,随着生物医疗设备、治疗记录和应用程序能够以图像、声音、文本、图形和信号的形式生成大量数据,已经逐步促成了生物医学大数据的概念。深度学习在生物医学和医疗保健方面的分析和应用受到了前所未有的关注。该技术已挖掘出了许多有意义的功能并完成了部分迄今为止其他方法和专家无法解决的任务[9]。
本研究的目的在于通过对国内外相关文献的研究,了解深度学习在生物医学方面的应用现状。获取深度学习在现阶段主要应用的技术框架,预测该技术可能对生物医学实践发展做出的推动作用。
1 深度学习在生物医学领域应用
随着可穿戴式设备、智能手机、医疗设备、电子健康记录的广泛使用,以及现代生物医学技术的推广,生物医学数据量呈现指数式增长态势。例如,Gene Expression Omnibus(GEO)数据库中的基因表达数据集在过去15年从33982条增至3485323条,蛋白质数据库(Protein Data Bank,PDB)中的大分子结构数量从2005年的28693个增加到2020年3月12日的161470个(图1)。各种生物医学数据在反映人群状态、揭露机体原理的同时,如何有效地被二次利用也逐渐得到大家的关注。深度学习作为大规模数据的有效解释器,在疾病预测、诊断、治疗和预后等方面呈现出巨大潜力。除此之外,相关算法专家利用深度学习在生物信息学、医学图像识别、临床辅助决策、药物开发等领域也做出了不菲的成绩(表2,数据截止至2020年3月,因此2020年数据不全)。
图1 GEO与PDB数据库每年数据量变化(2005—2020年)Fig.1 Annual Data Volume Change of GEO and PDB Databases(2005-2020)
表2 深度学习模型在生物医药领域应用Tab.2 Application of Deep Learning Model in the Field of Biomedicine
1.1 生物信息学方向应用现状
随着生物医学技术与计算机运算能力的高速发展以及高通量测序的普遍应用,生物信息学领域基因组、蛋白质数据开始大量累积。由人工神经网络发展而来的基于深度学习的算法在从复杂数据中提取特征和学习模式方面显示出巨大的潜力,由于其可以提供数据驱动的特征学习并处理高维数据,因此在基因组序列的分析中变得越来越流行[32]。深度学习除了可以用于基因组测序、基因表达分析和预测蛋白质结构外[32],还可以用于从基因组角度分析组织模型[33]、预测内含子和外显子变异对疾病发生的影响[34]以及DNA和RNA结合蛋白质的序列特异性分析[35]。
除此之外,Saha[10]等利用 CAFFE深度学习框架基础上开发的拥有五个卷积层、四个池化层的卷积神经网络对乳腺组织病理进行细胞有丝分裂建模。模型利用第一个全连接层后的Dropout正则化避免过拟合,结果达到了预测精度92%、召回率88%、F-score 90%,对于临床乳腺癌分级提供了重要的第二意见。Zhang Y[11]等开发一种多源深度置信网络(msiDBN),将不同时间节点的蛋白质结构变型解读为重构的残差,通过提取多个蛋白质-蛋白质相互作用网络的通用表示,重构动态网络,分析重构残差并确定酵母细胞周期过程中的关键蛋白,获得了较传统方法更高的重建率和重建效率。Eraslan G[12]等在自动编码框架下利用零膨胀负二项模型(Zero-Inflated Negative Binomial,ZINB)与朴素贝叶斯模型(Naive Bayesian,NB)优化色散、斜率和偏移参数,以最小化观测值和预测值之间的二进制交叉熵。其构建的深度计数自动编码网络(Deep Count Autoencoder,DCA)在单细胞RNA序列去噪操作中,质量和速度上优于现有的数据填补方法,有利于增强生物发现。
1.2 医学图像识别方向应用现状
生物医学信号数据在逐年的累积中也在实现着量的变化,尤其是生物医学图像数据方面。随着医学图像数据的显著增加,用于图像分割、定位、分类和识别任务的深度学习算法取得了成功。基于卷积神经网络的无监督的图像配准技术——深度学习图像配准(Deep Learning Image Registration,DLIR)框架在训练完成后进行图像配准无需迭代,性能与传统图像配准相当,速度快了几个数量级[13]。卷积神经网络由于其在空间信息分析方面的出色能力,在序列分析、生物信号处理和临床预判中表现出巨大潜力[14,35]。在胸部X光片检查中,卷积神经网络验证了其对胸部病理分类识别的能力,例如慢性阻塞性肺疾病、肺炎、哮喘、结核病和其他肺部疾病,其综合识别率达到92.4%,明显高于传统浅层网络(反向传播神经网络和竞争神经网络)的85%[15]。
卷积神经网络和自动编码器由于在数据中高效自主学习的显著特征,其在医学图像处理中的能力已经超过了传统机器学习的支持向量机(Support Vector Machine,SVM)和随机森林分类器等技术。对于生物影像图片,Aditya Khosla等[16]利用GoogLeNet生成肿瘤概率热图,在此基础上计算肿瘤图像的几何和形态学特征,并利用相同的模型对肿瘤邻近区域进行丰富以辅助识别肿瘤病变,该技术的应用使得他们团队在国际生物医学成像研讨会(International Symposium on Biomedical Imaging,ISBI)的大挑战赛中取得优秀成绩。
在国内,Zhuo Liu[17]等提出了几种有代表性的深度强化学习(Deep Reinforcement Learning,DRL)模型(如:深度Q网络、分层深度Q网络、深度后继Q网络)在肺癌辅助诊断和治疗中的应用,并对卷积神经网络在肿瘤精准定位方面和深度强化学习模型在制定个性化治疗计划方面进行了展望。对深度学习在医学影像方向的应用研究中,高唤和李秀娟[18]通过将已有研究人员应用深度学习在肺结节诊断识别方面的研究结果对比分析(如:自定义DBN引入到肺结节良恶性诊断、肺癌钙化识别的三种深度神经网络CNN/DNN/SAE等),发现深度学习在该方面应用有着巨大优势;张驰名[19]等针对小数据量深度学习困难的问题,提出先在源域大数据学习特征知识、拟合网络参数,然后迁移到小标签样本、细粒度肺结节图像分类任务上,通过小数据集进行参数微调再预测的策略。该渐进微调策略对良恶性肺结节的诊断准确率为91.44%,AUC为96.21%,优于传统的转移学习策略和其他三种先进的深度学习方法(Jie-Zhi、Shen、Setio)。辛磊[36]从生物医学的角度阐述了深度学习在医学影像方面发挥作用的可行性,对未来人工智能在整合病史、体征检查等数据方面的应用前景进行展望;邹茂扬[37]等通过对基于优化策略的相似性估计、直接估计医学图像配准的变换参数等方面的医学图像配准研究进展分析,提出了迁移学习、无监督学习等多种可能解决当前面临问题的方法。
1.3 病症预测方向应用现状
深度学习在病症预测与分类方面,已见的相关研究包括探索不同的时间融合机制对慢阻肺(Chronic Obstructive Pulmonary Disease,COPD)的预测效果研究:时间慢融合卷积神经网络(SFCNN)在使用90%的训练数据时,预测结果优于其他方法(BS-CNN、EF-CNN等),预测AUC比基线提高了 5.3%[20];Thomas[38]等使用高斯过程回归推断的纵向概率密度,通过将深度学习模型与临床数据耦合,准确区分了痛风与急性白血病尿酸特征(0.97 AUC);Lipton[21]等使用没有时间戳的诊断标签,通过递归神经网络训练模型对疾病诊断进行分类,测试结果优于几个强大的传统基线;有研究人员[39]将深度学习应用于临床时间序列中的生理学特征发现和检测,通过将该领域的先验知识转化为图的拉普拉斯矩阵来作为一个简单高效的正则化工具,然后结合用于发现和检测临床时间序列中不同长度模式的有效增量学习框架,有效地提高了临床疾病分类的效率与质量。
Choi[22]等利用循环神经网络进行临床实践预测,他们将表示病人状态的高维向量通过神经网络体系投射到低维空间,然后通过RNN传递低维向量,使用softmax层预测诊断代码和药物代码,并使用校正线性单元预测下一次就诊的持续时间。该模型在单独的盲目测试集评估的基础上,可以执行差异诊断,且召回率高达79%,远高于几个已有基线。Yu Cheng[20]等利用卷积神经网络在慢性充血性心衰的预测中建立的模型有效提高了疾病预测的准确度,在60%和90%数据作为训练集的情况下,模型的预测精度分别提升1.5%和 5.2%。Alvin Rajkomar[23]等建立的临床数据预测模型纳入了标准的全部电子健康记录(Electronic Health Record,EHR)数据并提取出准确的预测变量进行模拟学习,其在院内死亡率、30天计划外再入院、延长住院时间等指标的预测结果均优于传统临床预测模型,其AUROC取值范围分别为:0.93~0.94、0.75~0.76、0.85~0.86。对于临床数据存在缺失值的情况,Volker Tresp和Thomas Briegel[40]使用实时递归学习规则、EM自适应规则和借助卡尔曼滤波方程实现的非线性回归神经预测模型和线性误差模型,在对于糖尿病患者的葡萄糖/胰岛素代谢的预测方面取得了不错的成绩。
1.4 临床辅助决策方向应用现状
在辅助医生进行临床决策方面,深度学习可以评估组织切片中HER2等诊断标志物的表达,在一组71个乳腺瘤切除样本的队列中,基于CNN的自动评分系统与病理学家评分一致性达到了83%,且对不一致的12个病例进行独立的回顾性分析,导致8例患者的初步病理学评估的诊断 改 变[24]。Edward Choi[22]等 开 发 的 Doctor AI,利用递归神经网络的时间模型,借助EHR中的疾病、诊断或药物代码预测临床中可能发生的各种事件,辅助医生决策。Doctor AI可以在30分钟内进行79%的重复性诊断,显著高于几个基线。Riccardo Miotto[25]等开发使用三层去噪自动编码器通过分层规律和依存关系寻找“深层患者”,得到了能够改善临床预测的患者表征,并且为增强临床决策系统提供了机器学习框架。其在每个患者患三种或更多疾病时获得了大约55%的校正预测,较其他方法改进了5%~15%。并且该模型在严重的糖尿病、精神分裂症和各种癌症的预测中性能最高。Melissa[41]等开发的仅使用生命体征数据进行败血症预测的算法——InSight,使用梯度树构造分类器将多个弱决策树进行迭代组合,根据患者沿决策树路径生成风险评分。该算法在脓毒症、严重脓毒症、感染性休克和严重败血症等方面检测结果取得了不俗的成绩(AUROC分别为:0.92、0.87、0.96、0.85),有助于临床患者的疾病改善和预后评价。
除此之外,Dernoncourt[26]等利用字符串令牌嵌入的双向长短期记忆网络(Long Short-Term Memory,LSTM)以及字符和单词嵌入创建了一个用于临床文本自动识别的系统(在去标识化MIMIC数据集上 F1得分 =0.9923,召回率 =0.9925,精确度=0.9921),取代了传统费力的人工识别过程并促进了临床记录的利用。Harini Suresh[27]等利用长短期记忆网络和卷积神经网络对ICU的多来源数据进行整合,分别进行有创通气、无创通气等五项任务的临床干预任务预测,两者的预测结果均优于传统基线。
1.5 药物开发方向应用现状
新药开发是一个漫长且复杂的过程,涉及生物、化学、医药等多学科专业知识。其中药代动力学、药效建模、药物临床试验等环节的改进对加快新药的研发速度意义重大。在药代动力学分析领域,不仅可以通过将药物结构特征结合深度学习建立基于深度神经网络的药物-药物相互作用(Drug-Drug Interactions,DDI)预测模型,预测可能的不良药物事件(Deep DDI可预测86种药物—药物相互作用类型,平均准确率为92.4%)[28],而且还可以通过结合具有贪婪层与监督层的DBN与药物靶点相互作用机制评估候选分子的有效性、估计药物与标靶的相互作用,促进药效学建模[29]。在医学和基因组学领域,深度学习还可以被应用于重建大脑神经回路[42]以及预测潜在药物分子的活性[30]。Chen G[31]等通过堆叠RBMs模型,结合基因表达过程、药物作用途径和本体属性特征来预测药物组合的协同作用,结果总准确度为71.5%,召回率为60.2%,F评分为65.4%,优于DREAM 2015年参与团队的模型,有效提高了新药研发效率。
2 结论与展望
通过对深度学习在生物医学领域的应用进展研究,算法专家不仅已经在该领域取得了令人振奋的结果,而且还得到了一部分意想不到的收获。如Harini Sureshde[27]等利用 EHR进行模型训练的过程中发现,生理专业术语的录入有效提高了利用LSTM模型的性能。在对医疗保健领域数据值缺失的情况进行分析的过程中发现,基于门控循环单元的GRU-D模型,充分利用掩码和时间间隔,在处理临床应用中的时间序列数据缺失的情况有一定的借鉴意义[43]。
研究结果显示,深度学习凭借其复杂模拟算法的优势,在生物医学领域取得了优于已有算法的成果。无论是在生物信息学、生物医疗方向,还是在药物研发方向,深度学习都已取得突破性进展,利用自身优势为疾病诊断、预测、治疗提供参考。随着该算法与生物医学技术的结合发展,更多应用的可能性也逐渐显现出来,本文对深度学习在生物医学领域的应用展望主要如下:
1)疾病ICD自动编码
虽然目前已有系统的疾病分类编码规则,但是主要依靠人工完成。且由于规则复杂,人工编码水平参差不齐,导致疾病编码结果准确度不一致。而编码质量的好坏直接影响后期算法对个人健康记录学习、预测的质量,因此对临床病例进行深度学习,根据文本识别结果及编码规则对疾病进行ICD分类编码,将会是深度学习在生物医学领域的一个应用场景。
2)多数据源临床分析与预测
影像诊断模型的训练不应仅停留在对影像图像的识别和分析上,还应整合患者病史、体征、实验室检查、心电检查等其他检查结果,进一步提升人工智能的综合诊断能力,将深度学习在生物医药方面的应用从辅助诊断逐步过渡到预测判断和辅助决策。
3)深度学习在公共卫生领域的应用
公共卫生领域在流行病学、人口健康普查、慢性病等领域经过多年的积累已经储存了大量的数据,但是该领域目前的数据应用主要集中在利用分析软件的分析功能方面,通过中国知网经初步检索未见深度学习在该领域应用的相关文献。将深度学习应用于该领域的慢性病预测、疫情追踪预测、地方病预测等方面可作为公共卫生领域的一个未来发展方向。