基于深度学习的医学影像数据的瑕疵及对策
2022-03-06任晓丽
任晓丽
山西医科大学汾阳学院 (山西汾阳 032200)
近年来,随着数据的剧增、算法的不断优化及计算能力的迅猛提高,大规模的神经网络逼近不同函数及大数据拟合成为可能。深度学习(deep learning,DL)融入医学影像数据,逐步涌现出了各种辅助诊断、预后预测和决策分析的智能模型[1]。基于医学影像智能计算是目前智慧医疗领域的研究热点[2],相应的产品也已落地,相关文献[3]全面分析了使用DL 技术为新型冠状病毒肺炎诊断所开发的系统应用。基于DL 医学影像正逐步迈向智慧医疗下精准诊断的环节,期间也存在尚待解决的些许问题。
1 DL 概述
DL 是先进的机器学习(machine learning)方法,以数据驱动方式分析任务,针对特定问题的大规模数据集自动学习数据特性,从训练数据中选择正确的特征,最后在测试数据中做出正确决策。其中深度模型是手段,特征学习是目的。迄今为止在医学影像领域,国内外学者主要就MRI、CT、X 线、超声、正电子发射计算机断层显像(positron emission tomography,PET)、病理、光学图像等开展了DL研究工作[4]。
1.1 DL 算法机理
DL是具有多层非线性处理单元的神经网络[5],基础模型主要是深度神经网络,从函数逼近论的角度讲,深度神经网络是一个多层复合函数。理论上任意一个多元函数可以表示成若干个单变量函数的复合,这是机器学习中通过深度神经网络来逼近任意高维函数的理论依据,故可基于多层次的“神经元”结构,采用多隐层,进行分层非线性映射学习。其中非线性激活函数为最终拟合函数生成基函数,训练神经网络就是在学习这些基函数,通过数量众多的激活函数的线性变换及复合来逼近非常复杂的函数,由此解决了人工设计基函数的困惑。
1.2 DL 主要优势
DL将特征提取融入算法,省去了传统机器学习中手工提取的步骤,直接的好处在于,从原始输入到最终输出无需人工设计模块,模型根据数据自动调节的空间变大,模型的整体契合度增加。DL借助多层函数(或深度)复合的多次变换,将样本在原空间的特征表示变换到一个新特征空间,通过逐层特征变换,自动提取不同空间的“特征”,进而发现高维数据中的复杂结构,从输入端的数据直接得到输出端的结果,是一种端到端的学习方法。其中卷积神经网络凭借强大的特征自动提取功能,成为DL的一个重要组成部分[6],传统CNN由输入层、卷积层和池化层的组合、全连接层及输出层构成,如图1所示。深度神经网络具有不同的体系结构和拓扑,适合某些特定的应用程序[7],目前有关医学图像分割的DL最新研究大多数都依赖于U-Net网络,针对不同的分割任务,网络结构也有相应的更改[8]。
图1 传统CNN 结构图
2 医学影像数据在DL 中的不完备性
当前医疗中高达90% 的数据来自医学影像,影像归档和通信系统(picture archiving and communications system,PACS)融合了不同设备(如MRI、CT、超声等图像)的数据,并进行统一存储、管理。医学数字成像与通信标准(digital imaging and communication in medicine,DICOM)定义了临床影像数据交换的格式,其发展和完善为医学影像的发展创造了新的契机。据不完全统计影像数据的年增长率高达30%之多[5],总量已然达到“5V”数据,即大量(volume)、高速(velocity)、多样(variety)、价值(value)、真实性(authenticity)。
医学影像属非结构化数据(患者受保护类的信息属结构化数据),数据对象的空间关系信息及蕴含的特异性情况具有重要的统计学意义,对各种疾病信息的挖掘会产生潜在的利用价值。DL模型“训练”和“验证”得以稳定运行的根本是大数据,尤其是高质量的结构化数据,而医学影像中数据的诸多变化及不完备因素一度成为DL在医学领域发展的瓶颈。
2.1 数据的孤立、异构性
由于缺乏标准约束和整体规划,不同的医院或医师使用的操作系统的无线多址协议不同,对于不同的医用场景,成像模态、扫描参数、重建卷积、质控各不相同,以及针对特定需求的特殊设计等,诸多因素导致数据的广泛异质异构性,如数据本身异构,表现为数据结构、语义等差异;数据环境异构,表现为硬件平台、操作系统、数据库管理系统等差异。上述迥异性整体上使得数据信息孤立、分布漂移,制约共享。当影像数据与疾病类型相结合时,DL 在医学影像各类任务(重建、分类、检测、分割和配准等)中,以及与一些应用程序相关联的任务中,面临着大量的高度复杂性[9]。由此如何将大量不同数据提取、筛选并标注以便捷地用于DL,是医学影像数据处理的根本问题。
2.2 样本数据分布不平衡
不同类别的医学影像的样本数量差异很大,阴性和阳性样本数往往表现为阳性明显少于阴性。临床病例数据规模表现出典型的长尾分布[9],少数的常见疾病有足够的数量供大规模分析,而多数疾病在临床上的数据量缺欠。但少数样本有时恰是DL 关注的根本。这种不平衡现象通常用不平衡率(imbalance rate,IR)衡量:
式中nmaj为多数类样本数据量,nmin表示少数类样本数据量[10]。
网络在类别不平衡的数据中进行训练,结果易偏向较大数量的类别[11],因为DL 在关系抽取任务中,往往基于类别平衡、数据分布均匀的假设。这种天然的样本不平衡问题导致DL 在医学影像领域的算法泛化能力下降。
综上由于医学影像数据各异不均,且数据的采集、整理及标注过程烦琐且代价昂贵,使得大型标注数据集匮乏,严重影响DL算法的普适性,因为标注数据的多少决定了DL拟合函数的“智能”。目前DL技术在针对新型冠状病毒肺炎的诊断应用中,主要挑战是患者的影像数据不完整、杂乱、不明确及缺乏标准性[3]。
3 应对策略
3.1 数据的采集与规范
构建高质量的结构化数据集,有效提高DL模型的准确性和鲁棒性,具体如下。(1)采集:进一步规范相关医疗系统数据标准,以满足DL模型对数据参数及质量的要求,尽量覆盖各种成像模态设备的机型、质控指标及疾病类型等参数变量,弱化影像多源数据的异质性;进一步优化影像的采集与重建过程,对数据进行高倍降采样,充分利用DL技术填充未采集的数据,DL技术可以突破传统依靠图像稀疏性的假设,利用大量数据来优化求解图像重建问题[12],替代了常见的基于多次迭代优化的图像重建的逆问题求解算法,提高了采集效率,同时可降低噪声、提高图像质量,基于数据驱动DL的 MRI重建,重点在于利用深度网络学习欠采样数据到全采样数据(k空间或图像)的端到端映射关系[2]。(2)标注:立足数据和场景需求,直接面向学习目标,利用专业医师的领域量化知识,如病变位置、范围、良恶性评分等,尽量使用“金标准”进行学习标签标注(如病理、基因型、生存期等),提高标注的准确性。(3)建立数据集:建立多中心数据集,创新数据共享机制,建立标准的医学影像大样本数据库。
3.2 学习方法融合
基于DL 对高维数据强大的特征提取能力,有机融合其他方法,具体如下。(1)深度主动学习:主动学习即通过标记少量的样本获得模型的收益最大化[13],从数据集入手,设计精妙的查询规则,从未标记的数据中选择最佳样本并查询其标签[13],学习算法主动地提出一些标注请求,将经过筛选的数据反馈给专家以备标注,这样可减少训练数据集及其标注成本,其核心过程是筛选,有机结合深度、主动学习,将深度主动学习应用于医学影像领域的具体工作有很多。(2)深度迁移学习:适当解脱DL 的数据独立且分布均匀的依据,将知识从源域迁移到目标域以解决数据不足的问题,基于网络的深度迁移学习,首先在原领域预训练网络(如结构、参数等),再用于目标任务中,使其成为新的神经网络的一部分[14],即在多种类别的大规模基准数据集上预训练网络,帮助网络学习在目标任务上重用的通用特征,之后在预训练网络感兴趣的目标(对应的标签数据集较少)上进行微调,迁移学习已成功应用于某些器官的影像分析中,但其推广还需要更多的证据[7]。
3.3 探索基于因果表征的算法模型
目前,机器学习主要存在于产生统计依赖性的物理机制中[15],现有的DL同样依据样本数据独立且均匀分布的假设,没有考虑变量的因果属性。DL关注的重点是学习,缺乏良好的被理解的方式,故DL通常被认为是不易解释的“黑匣子”,与医师依据因果关系溯源病因不同。由于目前关于模型是基于何种特征做预测的研究较少,当模型预测结果与医师判断不一致时,医师就得不到有效证据的解释[16]。医师如要理解DL在医学影像中的现实性、可行性和实用性意义[7],这种费解确实是一个鸿沟。因此,探索基于因果关系的学习算法将有助于发现更丰富、更自然的医学问题[17]。未来的模型应注重系统变量的因果生成过程,于学习中介入推理,生成基于因果性的接近医师的诊病方式,如利用因果关系的某一层级——反事实的方法赋予机器一种“想象”,当患者的疾病与原有模板中的病例不同时,可能对此自动联想加工,做出正确的诊断。相关文献[17]使用由1 617个临床场景组成的测试集,得到反事实算法性能较关联算法有大幅提升,这有利于通常难以诊断的罕见病及重症病例的检测,同时避免了基于相关性的诊断产生的误差对这些病例带来的严重后果。可见因果推理是将机器学习应用到医学诊疗中的重要元素,它可促进统计依赖结构的表象学习方法向支持干预、计划和推理的模型改进[15]。同时基于因果属性的学习模型对数据集所蕴含的规律、知识的理解,也有助于解决目前DL的弱解释性问题。
4 结语
医学影像是以DL为核心的医疗人工智能最有潜力的落地领域[16],DL的中心任务是提取蕴含在图像中的信息,目前学习主要是基于数据驱动进行多层复合函数的拟合,其拟合的智能程度深受影像数据的诸多变化、不确定因素的制约,故需规范数据、改善采集,让数据成为新的范式,并结合其他方法改进算法,如在DL中有机嵌入主动学习等方法,削弱DL对标注数据的贪婪程度,同时鉴于现阶段DL在数学本质上只有“记忆”能力,没有“理解”能力,从而探索基于因果关系的学习方法,以增强影像辅助诊疗的准确性,有助于未来DL精准赋能医疗,以及促进智慧医疗距离真正落地更进一步。