深度学习结合影像组学的胸部CT新冠肺炎智能诊断模型研究*
2021-09-27徐翠莲印宏坤伋立荣范国华
徐翠莲 印宏坤 伋立荣 蔡 武 张 伟 范国华,*
1.苏州大学附属第二医院影像诊断科 (江苏 苏州 215004)
2.北京推想科技有限公司 (北京 100020)
目前,新型冠状病毒肺炎(COVID-19)疫情在全世界范围迅速蔓延,严重危害人类健康和生命。RT-PCR被认为是诊断新冠肺炎的“金标准”,但核酸检测存在一定的假阴性,敏感性有限[1-3]。据报道,几乎所有的新冠患者在病程中可出现肺部改变[4-5],胸部CT在肺炎诊断中具有无创、快捷、灵敏度高的优势,在肺炎的早期发现、疑似病例鉴别、疗效评估中起至关重要的作用。然而,各种病毒性肺炎影像学表现非常相似,常规影像诊断方法鉴别困难。近年来,AI辅助诊断系统在肺结节的检测及诊断中显现出较高的应用价值[6-8]。新冠肺炎疫情爆发使肺炎的AI辅助诊断研究成为热点,并已取得初步成果[9]。目前,针对新冠肺炎的AI辅助诊断通常采用影像组学或深度学习的方法,然而影像组学病灶需要医生手工标记,存在主观偏差,深度学习的结果可解释性差。本研究综合深度学习和影像组学的优点,通过深度学习实现肺炎病灶的自动、客观分割,然后通过提取CT图像的影像组学特征建立模型,以诊断和鉴别COVID-19肺炎和非COVID-19病毒性肺炎。
1 资料与方法
1.1 样本数据本研究回顾性收集2020年1月至2020年2月于我院确诊的6例COVID-19肺炎患者和17例普通病毒性肺炎患者资料,从网上的公开数据库下载20例COVID-19肺炎患者的CT影像(http://doi.org/10.5281/zenodo.3757476)。纳入组标准为患者通过RT-PCR或病毒抗原检测的方法确诊为COVID-19阳性或非COVID-19的病毒性肺炎;排除标准为CT影像无明显肺炎征象。排除2例无肺炎患者后,最终入组24例COVID-19肺炎患者,其中来自公开数据集19例,来源本院5例[男性4例,女性1例,平均年龄(46.2±13.0)岁];来源本院的普通病毒性肺炎患者17例[男性13例,女性4例,平均年龄(54.6±17.2)岁],其中包括12例甲型流感、2例乙型流感和3例腺病毒肺炎。将入组患者分为训练集和验证集,其中训练集包括19例来自公开数据库的COVID-19患者和10例来自本院的普通病毒性肺炎患者,验证集包括来自本院的5例COVID-19患者以及7例普通病毒性肺炎患者。分别采用Mann-Whitney秩和检验和χ2检验比较验证两组患者年龄和性别的差异,结果显示COVID-19患者和普通病毒性肺炎患者在年龄(P=0.347)和性别(P=0.869)上差异均无统计学意义。
1.2 CT影像采集方法所有病例的胸部CT图像均采集于BrightSpeed CT Scanner(GE),扫描参数如下:管电压120kV,自动毫安,矩阵512×512,准直5mm,重建层厚5mm(厚层)和1.25mm(薄层)。训练呼吸后采用吸气后憋气扫描,扫描范围自肺尖至肺底。
1.3 基于深度学习的肺炎病灶分割肺炎病灶分割采用北京推想科技有限公司预训练的模型在InferScholar科研平台上完成,模型基于ResNet18网络架构,经过超过700例肺炎患者的CT影像建模训练完成。
1.4 影像组学特征提取和筛选所有的CT影像经图像重采样及图像灰度标准化等预处理后,采用pyradiomics工具包(https://pyradiomics.readthedocs.io)分别提取CT序列图像中每一帧的影像组学特征。总共提取的1184个影像组学特征分为四组:(1)形状特征:包含14个反映区域形状和大小的二维特征;(2)一阶统计特征:包含90个通过常用和基本度量来描述由掩模定义的图像区域内的体素强度分布的特征;(3)纹理特征:包含105个灰度共生矩阵特征、70个灰度相关矩阵特征、80个灰度级长矩阵特征、80个灰度及带矩阵特征和25个邻域灰度差分矩阵特征;(4)图像滤波特征:采用wavelet-HHH、wavelet-HHL、wavelet-HLL、wavelet-LLL、wavelet-LHH、wavelet-LLH、wavelet-HLH和wavelet-LHL在内的八种小波变换滤波器组合方式,对原始图像进行滤波处理及小波变换后提取的特征,共计720个特征。
为了避免不相关因素的干扰,简化预测模型并优化模型性能,采用了LASSO回归算法进行特征降维,通过十折交叉验证的方式选择最优调和参数lambda,将无关特征的系数降至零,保留系数为非零的特征用于后续建模。
1.5 基于机器学习的诊断模型建立和验证将通过AI自动分割炎症病灶后的新冠肺炎和普通病毒性肺炎的CT影像随机分为训练集和验证集,其中训练集包括来自于公开数据集19例新冠肺炎患者的1842幅CT图像和来自于10例普通病毒性肺炎患者的2477幅CT图像,验证集包括来自于5例新冠肺炎患者的1567幅CT图像(包括1375幅薄层CT和192幅厚层CT图像)和来自于7例普通病毒性肺炎患者的1184幅CT图像(包括1011幅薄层CT和173幅厚层CT图像)。
分别采用高斯朴素贝叶斯(Gaussian Naïve Bayes)、随机森林(Random Forest)以及极端梯度提升(eXtreme Gradient Boosting)的方法,对经过LASSO回归降维筛选出的组学特征分别在训练集中建立针对每一帧CT图像中病灶的预测模型,计算其为新冠肺炎的概率,并在验证集中测试模型性能。数据分析和建模过程均在北京推想科技有限公司的InferScholar科研平台上完成。
对于每个CT序列影像,首先分别计算包含病灶的每一帧图像为新冠肺炎的概率(per-slice diagnosis),并计算概率最高的前20%影像的平均值作为该CT序列影像为新冠肺炎的概率(per-CT diagnosis)。
实验设计流程如图1所示。
1.6 统计学分析采用Mann-Whitney秩和检验以及χ2检验分析新冠肺炎和普通病毒性肺炎患者临床信息间的差异,采用Dice系数(Dice coefficient)评估深度学习肺炎病灶分割的准确性,采用受试者工作曲线(receiver operating curve,ROC)、曲线下面积(area under curve,AUC)、灵敏度(sensitivity)和特异度(specificity)来评估新冠肺炎诊断效能,采用Delong Test来评估两条受试者工作曲线的差异。P<0.05为具有统计学差异。
2 结 果
2.1 肺炎病灶分割结果以人工标记结果为“金标准”,在19例来自公开数据集的新冠肺炎CT影像中评估InferScholar平台肺炎分割模型对CT影像中炎症病灶自动分割的准确性。如图2所示,在每一幅CT图像上(per-slice level)分割结果的Dice系数为(0.835±0.122),在每一例CT序列影像中(per-CT level)分割结果的Dice系数为(0.864±0.036),同时AI分割的病灶每一幅CT图像上的面积或者在每一例CT序列影像中的体积与人工标记结果有着非常好的一致性,这些结果表明AI具有良好的分割准确度。
2.2 影像组学特征筛选结果对于提取的1184个影像组学特征,采用lasso回归方法进行降维,保留对应lambda值下相关系数不为零的组学特征(图3),最终结果表明glcm_ClusterTendency_wavelet-LHL,glcm_Contrast_original,firstorder_Variance_wavelet-LHH,glszm_GrayLevelVariance_wavelet-LHL,glcm_ClusterTendency_wavelet-HHL,firstorder_Variance_wavelet-HHH,glrlm_GrayLevelVariance_wavelet-HHL,glcm_DifferenceVariance_wavelet-HHL,glszm_SmallAreaEmphasis_exponential这9个影像组学特征与COVID-19与普通病毒性肺炎的鉴别诊断有较强关联,将用于后续分析(图3)。
2.3 影像组学模型在单帧CT图像的新冠肺炎诊断结果分析针对每一帧CT图像的新冠肺炎诊断,如图4所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分类器的组学模型在薄层CT影像验证集上的AUC分别为0.919、0.838和0.829,在厚层CT影像验证集上的AUC分别为0.802、0.730和0.715,基于Gaussian Naïve Bayes的模型获得了相对更好的效能,组学模型在薄层CT影像上的预测性能普遍优于在厚层CT影像上的预测性能(P<0.05)。
图4 影像组学预测模型在每一帧CT图像上的ROC曲线,红色代表薄层CT影像的ROC曲线,蓝色代表厚层CT影像的ROC曲线。图5 影像组学预测模型在CT序列影像上的ROC曲线,红色代表薄层CT影像的ROC曲线,蓝色代表厚层CT影像的ROC曲线。
2.4 影像组学模型在CT序列影像层面的新冠肺炎诊断结果分析针对CT序列影像的新冠肺炎诊断,如图5所示,采用Gaussian Naive Bayes、Random Forest和XGBoost分类器的组学模型在薄层CT影像验证集上的AUC分别为0.829、0.829和0.857,在厚层CT影像验证集上的AUC分别为0.786、0.743和0.743,基于三种分类器的模型性能基本相当,组学模型在薄层CT影像上的预测效能略优于在厚层CT影像上的预测性能,但差异无统计学意义(Gaussian Naive Bayes,P=0.651;Random Forest,P=0.686;XGBoost,P=0.425)。
3 讨 论
根据国家卫生健康委员会发布的《新型冠状病毒肺炎诊疗方案(试行第七版)》,CT检查已纳入COVID-19诊断标准与出院标准,且在监测病情进展中发挥重要作用[10]。疫情防控需求使胸部CT检查的患者人数剧增,每天阅读海量CT图像给放射科医师诊断工作带来严峻考验,此外,常规影像诊断方法对COVID-19肺炎与普通病毒性肺炎鉴别困难。目前,基于胸部CT的AI辅助诊断研究表明,AI不仅可以有效筛查COVID-19[9],减轻放射科医师负担,而且可以评估病情变化,提高诊断效率[11-12]。但常用的AI技术均采用深度学习的方法,无法为系统的决策提供可视化的解释,缺乏透明性。影像组学可以挖掘医学影像中临床医师肉眼不能发现的特征,对病灶部位的异质性进行定量,从而更好地辅助临床诊断。刘发明等[13]采用传统的机器学习方法构建了有效的COVID-19诊断系统,结果表明影像组学特征可用于COVID-19患者和其他肺炎患者的分类。但传统的影像组学方法要求医生手工标注病变区域,不仅费时费力,还可能因为不同医生标记的主观偏差对结果造成影响。为了充分利用深度学习和影像组学的优点,规避其缺点,本研究采用深度学习与影像组学相结合建模的方法,首先利用深度学习自动分割胸部CT中肺炎病灶区域,在提升效率的同时也避免了医生标注的主观偏差,进而通过病灶区域进行影像组学特征分析建模,避免了深度学习的“黑盒子”,保证了结果的可解释性。同时,为了解决传统影像组学要求数据层厚一致,限制了模型在临床中的应用范围的问题,本研究采用了基于单幅CT图像的2D影像组学建模和综合所有层面CT图像的整体评估方法,能同时用于不同层厚CT影像的新冠肺炎辅助诊断。对比试验表明,本研究的AI模型对于薄层和厚层CT影像均有较好的诊断效能。
医学图像分割是AI辅助检测的关键一步,分割精准度对后续图像的分析处理起着至关重要的作用。传统的医学图像分割方法存在着耗费大量的人力和时间,易受主观意识的影响导致分割的差异性等问题。近年来,深度学习在图像分割领域取得了显著成就。Liauchuk等[14]在CT图像上采用GoogLeNet CNN检测肺结节,发现基于CNN检测病灶较传统的基于特征提取方法具有相对较高的灵敏度和特异性。Xu等[15]设计了一种堆叠稀疏自编码器(SSAE)实例的深度学习策略,应用于乳腺癌组织病理学的自动化细胞核检测,显示SSAE优于基线方法。深度学习对医学图像病灶分割明显优于浅层神经网络算法,可以辅助医生定量分析和诊断疾病[16]。本文采用基于ResNet网络的分割方法分割肺炎病灶,经验证具有较高的分割精准度。
本研究选择高斯朴素贝叶斯、随机森林、极端梯度提升三种先进的机器学习算法进行建模,结果显示,基于三种分类器的智能诊断模型均有助于鉴别COVID-19和非COVID-19病毒性肺炎。在三种机器学习分类算法中,高斯朴素贝叶斯表现出最好的诊断效能。
本研究存在的不足之处:(1)数据样本量较小,后续研究中将收集更多的病例,以提高该模型的灵敏度和特异性;(2)基于深度学习的肺炎病灶分割精度还有待于进一步提高;(3)病例收集区域较局限,影像组学特征提取可能存在不够典型的缺点。