基于密度分布特征的深度神经网络模型诊断COVID-19的价值
2022-09-07李文韩冬郭佑民任转勤田宏哲
李文,韩冬,郭佑民,任转勤,田宏哲
1.宝鸡市中心医院医学影像科,陕西宝鸡 721008;2.陕西中医药大学附属医院医学影像科,陕西咸阳 712021;3.西安交通大学第一附属医院医学影像科,陕西西安 710061
前言
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)已被WHO 列为突发公共卫生事件。COVID-19 传播性强,仅数月已对人类社会造成巨大危 害[1-2]。胸 部CT 检查 便 捷、敏感性 高,对筛查COVID-19有重要价值[3-4],其典型肺部表现为胸膜下多发磨玻璃影(Ground Glass Opacities,GGO)[5]。但作为病毒性肺炎的一种,COVID-19 与其它病毒性或细菌性肺炎的CT 表现存在重叠,即使是有经验的影像科医师对COVID-19 的诊断特异性仍较低[6-7]。近年来,深度学习技术在图像分类领域有了长足发展,尤其对医学图像诊断的准确性及效率均较高[8]。本研究分别建立基于密度分布特征(Characteristics of Density Distribution, CDD)及传统胸部CT 图像特征(CT Imaging Features, CTIF)的深度神经网络(Deep Neural Network, DNN)模型,即DNN-CDD 及DNNCTIF模型,并评估两者诊断COVID-19的价值。
1 资料与方法
1.1 一般资料
收 集2020年01月23日 至2020年02月25日 在陕西中医药大学附属医院(医院1)、宝鸡市中心医院(医院2)及延安大学附属医院(医院3)发热门诊就诊患者的CT 图像资料。纳入标准:①包括全肺的CT图像,层厚1.25 mm,有肉眼可见的肺炎病变;②接受COVID-19 核酸检测。排除标准:①CT 图像存在呼吸运动伪影;②CT 图像存在较严重的间质病变。共纳入85 例患者,女45 例,男40 例,年龄14~89 岁,中位年龄44 岁。依据COVID-19 核酸检测结果将患者分为COVID-19 组和对照组,其中COVID-19 组42例、132 份CT 图像,对照组43 例、79 份CT 图像。将医院1 及医院2 的病例作为训练集(128 份CT 图像,包括COVID-19 组 的80 份CT 图像,对照组的48 份CT图像,医院3的病例作为验证集(83份CT图像,包括COVID-19 组的52 份CT 图像,对照组的31 份CT图像)。
1.2 CT数据采集
CT 扫描范围从胸廓入口至肋膈角,于深吸气后屏气启动扫描,CT扫描条件见表1。
1.3 CTIF的评价
参考北美放射学会(Radiological Society of North America,RSNA)、胸部放射学会及美国放射学会发布的COVID-19 结构化报告中的CT 表现[9],由两名影像科医生评价以下CT图像特征:GGO 左右分布、GGO 位置分布、GGO 优势分布、GGO 数量、GGO类型、GGO 形态、小叶核心结节/树芽征、实性结节、气腔实变、淋巴结肿大、胸膜腔积液、支气管壁增厚及小叶间隔增厚。患者核酸检测结果对两名影像科医生设盲,评价结果相背时,由两人共同商议决定,最后构建DNN-CTIF模型。
1.4 CDD提取
采用计算机辅助分析平台“数字肺”(Digital Lung DEXIN,China)中的肺炎模块对胸部CT图像进行分析。该模块通过训练2 000例社区获得性肺炎患者的胸部CT 图像获得全卷积神经网络模型,用于自动分割肺炎区域,并计算肺炎体积及其-700~60 HU的CDD,即肺炎-700~60 HU(间隔10 HU)不同密度的体积所占全肺体积的百分比(VPneumonia/Vlung,P/L%),用于构建DNN-CDD模型(图1、图2)。
图1 女,37岁,确诊为COVID-19Figure 1 A 37-year-old female diagnosed with COVID-19
图2 男,30岁,确诊为肺炎支原体肺炎Figure 2 A 30-year-old male diagnosed with mycoplasma pneumoniae pneumonia
1.5 统计学方法
数据分析采用R 语言(v.3.6.3),以P<0.05 为差异具有统计学意义。对服从正态分布且方差齐的连续资料比较采用独立样本t检验,否则采用Mann-WhitneyU检验。计数资料比较采用χ2检验或Fisher确切概率法。CDD 降维采用弹性网络,经交叉验证确定最优α及λ值(均为调优参数,用于降维),降维后的特征作为DNN-CDD 模型的输入。CTIF 以训练集两组差异P<0.1 的变量作为输入;采用开源的人工智能平台,即H2O 人工智能(基于R),构建DNN-CTIF模型。采用网格搜索优化弹性网络及DNN 的参数,建模以Logloss 作为损失函数。采用“pROC”包的ROC 曲线评价两个模型的诊断性能,采用Delong 检验比较模型的AUC,采用决策曲线分析比较模型对患者的净获益情况。
2 结果
2.1 基本资料比较
对照组中的19例有病原学证据,其中,11例为细菌性肺炎(鲍曼不动杆菌感染3 例、肺炎克雷伯杆菌感染3 例、大肠埃希菌2 例、铜绿假单胞菌感染1 例、金黄色葡萄球菌感染1 例、流感嗜血杆菌1 例),3 例肺炎支原体肺炎,5例病毒性肺炎(4例甲型流感病毒性肺炎、1例乙型流感病毒性肺炎)。
COVID-19 组有咽痛(13/42)表现的患者构成比高于对照组(5/43),差异有统计学意义(χ2=4.753,P=0.029);COVID-19 组有疫区旅居史的构成比高于对照组,差异有统计学意义(χ2=23.841,P<0.001)。两组患者的年龄、性别、核酸检测检测次数、发热、咳嗽、肌肉酸痛以及发热至首次CT 扫描间隔的差异均无统计学意义(P>0.05),详见表2。
表2 两组患者基本资料比较Table 2 Comparison of general data between two groups
2.2 DNN-CTIF模型
2.2.1 训练集及验证集的CTIF比较 在训练集,GGO左右分布、GGO 优势分布、淋巴结肿大及小叶间隔增厚差异均有统计学意义(P<0.05);其它CTIF 特征差异均无统计学意义(P>0.05)。在验证集,GGO 位置分布、淋巴结肿大及小叶间隔增厚差异有统计学意义(P<0.05);其它CTIF特征差异无统计学意义(P>0.05)。详见表3。
表3 训练集及验证集的CT表现比较[例(%)]Table 3 CT performance comparison of training set and validation set[cases(%)]
2.2.2 DNN-CTIF模型建立 将训练集两组差异P<0.1的7个CT表现作为输入用于DNN训练。将网格搜索中AUC最高的模型作为最优模型。该模型训练52回合后收敛,Logloss为0.454。其输入层包含7个神经元,即上述7个CT表现,输入神经元无丢弃;隐藏层为两层,每层分别包含5个神经元,激活函数为无丢弃的Retifier,两个隐藏层平均权重分别为-0.034及-0.127,平均截距为0.568及0.899;输出层包含2个神经元,即COVID-19及非COVID-19的概率,激活函数为Softmax,该层平均权重为1.070,平均截距为0.000 058。
2.3 DNN-CDD模型
2.3.1 CDD降维 两组患者肺炎CDD热图(图3)用于可视化两组患者肺炎密度分布差异。CDD 采用弹性网络降维,经网络搜索及交叉验证后,结果表明当α=1及λ=0 时模型准确性最高(图4a)。为使模型更加简洁,进一步交叉验证确定后,最优λ为0.013 151 69(lnλ=-4.331)(图4b、c)。最终将76个特征压缩为11个非零系数CDD,分别为-580~-571 HU、-570~561 HU、-560~-551 HU、-550~-541 HU、-480~-471 HU、-440~-431 HU、-390~-381 HU、-380~-371 HU、-20~-11 HU、0~9 HU及20~29 HU。
图3 两组患者肺炎CDD热图Figure 3 CDD heat map of pneumonia in two groups
图4 弹性网络降维过程Figure 4 Dimensionality reduction by elastic network
2.3.2 DNN-CDD模型建立 以上述获得的11个CDD作为神经网络输入神经元,在训练集构建DNN模型。经网格搜索生成AUC 最高的模型在105 回合后收敛,Logloss为0.322。其中输入神经元无丢弃;隐藏层为两层,每层分别包含10个神经元,激活函数为50%丢弃的Retifier,两个隐藏层平均权重分别为-0.001及-0.022,平均截距为0.458 及0.648;输出层包含2 个神经元,即COVID-19及非COVID-19的概率,激活函数为Softmax,该层平均权重为0.897,平均截距为0.005。
2.4 DNN-CDD与DNN-CTIF模型的比较
DNN-CDD 模 型在验 证集的AUC 大 于CTIF 模型(表4,图5~图6),差异有统计学意义(Z=1.983,P=0.047)。决策曲线分析结果表明DNN-CDD 模型在0.04~1.00 概率阈值范围所有患者的净获益程度大于DNN-CTIF模型(图7)。
图5 DNN-CTIF模型的ROC曲线Figure 5 ROC curve of DNN-CTIF model
图6 DNN-CDD模型的ROC曲线Figure 6 ROC curve of DNN-CDD model
图7 CTIF和CDD模型的决策曲线Figure 7 Decision curve of DNN-CTIF and DNN-CDD models
表4 DNN-CTIF模型和DNN-CDD模型的性能比较Table 4 Comparison of diagnostic performances between DNN-CTIF model and DNN-CDD model
3 讨论
胸部CT对COVID-19的检测有较高的敏感性,且高于RT-PCR[7,10],几乎所有肺部病灶CT均易检出。尽管COVID-19具有相对典型的CT表现,如早期出现单侧或双侧胸膜下斑片状GGO,进展期肺炎病灶数目增多、范围增大,实变与GGO共存,重症患者表现为双肺弥漫性病变、多发GGO及“铺路石征”等,但其CT表现仍与其他肺部感染性病变重叠,CT诊断特异性依然不高[11-14]。因此,RSNA、胸部放射学会及美国放射学会共同发布了COVID-19的胸部CT结构化报告,目的在于规范COVID-19的CT表现的标准化语言,以期减少对CT表现描述的不确定性。本研究参考该结构化报告,将单变量分析时P<0.1 的变量作为DNN 输入,包括COVID-19对GGO描述的左右分布、位置分布、优势分布、形态以及小叶间隔增厚这5个常见表现及淋巴结肿大及支气管壁增厚这2个少见表现[15-17]。最终构建的DNN-CTIF模型在训练集表现出较高的AUC,在训练集及验证集采用相同的阈值时均具有较高的特异性。
肺炎作为一种弥漫性病变,采用传统半定量的分析方法存在一定局限性[18-20]。定量CT软件系统可进行肺部病变范围的自动分割、自动定量,并能对比病变动态变化过程[21-22]。本研究通过定量CT软件系统的肺炎模块自动提取了肺炎的CDD。在弹性网络及DNN 参数优化中均采用了网格搜索,主要思想是在搜索范围内遍历所有参数组合来确定最优参数,一般采用较大的搜索范围以及较小的步长来确定全局最优值。在弹性网络中,网格搜索确定了最优α及λ值。在DNN中采用网格搜索确定DNN结构。最终获得的DNN-CDD模型在训练集、验证集鉴别两种病变均具有较高的诊断性能,尤其验证集的AUC 高于DNN-CTIF 模型,差异有统计学意义(P<0.05)。决策曲线表明DNN-CDD模型在较大范围内优于DNN-CTIF模型。表明DNN-CDD模型有更优越的性能,可以使更多患者净获益。目前已有研究采用深度学习技术构建检测COVID-19 的三维卷积神经网络模型,在COVID-19、社区获得性肺炎以及非肺炎人群的胸部CT 图像中均具有较高的敏感性及特异性,表明深度学习技术在肺炎图像分割及分类方面有巨大应用潜力[23-25]。
文献[26]报道COVID-19 普遍易感,各年龄段均可累及,大多患者在30~79 岁之间。本研究患者年龄范围在14~89 岁,两组患者的年龄分布类似,差异无统计学意义(P<0.05)。COVID-19 组及对照组患者构成比较高的临床症状有发热、咳嗽及咽痛,仅COVID-19 组咽痛的构成比高于对照组,差异有统计学意义(P>0.05)。肌肉酸痛的构成比在两组均较低(<10%)。疫区是指在COVID-19爆发地所在的省份,本研究COVID-19组有疫区史的患者构成比高达59.5%,表明疫区仍是COVID-19病例的主要传染源。文献[27]报道COVID-19患者与SARS类似,胸膜腔积液出现比例较低,而本研究中两组患者出现胸膜腔积液的构成比均较小,差异无统计学意义(P>0.05)。
本研究不足之处:①两组患者CT 扫描设备不同,CDD 计算时可能存在误差,故本研究只纳入了1.25 mm 的薄层CT 图像,尽可能地控制误差;②本研究中所纳入病例来自3家不同医院,部分患者实验室检查及临床信息不完整。
综上所述,DNN-CTIF 模型与DNN-CDD 模型对于COVID-19 均具有较好的诊断性能,其中DNNCDD 模型优于DNN-CTIF 模型,有助于快速筛选COVID-19 患者。