基于密度分布特征的深度神经网络模型诊断COVID-19的价值

2022-09-07李文韩冬郭佑民任转勤田宏哲

中国医学物理学杂志 2022年8期

李文，韩冬，郭佑民，任转勤，田宏哲

1.宝鸡市中心医院医学影像科，陕西宝鸡 721008；2.陕西中医药大学附属医院医学影像科，陕西咸阳 712021；3.西安交通大学第一附属医院医学影像科，陕西西安 710061

前言

新型冠状病毒肺炎（Corona Virus Disease 2019,COVID-19）已被WHO 列为突发公共卫生事件。COVID-19 传播性强，仅数月已对人类社会造成巨大危害［1-2］。胸部CT 检查便捷、敏感性高，对筛查COVID-19有重要价值［3-4］，其典型肺部表现为胸膜下多发磨玻璃影（Ground Glass Opacities,GGO）［5］。但作为病毒性肺炎的一种，COVID-19 与其它病毒性或细菌性肺炎的CT 表现存在重叠，即使是有经验的影像科医师对COVID-19 的诊断特异性仍较低［6-7］。近年来，深度学习技术在图像分类领域有了长足发展，尤其对医学图像诊断的准确性及效率均较高［8］。本研究分别建立基于密度分布特征（Characteristics of Density Distribution, CDD）及传统胸部CT 图像特征（CT Imaging Features, CTIF）的深度神经网络（Deep Neural Network, DNN）模型，即DNN-CDD 及DNNCTIF模型，并评估两者诊断COVID-19的价值。

1 资料与方法

1.1 一般资料

收集2020年01月23日至2020年02月25日在陕西中医药大学附属医院（医院1）、宝鸡市中心医院（医院2）及延安大学附属医院（医院3）发热门诊就诊患者的CT 图像资料。纳入标准：①包括全肺的CT图像，层厚1.25 mm，有肉眼可见的肺炎病变；②接受COVID-19 核酸检测。排除标准：①CT 图像存在呼吸运动伪影；②CT 图像存在较严重的间质病变。共纳入85 例患者，女45 例，男40 例，年龄14～89 岁，中位年龄44 岁。依据COVID-19 核酸检测结果将患者分为COVID-19 组和对照组，其中COVID-19 组42例、132 份CT 图像，对照组43 例、79 份CT 图像。将医院1 及医院2 的病例作为训练集（128 份CT 图像，包括COVID-19 组的80 份CT 图像，对照组的48 份CT图像，医院3的病例作为验证集（83份CT图像，包括COVID-19 组的52 份CT 图像，对照组的31 份CT图像）。

1.2 CT数据采集

CT 扫描范围从胸廓入口至肋膈角，于深吸气后屏气启动扫描，CT扫描条件见表1。

1.3 CTIF的评价

参考北美放射学会（Radiological Society of North America,RSNA)、胸部放射学会及美国放射学会发布的COVID-19 结构化报告中的CT 表现［9］，由两名影像科医生评价以下CT图像特征：GGO 左右分布、GGO 位置分布、GGO 优势分布、GGO 数量、GGO类型、GGO 形态、小叶核心结节/树芽征、实性结节、气腔实变、淋巴结肿大、胸膜腔积液、支气管壁增厚及小叶间隔增厚。患者核酸检测结果对两名影像科医生设盲，评价结果相背时，由两人共同商议决定，最后构建DNN-CTIF模型。

1.4 CDD提取

采用计算机辅助分析平台“数字肺”（Digital Lung DEXIN,China）中的肺炎模块对胸部CT图像进行分析。该模块通过训练2 000例社区获得性肺炎患者的胸部CT 图像获得全卷积神经网络模型，用于自动分割肺炎区域，并计算肺炎体积及其-700～60 HU的CDD，即肺炎-700～60 HU（间隔10 HU）不同密度的体积所占全肺体积的百分比（VPneumonia/Vlung,P/L%），用于构建DNN-CDD模型（图1、图2）。

图1 女，37岁，确诊为COVID-19Figure 1 A 37-year-old female diagnosed with COVID-19

图2 男，30岁，确诊为肺炎支原体肺炎Figure 2 A 30-year-old male diagnosed with mycoplasma pneumoniae pneumonia

1.5 统计学方法

数据分析采用R 语言（v.3.6.3），以P＜0.05 为差异具有统计学意义。对服从正态分布且方差齐的连续资料比较采用独立样本t检验，否则采用Mann-WhitneyU检验。计数资料比较采用χ2检验或Fisher确切概率法。CDD 降维采用弹性网络，经交叉验证确定最优α及λ值（均为调优参数，用于降维），降维后的特征作为DNN-CDD 模型的输入。CTIF 以训练集两组差异P＜0.1 的变量作为输入；采用开源的人工智能平台，即H2O 人工智能（基于R），构建DNN-CTIF模型。采用网格搜索优化弹性网络及DNN 的参数，建模以Logloss 作为损失函数。采用“pROC”包的ROC 曲线评价两个模型的诊断性能，采用Delong 检验比较模型的AUC，采用决策曲线分析比较模型对患者的净获益情况。

2 结果

2.1 基本资料比较

对照组中的19例有病原学证据，其中，11例为细菌性肺炎（鲍曼不动杆菌感染3 例、肺炎克雷伯杆菌感染3 例、大肠埃希菌2 例、铜绿假单胞菌感染1 例、金黄色葡萄球菌感染1 例、流感嗜血杆菌1 例），3 例肺炎支原体肺炎，5例病毒性肺炎（4例甲型流感病毒性肺炎、1例乙型流感病毒性肺炎）。

COVID-19 组有咽痛（13/42）表现的患者构成比高于对照组（5/43），差异有统计学意义（χ2=4.753,P=0.029）；COVID-19 组有疫区旅居史的构成比高于对照组，差异有统计学意义（χ2=23.841,P＜0.001）。两组患者的年龄、性别、核酸检测检测次数、发热、咳嗽、肌肉酸痛以及发热至首次CT 扫描间隔的差异均无统计学意义（P＞0.05），详见表2。

表2 两组患者基本资料比较Table 2 Comparison of general data between two groups

2.2 DNN-CTIF模型

2.2.1 训练集及验证集的CTIF比较在训练集，GGO左右分布、GGO 优势分布、淋巴结肿大及小叶间隔增厚差异均有统计学意义（P＜0.05）；其它CTIF 特征差异均无统计学意义（P＞0.05）。在验证集，GGO 位置分布、淋巴结肿大及小叶间隔增厚差异有统计学意义（P＜0.05）；其它CTIF特征差异无统计学意义（P＞0.05）。详见表3。

表3 训练集及验证集的CT表现比较［例（%）］Table 3 CT performance comparison of training set and validation set［cases(%)］

2.2.2 DNN-CTIF模型建立将训练集两组差异P＜0.1的7个CT表现作为输入用于DNN训练。将网格搜索中AUC最高的模型作为最优模型。该模型训练52回合后收敛，Logloss为0.454。其输入层包含7个神经元，即上述7个CT表现，输入神经元无丢弃；隐藏层为两层，每层分别包含5个神经元，激活函数为无丢弃的Retifier，两个隐藏层平均权重分别为-0.034及-0.127，平均截距为0.568及0.899；输出层包含2个神经元，即COVID-19及非COVID-19的概率，激活函数为Softmax，该层平均权重为1.070，平均截距为0.000 058。

2.3 DNN-CDD模型

2.3.1 CDD降维两组患者肺炎CDD热图（图3）用于可视化两组患者肺炎密度分布差异。CDD 采用弹性网络降维，经网络搜索及交叉验证后，结果表明当α=1及λ=0 时模型准确性最高（图4a）。为使模型更加简洁，进一步交叉验证确定后，最优λ为0.013 151 69（lnλ=-4.331）（图4b、c）。最终将76个特征压缩为11个非零系数CDD，分别为-580～-571 HU、-570～561 HU、-560～-551 HU、-550～-541 HU、-480～-471 HU、-440～-431 HU、-390～-381 HU、-380～-371 HU、-20～-11 HU、0～9 HU及20～29 HU。

图3 两组患者肺炎CDD热图Figure 3 CDD heat map of pneumonia in two groups

图4 弹性网络降维过程Figure 4 Dimensionality reduction by elastic network

2.3.2 DNN-CDD模型建立以上述获得的11个CDD作为神经网络输入神经元，在训练集构建DNN模型。经网格搜索生成AUC 最高的模型在105 回合后收敛，Logloss为0.322。其中输入神经元无丢弃；隐藏层为两层，每层分别包含10个神经元，激活函数为50%丢弃的Retifier，两个隐藏层平均权重分别为-0.001及-0.022，平均截距为0.458 及0.648；输出层包含2 个神经元，即COVID-19及非COVID-19的概率，激活函数为Softmax，该层平均权重为0.897，平均截距为0.005。

2.4 DNN-CDD与DNN-CTIF模型的比较

DNN-CDD 模型在验证集的AUC 大于CTIF 模型（表4，图5～图6），差异有统计学意义（Z=1.983,P=0.047）。决策曲线分析结果表明DNN-CDD 模型在0.04～1.00 概率阈值范围所有患者的净获益程度大于DNN-CTIF模型（图7）。

图5 DNN-CTIF模型的ROC曲线Figure 5 ROC curve of DNN-CTIF model

图6 DNN-CDD模型的ROC曲线Figure 6 ROC curve of DNN-CDD model

图7 CTIF和CDD模型的决策曲线Figure 7 Decision curve of DNN-CTIF and DNN-CDD models

表4 DNN-CTIF模型和DNN-CDD模型的性能比较Table 4 Comparison of diagnostic performances between DNN-CTIF model and DNN-CDD model

3 讨论

胸部CT对COVID-19的检测有较高的敏感性，且高于RT-PCR［7,10］，几乎所有肺部病灶CT均易检出。尽管COVID-19具有相对典型的CT表现，如早期出现单侧或双侧胸膜下斑片状GGO，进展期肺炎病灶数目增多、范围增大，实变与GGO共存，重症患者表现为双肺弥漫性病变、多发GGO及“铺路石征”等，但其CT表现仍与其他肺部感染性病变重叠，CT诊断特异性依然不高［11-14］。因此，RSNA、胸部放射学会及美国放射学会共同发布了COVID-19的胸部CT结构化报告，目的在于规范COVID-19的CT表现的标准化语言，以期减少对CT表现描述的不确定性。本研究参考该结构化报告，将单变量分析时P＜0.1 的变量作为DNN 输入，包括COVID-19对GGO描述的左右分布、位置分布、优势分布、形态以及小叶间隔增厚这5个常见表现及淋巴结肿大及支气管壁增厚这2个少见表现［15-17］。最终构建的DNN-CTIF模型在训练集表现出较高的AUC，在训练集及验证集采用相同的阈值时均具有较高的特异性。

肺炎作为一种弥漫性病变，采用传统半定量的分析方法存在一定局限性［18-20］。定量CT软件系统可进行肺部病变范围的自动分割、自动定量，并能对比病变动态变化过程［21-22］。本研究通过定量CT软件系统的肺炎模块自动提取了肺炎的CDD。在弹性网络及DNN 参数优化中均采用了网格搜索，主要思想是在搜索范围内遍历所有参数组合来确定最优参数，一般采用较大的搜索范围以及较小的步长来确定全局最优值。在弹性网络中，网格搜索确定了最优α及λ值。在DNN中采用网格搜索确定DNN结构。最终获得的DNN-CDD模型在训练集、验证集鉴别两种病变均具有较高的诊断性能，尤其验证集的AUC 高于DNN-CTIF 模型，差异有统计学意义（P＜0.05）。决策曲线表明DNN-CDD模型在较大范围内优于DNN-CTIF模型。表明DNN-CDD模型有更优越的性能，可以使更多患者净获益。目前已有研究采用深度学习技术构建检测COVID-19 的三维卷积神经网络模型，在COVID-19、社区获得性肺炎以及非肺炎人群的胸部CT 图像中均具有较高的敏感性及特异性，表明深度学习技术在肺炎图像分割及分类方面有巨大应用潜力［23-25］。

文献［26］报道COVID-19 普遍易感，各年龄段均可累及，大多患者在30～79 岁之间。本研究患者年龄范围在14～89 岁，两组患者的年龄分布类似，差异无统计学意义（P＜0.05）。COVID-19 组及对照组患者构成比较高的临床症状有发热、咳嗽及咽痛，仅COVID-19 组咽痛的构成比高于对照组，差异有统计学意义（P＞0.05）。肌肉酸痛的构成比在两组均较低（＜10%）。疫区是指在COVID-19爆发地所在的省份，本研究COVID-19组有疫区史的患者构成比高达59.5%，表明疫区仍是COVID-19病例的主要传染源。文献［27］报道COVID-19患者与SARS类似，胸膜腔积液出现比例较低，而本研究中两组患者出现胸膜腔积液的构成比均较小，差异无统计学意义（P＞0.05）。

本研究不足之处：①两组患者CT 扫描设备不同，CDD 计算时可能存在误差，故本研究只纳入了1.25 mm 的薄层CT 图像，尽可能地控制误差；②本研究中所纳入病例来自3家不同医院，部分患者实验室检查及临床信息不完整。

综上所述，DNN-CTIF 模型与DNN-CDD 模型对于COVID-19 均具有较好的诊断性能，其中DNNCDD 模型优于DNN-CTIF 模型，有助于快速筛选COVID-19 患者。