APP下载

基于深度学习的继发性肺结核CT辅助诊断模型构建及验证

2024-03-04刘雪艳王芳李春华唐光孝郑娇凤王惠秋李玉蕊王佳男舒伟强吕圣秀

中国防痨杂志 2024年3期
关键词:放射科年资继发性

刘雪艳 王芳 李春华 唐光孝 郑娇凤 王惠秋 李玉蕊 王佳男 舒伟强 吕圣秀

结核病是由结核分枝杆菌感染引发的传染病,是全球范围内仅次于新型冠状病毒感染的导致人类死亡的第二大单一传染病[1]。作为结核病高负担国家,我国结核病防控的任务十分艰巨[2]。2022年全球登记报告的结核病患者中,肺结核占比高达83%[2],而继发性肺结核又是肺结核中最为常见的一种类型[3-4],若能实现对继发性肺结核的早期识别和诊断,及时进行治疗,将对结核病的防控具有重要意义。

影像学检查在结核病的诊疗中具有重要价值。在临床实践中,放射科医师可通过对影像的分析和比较进行继发性肺结核的诊断。然而,基于影像学的诊断严重依赖医生的经验与水平。但继发性肺结核的影像学表现具有多样性与多变性,在临床诊断中极易与其他肺部感染相混淆,且是一个耗时且主观的过程。医生根据CT图像进行疾病诊断时,不可避免地会出现主观和判断不一致的情况[5-6]。但随着人工智能的不断发展,大数据样本驱动下的深度学习模型可以从深层次挖掘出目标特征,实现医学影像数据的快速、精准识别,有望用于继发性肺结核的早期识别。相比于一般神经网络的分类器直接依赖于网络最后一层的特征,DenseNet网络可以综合利用浅层复杂度低的特征,得到一个泛化性能更好的分类模型[7]。由于该网络加强了特征传递,同时减轻了模型梯度消失的问题,可以在一定程度上减少模型参数量[8]。故本研究主要采用DenseNet算法构建继发性肺结核的辅助诊断模型,并评估其临床应用价值,同时采用基础网络模型(BasicNet)进行对比分析。

对象和方法

一、研究对象

1.资料收集:采用回顾性研究方法,收集2018年12月至2023年4月在重庆市公共卫生医疗救治中心接受胸部CT平扫的2004例患者的病例资料,根据纳入和排除标准分别归入肺部正常组[544例;女性331例,男性213例;年龄32(37~39)岁]、普通肺部感染组[526例;女性142例,男性384例;年龄57(45~71)岁;包括细菌性肺炎119例,真菌性肺炎103例,病毒性肺炎304例]和继发性肺结核组[934例;女性302例,男性632例;年龄52(34~65)岁]。

2.诊断、纳入和排除标准:(1)肺部正常组:纳入标准为年龄18周岁及以上;双肺发育正常,无任何病变。排除标准为图像质量不符合诊断要求。(2)普通肺部感染组:纳入标准为年龄18周岁及以上;满足肺部细菌、真菌或病毒感染的诊断标准[8-10];患者开始治疗前首次拍摄过胸部CT摄片。排除标准为患者合并继发性肺结核或肺部肿瘤性病变;肺部残留有非活动性肺结核的增殖灶、纤维灶或钙化灶;图像质量不符合诊断要求者。(3)继发性肺结核组:纳入标准为年龄18周岁及以上;参照《WS 288—2017肺结核诊断》[11]满足肺结核的诊断标准,且肺结核分型中包含继发性肺结核;患者开始抗结核治疗前首次拍摄过胸部CT摄片。排除标准为患者合并其他肺部病变者;图像质量不符合诊断要求者;人类免疫缺陷病毒感染者。

二、研究方法

1.研究流程:根据上述标准,搜集入选者的胸部CT平扫图像,构建基于深度学习算法的自动分类模型。针对研究对象的CT平扫图像,首先进行肺野分割,进一步基于肺野信息,实现正常肺部、普通肺部感染和继发性肺结核患者的分类鉴别,见图1。

图1 技术路线图

2.CT扫描参数:采用通用电气公司Optima CT 680 Expert 64排螺旋CT机、东软集团股份有限公司32排螺旋CT机、東芝公司Aquilion16排螺旋CT机进行胸部平扫检查。患者采取仰卧位,在深吸气后屏气状态下,从肺尖扫描至肺底肋膈角水平。管电压120 kV,管电流采用自动毫安秒。层厚及层距均为5 mm。每层重建为512×512矩阵,平面内像素空间分辨率为0.312 mm×0.312 mm~0.977 mm×0.977 mm。利用肺窗(窗位/窗宽:―600 HU/1500 HU)将每次扫描的CT值(亨氏单位)插值处理为1 mm×1 mm×5 mm,以减少扫描间层厚等变化。

3.肺野分割:所有图像均通过上海联影智能医疗科技有限公司独立研发的科研平台(uAI Research Portal,版本:20230515)进行处理。利用已经建立的深度学习模型VB-Net自动分割左侧肺野和右侧肺野区域。在笔者团队前期的工作中,模型的平均Dice相似系数(Dice similarity coefficient,DSC)高达0.989,平均DSC标准差为0.004[12]。该模型在其他与肺部感染相关的研究中也有被应用[13-14]。然后,由具有10年及以上胸部影像诊断经验的医师对自动分割的图像进行复核,对分割不准确的区域进行修订。

三、深度学习模型构建与验证

70.0%的研究对象(1402例)作为训练集,进行肺部正常组、普通肺部感染组和继发性肺结核组的深度学习分类模型构建,网络模型选择BasicNet和DenseNet。其中,基础对比模型BasicNet由4个Conv-Batch Normalization(BN)-Rectified Linear Unit(Relu)块组成。BN对神经网络层输出值进行归一化,使得输出层满足均值为0,方差为1的标准正态分布。Relu激活函数将输入特征映射到一个非线性特征空间,实现深度特征的复杂表达。研究主要使用的DenseNet模型是一个密集卷积神经网络,由4个密集连接块堆叠构建而成。密集连接块之间由1×1的卷积和池化层过渡连接,用于压缩参数量,降低计算复杂度。在N层DenseNet网络中,存在N(N+1)/2个连接层。BasicNet和DenseNet的末端均带有soft-max分类层,用于实现正常肺部、普通肺部感染和继发性肺结核的分类。在训练过程中,两个模型的超参数设置如下:spacing=0.7×0.7×5.0,crop size=64×64×64,采样方法为fixed_length,box center random=5×5×5,采用图像翻转、旋转、平移等方式进行数据增强处理,学习率=0.0001,损失函数为Focal loss。将30.0%的研究对象(602例)作为独立测试数据集应用于模型,并通过ROC曲线、校准曲线,以及敏感度、特异度、准确率、精确率等指标,评估模型分类性能。

在独立测试集中,随机挑选50例患者,让放射科3位不同年资[低年资(5年诊断经验)、中年资(10年诊断经验)、高年资(15年以上诊断经验)]的医生对该批患者做出自己独立的诊断,然后选择性能最优的人工智能模型与每位医生的诊断结果进行比较。

四、统计学处理

结 果

一、模型性能评估

1.预测性能评估:采用ROC曲线、校准曲线和混淆矩阵评估BasicNet模型和DenseNet模型的预测性能。结果显示,相较于BasicNet模型(平均AUC为89.4%),DenseNet模型(平均AUC为92.1%)对肺部正常组、普通肺部感染组和继发性肺结核组有更高的预测性能。见图2~7。

图2 BasicNet模型ROC曲线

图3 BasicNet模型校准曲线

图5 DenseNet模型ROC曲线

图6 DenseNet模型校准曲线

图7 DenseNet模型混淆矩阵

2.分类性能评估:采用AUC、敏感度、特异度、准确率、精确率和F1值评估BasicNet模型和DenseNet模型的分类性能。结果显示,DenseNet模型在三组研究样本中,分类性能高于BasicNet模型,其平均AUC、敏感度、特异度、准确率、精确率和F1值分别为92.1%和89.4%、79.7%和74.0%、89.4%和86.6%、86.2%和83.3%、77.8%和73.9%、78.5%和74.0%。在DenseNet模型中,正常肺部、普通肺部感染和继发性肺结核在测试集中分类性能良好,且正常肺部最容易被准确识别,其AUC、敏感度、特异度和准确率分别为96.7%、92.9%、90.8%和91.4%。普通肺部感染的诊断精确率最低,敏感度、特异度和准确率分别为68.8%、90.2%和84.7%,其中35例被误判为继发性肺结核,13例被误判为正常肺部。继发性肺结核的诊断敏感度虽然较正常肺部低,但其AUC、特异度、准确率、精确率和F1值均大于80%。见表1。

表1 2种模型的评价指标 (%)

二、人工智能模型与放射科医生诊断性能的比较

使用独立测试集,选择性能最优的人工智能模型与3位放射科医生的诊断性能进行比较。图8展示了DensNet模型和3位放射科医生对三分类任务的平均敏感度、特异度和准确性。图9~11分别展示了DenseNet模型和3位放射科医生在正常肺部、普通肺部感染和继发性肺结核组的诊断性能。在以上3个指标中,DenseNet模型的诊断性能优于低年资(5年资)医生,差异无统计学意义(准确性分别为90.7%和89.1%,P=1.000,Kappa=0.677);与中年资(10年资)医生的诊断性能相当,有较高的一致性(准确性分别为90.7%和92.2%,P=0.371,Kappa=0.746);与高年资(15年资)医生的诊断水平差异无统计学意义,且有极好的一致性(准确性分别为90.7%和95.3%,P=1.000,Kappa=0.819)。工作经验越长的放射科医师对普通肺部感染和继发性肺结核的诊断准确率越高,但中、高年资医生对普通肺部感染患者识别的敏感度仅分别为75.0%和83.3%,见图10。

图8 DenseNet模型和3位放射科医生对三组整体评价的对比结果

图9 DenseNet模型和3位放射科医生对肺部正常组评价的对比结果

图10 DenseNet模型和3位放射科医生对普通肺部感染组评价的对比结果

图11 DenseNet模型和3位放射科医生对继发性肺结核组评价的对比结果

讨 论

近10年来,随着深度卷积神经网络的兴起、大数据的累积和计算能力的大幅提升,人工智能技术在医学图像领域的应用不断发展。国内外研究机构纷纷利用深度学习技术投入到医疗影像的研究,使计算机辅助诊断系统的结构更为简化,诊断更为精确,并已在不同领域取得了初步成果[15-17]。这些良好的结果和成功的实践为人工智能在医学成像中辅助疾病诊断的临床应用奠定了基础。

本研究选择BasicNet和DenseNet两种不同的深度学习算法,构建不同的模型来实现正常肺部、普通肺部感染和继发性肺结核的3种分类的研究。研究发现,DenseNet模型较BasicNet模型对肺部正常组、普通肺部感染组和继发性肺结核组有更高的预测性能,平均AUC为92.1%。且DenseNet模型在三组研究样本中,平均AUC、敏感度、特异度、准确率、精确率和F1值分别为92.1%、79.7%、89.4%、86.2%、77.8%和78.5%,各项指标均高于BasicNet模型。从DenseNet结果看,正常肺部最容易被准确识别,普通肺部感染的诊断精确性最低。这可能是因为肺部正常组中的人群肺部无病灶存在,更容易被机器学习和掌握;而普通肺部感染组包括细菌性肺炎、真菌性肺炎及病毒性肺炎等不同疾病的患者,该组患者的影像学表现更为复杂,故机器学习的难度最大,诊断的精确率最低。而继发性肺结核组的诊断精确率虽然较肺部正常组低,但其AUC、特异度、准确率、精确率和F1值均大于80%。故本研究结果表明,在运用人工智能实现正常肺部、普通肺部感染和继发性肺结核三者的分类方面,DenseNet模型更值得进一步深入挖掘和开发。

近几年,关于肺结核检测的人工智能相关研究也在不断发展。早期研究主要集中在利用胸部X线摄片(简称“胸片”)实现对肺结核的诊断和筛查方面[18-19]。曾有多名学者运用不同的机器学习算法,以提高胸片在肺结核智能辅助诊断中的准确率[20-22]。但在实际工作中,胸片的临床诊断准确率通常低于胸部CT,因CT扫描在识别早期实质性病变、检测纵隔淋巴结肿大和确定结核病活动性方面都比胸片更敏感。随着CT技术的普及和公共数据库的建立,现在越来越注重CT影像的人工智能处理。2020年,Ma等[23]采用U-Net分割算法实现二维CT层面的活动性肺结核病灶分割,通过后处理方式(患者CT图像连续4个层面被检测为活动性肺结核病灶,且层与层之间的重叠大于30%),判断活动性肺结核组和非活动性肺结核组。他们的研究数据包括肺结核、肺炎和正常肺部3类患者,共846例。虽然在测试集得到较高的AUC值,但存在一些缺点,不利于应用推广,包括:(1)该研究没有评估活动性肺结核病灶分割的精确性,不知道U-Net分割模型的最终效能;(2)将三维CT图像拆分成二维图像进行处理,在图像分割任务中,直接忽略层与层之间的影响;(3)虽然研究纳入了肺炎患者,但最终分类结果中,将肺炎患者和肺部正常组归为一类,不清楚肺炎和肺结核分类的差异,大幅降低了分类模型的临床实用性。而本研究采用分类的方法,可对疾病的种类进行预测,具有一定的临床应用价值。最新研究报告显示,马依迪丽·尼加提等[24]利用960例活动性肺结核患者和980例非活动性肺结核患者的病例资料构建的深度学习框架(3D ResNet-50)显示,肺结核CT辅助诊断模型在区分活动性和非活动性肺结核方面,与经验丰富的放射科医生水平接近,可作为活动性肺结核检测及鉴别诊断的快速辅助诊断工具。本研究与马依迪丽·尼加提等[24]的研究均使用深度学习的方法进行分类模型构建,该方法可将患者的完整影像进行学习,不仅可以充分挖掘图像中的信息,还可以节约勾画时间及避免研究结果受勾画者主观因素的影响。但与DenseNet相比,ResNet对训练数据需求较高,且模型深度较深、复杂度较高、参数量大,需要更多的计算资源和存储空间,不利于实际临床应用部署。相较于Wang等[25]开发的非结核分枝杆菌肺病和肺结核的3D-ResNet分类模型,本研究基于DenseNet模型构建的正常肺部、普通肺部感染和继发性肺结核三分类模型,任务更难、样本量更大、分类性能更优。虽然吴树才等[26]研究发现,基于深度学习的卷积神经网络肺结核CT辅助诊断模型有较高的诊断敏感度和准确率,可辅助影像科医师进行肺结核诊断工作,但其纳入的研究对象均为肺结核确诊患者,未纳入普通肺部感染者,故其得出的结果属于符合性验证,而本研究纳入正常肺部、普通肺部感染和继发性肺结核患者,研究对象较前更为全面。

为进一步验证模型的性能,本研究使用独立测试集,将性能最优的DensNet模型与3位不同年资放射科医生的诊断结果进行比较。研究发现,在三分类任务的平均敏感度、特异度和准确率中,DenseNet模型的诊断性能优于低年资医生,与中年资医生的诊断性能相当,有较高的一致性;与高年资医生的诊断水平差异无统计学意义,且有极好的一致性,Kappa=0.819。以上结果表明,DenseNet模型在识别继发性肺结核等疾病方面,与放射科中年资医师的诊断水准相当,有望作为继发性肺结核的辅助诊断工具在临床中推广应用。研究还发现,工作经验越久的医师诊断准确性越高,但即使中、高年资医生也较难准确识别普通肺部感染患者,其敏感度分别为75.0%和83.3%。由此可见,普通肺部感染的诊断是放射科医生临床工作的一个难点,仍需要医务人员不断地加强学习和提升诊断能力。

本研究不足之处在于,虽然本中心患者来自川渝地区的各区县,具有一定区域代表性,但研究对象来自单中心,可能会存在“过拟合”的现象。研究队列中未包括人类免疫缺陷病毒感染者和儿童等特殊人群。因此,建议在今后的研究中,可扩大研究对象的覆盖范围和人群,采用川渝地区以外的多中心数据进行深入研究,这将对研究的进一步升华具有重要意义。

综上所述,DenseNet 模型较BasicNet模型在继发性肺结核的诊断识别中,各项指标表现更为优良,DenseNet 模型的诊断性能与放射科中年资医师的诊断水平相当,故该模型将来有可能成为继发性肺结核患者的早期筛查工具,从而实现该病的早发现和早治疗,为结核病的防控工作添砖加瓦。

利益冲突所有作者均声明不存在利益冲突

作者贡献刘雪艳:研究设计、模型构建、论文撰写;王芳:模型构建、统计学分析;李春华、唐光孝、郑娇凤和舒伟强:数据搜集、分析;王惠秋、李玉蕊和王佳男:模型性能评估、论文修改;吕圣秀:研究设计

猜你喜欢

放射科年资继发性
放射科住院医师职业倦怠研究进展
我国放射科住院医师规范化培训现状的调查与思考
混合模拟工作坊在低年资胸心外科住院医师规范化培训中的应用
放射科专业基地入科教育的实践探讨
2019年资管行业十大猜想
前列腺癌治疗与继发性糖代谢紊乱的相关性
基于“肝脾理论”探讨肠源性内毒素血症致继发性肝损伤
PDCA循环管理法在急诊科低年资护士培训中的应用
继发性青光眼应用玻璃体切除术联合治疗的临床效果观察
放射科安全管理