不同CT图像重建算法下基于深度学习的肺结节检测算法效能

2019-12-19刘珍娟傅迎霞张宗军

中国医学影像技术 2019年12期

刘珍娟，傅迎霞，张羽，彭飞，张宗军

(南京中医药大学附属中西医结合医院放射科，江苏省中医药研究院，江苏南京 210028)

CT已成为肺癌筛查的通用手段。近年来将深度学习(deep learning, DL)技术用于CT筛查肺结节，取得了较好效果[1-2]，其基础首先在于获得高质量的CT图像，而后需要专业医师逐个筛查存在肺结节的病例，工作量大、效率低，易漏诊小结节、特别是与血管相连者。另外，CT轴位图像中，血管断面、结节样胸膜增厚、小纤维条索影均可能影响医生诊断。本研究量化评估CT图像重建算法对于基于DL的肺结节检测模型的影响。影响CT成像效果的关键因素包括辐射剂量[3-5]、重建层厚[6-8]及算法[9-13]等。

1 资料与方法

1.1 一般资料收集298例于我院接受肺部CT检查患者，男147例，女151例，年龄14～90岁，中位年龄54岁。

1.2 仪器与方法采用Philips Brilliance 16螺旋CT机于吸气末进行全肺扫描。嘱患者仰卧，扫描参数：管电压120 kV，重建层厚1.5 mm，重建层间距1.5 mm，矩阵512×512，像素间距0.683 mm。分别采用肺窗重建(LungB)、纵隔重建(SB)及骨窗重建(EB)图像进行评价，见图1。

1.3 肺结节检出模型采用Dr.Wise肺结节辅助诊断系统检测肺结节，该系统由肺结节候选区域提取模块和假阳性消除模块构成。前者通过提取结节候选区域，结合图像及特征金字塔进行检测：将整幅CT图像作为输入，并输出一系列带有置信度得分的候选区域，用每个候选区域在CT图像中的3个方向(x,y,z)及其直径r来表示，生成一系列不同尺度的特征图，从而在适当分辨率下检测结节。后者在原始CT图像中以候选区域为中心，裁剪出固定大小的三维图像块，作为假阳性消除模块的输入，用于消除非结节候选区域。结节大小差异巨大，影响模型训练，可用图像金字塔策略来生成网络的输入，或以特征金字塔池化策略来获取不同分类率下的图像信息。

1.4 实验流程以多名医师标注结果作为检验肺结节检出的标准。由2名主治医师以双盲法阅片进行初步筛选，再以计算机判断2名医师标注的一致性，若一致则判定图像为结节，若不一致则由1名副主任医师(15年以上工作经验)进行判定，并作为最终结果。

运行基于DL的肺结节检测系统，将其检出结果与医师标注结果进行对比，以此得到不同重建算法下该系统检出结节的敏感度、准确率、假阳性率和F分数等指标。之后分别在结节类型和尺寸划分下对不同重建算法的指标进行对比分析，最后由医师审核在不同重建算法下的系统检测出的假阳性结节，确认其具体分布。

1.5 统计学分析采用Scipy 1.0.0统计分析软件。分别统计3种重建算法下的肺结节检出敏感度、准确率和平衡F分数(F1-score)，后者计算公式为：

采用Kruskal-Wallis检验[14]分析3种算法下检出结节的敏感度以及假阳性结节在不同类别之间的分布，P<0.05为差异有统计学意义。

图1 患者男，53岁，3种重建算法下肺结节成像效果对比(从左往右依次为肺、纵隔、骨重建算法图像)

2 结果

2.1 检出肺结节 3种重建算法检出肺结节的各项指标见表1。骨窗重建算法下的敏感度最高，纵隔重建算法下的敏感度最低。纵隔重建算法准确率最高，肺窗重建算法的准确率最低。见图2。纵隔重建F分数最高，肺窗重建F分数最低。不同重建算法下结节检出敏感度差异无显著统计学意义(P>0.05)。不同重建算法对于实性、磨玻璃、部分实性、钙化结节4种类型结节的检出敏感度差异无统计学意义(P均>0.05，表2)。

参照文献[15]，将6.0 mm作为分界线,比较系统对于不同大小结节的敏感度。纵隔重建算法下，系统对6.1～30.0 mm结节的敏感性较0～6.0 mm明显升高。不同重建算法下，系统对于不同大小结节的检出敏感度差异无统计学意义(P均>0.05)。见表3。

2.2 误检和漏标注分析对不同重建算法下系统检出而医生未标注结节进行判定，确认为非结节类型者为系统误检(图3)，确认为结节类型者为医生漏标注。3种重建算法之间差异无统计学意义(P均>0.05)。见表4。

3种重建算法下医师漏标结节数量在不同类型结节之间的分布见表5。不同重建算法下，医师漏标结节数量在不同类型结节之间差异无统计学意义(P均>0.05)。

表1 不同重建算法检出肺结节指标比较

图2 患者男，45岁，3种重建算法下假阳性结节对比(从左往右依次为肺、纵隔、骨重建算法图像)

表2 不同重建算法检出不同类型结节

表3 不同重建算法对不同大小肺结节的检出率(%)

表4 不同重建算法下检测算法检出而医生未标注结节的分布[个(%)]

表5 不同重建算法下假阳性结节分布[个(%)]

3 讨论

以卷积神经网络为代表的DL算法在医学影像分析领域已取得显著进步，基于DL的肺结节辅助诊断已成为热门研究课题，人工智能与医疗相结合，将成为未来肺结节检测方向[9-11]。不同重建算法得到的CT图像质量不同(图1)，DL算法的检出效能在很大程度上依赖高质量图像，同时，不同CT重建算法下，医师诊断也会有所差异，使得观察不同CT重建算法下图像对肺结节模型检出和对医师诊断的影响显得尤为重要[11-13]。纵隔重建最为平滑，一般用于诊断纵隔相关疾病；骨窗重建最为锐利，一般用于诊断骨相关疾病；而肺窗重建介于两者之间，一般用于诊断肺部相关疾病。

传统计算机辅助诊断(computer aided diagnosis，CAD)半自动检测肺结节，需要医师手动给出结节位置[16]。Dr.Wise肺结节辅助诊断系统采用DL技术为基础，可全自动检测肺结节，使用方便，且在肺窗、纵隔、骨窗3种重建算法下对肺结节的敏感度均较高(表1)。该系统在肺窗和骨窗重建下敏感度均较高，而骨窗重建下假阳性率更低，即在骨窗重建图像上能取得较高敏感度和较低假阳性率；纵隔重建下敏感度、假阳性率均最低，而准确率最高，且F分数较高，故总体性能最优。不同重建算法下，无论是模型检出、模型漏检类别还是医师漏标，在不同类别结节之间差异均无统计学意义，提示算法对系统检出性能无显著影响。

既往研究[9-12]多采用小样本或模拟仿真技术。本研究由多名医师对298例患者3种不同重建算法CT图像分别进行标注、审核，较好地保证了数据的真实性和标注的准确率。以往观察重建算法侧重于图像质量，多由医师评估图像质量，对算法检出效能缺少系统全面的评价[11-13]。本研究在固定仪器参数下，分别对肺窗、纵隔、骨窗3种重建算法对检出不同大小、不同类别结节的敏感度、准确率、假阳性率和F分数等多项指标，以及系统误检和医师漏标情况进行对比分析，主要观察模型在不同的重建算法下的检出效能，具有一定前瞻性。3种重建算法下，系统对于钙化结节的检出敏感度达96%～98%，均高于另外3种类型；对于其余类型结节，不同重建算法下的检出敏感度多在91%～94%。经医师确认后，假阳性结节中，结节和非结节占比均为50%左右，提示不同重建算法对于假阳性结节数量影响较小。

本研究主要局限性在于不同类别结节数量分布不均匀(表2)，实性结节较多，其他类型结节较少；其次，所有肺结节均由放射科医师凭借经验标记，未经病理检查验证。

综上，采用基于DL的肺结节检查算法能明显减轻医师工作量，提高工作效率。采用肺窗和骨窗重建检出敏感度更高；以DL算法检出结节，再由医师筛出假阳性结节，可显著提高识别结节的精度，更有利于医师精确诊断，减少漏诊或误诊率，提高诊断肺结节的准确率，促进推广肺癌早期筛查[17-18]。