人工智能肺结节筛查系统检测不同类型肺结节的效能评估
2020-08-12胡志宇张晓琴
胡志宇,张晓琴
(1.内蒙古医科大学研究生学院,内蒙古 呼和浩特;2.内蒙古自治区人民医院,内蒙古 呼和浩特)
0 引言
肺癌是全球癌症死亡的主要原因,约占18.4%,一项以人群为基础的筛查项目的结果显示,肺癌导致的死亡人数超过了宫颈癌、乳腺癌和结直肠癌的总和[1]。肺癌患者的5年生存率只有15%,这是因为大约70%的患者在确诊时病情已经恶化[2]。目前早期肺癌筛查的主要手段为低剂量螺旋CT(low-dose computed tomography,LDCT),Ⅰ期肺癌通过低剂量螺旋CT 筛查检出后实施外科手术治疗,其预期 10年生存率可达 88%[3],大型随机对照试验表明与X 线相比LDCT 可降低20%的肺癌死亡率[4-5]。因此肺癌的早期诊断与治疗对患者生存率的提高显得至关重要。早期肺癌的主要CT 表现为肺结节,但是其检出结果受到诊断医师主观影响较大,并且随着工作量的逐渐增多,意味着缺乏经验的低年资影像科医师更容易漏诊或误诊[6]。人工智能(artificial intelligence,AI)是现今非常受欢迎的话题,其在影像医学诊断领域的研究应用深受瞩目,其中基于深度学习的肺结节辅助诊断系统凭借其强大的学习及分析能力逐渐受到认可。本研究分析AI 肺结节筛查系统在临床使用中对不同类型肺结节的检出效能,探讨其在临床中的应用价值。
1 研究对象与方法
1.1 研究对象
回 顾 性 收 集2018年12月1日 至2019年6月30日于内蒙古自治区人民医院进行肺部检查的117例患者为研究对象。其中男性患者51例(43.6%),女性患者66例(56.4%),年龄31~91岁,平均年龄(58.5±12.9)岁。纳入标准:①符合《肺结节诊治中国专家共识(2018年版)》相关诊断标准[7];② 所有患者均行低剂量螺旋CT 平扫检查。排除标准:①直径≤5mm 的肺结节;②弥漫性分布的磨玻璃影;③既往肺结核患者;④其他部位恶性肿瘤患者。
1.2 研究方法
1.2.1 影像学扫描
所有患者均使用德国SIEMENS 炫速双源CT(SOMATOM Definition Flash)进行扫描。患者取仰卧位、头先进,前臂举头上,深吸气后屏气开始扫描,扫描范围为肺尖部到双侧膈肌底部,低剂量扫描参数[8]:管电压为120KV,管电流≤40mAs,扫描层厚为5mm,图像重建层厚为1.25mm。
1.2.2 阅片方法
本研究主要关注实性结节、磨玻璃结节和胸膜结节的检出情况,因此首先由两位拥有超过15年胸部CT 阅片经验的放射科专家对所有CT 图像进行双盲法判读,意见不统一时协商解决,针对以上三类肺结节共同制定本研究使用的金标准肺结节数。AI 阅片使用北京推想科技提供的InferRead CT 肺结节辅助诊断系统,该系统基于深度学习,以40 万训练数据集为基础,数据库的数据均来源于全国多家大型三甲医院,系统能将疑似肺结节进行标记,下方栏目可显示结节直径、CT 值、结节性质(实行结节、GGN 或胸膜结节)、结节征象(毛刺征、分叶征、胸膜凹陷征等)及恶性概率等信息。将所有患者的LDCT 图像资料上传至AI 系统进行不同性质结节的检测,记录其检测到的相应类型肺结节数,然后与金标准进行对比,分析AI 系统检测到的真阳性结节(TP),假阳性结节(FP)和假阴性结节(FN)的数量,计算AI 系统检测不同结节的敏感性和假阳性率(FPs/Scan),进而对比其对不同类型结节检出的效能情况。
1.2.3 统计学方法
采用SPSS 23.0 统计软件对数据进行统计学分析。计量资料先进行正态性检验,符合正态分布的数据用(±s)表示,分类变量用频率和百分比表示。率的比较采用χ2检验,P<0.05 认为差异具有统计学意义。
2 结果
在入组的117例胸部CT 数据中共计标注了310个实性结节,147个磨玻璃结节和50个胸膜结节作为本研究的金标准。AI 肺结节筛查系统检测到626个实性结节,包含270个真阳性实性结节,检测敏感性为87.1%。同时AI 系统检测到356个磨玻璃结节,包括133个真阳性磨玻璃结节,检测敏感性为90.48%。对于胸膜结节而言,AI 系统共计检测到89个,其中43个为真阳性胸膜结节,检测敏感性为86%。AI 系统对三种不同类型的结节检出敏感性无显著差异(P>0.05)。此外,AI系统检测实性结节、磨玻璃结节和胸膜结节的假阳性率分别为3.04 FPs/Scan、1.91 FPs/Scan 和0.39 FPs/Scan。
3 讨论
由于人口老龄化、环境污染加剧、慢性感染无法控制、普遍存在的西方化生活模式(包括吸烟和有害饮酒、不健康饮食和缺乏体育活动等)以及遗传等多方面因素影响,我国肺癌的发病率和死亡率呈逐年上升趋势。肺癌已经成为我国乃至全世界范围因癌症死亡最主要的原因[9-10]。相对于其他癌症,肺癌的生物学特征较为复杂,早期较少出现临床症状,约70%~80%的患者直到中晚期出现临床症状时才来就诊,这已经错过了最佳的手术时机[11],III 期后肺癌的5年生存率低于20%。但有相关研究表明,确诊的I 期肺癌经过手术治疗后的5年生存率超过90%[12]。早期精准的检出肺癌对指导患者治疗、改善预后等具有非常重要的意义。早期肺癌的主要表现为肺内结节,因此肺癌的早期筛查主要从肺结节入手。目前,CT 是肺结节检出最有效的技术手段,LDCT 及CT 薄层技术的广泛应用使CT 肺结节筛查成为一种常规检查手段。一般而言,一例CT 薄层扫描包含数百张图像,明显增多的CT 数据需要耗费影像科医生相当长的时间进行诊断,仅凭医生肉眼观察,检出准确率不稳定,尤其对于缺乏经验的低年资医生,容易产生漏诊和误诊,有研究报道影像科医师双阅片情况下肺结节检出率仅为59.1%[13]。随着人工智能(AI)的迅速发展,其高效与便捷的特点给医疗行业尤其是以大数据为基础的医学影像领域带来了新的前景。人工智能已在心脏血管病变、乳腺肿瘤的诊断中有较好的表现[14-15],近年来AI 在肺结节筛查中也有较广泛的应用。
人工智能是计算机科学的一个分支,专注于计算机算法的开发,以完成传统上与人类智能相关的任务,比如学习和解决部分问题的能力。机器学习(Machine learning,ML)是人工智能研究的一部分,侧重于计算机算法的开发,没有明确的决策规则编码。ML 经常被细分为监督学习和非监督学习。在监督学习中,需要给出用于算法开发的注释数据(“groundtruth”data)。在非监督学习中,提供给系统未标记的数据,系统必须自己进行分类[16]。深度学习(Deep learning)是机器学习的一个子集,其中深度卷积神经网络(CNNs)是DL 中最热门的一个研究,它采用基于多层神经网络的算法结构,这种技术的强大之处在于它的可拓展性和神经网络构架从数据中提取自身相关特征的能力,而不需要输入任何方向标记的数据[17]。本研究所采用的肺结节筛查软件就是基于卷积神经网络利用深度学习进行目标检测。CNNs 在2012年ImageNet 比赛中取得最终胜利,此后以CNNs 为代表的深度学习在数据分析方面呈现了迅速的发展趋势[18],并在影像医学广泛应用。基于大规模训练神经网络,多用于模式分类、图像分割、目标检测、图像减噪等。有学者使用该算法进行肺结节检出,其检出敏感度为80.3%,假阳性率为4.8 FPs/Scan[19]。
表1 不同类型结节检出情况统计表
本次实验中AI 筛查不同类型的肺结节总体假阳性率稍高,主要是对于小叶中心结构的误诊,导致误诊的其他原因主要有:①小叶间隔以及小叶内间隔的异常增厚;②扩张的细支气管,支气管及细支气管内的粘液栓;③迂曲、增粗的肺血管,增粗的肺门血管;④条索、树芽征、局限性肺不张等各时期的感染性病变;⑤胸膜斑块、凸向肺内的局限性骨结构。导致假阳性的原因可能与AI 预设的分类阈值较低有关。现阶段AI 学习的重点还是对于阳性结节的认知,对于假阳性结节的学习还比较欠缺。基于深度学习的AI 系统具有较快的学习速度,通过不断的积累经验以及模型的不断升级,其诊断的敏感性与特异性也会不断提升,假阳性也会得到控制。
本研究的局限性在于实验的样本量尚不够,并且是基于回顾性的病例选取,均为医师发现的阳性病例,而临床中漏诊的病例无法获得,因此存在一定的选择性偏移。目前AI 技术仍然处于深度开发阶段,还不能直接作为检查诊断方式,得出的结果还需医生进行判断审核。但AI 技术在病灶检出率以及检出耗时等方面所展现的优势是有目共睹的。
综上所述,AI 肺结节筛查系统在临床使用中对不同类型结节均表现出较高敏感性,可以全面有效的辅助临床肺结节筛查工作,对于肺结节早期筛查有具有非常重要的意义。相信随着AI 技术的不断发展,人工智能在影像诊断领域将发挥出更重要的作用。