基于Logistic回归分析构建恶性肺结节CT人工智能技术和肿瘤标志物的预测模型
2023-02-09范光明
范光明
贵州中医药大学第二附属医院 放射科,贵州 贵阳 550000
引言
肺癌是发病率、死亡率均较高的恶性肿瘤,其发病率在我国男性常见癌种中居首位,在女性癌种中排名仅次于乳腺癌,严重威胁患者生命安全[1]。目前早期诊断与治疗仍是降低死亡率、促进病情良好转归的重要手段。多层螺旋CT扫描是筛查肺癌的首选影像学手段,已被国际众多权威医学机构推荐使用,但由于单例患者常有高达几百张CT图像,导致医师工作量巨大,且因检出的肺结节可能是良性结节、恶性肺结节CT征象表现存在差异、放射科医师经验与年资不同等,造成诊断结果易受人为主观性影响,出现漏诊、误诊等,影响后续的诊疗[2-3]。随着电子信息技术和人工智能技术的迅猛发展,将计算机自动检测和辅助诊断与CT扫描数据相结合的CT人工智能技术应用于肺结节的定性诊断,逐渐成为临床研究热点。从理论上讲,其能自动分析肺结节特征和数据,减轻放射科医师工作负担,提高诊断效能,优势明显,但对肺结节诊断准确性尚有待验证[4]。肿瘤标志物是现阶段筛查肺癌的常用策略,但根据既往报道,其具有一定假阴性率和假阳性率,因此需与其他诊断手段联合应用[5-6]。基于此,本研究旨在探讨CT人工智能技术的诊断价值及其与肿瘤标志物联合鉴别诊断恶性肺结节有效性,以期为临床诊断提供一定的参考依据。
1 资料与方法
1.1 一般资料
选取2018年1月至2021年1月我院收治的453例肺结节患者,其中男240例、女213例,年龄33~71岁,平均(50.20±8.55)岁。根据病理学结果分为良性组(n=317)和恶性组(n=136),其中良性组包括错构瘤119例、隐球菌72例、肺部不典型腺瘤样增生126例,恶性组包括肺原位腺癌38例、浸润性腺癌59例、非浸润性腺癌39例。本研究获医院伦理委员会审核通过[院科伦审:(2018)伦审第(1036)号],患者自愿签署知情同意书。
纳入标准:① 经影像学检查证实为肺结节患者;② 单发结节;③ 可耐受病理检查,并获得病理结果。排除标准:① 正在备孕、妊娠期、哺乳期患者;② 伴有血液系统疾病者;③ 肺结核患者。
1.2 方法
1.2.1 临床资料收集
收集患者年龄、性别、体质量指数、吸烟史、慢性肺部疾病史、既往肺部外恶性肿瘤史、家族恶性肿瘤史等临床资料。
1.2.2 肿瘤标志物检测
于受试者就诊时采集清晨空腹外周静脉血5 mL,以15 cm半径3000 r/min离心10 min,采用电化学发光法检测血清胃泌素释放肽前体(Gastrin-Releasing Peptide,Pro-GRP)、神经元特异性烯醇化酶(Neuron-Specific Enolase,NSE)、癌胚抗原(Carcinoembryonic Antigen,CEA)、细胞角蛋白片段19(Cytokeratin Fragment 19,CYFRA21-1)、鳞状细胞癌抗原(Squamous Cell Carcinoma Antigen,SCC)水平,试剂盒购于大连宝生物科技有限公司。
1.2.3 CT检测与图像分析
采用西门子64排128层CT层螺旋CT,患者取仰卧位,头先进,扫描胸壁、腋窝及肺尖至肺底的全部区域,重建层厚5 mm,层厚1.625 mm,间隔0.3~0.5 mm,高分辨率算法,在冠状面、矢状面、斜面多角度显示肺结节形态、位置、结节直径、边缘形态、内部结构,由临床医师对肺结节的以上征象进行统计评估。并将受检者上述CT影像资料导入智能诊疗系统[零氪科技(北京)有限公司],该人工智能系统是将系统中储备的2000多个肺结节扫描数据作为训练集,并通过对病理结果反复训练与学习,得到一个最优训练模型,运用该模型对新采集的肺结节CT数据进行验证,自动提供肺结节的恶性概率,并记录其提供的肺结节的恶性概率。
1.3 统计学分析
数据采用SPSS 24.0软件分析,计数资料用n(%)表示,行χ2检验,计量资料以±s表示,行t检验,采用受试者工作特征(Receiver Operating Characteristic,ROC)曲线及曲线下面积(Area Under the Curve,AUC)分析各CT征象及恶性概率单独判断肺结节性质价值,采用多因素Logistic回归方程分析恶性肺结节相关影响因素,采用R语言绘制恶性结节的列线图预测模型,以P<0.05为差异有统计学意义。
2 结果
2.1 两组临床资料比较
恶性组与良性组年龄、性别、体质量指数、慢性肺部疾病史、家族恶性肿瘤史比较,差异无统计学意义(P>0.05);恶性组吸烟史、既往肺部外恶性肿瘤史患者多于良性组(P<0.05),见表1。
表1 两组临床资料对比[±s,n(%)]
表1 两组临床资料对比[±s,n(%)]
资料 恶性组(n=136)良性组(n=317) t/χ2值 P值年龄/岁 51.03±14.29 49.84±12.56 0.886 0.376性别 0.366 0.545女61(44.85) 152(47.95)男75(55.15) 165(52.05)体质量指数/(kg/m²) 24.15±0.74 24.02±0.96 1.409 0.159吸烟史 7.736 0.005无88(64.71) 245(77.29)有48(35.29) 72(22.71)慢性肺部疾病史 2.080 0.354哮喘 4(2.94) 5(1.58)慢性阻塞性肺疾病 8(5.88) 25(7.89)慢性支气管炎 5(3.68) 7(2.21)既往肺部外恶性肿瘤史 4.225 0.040无130(95.59) 314(99.05)有6(4.41) 3(0.95)家族恶性肿瘤史 0.636 0.425无131(96.32) 311(98.11)有5(3.68) 6(1.89)
2.2 两组CT结节征象及人工智能参数比较
恶性组结节直径、恶性概率显著高于良性组(P<0.05);恶性组毛刺征、位于上叶、病灶形态不规则、空泡征表现显著多于良性组(P<0.05),见表2。
表2 两组CT结节征象及人工智能参数比较[±s,n(%)]
表2 两组CT结节征象及人工智能参数比较[±s,n(%)]
参数 恶性组(n=136)良性组(n=317) t/χ2值 P值结节类型 0.645 0.724实性结节 30(22.06) 63(19.87)亚实性结节 64(47.06) 162(51.10)磨玻璃结节 42(30.88) 92(29.02)结节直径/mm 14.87±4.22 9.86±3.04 14.225 <0.001毛刺征 21.614<0.001无55(40.44) 203(64.04)有81(59.56) 114(35.96)位于上叶 10.528 0.001否69(50.74) 212(66.88)是67(49.26) 105(33.12)病灶形态 148.191<0.001规则 26(19.12) 253(79.81)不规则 110(80.88) 64(20.19)空泡征 82.462<0.001无31(22.79) 219(69.09)有 105(77.21) 98(30.91)恶性概率/% 90.05±5.23 11.23±3.86 178.161<0.001
2.3 CT征象与恶性概率诊断恶性肺结节价值
绘制临床医师评估的各CT征象及由CT人工智能系统自动获取的恶性概率诊断恶性肺结节的ROC曲线,结果显示,恶性概率的AUC最大,敏感度、特异性也最高,见表3。
表3 CT征象与恶性概率诊断恶性肺结节价值的ROC分析结果
2.4 2组血清肿瘤标志物比较
恶性组Pro-GRP、NSE、CEA、CYFRA21-1、SCC均显著高于良性组(P<0.05),见表4。
表4 两组血清肿瘤标志物比较(±s)
表4 两组血清肿瘤标志物比较(±s)
注:Pro-GRP:血清胃泌素释放肽前体;NSE:神经元特异性烯醇化酶;CEA:癌胚抗原;CYFRA21-1:细胞角蛋白片段19;SCC:鳞状细胞癌抗原。
指标 恶性组(n=136)良性组(n=317) t值 P值Pro-GRP/(pg/mL) 79.64±20.01 30.99±8.74 36.045 <0.001 NSE/(ng/mL) 34.52±11.71 14.38±4.52 26.406 <0.001 CEA/(ng/mL) 7.94±2.55 2.24±0.46 38.421 <0.001 CYFRA21-1/(ng/mL) 4.87±1.29 1.90±0.53 34.756 <0.001 SCC/(μg/L) 5.82±1.63 1.45±0.37 45.158 <0.001
2.5 恶性结节的多因素分析
以恶性结节作为结局因变量(良性=0,恶性=1),以吸烟史(非吸烟=0,烟=1)、既往肺部外恶性肿瘤史(无=0,有=1)及恶性概率、Pro-GRP、NSE、CEA、CYFRA21-1、SCC(均按实际值赋值)作为自变量,进行多因素分析,结果显示,吸烟史、既往肺部外恶性肿瘤史、恶性概率、Pro-GRP、NSE、CEA、CYFRA21-1、SCC均是恶性结节的相关危险因素(P<0.05),见表5。
表5 恶性结节的多因素Logistic回归方程分析
2.6 可视化预测模型构建
基于多因素Logistic回归分析结果获得的吸烟史、既往肺部外恶性肿瘤史、恶性概率、Pro-GRP、NSE、CEA、CYFRA21-1、SCC相关影响因素,绘制恶性肺结节的可视化列线图预测模型,由于吸烟史、既往肺部外恶性肿瘤史对模型结果贡献小(β=0.784、1.038),故将其排除,最终绘制的列线图如图1所示,该列线图预测风险能力指数(Concordance Index,C-index)指数为0.984(95%CI:0.715~0.992),说明本研究列线图模型具有较好的预测能力。
图1 恶性肺结节的可视化预测模型
2.7 模型验证
Bootstrap内部验证显示,列线图模型的校准度为0.903,校正曲线与理想曲线拟合良好,模型与实际观测结果有较好的一致性,见图2;绘制ROC曲线显示,该列线图模型的AUC为0.925,敏感度为85.29%,特异性为83.91%,见图3。
图2 可视化预测模型的验证
图3 预测模型的ROC曲线评价
3 讨论
良性肺结节与恶性肺结节的治疗和随访管理方案不同,所以准确对其定性意义重大。Oudkerk等[7]研究指出,吸烟、既往肺部外恶性肿瘤史是肺癌的相关危险因素,可作为筛查肺癌高危人群特征,本研究结果与之一致。同时本研究还发现,恶性组结节直径、毛刺征、位于上叶、病灶形态不规则、空泡征及恶性概率均高于良性组,与恶性肺结节显著相关,提示以上表现可能有助于区分肺结节的性质。
结节直径、毛刺征、位于上叶、病灶形态不规则、空泡征均属于肺结节CT表现的局部特征[8],其鉴别肺结节良恶性价值既已有大量研究,如Gong等[9]研究表明,良性结节直径、毛刺征、病灶形态不规则、空泡征均与恶性结节存在显著差异,与本研究结果一致,证实以上特征可作为肺结节定性的参考。结节直径可反映其生长速度、潜力,结节直径越大则恶性概率越高。病灶形态不规则是恶性肿瘤细胞生长速度不一、局部纤维化、肺泡塌陷、肺泡内渗出物机化导致的[10-11]。但Kim等[12]研究指出,毛刺征、空泡征在良性和恶性肺结节中发生率相似,在肺结节定性中未呈现出优势,本研究结论与之不同。考虑原因可能是受检者肺结节表现异质性造成的,毛刺征可见于恶性肿瘤收缩牵拉周围的小叶,还可见于炎症反应、结缔组织增生等;空泡征可见于未被肿瘤组织充填的含气肺组织、肿瘤坏死后的含气腔和破坏的肺泡腔等,还可见于扩张的小支气管等,不同研究所纳入的患者数量不同,也会影响数据统计结果,所以仅依赖肺结节局部特征表现诊断价值有限。
传统计算机辅助诊断系统是依据结节的局部特征,如位置、形态、内部特征等,从统计学角度对结节性质进行分析[13]。而本研究中CT人工智能系统与之不同,其无须从图像中进行任何特征的提取,直接以深度学习法对肺结节性质进行分析,这也是本研究另外进行结节局部特征分析的重要原因。Zhao等[14]报道指出,以深度学习法对肺结节进行定性,在诊断效能方面超越了传统计算机辅助诊断系统。本研究所采用的CT人工智能系统,将系统中储备的2000多个肺结节扫描数据作为训练集,并通过对病理结果反复训练与学习,得到一个最优训练模型,运用该模型对新采集的肺结节CT数据进行验证,自动提供肺结节的恶性概率,协助放射科医师做出诊断决策。本研究恶性组平均恶性概率达90.05%,良性组平均恶性概率仅11.23%,对临床指示意义明确,呈现出优异的评估价值。本研究ROC分析结果显示,各单独指标评估恶性肺结节价值:恶性概率的AUC大于结节直径、毛刺征、位于上叶、病灶形态不规则、空泡征,提示与临床医师评估各CT征象比较,CT人工智能技术判断恶性肺结节价值较高,证实了CT人工智能技术具有应用优势。但值得注意的是,单独CT人工智能技术获取的恶性概率诊断恶性肺结节的AUC为0.850,虽呈现出一定诊断价值,但仍有较大提升空间,所以应考虑联合肿瘤标志物使用。
Pro-GRP、NSE在小细胞肺癌中水平明显升高,被认为是鉴别小细胞肺癌的首选指标,并能用于治疗反应性监测;CEA是广谱肿瘤标志物,主要用于疗效监测、肺癌预后评估等;CYFRA21-1、SCC在肺癌患者中水平高于良性者及健康对照人群,尤其是对肺鳞癌诊断,呈现出较高的敏感度、特异性[15-16]。恶性组Pro-GRP、NSE、CEA、CYFRA21-1、SCC高于良性组,与既往报道[17]一致,可作为鉴别肺结节的标志物,提高敏感度,降低临床漏诊率。本研究基于肺结节局部CT特征、人工智能报告的恶性概率及血清肿瘤标志物构建了恶性肺结节的可视化预测模型,统计显示,该模型C-index指数为0.984,校正曲线与理想曲线拟合良好,AUC为0.925,大于任一单一参数,敏感度为85.29%,特异性为83.91%,提示其预测能力良好。郑慧等[18]报道,基于CT的毛刺征、空泡征等绘制了肺磨玻璃结节列线图诊断模型,结果显示,其C-index指数为0.828,本研究C-index指数与之相比明显升高,原因为本研究是基于CT人工智能技术参数分析的,这一方法从大样本量肺结节训练集中筛选出最优模型,再利用最优模型对所采集肺结节CT数据进行验证,故诊断更可靠。钟华等[19]报道亦采用了训练集和验证集方法判断肺结节性质,但其按照8∶2比例,手动将有限的肺结节划分为训练集(271个)和验证集(67个),所得模型的AUC为0.850,低于本研究模型的AUC,原因与其训练集数量较少未筛选出最优模型有关,再次证明本研究CT人工智能技术联合肿瘤标志物应用价值较高。临床上只要获取了受检者以上特征,才可能在列线图模型中快速、直接得到患者恶性肺结节,同时避免人为主观因素影响,减小对临床医师经验的依赖度,并能保证鉴别结果具有可靠性,呈现出较高的临床实际应用意义。虽然本研究所检测的血清肿瘤标志物较多,但通过一次采血即可获得全部结果,不影响时效性,所以具有临床可行性。但值得注意的是,联合检测多个血清学指标,可能会增加患者经济负担,这也是本研究存在的不足,后续有待研发特异性、敏感度更高的标志物,对本研究进行改进。
4 结论
基于CT人工智能技术和Pro-GRP、NSE、CEA、CYFRA21-1、SCC构建的恶性肺结节可视化预测模型,能准确、便捷鉴别肺结节的性质,可为临床诊疗提供一定的参考依据。