基于超声深度学习影像组学的乳腺癌新辅助化疗疗效预测
2024-04-26张恒赵彤张赛孙佳伟李晓琴倪昕晔
张恒,赵彤,张赛,孙佳伟,李晓琴,倪昕晔
1. 南京医科大学附属常州第二人民医院 a. 放疗科;b. 超声科,江苏 常州 213003;2. 江苏省医学物理工程研究中心,江苏 常州 213003;3. 南京医科大学 医学物理研究中心,江苏 常州 213003;4. 江苏省常州市医学物理重点实验室,江苏 常州 213003
引言
乳腺癌在全球女性癌症患者中发病率居高不下[1]。在大多数乳腺癌中,新辅助化疗(Neoadjuvant Chemotherapy,NAC)已成为一种标准治疗手段[2],能够有效降低癌症分期、淋巴结转移率并提高保乳治疗的可能性[3]。此外,NAC 后达到病理完全缓解(Pathological Complete Response,pCR)的患者生存期可显著提升[4]。而对治疗不敏感的患者将面临手术延迟和症状加重的风险。早期预测乳腺癌患者NAC 后的pCR 状态,可以辅助医师及时调整治疗方案,避免患者出现NAC 的严重毒副作用。
影像组学作为一种非侵入性分析肿瘤轮廓的新兴技术,可以提供整个肿瘤在宏观和微观方面的全面表征[5]。深度学习也已被证实在医学图像任务中效果优异[6],但往往受限于临床样本量[7],将在自然图像中预训练完成的模型直接应用于医学图像任务中,仅利用提取到的深度学习特征结合机器学习模型也可以取得较好的预测效果。截至目前,融合深度学习和影像组学技术预测乳腺癌NAC 后pCR 状态的研究仍鲜有报道,尤其是基于超声图像。超声与MRI 和CT 相比,具有安全、便宜和实时成像等优势[8]。本研究旨在探讨结合临床和超声深度学习、影像组学特征的综合模型预测乳腺癌患者NAC 后pCR 的价值。
1 资料与方法
1.1 研究资料
本研究的总体工作流程图如图1 所示。回顾性分析2015 年1 月至2022 年9 月在我院接受NAC 的乳腺癌患者。纳入标准:① NAC 前经穿刺活检病理证实为乳腺癌;② 无既往放化疗病史并在本院接受完整的NAC 治疗;③ NAC 后经病理证实为pCR 或非pCR(NpCR);④ 有完整的临床病理学资料(NAC 方案也记录完整)。排除标准:① 超声图像伪影严重或未能完全显示病灶边界或错误的超声扫描模式;② 同侧乳腺多发病灶或双侧乳腺均发生病变(恶性);③ NAC 期间发生远处转移;④ 有其他恶性肿瘤病史。符合条件的共117 例患者,均为女性,采用7 ∶3 的比例随机划分训练和验证集。本研究经医院伦理委员会审批同意(批准文号:[2020]KY154-01)。
图1 总体工作流程图
1.2 超声图像采集
所有检查均由具有5 年以上浅表器官超声诊断工作经验的医师完成,采用EPIQ5、IU22(Philips,荷兰),Easote Mylabe Twice,GE Logiq E9、E10,西门子s2000超声诊断仪和高频线阵探头,探头频率为7~12 MHz,6~15 MHz,选取乳腺超声检查模式。检查时患者取仰卧位,双臂上举以充分暴露乳腺,对双侧乳腺各个象限进行多切面扫查,对病灶区域进行重点扫查,并根据病灶大小调节深度。获取乳腺原发病灶最大长轴、短轴切面声像图。患者所有超声检查均于NAC治疗前2周内完成,每例患者仅采用1张超声图像纳入本研究。
1.3 临床资料及NAC方案
患者的临床资料包括年龄、左/右乳、临床分期、腋窝淋巴结是否转移、病理类型、雌激素受体(Estrogen Receptor,ER)、孕激素受体(Progesterone Receptor,PR)、人体表皮生长因子受体2(Human Epidermal Growth Factor Receptor-2,HER-2)、肿瘤增殖细胞核抗原67(Tumor Expression of the Proliferation Antigen,Ki-67)。本研究中将ER、PR 免疫组化染色≥1%、HER-2 表达≥+++或荧光原位杂交法检测阳性定义为阳性,反之为阴性。Ki-67 ≥14%定义为Ki-67 高表达,<14%定义为Ki-67 低表达[9]。
根据中国抗癌协会乳腺癌指南[10],NAC 方案主要以蒽环类、紫杉类或蒽环类与紫杉类结合为基础。参照美国肿瘤联合会乳腺癌分期系统(第8 版)对NAC疗效评估,将其分为pCR(术后乳腺和淋巴结病理学检查未残留任何浸润癌组织或仅残存原位癌)与NpCR(术后乳腺和淋巴结病理学检查残留浸润癌组织)[11]。
1.4 病灶分割
将乳腺癌患者的原始超声图像导入3D Slicer 软件(4.11 版本),由1 名具有5 年以上工作经验的超声科医师,在未知临床结果的情况下沿着肿瘤轮廓分割感兴趣区域(Region of Interest,ROI)。由具有10 年以上经验的高年资超声科主任医师进行最终验证,并通过讨论解决分歧,以确保病灶分割的准确性。
1.5 影像组学特征提取
基于分割后的ROI 和原图像进行影像组学特征提取。利用Pyradiomics 包(V3.0.1)对每例患者的超声图像提取人工定义的影像组学特征(https://pyradiomics.readthedocs.io/en/latest/),包括一阶统计量特征、二维形状特征、纹理特征、小波特征,分为2 个维度4 种频带(HH、HL、LH、LL)。
1.6 深度学习特征提取
采用ResNet50[12]架构作为提取深度学习特征的基线模型,并事先在大规模、注释良好的ImageNet 数据集上进行预训练。预训练之后,网络权重采用imageNet权重,并去除ResNet50 网络的最后一个全连接层,使用全局最大池化获取每层深度学习特征图映射的最大值,以将特征映射转换为原始值,输入到机器学习模型中构建深度学习模型。
1.7 数据预处理
为了避免样本不均衡对模型性能造成影响(样本倾向于被分类到多数类),首先采用人工少数类过采样方法(Synthetic Minority Over-Sampling Technique,SMOTE)对训练集数据进行过采样至1 ∶1。然后根据公式(1)对全体数据进行Z-Score 归一化处理,将不同量级的特征数据转换为同一量级,确保特征间的可比性,也便于后续筛选算法的应用。
式中,x为原始数据;为平均数;s为标准差。
1.8 特征筛选及模型构建
在训练集中首先使用Mann-WhitneyU检验初步筛选与pCR 状态具有统计学意义的特征,然后基于随机森林的递归消除算法(Recursive Feature Elimination,RFE)和10倍交叉验证的最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO) 进行特征降维,选择交叉验证二项偏差最小的数据集作为最优特征集,并基于最优特征集构建影像组学/深度学习标签,计算方式如公式(2)所示。
式中,intercept 为LASSO 模型拟合训练集数据后得到的截距;feature 为LASSO 筛选后的特征;Coef 为特征的回归系数;features 为筛选后的特征个数。
利用单/多因素逻辑回归分析筛选有价值的临床特征,并与影像组学/深度学习标签构建综合模型。此外,还单独构建了临床、影像组学和深度学习模型,用于对比分析。本研究所采用的机器学习分类器为逻辑回归模型,受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(Areas Under Curve,AUC)、准确度、特异性、敏感度4 类评价指标用于评估模型的性能,其中AUC 的95%CI是通过1000 次重抽样获得,并利用DeLong 测试比较不同模型AUC 间的差异。通过校准曲线检验模型的校准能力,决策曲线分析用来评估模型的临床实用性。
1.9 统计学分析
本研究的统计分析基于SPSS 22.0 软件。对于定量资料以±s表示,组间比较行独立样本t检验。对于定性资料以例表示,组间比较行χ2检验。以P<0.05 为差异有统计学意义。
2 结果
2.1 患者临床数据分析
患者的原始临床资料如表1 所示,为了与影像组学和深度学习特征相匹配,同样对训练组临床数据进行SMOTE,过采样后的临床数据如表2 所示。训练集中pCR 与NpCR 组患者间临床分期、ER、PR 和Ki-67差异有统计学意义(P<0.001、P<0.001、P=0.013 和P=0.002)。而在验证集中,pCR 与NpCR 的患者之间仅PR 差异有统计学意义(P=0.049)。考虑到验证集中样本量远少于训练集,故将在训练集中差异有统计学意义的临床特征:临床分期、ER、PR 和Ki-67 均纳入单/多因素逻辑回归分析(表3),以筛选用于构建临床模型的最终特征,结果显示临床分期和ER 为pCR状态的独立预测因子(P=0.002,P<0.001),可用于构建临床模型。
表1 原始训练和验证集患者临床特征比较( ±s,n)
表1 原始训练和验证集患者临床特征比较( ±s,n)
注:ER:雌激素受体;PR:孕激素受体;HER-2:人体表皮生长因子受体2;Ki-67:肿瘤增殖细胞核抗原67;pCR:病理完全缓解;NpCR:非病理完全缓解。
临床特征训练集(n=81)验证集(n=36)pCR(n=17) NpCR(n=64)t/χ2值P值pCR(n=7)NpCR(n=29)t/χ2值P值年龄/岁55.59±12.7956.00±12.070.1240.90260.71±11.9152.48±11.431.6970.099左/右乳0.5800.4460.1770.674左乳733414右乳1031315临床分期2.4390.2950.7980.671Ⅰ0 3 1 2Ⅱ1129519 3218腋窝淋巴结0.0600.8060.6200.431未转移31338转移1451421病理类型-1.0000.4030.526浸润性癌1764627其他0012 ER4.0510.0440.8560.355阴性1124411阳性640318 PR0.5140.4743.8720.049阴性82459阳性940220 HER-22.3630.1242.6800.102阴性636114阳性1128615 Ki-672.6890.1010.2480.618低表达0901高表达1755728Ⅲ6
表2 SMOTE后训练和验证集患者临床特征比较( ±s,n)
表2 SMOTE后训练和验证集患者临床特征比较( ±s,n)
注:ER:雌激素受体;PR:孕激素受体;HER-2:人体表皮生长因子受体2;Ki-67:肿瘤增殖细胞核抗原67;pCR:病理完全缓解;NpCR:非病理完全缓解。
临床特征训练集(n=128)验证集(n=36)pCR(n=64) NpCR(n=64) t/χ2值P值pCR(n=7)NpCR(n=29)t/χ2值P值年龄/岁54.22±11.1956.00±12.070.8660.38860.71±11.9152.48±11.431.6970.099左/右乳1.1430.2850.1770.674左乳3933414右乳2531315临床分期22.054 <0.0010.7980.671Ⅰ0 3 1 2Ⅱ5429519 103218腋窝淋巴结0.0470.8280.6200.431未转移141338转移5051421病理类型-1.0000.4030.526浸润性癌6464627其他0012 ER25.393 <0.0010.8560.355阴性5224411阳性1240318 PR6.1310.0133.8720.049阴性382459阳性2640220 HER-20.2900.5902.6800.102阴性3936114阳性2528615 Ki-679.6810.0020.2480.618低表达0901高表达6455728Ⅲ
表3 临床数据的单/多因素逻辑回归分析
2.2 影像组学标签与模型构建
从超声图像中提取了469 个影像组学特征,通过Mann-WhitneyU检验、RFE 和LASSO 将其进一步降维至6 个与pCR 状态密切相关的特征(图2a~c)。按照公式(2)构建影像组学标签,影像组学标签=0.5000-0.1982×original_shape_Maximum2DDiameterRow-0.0344×original_glcm_ClusterShade+0.0603×wavelet-LH_glszm_SmallAreaLowGrayLevelEmphasis+0.0172×wavelet-HL_glszm_SmallAreaLowGrayLevelEmphasis+0.0740×wavelet-HL_gldm_SmallDependenceLowGrayLevelEmphasis+0.0816×wavelet-HH_firstorder_Mean。随后基于影像组学标签和逻辑回归分类器构建影像组学模型,训练集AUC 为0.815,验证集AUC 为0.778。
图2 基于LASSO算法的影像组学和深度学习特征筛选
2.3 深度学习标签与模型构建
基于ResNet50 网络共提取了2048 个深度学习特征,经Mann-WhitneyU检验、RFE 和LASSO 最终降维至8 个与pCR 状态紧密相关的特征(图2d~f)。根据公式(2)构建深度学习标签,基于深度学习标签和逻辑回归分类器构建深度学习模型,训练集AUC 为0.928,验证集AUC 为0.901。
2.4 综合模型构建及效能评估
基于逻辑回归分类器开发了联合临床分期、ER、影像组学标签和深度学习标签构建的综合模型。表4 展示了基于逻辑回归的各模型预测性能,其中综合模型在训练集中AUC 为0.949;验证集中AUC 为0.931,显著优于其他模型。DeLong 测试结果(表5)显示,综合模型在训练集上与临床和影像组学模型AUC 间差异具有统计学意义,而在验证集上仅与临床模型AUC 间差异显著。图3a~b 为各模型在训练集和验证集上的ROC 曲线,可更直观评价综合模型与子模型间性能差异。图3c显示了4 种模型的校准曲线,其中,综合模型的校准曲线对角线拟合度优于其他模型,表明综合模型对乳腺癌NAC 患者术前pCR 的预测更为可靠。图3d 为每个模型的决策曲线,其均高于两条参考曲线,表明各模型均具有临床收益,其中,综合模型的收益最多。
表5 综合模型与各子模型间DeLong测试结果
图3 综合模型性能评估
3 讨论与结论
在本研究中,构建了一个联合乳腺癌患者NAC 前超声影像的临床、影像组学和深度学习特征的综合模型,可以在术前更精准、无创地预测乳腺癌患者NAC 后的pCR 状态,可为乳腺癌NAC 患者的个性化治疗提供指导。
影像组学作为人工智能在医学影像中的新技术,可以从超声、MRI 和CT 等医学图像中提取高维影像特征,以更全面地描述乳腺肿瘤[13-14]。目前已有研究报道影像组学在乳腺癌预后预测中的价值[15-17],但多数研究主要集中于CT 和MRI 方面。与MRI 和CT 相比,超声成本更低、操作更简单、图像更容易获得,在术前评估乳腺癌pCR 方面具有更大的临床和经济效益[18]。Yang 等[19]对比了治疗前和治疗早期超声影像组学特征的变化,发现两者间的差值与乳腺癌NAC 反应独立相关,证明了基于超声的影像组学特征可用于术前预测乳腺癌患者NAC 后的疗效。李蔓英等[20]从53 例乳腺癌患者的灰阶超声图像中提取1044 个影像组学特征,建立了基于6 个影像组学特征的逻辑回归模型,AUC 为0.880。然而,该项研究包含的样本量较小,且仅基于单一影像组学技术,导致了模型预测性能有限。本研究引入了全新的深度学习技术来提取超声内部的深度特征。结果表明,所提取的深度特征在乳腺癌患者NAC 疗效预测方面比影像组学特征更优,这表明深度特征可能是非常有价值的预测pCR 新指标,且可能与影像组学特征间存在互补关系。接下来,本研究考虑了一些临床预后因素。经单/多因素逻辑回归分析表明,临床分期、ER 是区别乳腺癌患者NAC 后pCR 状态的独立预测因子,被纳入构建综合模型。在验证集中,综合模型的AUC 和准确度达到了0.931 和0.833,与现有基于影像组学和临床特征的研究相比,性能有一定的提升。且与既往部分研究需提取NAC 治疗前及治疗中的超声图像特征进行对比分析,才能做出准确疗效预测相比,本文仅需利用NAC 治疗前的超声图像,有助于将临床决策的时间点前移。
本研究的创新点在于融合了深度学习特征,构建了联合影像组学、深度学习及临床特征的综合模型,提升了预测性能,且具有高效快捷、无创无辐射等优点。同时本研究也有一些局限性:① 属于单中心回顾性研究,样本量较小且缺乏外部独立测试集验证,下一步将继续扩大样本量,并展开多中心研究;② ROI 属于人工勾画,可能存在一定的人为因素对特征提取造成偏差,后续研究中,将致力于使用深度学习自动分割网络来减少人工参与。
综上所述,本文利用超声影像组学和深度学习技术并结合临床特征,建立了预测乳腺癌患者NAC 后pCR状态的综合模型,在验证集中获得了良好效果,可为临床pCR 诊断提供有效的参考。