DCE-MRI影像联合临床信息预测乳腺癌复发风险评分
2022-02-23崔雅静厉力华
崔雅静,范 明,厉力华
(杭州电子科技大学自动化学院,浙江 杭州 310018)
0 引 言
世界卫生组织2020年全球癌症报告显示,近年来乳腺癌已成为女性健康的首要威胁[1]。乳腺肿瘤具有高度异质性,致使患者接受治疗后的结果截然不同[2]。这种差异体现在肿瘤复发、化疗效果及术后生存状况等方面。准确的术前病情评估、有效的治疗效果预测、个体化的治疗方案制定是提高乳腺癌治愈率的关键。临床上,乳腺癌患者手术后,通常借助辅助化疗手段来清除微小病灶,降低肿瘤复发风险。但不是所有患者在经历化疗后都能从中获益[3]。随着基因检测技术的快速发展,涌现出多种可预测乳腺癌复发风险的方法,其中21基因检测技术最为成熟,得到专家的普遍认可,在美国临床肿瘤学会和国立综合癌症网络发布的临床指南中均有推荐[4-5]。大量实验数据表明,21基因检测对雌激素受体(Estrogen Receptor, ER)阳性、淋巴结转移阴性的早期乳腺癌的复发风险以及化疗获益情况具有较好的预测作用[6-7]。21基因检测依据肿瘤标本中16个乳腺相关基因和5个参考基因的表达情况,计算复发风险评分,提示患者术后癌症复发的危险程度[8]。通过21基因检测,医生可以进一步了解肿瘤情况,在评估患者的复发情况、化疗获益情况、治疗方案的制定及后期的癌症个案管理计划中起到很好的指导作用。尽管有很高的应用价值,但检测费用高、侵入性检查等原因,导致该技术的临床应用十分有限。
动态增强磁共振成像(Dynamic Contrast Enhanced Magnetic Resonance Imaging, DCE-MRI)技术是应用广泛的乳腺癌筛查诊断方法,扫描得到的影像既可显示病变区域的形态学特征[9],又能描述造影剂流入和流出肿瘤的动力学过程,间接反映肿瘤内不同部位的血流特性[10]。影像组学方法通过计算机提取影像参数,可以更精确和客观地描述目标区域的特性,弥补了临床医师分析影像的主观性。从常规的、易收集的临床检查资料中寻找标志物预测21基因检测结果具有重要意义。目前已有研究对乳腺癌影像组学与21基因检测结果的关联进行了探索[11-12]。但被证明与复发风险评分(Recurrence Score,RS)存在相关性的影像特征相对较少,且建立的模型预测性能有限[13-15]。本文主要研究基于DCE-MRI的影像组学特征联合临床病理信息对乳腺癌21基因检测RS的预测作用。为了发掘更多有预测价值的影像参数,从空间、时间、种类等多角度扩大特征计算范围,并将临床病理资料纳入研究,与影像数据一起分析,通过建立线性回归模型预测乳腺癌21基因检测结果。
1 研究数据与训练方法
1.1 患者数据
本文所用的实验数据来自复旦大学附属肿瘤医院。筛选标准如下:(1)在乳房切除手术或肿瘤切除手术之后进行了21基因检测;(2)在乳腺癌手术或者化疗之前进行了DCE-MRI检查;(3)ER阳性且未出现淋巴结转移。经过筛选,共有130例患者符合研究条件。随机划分训练集和测试集,并用方差分析和卡方检验对训练集和测试集的孕激素受体(Progesterone Receptor,PR),Ki-67,RS及年龄进行了显著性分析,P值大于0.05,说明这些信息在2个集合中的分布无显著差异。数据集的临床病理信息统计情况如表1所示。
表1 患者临床病理信息统计
1.2 影像采集参数
实验影像数据均由美国奥罗瑞(Aurora)1.5T MRI设备扫描得到。患者在进行个体MRI检查时,采取俯卧方式将身体置于检查床上,双乳自然下垂至射频线圈工作范围内,启动影像设备进行扫描。得到的双侧乳房DCE-MRI由高分辨率、脂肪抑制、T1加权的三维梯度回波序列组成,包括1个蒙片序列(S0)和3个增强序列(S1,S2,S3)。蒙片序列在注射造影剂之前采集,增强序列在注射造影剂之后采集。每个序列由108张切片组成,序列之间的扫描时间间隔约为2 min。具体成像参数如下:采集矩阵为512×512,切片厚度为1.48 mm,视野(Field Of View, FOV)为360 mm×360 mm,重复时间(Time of Repetition, TR)为29 ms,回波时间(Time of Echo, TE)为4.8 ms,翻转角(Flip Angle, FA)为90°。
1.3 影像肿瘤区域分割
实验主要是对肿瘤部位的影像特征进行分析。因此在计算特征之前,先对DCE-MRI的肿瘤部位进行分割。DCE-MRI成像过程中,受检者人体组织中水质子的弛豫率和成像时间[16]在注入造影剂之后被改变,反映在影像中即为肿瘤区域和正常组织之间的信号对比度增强。与注入造影剂之前相比,病变位置明显亮于其他区域,因此可利用这种灰度差异进行肿瘤分割。首先,明确乳腺肿瘤的位置,由临床放射科医生在影像中进行标注;然后,参考标记的病灶位置以及患者的临床就诊报告,在影像序列中找到肿瘤的起止层,并在肿瘤最大截面切片中勾画肿瘤轮廓;最后,运用参数自适应的空间模糊C均值算法得到病灶区域的粗边缘,并结合三维影像信息使用马尔可夫随机场算法对粗边缘进行调整,实现病灶区域的精细分割[17]。在一个序列中按照上述流程分割病灶,然后以此为模板点乘其他序列,最终得到患者的所有影像序列的病灶。
1.4 影像组学特征提取
1.5 机器学习模型建立
为了探索影像组学和临床病理信息与RS之间的关联,寻找对乳腺癌复发风险有预测价值的特征,分别对基于DCE-MRI提取的影像特征和临床病理信息进行单变量和多变量预测分析。
1.5.1 特征选择
通过计算提取各个序列的影像特征,这些特征显示了病灶区域的不同信息。本实验中,提取的特征数量众多,有利于发现更多有预测价值的影像参数。但高维的特征直接用于训练模型时,易导致过拟合,不仅影响预测模型的鲁棒性,还会加大计算开销。考虑到特征之间可能存在相关性、重复性,在建立模型之前先进行特征选择。首先,对所有特征进行正态性检验,去除掉明显偏离正态分布的特征(P<0.05);然后,采用过滤式特征选择方法进行特征筛选,本文采用的评价指标为皮尔逊相关系数,以0.7为筛选阈值,去掉高度相似的特征。特征选择剔除了大量的冗余特征,避免在预测模型中出现多重共线性效应。
1.5.2 单变量预测分析
为了评估单个影像特征和临床病理信息对乳腺癌复发风险的预测性能,对影像特征和临床病理信息进行单变量线性回归分析。本实验选用确定系数(Rsquare,R2)作为模型的评价指标。R2是线性模型拟合优度的度量,范围在0~1之间。计算结果为0时,表明模型的预测结果近似于随机猜测,计算结果越趋近1,表明模型的拟合能力越好。
1.5.3 多变量预测模型建立
为了进一步探究动态增强影像组学参数和临床病理信息在预测21基因检测结果时的共同作用,对复发风险评分进行多变量预测分析。在多元线性回归分析中,当参与训练的数据集比较小或模型训练过度时,容易产生过拟合问题。引入正则项是常用的解决方法之一。通过在训练误差最小化优化模型的基础上添加约束条件,即正则项,使得训练误差与模型复杂度达到一个平衡,实现以结构风险最小化策略选取模型。常见的线性回归正则化方法有Lasso回归和岭回归。实验中,选用综合两者特点的弹性网络(Elastic Net)进行多元线性回归分析。弹性网络[24]的正则项联合了L1,L2范数,是两者的一个凸线性组合。训练模型时,通过改变参数α,λ,调整L1,L2正则化在目标函数中的比重。α为0时是岭回归,α为1时是Lasso回归。因为弹性网络兼有岭回归和Lasso回归的性质,因此可以承受双重收缩,正则化的同时实现变量选择,从而控制线性模型的复杂程度以达到稳健性。其目标优化函数如下:
(1)
式中,第1项为误差平方和,第2项为惩罚项,其中xi为自变量,yi为因变量,代表模型的系数向量,α和λ为可调参数,用于控制惩罚程度。在训练集中,运用网格搜索法(Grid Search Method,GSM)寻找最优建模参数。首先基于设定的参数范围,按照一定的步长排列所有参数组合,然后利用十折交叉验证法不断优化,最终选出最佳的模型参数组合。在训练集中构建预测模型,最后将其应用于测试集中以评估预测性能。
2 实验结果与分析
2.1 单变量预测
影像特征和临床病理信息的单变量线性回归分析结果如表2所示。
表2 单特征与RS的相关性
从表2可以看出,影像特征中与RS显著关联的有8维(P<0.05),具体为S0序列的球形度、平面度、联合平均、偏度、逆差矩,SM序列的区域熵,SL序列的最大相关系数,M1序列的游程熵。其中S0序列的球形度和平面度的单变量预测性能最好,R2达到了0.252和0.154。两者与RS均呈负相关趋势,其相关性如图1所示。图2为2名复发风险不同的患者的DCE-MRI影像示例,对应的RS分别为17.2和34.5,球形度分别为0.777和0.530,平面度分别为0.496和0.296。
图1 球形度特征、平面度特征与RS相关性分析
图2 复发风险不同的患者DCE-MRI影像示例
从图2可以看出,与肿瘤较平滑的患者相比,肿瘤形状不规则的患者复发风险更高。临床参数中,年龄和Ki-67表达水平均未表现出与RS存在统计学相关性,而PR与RS关系密切。
2.2 多变量预测
运用弹性网络回归模型对多特征的预测性能进行评估。在训练集上选出最优特征子集,由选出的最优特征子集和最佳建模参数得到预测模型,然后在测试集上计算R2测试模型性能。基于DCE-MRI影像组学建立的多元线性回归预测模型,模型评价结果为R2=0.264,P=0.038。复发风险评分阈值设置为31,分为高风险组和非高风险组,计算得其优势比(Odds Ratio,OR)为4.444,95%置信区间为[1.308,15.107]。OR大于1,表明模型预测的复发风险评分与21基因检测得到的复发风险评分存在关联,且为正相关。建立的基于影像特征的多元线性回归模型为:
y1=-1.868x1-0.847x2+0.667x3+1.812x4+0.264x5+1.071x6+2.465x7+28.530
(2)
式中,x1为球形度(S0),x2为平面度(S0),x3为区域熵(SM),x4为游程熵(M1),x5为最大相关系数(SL),x6为联合平均(S0),x7为偏度(S0)。
影像组学参数联合临床病理信息建立的多元线性回归预测模型,模型性能为R2=0.295,P=0.033,OR为5.370,95%置信区间为[1.526,18.903],均有所提高。建立的影像特征联合临床病理信息的多元线性回归模型为:
y2=-1.750x1-0.834x2+0.230x3+1.849x4+0.214x5+0.860x6+2.038x7+5.681x8+33.420
(3)
式中,x1为球形度(S0),x2为平面度(S0),x3为区域熵(SM),x4为游程熵(M1),x5为最大相关系数(SL),x6为联合平均(S0),x7为偏度(S0),x8为PR。
建立基于影像特征的预测模型和影像特征联合临床信息的预测模型,对多特征的预测性能进行评估,结果如表3所示。表3中,影像特征联合临床信息的预测模型还包含了临床病理指标PR,其模型参数为:PR系数=-5.681,T=-2.437,P=0.017。
表3 多元线性回归预测模型特征分析
从表3可以看出,2个模型选出的影像特征集合完全一致,表明这7个影像特征在多变量预测中都起到了一定的预测作用,其中表现最佳的影像特征为S0序列的偏度,2个模型的T检验结果均显著(P<0.05)。
运用弹性网络回归模型在测试集上预测复发风险评分,预测得到的RS和真实RS的回归分析如图3所示。由图3可以看出,2个模型在测试集上得到的预测RS和真实RS具有一定的相关性,且呈现正相关关系,即21基因检测RS分值高的患者通过模型预测得到的RS也相应偏高。
图3 测试集上预测得到的RS和真实的RS回归分析
3 结束语
本文针对DCE-MRI影像组学参数及临床病理信息与乳腺癌21基因检测复发风险评分的关联性展开研究。首先,运用单变量线性回归分析检验单个的影像特征和临床病理信息与RS的相关性;然后,对特征进行多元线性回归分析,评估多特征对RS的预测性能。研究结果表明,基于动态增强磁共振成像的影像组学参数和临床病理信息对预测乳腺癌患者的21基因检测复发风险评分有潜在价值,有望在预测乳腺癌的复发风险及化疗获益中发挥作用。但是,本研究存在一定的局限性,如样本量较小,预测模型的鲁棒性需要更多的数据进行验证;其次,影像参数比较单一,提取的影像特征全部来自乳腺癌DCE-MRI影像。下一步计划在更大的数据集上展开实验,纳入更多的影像资料,如弥散加权成像、T2加权成像等,以期发掘出更多有意义的影像标志物。