APP下载

基于多参数MRI影像组学的列线图术前预测子宫内膜癌淋巴血管间隙侵犯的研究

2022-11-27彭永佳刘晓雯唐雪罗燕江长思龚静山

磁共振成像 2022年7期
关键词:线图组学预测

彭永佳,刘晓雯,唐雪,罗燕,江长思,龚静山*

子宫内膜癌(endometrial cancer, EC)作为女性生殖系统最常见的恶性肿瘤之一,近年来仍严重影响着女性的身心健康,其发病和死亡率一直居高不下[1]。影响EC预后的因素很多,如淋巴血管侵犯(lymph vascular space invasion, LVSI)、年龄、病理学分级、宫颈基质侵犯(cervical stromal invasion, CSI)等,其中LVSI是影响EC预后的重要独立危险因素[2-3]。术前对LVSI的诊断、治疗及预后密切相关,因为不同的LVSI 侵犯程度影响着EC 患者治疗手段的选择。LVSI 阳性(+)患者肿瘤的异质性更高,淋巴结转移风险更高,预后较差,早期切除阳性淋巴结利于患者预后;而LVSI阴性(-)患者淋巴结转移的概率相对较小,可以在术中减少淋巴结的清扫,对于高龄或者身体状况不佳的患者可以避免不必要的手术,从而有利于患者的康复。所以早期准确预测LVSI存在与否可有助于选择正确有效的治疗方法,也可避免一些过度化治疗对患者带来的伤害。另外,由于LVSI 的组织病理学只有经过术后病理才可以获知,而目前临床仍缺乏术前准确诊断或预测LVSI以指导术前手术方式的选择和治疗方案制订的有效的生物学标记。

MRI无创无辐射,具有较高的空间分辨力,并且可以多方位多参数成像,因此被广泛应用于妇科肿瘤的诊断、分期和疗效评估,在患者治疗方案决策中起着重要作用[4-7]。近年来随着人工智能的飞速发展,影像组学进入了一个新时代,它将常规医学影像图像转变为可挖掘的大数据,为临床患者的个性化治疗提供决策支持,已成为影像医学与精准医学间的桥梁[8-9]。因此,本研究拟利用多参数MRI(multiparametric MRI, mpMRI)提取EC的影像组学特征,建立机器学习模型在体预测LVSI状态,并通过列线图使模型可视化以便于临床推广,为EC患者个性化治疗方案的选择提供决策支持。

1 材料与方法

1.1 研究对象

本研究已获深圳市人民医院道德伦理委员会批准,免除患者的知情同意,批准文号:LLKY-2021909。回顾性分析2015年6月至2021年6月就诊于深圳市人民医院经过手术病理证实为EC患者病例285例。纳入标准:(1)经病理诊断为EC;(2)行子宫及双侧输卵管、卵巢全切术且有完整术后病理报告,将患者分为LVSI(+)组和LVSI(-)组;(3)术前两周内经过MRI平扫加增强检查且可以从PACS(picture archive and communication system)系统中完整获取;(4)MRI 检查前未经相关治疗。排除标准:(1)MRI图像上病灶最大径小于1 cm 或大量出血等使病灶显示不清;(2)图像质量差或影像组学特征提取失败。最终202例纳入本研究,收集患者的相关资料,并按照7∶3的比例随机分入训练集(n=141)和验证集(n=61)(如图1)。

图1 子宫内膜癌MRI特征提取及构建预测淋巴血管侵犯预测模型流程图。Fig. 1 Endometrial cancer MRI features extraction and construction of lymphatic vascular space invasion prediction model flow chart.

1.2 MRI扫描方案

采用Simens Magnetom Skyra 3.0 T MRI扫描系统和18通道相控阵体部线圈。检查前嘱咐患者排空肠道并喝适量的水适当将膀胱充盈。患者取仰卧位,头先进,采集MRI轴位序列。扫描序列包括:T2WI快速自旋回波(turbo spin echo, TSE)序列、T1WI TSE序列、扩散加权成像(diffusion weighted imaging, DWI)序列(b 值为0 和1000 s/mm2)、T1WI 对比增强(contrast enhanced T1WI, CE-T1WI)序列。根据DWI自动生成表观扩散系数(apparent diffusion coefficient, ADC)mapping,各序列参数见表1。

表1 MRI 扫描参数Tab.1 MRI scan parameters

1.3 肿瘤组织病理学分级

依据术前诊刮术后病理诊断将EC分为以下三级:1级(G1)肿瘤的实性成分5%以下;2 级(G2)肿瘤实性成分在6%~50%之间;3 级(G3)肿瘤的实性成分大于50%。非子宫内膜样腺癌包括浆液性乳头状癌、癌肉瘤和透明细胞癌等,病理上诊断为高级别EC。本研究将G1 和G2 分为低级别EC(G-low),G3 和非子宫内膜样腺癌分为高级别EC(G-high)。

1.4 肿瘤分割和影像组学特征提取

每位患者MRI 图像的获取由2 名高年资(分别为12 年、15 年以上工作经验)的放射科医生从PACS 系统采用双盲法共同阅片,对于有异议的协商解决。每个患者获得T2WI、DWI、ADC、CE-T1WI四个MRI序列图像,以DICOM(digital imaging and communication in medicine)格式导出进行图像后处理。由两名3年以上MRI 读片经验的医生各自分别在T2WI、ADC(参考DWI,b 值为1000 s/mm2)、CE-T1WI 图像上采用开源的ITK-SNAP(v.3.6.0, www.itksnap.org)软件手工逐层勾画感兴趣区(region of interest, ROI),考虑到肿瘤异质性分析的重要性,ROI应包括出血、坏死、囊变等区域,但应避免肿瘤周边正常的组织区域,最终获取肿瘤的3D分割图。采用开源Pyradiomics软件包(http://pyradiomics.readthedocs.io/)自动提取影像组学特征。每个序列图像共获取107个纹理特征,包括14个形态(shape)特 征、14 个 灰 度 相 关 矩 阵(gray level dependence matrix, GLDM)特征、24 个灰度共生矩阵(gray level co-occurrence matrix, GLCM)特征、18个一阶统计(first order statistics)特征、16个灰度运行长度矩阵(gray level run length matrix, GLRLM)特征、16 个灰度区域大小矩阵(gray level size zone matrix, GLSZM)特征,5个邻域灰度差矩阵(neighborhood gray-tone difference matrix, NGTDM)特征。

1.5 统计学处理

统计分析采用SPSS 23.0 及R 语言4.2.2 版本(http://www.rproject.org)统计软件。采用t检验及χ2检验或Mann-Whitney秩和检验分析临床基本资料及影像组学特征。定量资料进行正态分布检验,以均数±标准差(±s)或中位数表示,定性资料通过频数和百分比(%)进行统计描述。P<0.05 为差异有统计学意义。采用组内相关系数(intraclass correlation coefficient, ICC)评价2名医师提取影像组学特征参数的一致性,以评估数据抽取结果的一致性,大于0.75认为一致性良好。影像组学特征采用最小值-最大值归一化,消除不同特征间的尺度不同。运用R语言“glmnet”包在训练集中进行最小绝对收缩和选择算法(least absolute shrinkage and selection operator, LASSO)回归分析和5折叠交叉验证法筛选与LVSI强相关的特征并计算影像组学分数(radiomics score, Rad-score)。

1.6 模型的构建、可视化和验证

以单因素和多因素logistic回归筛选LVSI的独立危险因素,在训练集中建立回归模型(R语言”lrm”软件包),并采用列线图使模型可视化,预测效能采用C指数(C-index)评价,并采用bootstrap法(1000次)确定95%置信区间(95%CI)。建立校准曲线评估模型拟合优度,在验证集对模型进行验证,采用DeLong检验进行比较。列线图临床净收益率通过决策曲线分析(decision curve analysis, DCA)来评价。

2 结果

2.1 临床基本资料单因素分析

202 例EC 患者中有46例(22.8%)患者发生LVSI,在有无LVSI之间年龄、肿瘤病理学分级差异均具有统计学意义(P<0.05),并且LVSI(+)组年龄高于LVSI(-)组[(59.24±8.19)岁vs.(54.15±9.41)岁,P<0.001];EC高级别肿瘤的患病率在LVSI(+)患者中更高[46%(21/46)vs. 15%(23/156)],且在有无LVSI组间差异有统计学意义(P<0.001)。LVSI和MRI-CSI之间的相关性无统计学意义(P=0.267)(表2)。

2.2 影像组学特征的选择

2位医师分别勾画ROI后提取的影像组学特征进行组间一致性检验后发现有36个影像组学特征稳定性较差(ICC≤0.75)。在剩余285 个影像组学特征进行单因素分析后,有23个组学特征有统计学意义(P<0.05)。LASSO 回归筛选出13 个影像组学特征与LVSI 存在与否具有较强的相关性(包含3 个ADC、6 个CE-T1WI和4个T2WI图的特征),详见表3。通过公式计算Rad-score=-1.47771068+特征×系数,两组间Rad-score 分布差异有统计学意义(P<0.05,表2 和图2)。典型病例见图3和图4。

图2 训练集中影像组学分数柱形图,红色代表淋巴血管侵犯阳性,蓝色代表淋巴血管侵犯阴性。Fig. 2 Bar graph of radimics score in the training set, where red represents lymphatic vascular space invasion positive and blue represents negative.

表2 患者基本资料比较以及LVSI高危因素多因素回归分析Tab.2 Comparison of basic patient data and multivariate regression analysis of high-risk factors for lymphatic vascular space invasion

表3 LASSO分析筛选13个影像组学特征统计Tab.3 Statistical analysis of 13 radiomics features screened by LASSO

2.3 预测模型构建与预测效能

单因素和多因素logistic回归分析显示年龄、病理学分级和Rad-score为LVSI的独立危险因素(表2)。联合LVSI危险因素构建的列线图在训练集和验证集中C-index 分 别 为[0.871(95%CI:0.803~0.940)vs. 0.810(95%CI:0.698~0.917),P=0.333](图5A),影像组学模型在训练集和验证集中C-index 分别为[0.854(95%CI:0.784~0.925)vs. 0.756(95%CI:0.619~0.892),P=0.211](图5B)。列线图和影像组学模型对LVSI均具有较高的预测效能,并且列线图高于影像组学模型(P=0.012),如图5C。模型的列线图如图6;校准曲线发现预测概率与观察概率基本一致,平均绝对误差为0.027,表明模型具有良好的拟合优度(在Hosmer-Lemeshow test,P=0.680)(图7)。列线图的临床应用效能,使用DCA进行评价(图8)。

图5 预测淋巴血管侵犯(LVSI)受试者工作特征(ROC)曲线图。5A:列线图模型在训练集与验证集中预测LVSI的ROC曲线图;5B:影像组学模型在训练集与验证集中预测LVSI的ROC曲线图;5C:列线图和影像组学预测LVSI效能的比较。Fig. 5 Receiver operating characteristic (ROC) curve for predicting lymphatic vascular space invasion (LVSI). 5A and 5B show the ROC curves of the nomogram and radimics models in the training and validation sets,respectively;5C shows the comparison of the nomogram and radimics in predicting LVSI efficacy.

图6 预测淋巴血管侵犯的列线图模型。Fig.6 The normogram model to predict lymphatic vascular space invasion.

图7 列线图模型的校正曲线。Fig.7 The correction curve of the normogram model.

图8 在训练集中预测淋巴血管侵犯列线图的决策曲线分析。Fig. 8 The decision curve analysis of predicting lymphatic vascular space invasion nomogram in the training set.

3 讨论

本研究提取EC的mpMRI影像组学特征并采用LASSO筛选出13个与LVSI相关的特征并计算Rad-score,其模型对LVSI具有较高的预测能力,在训练集和验证集中C-index 分 别 为0.854 (95%CI:0.784~0.925)和0.756(95%CI:0.619~0.892);结合临床病理特征建立列线图后,其预测效能更优,在训练集和验证集的C-index 分别达到0.871(95%CI:0.803~0.940)和0.810(95%CI:0.698~0.917)。研究结果表明影像组学具备在体评估EC 肿瘤微环境的潜能,有望成为在体预测LVSI 的影像学生物标记,为临床患者个性化医疗方案的制订提供决策支持。

影响EC 的预后和临床治疗方案选择因素较多,而且大多数可以依赖活检和常规影像学评估获得,而LVSI 为组织病理学表现,只有术后才能明确。通过结合Rad-score 和临床病理特征建立的模型有利于为临床术前决策提供更有力的定量支持,特别是在无法及时得到经验丰富的放射科医生阅片的情况下,因为放射科医生阅片对疾病进行视觉上的分析和诊断在一定程度上依赖工作经验,而且每个医生的判断都存在一定的差异性[10]。影像组学采用数学算法可以更客观地评估病变,从而获得视觉上无法得到的定量信息[11-13]。目前,将影像组学与临床指标联合建立预测模型,提高病变的诊断或预测能力是影像组学研究的热点之一[14-15]。Ueno等[16]利用mpMRI影像组学特征建立模型对EC的LVSI进行预测,其AUC值为0.80,对肿瘤危险因素的预测效能较本研究低,其原因可能是他们的研究未对临床指标进行综合,且样本量较少,另外仅提取和分析了一阶统计特征。恶性肿瘤最重要的特征之一是异质性,而mpMRI纹理特征分析可以包含更全面的肿瘤内部信息,从而发现不同肿瘤生物行为的差异,更能代表肿瘤内部的真实情况。肿瘤异质性越高,其生物学行为越活跃,转移恶化的风险越高[17-18]。有研究[19]表明mpMRI 影像组学特征模型预测肿瘤的效能优于单参数模型。Luo等[20]基于多参数影像组学列线图模型预测子宫内膜癌LVSI的研究,得到了较高的预测效能,其AUC为0.82,结果相较本研究低,可能是由于该研究样本量相对较少,还有可能是列线图引入了不同的临床指标。

特征选择是机器学习模型开发中非常重要的过程,如果将所有特征数据都输入到机器学习算法或模型中,则可能会发生过拟合[21]。最近的一项研究发现,利用强相关特征建立的模型较不筛选的模型更加稳定,并且能够获得更好的预测效果[22]。本研究通过LASSO回归降维筛选出13个与LVSI具有较强相关的特征并构建Rad-score,建立的预测模型具有较高的效能。在这13个特征中形状和GLRLM特征最多,可能与EC的LVSI更具相关性。形状特征是肿瘤重要的形态学特征之一,其反映了肿瘤在形状方面的物理特性,其值越大代表肿瘤的形态越不规则,边界越不清晰,从而反映肿瘤边缘的微环境特征越具有较高的恶性度。本研究发现,筛选出来的13个特征对LVSI预测贡献较大的前2 名均为形态特征,分别为T2WI 平面度和ADC球度,λ系数为0.652和0.349。平面度越大代表肿瘤越大,球度值越大说明肿瘤区域表面积越大,说明LVSI(+)肿瘤形态越不规则,对周围正常组织的侵犯性越强。GLRLM 代表图像信号灰度强度值或行程长度差异,其值越大说明肿瘤越容易出血、坏死、囊变等因而引起图像信号越不均匀,恶性程度也越高。另外,本研究还有一个发现,在筛选出的13 个组学特征中CE-T1WI序列提取的组学特征相较其他两个序列居多,这说明肿瘤的特异性行为与CE-T1WI中的影像组学信息密切相关。CE-T1WI通过对比剂进入肿瘤内部的微循环,从而定量分析肿瘤组织内部的生存供血情况来判断肿瘤的生物学行为[23-24]。因此,本研究得到的结果与CE-T1WI对评估肿瘤异质性的贡献是相对应的。

本研究有几方面局限性,首先,这是一个单中心的回顾性研究,只选入接受手术的患者,这可能会引入选择偏差;其次,本研究样本量较小,仅有202例患者,因此,在整个队列中随机分为训练集和验证集,可能会导致过拟合,而且缺少外部数据验证;另外,影像组学依赖于专家定义的有限特征,本研究对每个序列只提取了107个影像组学特征,可能还有一些与LVSI相关性较强的未知特征没有被包含在内。

综上所述,本研究提取mpMRI影像组学特征建立的列线图能对EC 的LVSI 达到较高的预测效能,有望成为一种在体术前预测LVSI 的影像学生物标记,为临床个性化的治疗方案和预后判断提供决策支持。

作者利益冲突声明:全体作者均声明无利益冲突。

猜你喜欢

线图组学预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
影像组学在肾上腺肿瘤中的研究进展
一些图运算的调和指标与调和多项式的线图∗
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
预测瘢痕子宫阴道试产失败的风险列线图模型建立