基于MRI影像组学预测宫颈癌Ki-67表达水平

2023-11-23刘祎文戈董天发唐文艳陈柳冰宋亭

放射学实践 2023年11期

刘祎,文戈,董天发,唐文艳,陈柳冰,宋亭

宫颈癌(cervical cancer,CC)是世界上女性第四大常见的癌症,发病率不断上升,死亡率高,发病年龄较小[1]。现有研究表明[2],Ki-67可诱导肿瘤相关组织蛋白酶的活性,促进肿瘤增殖和侵袭能力。并且,有研究证明Ki-67在晚期宫颈癌中高表达,其表达与肿瘤大小、淋巴转移和宫颈癌分期密切相关[3,4]。同时,Ki-67也与患者的预后密切相关,表明Ki-67表达是宫颈癌预后的一个指标。肿瘤生长分数的测量为预测临床行为提供了一种潜在的有价值的方法,也能有助于放射治疗剂量的拟定。

鉴于Ki-67在肿瘤不同区域的增殖状态不同,传统的侵袭性免疫组织化学方法只评估组织小样本的活检标本,不能反映肿瘤的整体异质性[5]。影像组学不同于传统的仅使用医学图像进行视觉解释的做法,它是通过高通量提取基于形状、强度、大小或体积等的丰富定量特征,将数字医学图像转换为可挖掘的数据[6,7]。

MRI影像组学已经在其他肿瘤,比如肝细胞癌、软组织肉瘤的Ki-67状态评估中应用[8,9]。据笔者所知,目前还没有研究检测基于磁共振成像(magnetic resonance imaging,MRI)的影像组学与宫颈癌Ki-67状态之间的相关性。因此,本研究旨在研究基于MRI的影像组学分类器是否可以无创预测宫颈癌患者Ki-67状态。

材料与方法

1．研究对象

本研究为回顾性分析获得了伦理批准,并取消了知情同意的要求。本研究回顾性分析2016年1月-2021年9月两家三级甲等医院的343例经病理确诊的宫颈癌患者。纳入标准:①行子宫根治术及盆腔淋巴结清扫术;②MRI检查前未接受任何治疗;③术前15天内进行MRI检查;④有T2/SPAIR、增强T1WI、ADC图像。排除标准:①术前接受治疗(新辅助化疗、放疗或锥化);②T2/SPAIR、增强T1WI、ADC上均未见病变;③患者在检查过程中的移动以及结肠和直肠内气体的化学位移伪影等导致的图像质量较差;④患有其他罕见类型的宫颈肿瘤。

2．图像采集及设备参数

MRI检查设备为Philips Achieva 3.0T TX MR扫描仪和1.5T Siemens MR扫描仪。采集参数多采用快速自旋回波序列,包括横轴面T1WI,横轴面、斜冠状面、矢状面T2频率衰减反转恢复序列(spectral attenuation with inversion recovery,SPAIR)、横轴面增强T1WI(contrast-enhanced T1-weight imaging,CE T1WI)。两个中心机器参数各异,分别为:T1WI(TR 320～680 ms,TE 7.5～18 ms),T2/SPAIR(TR 2725～3528.9 ms,TE 78.5～80 ms),CE T1WI(TR 3～4.1 ms,TE 1.25～1.95 ms),各序列层厚2.5～6 mm,层间距2.5～6 mm,层数16～22层。自旋平面回波成像(echo planar imaging,EPI)序列获得横向扩散加权图像,参数为:TR 5075～10100 ms;TE 50～80 ms;层厚3～4 mm;层间距1～3 mm。b值平均为0和1000 s/mm2。

本研究只选取MRI方案包括横轴面T2/SPAIR、CE-T1WI、ADC图像。所有影像图像以医学数字成像和通信(digital imaging and communications in medicine,DICOM)格式从医院影像归档和通信系统(picture archiving and communication system,PACS)工作平台获取。

3．Ki-67 的测量

在手术切除后一周内通过免疫组化检查进行Ki-67的测量。Ki-67评分的百分比是通过记录阳性染色的恶性细胞来记录的。Krtinic等[10]研究结果中Kaplan-Meier生存分析证实,Ki-67 PI值超过60%的患者的平均生存率较Ki-67 PI值≤60%的患者长,且差异具有统计学意义(P<0.001)。所以,笔者经免疫组织病理学染色后,筛选出有Ki-67结果的患者,Ki-67≤60%为低表达组,Ki-67>60%为高表达组。

4．影像组学方法

感兴趣区分割:笔者从PACS系统中获取横轴面T2/SPAIR、CE T1WI和ADC(DICOM)原始图像。在3D slicer软件(https://www.slicer.org)由同一位有9年妇科影像诊断经验的医生在每位患者T2/SPAIR、CE T1WI和ADC图像上紧贴肿瘤边缘逐层手动勾画整个肿瘤轮廓,包括坏死和囊性区域(图1)。勾画者在所有图像勾画完成后进行ROI二次确认和修改,对于不确定的病灶,请教另一位高年资医生进行指导勾画。

图1 使用3D Slicer软件进行勾画的界面示意图。

特征的提取和筛选:由于本组病例来自两家不同的三甲医院,图像参数及机型有所差异,所以笔者在使用3D Slicer软件对特征提取时,将图像进行1 mm×1 mm×3 mm重采样处理。同时对图像进行滤波及高斯拉普拉斯算子(LoG)的预处理。每位患者的每个序列(T2/SPAIR、CE T1WI和ADC)各提取了1130个原始特征。

特征选择是在R和Rstudio软件(开源软件,ht-tps://www.r-project.org/,https://rstudio.com/)实现的。影像组学特征从不同角度反映肿瘤信息,但并非所有的特征都与Ki-67相关。首先,为填补训练集和验证集中生成的特征值中的空缺,笔者对缺失值进行填充处理。其次,为了使两个数据集结果落入一个小的特定区间,消除量纲和量级的影响,对数据进行z-score标准化处理。

为了避免维度灾难和减少建模时影像组学特征的偏差,采用了两个步骤来选择训练组中的特征。第一步,去除不稳定特征后余下特征都通过独立样本t检验Mann WhitneyU检验来选择主要队列的潜在重要特征。第二步,采用最小绝对收缩和选择算子(least absolute shrinkage selection operator,LASSO)通过执行变量选择和正则化来进行降维和特征选择,以提高产生的统计模型的预测精度和可解释性[11]。最小λ值被用来调整正则化参数(λ)和使用10倍交叉验证的特征选择。最后,对LASSO选择的特征计算Spearman相关系数,以避免潜在的严重线性依赖建立相关系数的强度。在本研究中,笔者认为具有非常高正相关(0.90～1.00)的特征具有严格的线性依赖性。

影像组学模型构建及评估:特征选择后,笔者尝试了三种机器学习建模方法,包括Logistic回归、决策树、支持向量模型(support vector model,SVM),根据所选择的特征识别临床病理指标。影像组学特征的预测准确性通过训练集和验证集的受试者操作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)来量化。之后,选择验证集AUC值最高的模型类别。根据模型筛选的关键特征与其相应权重系数乘积的线性组合建立影像组学标签,同时计算出基于患者上述标签的影像组学风险评分(Radiomics score,Rad-score)。计算公式:

Rad-score=β0+β1X1+β2X2+β3X3+……βnXn

(1)

Xn代表模型筛选出的最佳影像学特征,βn代表相应特征的权重系数。

5．统计学分析

患者的临床病理特征评估训练和验证数据集中患者之间以及每个数据集中Ki-67高表达和Ki-67低表达患者的年龄差异,采用Mann WhitneyU检验或独立样本t检验。采用卡方检验来识别训练数据集和验证数据集之间Ki-67状态的差异。

仅对训练集进行特征选择和模型构建,验证集仅用于评估模型性能。为了分别评价基于T2/SPAIR、CE T1WI、ADC图像的影像组学分类器的识别能力,笔者在训练数据集中采用ROC曲线分析评价诊断敏感度、特异度及AUC。LASSO分析采用R统计软件(版本3.6.1,http://www.rproject.org),使用“glmnet”软件包进行。ROC曲线使用“pROC”软件包绘制ROC曲线。所有检验均为双尾检验,以P<0.05为差异具有统计学意义。

结果

1．一般临床资料

按照纳入和排除标准最终收集具有临床病理资料和影像数据的患者91例(表1)。

表1 整个队列的临床和肿瘤特征 [例(%)]

其中,Ki-67低表达组(Ki≤60%)27例,占29.7%。Ki-67高表达组(Ki-67>60%)64例,占70.3%。91例患者平均年龄51.02±9.67岁,其中Ki-67低表达组41～58岁(平均50.11±9.67岁),Ki-67高表达组44～57岁(平均51.43±9.72岁),两组间年龄差异无统计学意义(P=0.550)。

2．训练组和验证组临床临床资料

不同Ki-67状态训练组和试验组的临床病理特征差异无统计学意义。经正态性检验,训练组、验证组连续型变量不符合正态分布,所以检验组间差异采用非参数型检验的曼-惠特尼检验。分类变量采用卡方检验或Fisher检验。

两家医院总共收集到具有Ki-67免疫组化结果的宫颈癌患者91例。Ki-67≤60%的患者27人,Ki-67>60%的患者64人。按照7:3的比例随机分配为训练组、验证组。在训练数据集和验证数据集中Ki-67高表达组和低表达组年龄差异没有统计学意义(P=0.311、0.784)。训练数据集和验证数据集的Ki-67高表达组和Ki-67低表达组患者年龄差异没有统计学意义(P=0.421)。在训练数据集和验证数据集中, Ki-67低表达患者的比例分别为31.3%和33.3%,差异无统计学意义(P=0.926)。

3．影像组学结果

特征提取及筛选:分别从T2/SPAIR、CE T1WI、ADC中提取1130个原始影像组学特征。对T2/SPAIR、CE T1WI及ADC影像提取的原始数据进行单因素分析及LASSO的降维处理后分别得出4、6、5个对肿瘤Ki-67状态区分最重要的特征。

基于T2/SPAIR图像对Ki-67≤60%组和Ki-67>60%组区分的影像组学分数(Rad-score T2/SPAIR),计算公式:

Rad-score T2/SPAIR=0.57180983-0.07838715×log.sigma.1.5.mm.3D.ngtdm_Busyness-0.02143699×wavelet.LLH.firstorder_Mean-0.38996466×wavelet.HHH.glszm_LargeAreaLowGrayLevelEmphasis+0.39211683×wavelet.HHL.glcm_Imc2

(2)

基于CE T1WI图像对Ki-67≤60%组和Ki-67>60%组区分的影像组学分数(Rad-score CE T1WI),计算公式:

Rad-score CE T1WI=0.27275754-0.03218521×log.sigma.1.5.mm.3D_glszm_SmallAreaLowGrayLevelEmphasisv-00.15269483×wavelet.LHL_firstorder_Mean+0.21122807×wavelet.LHH_firstorder_Median-0.07965290×wavelet.HHH_glrlm_ShortRunLowGrayLevelEmphasis+0.37589105×wavelet.HHL_glcm_Imc2+0.27886053×wavelet.HHL_glszm_ZoneEntropy

(3)

基于ADC图像对Ki-67≤60%组和Ki-67>60%组区分的影像组学分数(Rad-score ADC),计算公式:

Rad-score ADC=1.415592702-0.269291095×wavelet.LLH.firstorder_Mean-0.673123228×wavelet.HLH.glcm_Imc1-0.001642142×wavelet.HHH.firstorder_Median+0.038702281×wavelet.HHL.gldm_DependenceVariance-1.272663858×wavelet.LLL.glcm_MCC

(4)

组学模型建立及性能评估:本试验对T2/SPAIR、CE T1WI及ADC三个序列采用了回归模型、决策树模型和SVM模型,选择验证组AUC值较高的模型(表2)。

表2 两个分类器的性能与四个评估指标

影像特征在训练组和验证组中都表现出满意的预测性能,T2/SPAIR序列在回归模型下表现最佳,AUC为0.801(95%CI:0.6771～0.9257),在验证队列中为0.716(95% CI:0.5118～0.9209),见图2。CE T1WI序列在SVM模型中表现最佳,训练组AUC为0.856(95% CI:0.7381～0.9749),在验证队列中为0.731 (95%CI:0.5235～0.9384),见图3。ADC序列在回归模型中表现最佳,训练组AUC为0.819(95% CI:0.6964～0.9423),在验证组中AUC为0.719(95% CI:0.5098～0.9288),见图4。将三个序列联合起来的模型显示,训练组AUC明显改善(AUC=0.961),而验证组未见明显改善(AUC=0.596)。两个序列联合模型T2/SPAIR+ADC、CE T1WI+ADC、T2/SPAIR+CE T1WI在训练组AUC 分别为0.872、0.939、0.953,均低于三个序列联合模型,在验证组AUC分别为0.389、0.658、0.544,均低于单个序列模型效果。

讨论

增殖相关的Ki-67抗原与细胞周期密切相关,直接反映细胞增殖,与肿瘤进展密切相关。增殖标记Ki-67已被反复证明是乳腺癌和其他肿瘤的独立预测和预后因素[12]。目前,临床应用中最常用的定量Ki-67表达的方法是免疫组织化学。活检获取了部分肿瘤样本组织,Ki-67指数的值准确性是有限的,因为它忽略了整个肿瘤的异质性。然而,功能成像可以在术前提供肿瘤组织的整体解剖和功能特性。

2012年,影像组学的概念是由荷兰学者Lambin提出的,其思想起源于肿瘤异质性[7]。与传统的蛋白质组学和基因组学方法相比,影像组学可以无创评价肿瘤的微环境和预测肿瘤遗传异质性。在本研究中,笔者使用影像组学来定量提取肿瘤内部散在的特征,从而重构肿瘤内部结构的非均匀特征。有研究表明,影像组学可以提供更详细的信息,说明图像与Ki-67表达水平之间的相关性。因此,使用MRI提供无创检查方式可能会更全面和有代表性地确定Ki-67状态;这可能对未来为患者更好地管理提供帮助,同时,对实施精准医学具有潜在的意义。

在本研究中,笔者开发并验证了基于原发肿瘤特征的无创影像学模型,以预测宫颈癌Ki-67的表达。Liang等[13]和Ma等[14]报道,基于T2WI和DCE-MRI的影像组学分类器是乳腺癌患者Ki-67指数的重要预测因子,准确性分别为0.729和0.757。本研究在训练集中的准确性为0.762、0.873,超过了上述两项研究结果的准确性值,但验证集稍低于上述值(0.536、0.571)。但在上述研究中,他们只对最大的切片进行了二维分析,这可能不能完全评估整个肿瘤的异质性。在本研究中,笔者对整个肿瘤进行了三维分析,这可以充分考虑到肿瘤的异质性。

Zhang等[15]基于ADC序列的影像组学回归模型表现出良好的识别能力,训练组AUC为0.75±0.08,训练集的准确率为0.710,测试集的AUC为0.720,准确率为0.700。本研究ADC序列采用同样为回归模型,展现的模型效果较该研究好,训练组AUC为0.819,验证组为0.719,训练组准确率为0.810,验证集准确率的为0.714。李建等[16]研究结果显示ADC值与Ki-67表达程度呈负相关。本研究选择在ADC图上计算影像组学特征的原因是评估水分子运动的能力在具有相同场强度和相同b值范围的不同MRI系统之间显示出良好的再现性[17,18]。这一特征表明,虽然各中心扫描仪通常不同,但ADC图像在多中心影像组学研究中是有价值的。同时,MRI常规序列与功能成像结合影像组学在宫颈癌异质性分析方面的应用逐渐广泛,对于宫颈癌病灶检出、疗效预测及评估,并指导临床决策[19]。

本研究对象中缺少FIGO Ⅳ期的患者,可能导致评价偏移。同时,本研究的局限性在于患者数量不够大。由于数据不足,无法进行外部验证,诊断准确性可能被高估。必须强调的是,即使一个影像组学分类器对少数患者显示出良好的结果,它必须用更大的样本进行验证,然后才能扩展到临床使用。然而,笔者认为这些数据提供了足以促使更大的基于Ki-67指数临床研究的影像学价值,从而能够更好地决定术前预测指征。最后,需要未来的研究来使用更大的样本来评估影像组学生物标志物在独立和前瞻性验证队列中的价值和特征可重复性。

人工智能在医学中的应用是高度发展的。正如有研究证明,人工智能在临床诊断方面表现出与人类专家相当的高准确性和能力[20]。然而,挑战仍然存在,例如诊断准确性的提高[21]。本研究提出的模型包含了所有的特征类型,非小波特征和小波变换特征都在预测Ki-67状态方面获得了一定的分类性能。已有研究证明,影像组学可能有助于预测分子特征,并为胶质瘤的靶向治疗和个性化治疗提供信息[22,23]。因为目前还没有关于影像组学对宫颈癌Ki-67的预测,希望本研究对Ki-67预测的方法能对未来宫颈癌个性化治疗方案的拟定提供有用的信息。