基于3D增强CT影像组学的肾癌亚型三分类预测模型
2021-07-18张海捷陈梦林漆安琪杨丽洋崔维维杨姗姗
张海捷,殷 夫,陈梦林,漆安琪,杨丽洋,崔维维,杨姗姗,文 戈
1深圳大学第一附属医院PET/CT中心,广东 深圳 518052;2深圳大学信息工程学院,广东 深圳 518052;3南方医科大学南方医院影像系,广东 广州 510515
肾细胞癌(RCC)是人类十大最常见的恶性肿瘤之一,也是尿路最常见的恶性肿瘤,约占肾恶性肿瘤的85%和整体恶性肿瘤的3%[1]。根据2016年世界卫生组织分类标准,肾透明细胞癌(ccRCC)是最常见的肾癌亚型,约占全部RCC的75%,也是最具侵入性和预后最差的一种亚型[2]。第二、三位最常见的RCC 亚型是乳头状癌(pRCC)和嫌色细胞癌(cRCC),分别占10%~15%和5%。RCC的其他亚型包括集合管癌、多房囊性肾癌、髓样癌和未分类癌等[3-4]。不同亚型肾癌的的生物学行为和侵袭性不同,其治疗方法和预后也不同,所以在治疗前进行RCC亚型的鉴别很重要[5]。此外,晚期肿瘤的靶向药物治疗和免疫治疗的选择也基于RCC亚型[6-7]。
肾穿刺活检病理结果是鉴别RCC亚型的金标准,但由于肾活检术的侵入性,可能使患者面临出血、静脉炎、背痛和成本增加等风险,而且穿刺术也存在一定的失败率。如果能有一种无创的方法能在治疗前区分RCC亚型,将会给临床医师提供一个新的选择[8]。虽然增强CT和功能磁共振成像在鉴别肾癌亚型方面取得了一些研究成果[9-10],但其相关参数及阈值的应用还未达到共识[11]。
影像组学近年来发展迅速,影像组学特征(RFs)可以反映图像中像素的均匀现象,可通过特殊软件进行定量分析[12]。通过结合医学图像、基因和临床数据,影像组学可以使用人工智能方法以高通量方式提取和分析肿瘤信息,并提供比传统成像方法更准确的诊断[13]。目前已广泛应用于肺癌、乳腺癌、肝癌和结肠直肠癌的诊断中,但其在肾癌亚型的研究应用较少[14]。目前,有关肾脏的影像组学研究,多集中在鉴别肾脏的良恶性肿瘤方面以及恶性肿瘤的核分级方面,几乎没有专门针对肾癌亚型三分类的机器学习研究,这可能与肾癌的亚型分布极为不平衡,常用的机器学习方法很难模拟真实分布,同时保持可靠性和有效性有关。
本研究基于影像组学特征构建可靠和有效的机器学习模型,用来鉴别肾癌亚型。由于肾癌的亚型很多,且透明细胞癌、乳头状癌和嫌色细胞癌占了绝大多数,因此本研究专注于构建一个3分类模型来探索预测这3个亚型。
1 资料与方法
1.1 一般资料
回顾性分析2013年1月~2018年12月在南方医科大学南方医院接受治疗的肾癌患者的病历和CT图像数据。纳入标准:由2名病理学家确诊的肾癌患者;良好的CT图像质量;CT检查前无肾癌相关治疗;CT扫描包含4个期像:平扫期(NCP)、皮质-髓质期(CMP)、实质期(PP)、排泄期(EP)。排除标准:同一患者存在2个或2个以上病变;病理具有混合特征(例如同时含有乳头状和透明细胞特征);病灶大部分或全部为囊性。入组过程见图1。研究共纳入210例患者,其中男性130例,女性80例,肿瘤位于右肾108例,患者年龄53.09±12.99岁(13~82岁)。不同RCC亚型患者的性别、肿瘤分布和年龄差异无统计学意义(P>0.05,表1)。
图1 患者入组流程图Fig.1 Flow chart of patient enrollment.
表1 不同肾癌亚型患者的一般情况Tab.1 General situation of patients with different subtypes of renal cell carcinoma[n(%)]
1.2 CT 参数
本研究的CT设备为64排多层螺旋CT(Somatom Definition CT,Siemens Medical Solutions,Malvern,PA,USA)和256排多层螺旋CT(Brilliance ICT,Philips Medical Systems,Cleveland,OH,USA)。嘱患者仰卧位屏气时扫描。扫描范围从膈顶到两肾下极。CT参数为:管电压120 kV,管电流150~320 mA,层厚5 mm,层间距5 mm,视野360 mm,矩阵512×512。皮髓质期、实质期和排泄期的扫描分别在肘静脉注射对比剂后30~35 s、50~60 s、190~200 s。对比剂剂量为2 mL/kg,速率2.5 mL/s,总量不超160 mL。
1.3 图像分割
从PACS上匿名提取图像,选择重建层厚为5 mm的CT 图像进行分割。窗宽300~400 Hu,窗位45~65 Hu。使用ITK-SNAP软件(www.itk-snap.org),由2名有经验的放射科医生(腹部从业10年和15年)进行图像的分割。选择肿瘤的3D 容积作为感兴趣区(ROI),沿着肿瘤的轮廓,保持边缘距肿瘤约2 mm,以减少相邻组织(如脂肪或正常肾脏组织)的干扰[15]。图像分割示例(图2)。
图2 皮髓质期分割图像示例Fig.2 CT image segmentation in a cortico-medullary phase enhanced CT scan.
1.4 特征提取
使用PyRadiomics计算平台[16],首先加载并预先处理分割图像,然后提取并过滤RFs,最后将其分组到一阶统计特征、形状特征和纹理特征中。为了确保结果的稳定性和可重复性,本研究计算了2位放射科医生提取的RFs之间组内相关系数(ICC)。ICC>0.80的RFs被认为是一致性很好,保留作进一步分析。
1.5 特征选择和模型构建
使用集成学习分层Bagging方法,基于Lasso回归、Logistic回归算法作为基学习器进行特征筛选和建模。集成学习是一种机器学习的方法,其本质是将多种模型("基学习器"或"弱学习器")一起训练并将其结合以获得更好的结果[17]。Bagging 是bootstrap AGGrateING 的缩写,简言之为通过bootstrap取样(可重复取样)的方法构建多个不同的训练集,之后在每个训练集上训练相应的基学习器,最后将这些基学习器聚合起来的最终模型[18]。特征筛选流程图(图3)、模型构建流程(图4)。
图3 集成学习特征筛选流程图Fig.3 Flow chart of the ensemble learning bagging method of feature selection.
图4 集成学习模型构建流程图Fig.4 Flow chart of the ensemble learning bagging method of model building.
特征筛选的方法如下:首先将包含全部特征的样本进行训练集和验证集划分,具体方法为进行100次5折交叉验证,每次交叉验证随机将样本分成5等份,每次取其中4份作为训练集,剩余1份做为测试集。一次完整的5折交叉验证得到5个训练集和5个测试集,100次5折交叉验证得到500个训练集和500个测试集。在每个训练集中,通过集成学习Bagging方法,生成10个基学习器,通过Lasso回归算法进行降维和特征筛选,λ值通过LassoCV自适应选择[19];将训练集中R2决策系数>0.8的RFs保留。统计500个训练集RFs的保留次数。选取保留频率排名前20%的RFs作为最终建模特征。
模型构建的方法如下:将含有筛选后的特征的样本进行100次5折交叉验证,得到500个训练集和500个测试集。在每个训练集中,通过通过集成学习Bagging方法,生成10个基学习器,通过logistic回归建立模型,并将模型应用到对应的测试集中,每个测试集中的结果由基学习器投票确定。统计每个测试集上模型效能,将500个测试集的平均效能作为模型最终的效能。通过使用的不同期像的RFs,建立平扫期模型、皮髓质期模型、实质期模型、排泄模型和全期模型。
1.6 统计学分析
采用SPSS22.0软件进行统计分析。分类变量的比较采用χ2检验,P<0.05为差异有统计学意义。机器学习的方法使用Python完成。以受试者操作特征曲线下面积(AUC)、准确度、精确度、敏感度和Kappa系数来评估3分类模型的性能。
2 结果
2.1 特征提取
从每个患者每期分割图像中提取到7类105个影像组学特征,分别为18个一阶统计学特征,13个3D形态学特征,23个灰阶共发矩阵(GLCM)特征,16个灰阶大小区域矩阵(GLSZM)特征、16 个灰阶运行长度矩阵(GLRLM)特征、14 个灰阶依赖矩阵(GLDM)特征、5 个相邻灰音差异矩阵(NGTDM)特征。每个病灶4期图像共得到420个影像组学特征。
2.2 特征筛选和模型构建
在平扫期、皮髓质期、实质期、排泄期模型和全期模型中,分别有10、7、8、10、9个RF被保留。每个特征对应的Lasso 系数(表2)。将上述RFs进行建模,共得到5个预测模型,测试集上5种肾癌亚型预测模型的性能(表3)。
表2 各期模型的影像组学特征和LASSO系数Tab.2 Radiomic features and lasso coefficient of each phase model
表3 测试集上5种模型鉴别肾癌亚型的性能Tab.3 Performance of five models in the test set in differentiating renal cell carcinoma subtypes
2.4 模型的特征、性能分析
在每个单期模型中,特征Large dependence emphasis(GLDM特征)都被保留,在除了平扫期的3个单期模型中,特征total energy(一阶统计特征)均被保留。在全期模型中,4个单期的特征均被包含,分别是4个皮髓质期的特征,3个实质期的特征,1个排泄期的特征和1个平扫期的特征,且这些被保留的特征与单期模型中的特征没有重叠。
测试集上,比较5个模型的性能后发现,全期模型的性能最好,准确性81.0%,精确度71.7%,敏感度79.9%,AUC 0.853,Kappa值为0.679。所有指标都明显高于单期预测模型。在4个单期模型中,实质期模型的性能最好,准确性78.3%,精确度68.9%,敏感度73.4%,AUC 0.811,Kappa值0.532;皮髓质期模型和排泄期模型的性能相似,但是排泄期模型的Kappa值,明显低于皮髓质期的Kappa值(0.285vs0.446)。平扫期模型的性能最差,AUC 0.693。
3 讨论
本研究构建了基于3D多期增强CT影像组学特征的RCC亚型三分类预测模型,其中全期模型在鉴别肾癌的3种亚型(ccRCC、pRCC和cRCC)时具有较好稳定性和可靠性,AUC为0.853(95%CI:0.768~0.889),为临床医生在术前选择肾癌治疗方案提供了新的参考。
本研究中,使用了包含肿瘤全部信息的3D容积分割图像。原因是考虑到肿瘤的异质性导致肿瘤的不同部位表达的生物学信息可能有差异,如果我们仅使用肿瘤的部分层面的信息进行分析,结果可能会导致偏差。有研究表明,如果进行整体的肿瘤分析,可以更好地反应肿瘤的异质性[20]。目前许多研究没有使用3D容积图像作为分割图像,这可能与分割肿瘤的部位、种类以及分割的难易程度相关。本研究的在构建全期模型时,使用了平扫期、皮髓质期、实质期及排泄期图像的所有RF,包含了完整的肿瘤血液动力学特征,可动态的反映了肿瘤的异质性。相较与以往的研究,更丰富、全面的反映了肿瘤全部信息,使构建的模型更可靠。
本研究中,其他类型的肾癌亚型被作为噪声添加到训练集样本中,使得每个亚型的分布尽可能接近实际分布,到目前为止,还没有关于此类模型的报道。本研究使用集成学习Bagging方法解决了肾癌数据集小且不平衡的问题。其中,集成学习是机器学习的一种方法,其本质是将多种模型("基学习器"或"弱学习器")一起训练并将其结合以获得更好的结果[17]。Bagging方法是类似于统计学中的bootstrap 抽样,随机抽取并回放样本,在扩充了样本量的同时确保数据集中所有样本的被选择具有相同的概率和相同的分布,可解决数据不平衡问题[18]。使用Lasso回归作为筛选特征的基学习器,LassoCV自适应的选择最优λ对特征进行降维,简化了预测模型,并且可以了解哪些特征在预测模型中最重要。logistic回归算法和交叉验证的方法对预测模型进行校正,保证了预测结果的可靠性。
即往对肾癌的机器学习方向多集中在区分肾细胞癌的某种亚型与良性肿瘤之间[21-23]或RCC的FuhrmanNCP:平扫期;CMP:皮质-髓质期;PP:实质期;EP:排泄期Kappa:0~1表示不同级别的一致性:0.00~0.20极低的一致性,0.21~0.40一般的一致性,0.41~0.60 中等的一致性,0.61~0.80 高度的一致性,0.81~1.00几乎完全一致.分级方面[24-26],只有少数有关RF的RCC 亚型分类的研究[27-29]。且这些研究多使用二分类,使用的分类器包括随机森林[30]、支持向量机和人工神经网络[16]。本研究应用的是集成学习的方法,与既往的方法有所不同。且本研究建立的是一个3分类模型,可以同时区分3种不同的肾细胞癌的亚型,对临床医生来说结果更直观。
本研究中提取的RFs有以下7类,简要概括为[16]:(1)一阶统计学特征:通过常用的和基本的度量描述掩模定义的图像区域内体素强度的分布。(2)3D形态特征:包含ROI的3D大小和形状的信息,且与灰度强度分布无关。(3)GLCM:反映像素信号强度随像素长度的增加而变化,描述了相同灰度的像素在不同方向上的分布。(4)GLSZM:量化图像中的灰度区域。(5)GLRLM:反映了像素灰度在不同方向上的均匀性。(6)GLDM:量化图像中的灰度依赖关系。(7)NGTDM:量化了一个灰度值和它的邻域在一定距离内的平均灰度值之间的差异。
本研究比较了4个单期模型和全期模型的性能,发现在5种预测模型中,全期模型的性能最好:准确率为81.0%,精确率为71.7%,敏感度为79.9%,AUC为0.853,Kappa系数为0.679,显著高于4种单期预测模型,是一个较好的肾癌亚型预测模型。在全期模型中,RFs分布为:皮髓质期4个,实质期3个,排泄期1个,平扫期1个,4个期像的RFs都被包含,且与4个单期模型中的影像组学特征没有重叠。这表明在建立全期模型时,不能简单的将单期模型中被筛选的特征直接纳入,而应该将4期图像的所有特征一起进行筛选。同时,本研究的全期模型能全面的反映了肿瘤异质性的动态变化情况。既往研究中没有对此进行报道。本研究被纳入全期模型特征中,皮髓质期有4个,多于其他期像,但不能说明皮髓质期的影像组学特征在鉴别亚型时最重要,因为在比较单期模型的效能后发现,实质期模型的预测效能(准确率为78.3%,精密度为68.9%,敏感度为73.4%,AUC为0.811,Kappa系数为0.532)优于皮髓质期模型(准确率为76.4%,精密度为67.1%,敏感度72.7%,AUC 为0.752,Kappa系数为0.446)。这进一步说明了建立全期模型的必要性,与以往强调单相模型的优点和简单性的研究不同。既往研究中,关于哪个单期模型最好并没有一致性的结果。有研究报道的肾癌的皮髓质期CT图像提供了比平扫期图像更有价值的纹理参数[29]。Hoddon等[31]报道排泄期的CT纹理分析可用于鉴别脂肪缺乏型血管平滑肌脂肪瘤(fp-AML)和ccRCC。有研究认为皮髓质期和实质期组合对肾透明细胞癌分级的效能最好[25]。Coy等[32]报道了在多期CT上对ccRCC和嗜酸细胞瘤进行分类的最佳分类结果是在排泄期中获得的。
本研究的局限性:第一,本研究的数据来源于同一家医院,在未来的研究中,我们将进行多中心的研究,尝试建立更稳定可靠的模型;第二,本研究所使用的基学习器相同,今后我们将尝试不同的基学习器组合,以期得到更适合RCC亚型数据的模型;第三,本研究仅涉及到3种最常见的肾细胞癌亚型,而没有涉及到干扰临床治疗方案选择的某些肾脏良性肿瘤。
综上所述,本研究构建的全期模型是一个有效可靠的基于3D多期增强CT图像影像组学特征的肾癌亚型3分类预测模型,作为一种无创的方法可能有助于指导临床医师的治疗决策。