基于增强CT影像组学特征鉴别诊断B3型胸腺瘤与胸腺癌

2022-10-08沈洁张怡帆何健

临床肺科杂志 2022年10期

沈洁张怡帆何健

胸腺瘤在亚洲人群发病率较高，常见于40～70岁患者，其中B3型胸腺瘤占比高达34%，与胸腺癌类似，具有较高的复发率[1-2]。

影像组学能无创提取高维影像特征，基因机器学习模型，探索潜在组学特征来预测临床结果[3-6]。Angelo 等人研究表明，胸腺肿瘤的影像组学参数与组织学类型相关，目前CT影像组学在B3型胸腺瘤与胸腺癌鉴别中的价值尚不清楚[7-8]。本文回顾B3型胸腺瘤和胸腺癌影像资料并提取影像组学差异特征，为临床诊断提供新的思路和方法。

资料与方法

一、临床资料

回顾性分析2000年1月—2021年10月经手术切除后病理诊断或穿刺活检明确诊断为B3型胸腺瘤或胸腺癌患者共51例。该研究通过南京医科大学附属脑科医院胸部院区伦理委员会伦理审核，并免除了患者的知情同意。纳入标准：1)具有完整的病理及临床资料；2)行胸部CT平扫+动脉期增强扫描。排除标准：1)存在其他恶性疾病；2)过敏体质；3)混合型胸腺瘤患者。最终，本研究共纳入B3型胸腺瘤29例，胸腺癌22例，其中男性32例，女性19例，年龄22～74岁，中位年龄为(44±5.6)岁；病程1月～2年，主要临床症状表现为咳嗽(22例)、呼吸困难(7例)、胸痛(7例)、胸闷(8例)、重症肌无力(2例)、呃逆(1例)，无症状者6例。将以上51名患者按照7:3比例划分为训练集、测试集，训练集包括36名患者(B3型胸腺瘤患者20名，胸腺癌患者16名)，其中男性24例，女性12例，测试集包括15名患者(B3型胸腺瘤患者9名，胸腺癌患者6名)，其中男性8例，女性7例。

二、检查仪器与方法

采用德国 Siemens 64 层螺旋CT扫描，扫描参数：电压120 kV,管电流150～200 mAs，层厚和层间距：5 mm，患者处于仰卧位，单次深屏气时行CT扫描，范围：自胸廓入口至横膈膜水平连续扫描。CT平扫扫描后行动脉期增强扫描，对比剂：离子型造影剂碘佛醇(江苏恒瑞医药，50 mL/瓶)，注射方法：用高压注射器以4mL/s的速度静脉注射对比剂1.0～2.0 mL/kg，造影剂注射后15～30s采集动脉期图像。根据观察内容调整适当的窗宽、窗位。

三、图像分割及CT影像组学特征提取

从图片存储与传输系统(picture archiving and communication system，PACS)获得B3型胸腺瘤和胸腺癌患者DICOM格式的增强动脉期CT图像使用MRIcrol软件将CT图像转换为nii格式并导入 3Dslicer(版本号4.13.0)[9]，安装radiomics插件，选择Segment Editor,参考3D图像、冠状位及矢状位图像，由两名影像科医师使用3Dslicer选取肿瘤动脉期CT横断面最大层面图像并分割肿瘤ROI，避开邻近组织，如纵隔脂肪、气管、血管和肺组织，对于在横断面上无法明确的病变，参考重建后的矢状位和冠状位。两名影像科医师均对患者的临床病理信息不知情。并使用3Dslicer对图像进行标准化和CT影像组学特征的提取。Resampling and size参数为3,3,3；Bin Width 25; 选择特征(features)：First Order、 Shape、 Shape 2D、灰度共生矩阵(gray level co-occurrence matrix，GLCM)、灰度级长矩阵(gray level run-length matrix，GLRLM)、灰度级带矩阵(gray level size zone matrix，GLSZM)、灰度相关矩阵(GrayLevelDependenceMatrix，GLDM)和邻域灰度差分矩阵(neighborhood gray-tone differencematrix，NGTDM)；LoG Kernal size参数为：1,2,3,4,5。最终提取出4类CT影像组学特征，包括形态学特征、一阶直方图特征、二阶直方图特征及高阶特征(图1)。

图1 A图像红色区域为分割ROI，B～D图分别为3D、冠状位、矢状位图像

四、CT影像组学特征的筛选

为避免CT影像组学参数数值差异较大的影响，在特征筛选之前将所有原始高维特征数据归一化、标准化。使用T检验筛选出有差异的CT影像组学特征，然后采用最小绝对收缩和选择算子方法(the least absolute shrinkage and selection operator，LASSO)进一步特征降维，得到能使LASSO回归模型的误差达到最小的 lambda(λ)值，保留权重系数不为0的影像组学特征，并纳入影像组学模型的构建。

五、预测模型的开发和验证

本研究应用机器学习方法支持向量机(support vector machines, SVM)、随机森林训练法(random forest,RF)构建CT影像组学特征模型，Python软件绘制ROC曲线和曲线下面积(area under the curve，AUC)量化评估模型的鉴别诊断性能。预测模型在独立的内部测试集中验证。

六、统计学方法

结果

一、一般影像特征

CT扫描，示病灶位于左前纵隔18例，右前纵隔33例，边缘多呈分叶状，最大径为(3.4±0.6)，肿块密度多混杂不均，内见囊变或坏死35例，密度均匀10例。CT值范围17～78 HU，平均46 HU。12例具有心包侵犯，7例伴钙化，胸腔积液2例，血管侵犯5例，肺内或远处转移3例。其中32例不均匀强化，多呈结节状，5例强化见线样强化血管影。

二、CT影像组学特征的筛选

从CT图像中提取1294个组学特征，应用T检验降低数据维度，防止模型复杂化，共筛选出196个特征，去除低性能特征，使用LASSO算法进一步降维、筛选，使维度特征线性归一到(0，1)之间，优化特征，根据最优λ值0.1025(图 2，3)，共获得7个主要特征及相关权重系数(表1)，经筛选后的特征主要为小波滤波，根据特征与其对应的权重系数，评估患者病理类型。

表1 LASSO算法筛选得到14个CT影像组学特征及相应权重系数

图2 LASSO算法筛选B3型胸腺瘤和胸腺癌CT动脉期影像组学特征的过程，红点代表均方误差，虚线表示模型偏差最低点对应的横坐标为最佳λ值

图3 LASSO算法筛选B3型胸腺瘤和胸腺癌CT动脉期影像组学特征的过程，彩线代表特征的系数随λ值的变化曲线，基线为回归系数0，黑色虚线对应的λ值为最佳值

三、预测模型构建与验证

分别使用随机森林和支持向量机(SVM)建立影像组学预测模型，使用ROC曲线分析评估模型的预测效能，AUC值分别为0.914、0.812(图4、5)。

图4 随机森林算法模型对应的ROC曲线，AUC值为橙色线下方的面积，蓝色点表示样本

图5 支持向量机算法模型对应的ROC曲线，AUC值为橙色线下方的面积，橙色点表示样本

讨论

本研究回顾性分析了病理诊断为B3型胸腺瘤和胸腺癌患者的CT影像组学特征，并建立由7个放射组学特征构成的预测模型，用于鉴别诊断B3型胸腺瘤和胸腺癌。预测模型在测试集的AUC值高达0.914，显示出良好的诊断效能。

Yasaka K.等人通过逻辑回归分析建立了放射组学模型，获得了较高的诊断性能，区分高危胸腺瘤和低风险胸腺瘤的AUC均值0.89，但未对具体亚型做分类研究[4]。Iannarelli等人的研究表明，基于CT图像的纹理分析，可以将高危胸腺瘤与低风险胸腺瘤区分开来，但未对B3型胸腺瘤及胸腺癌的纹理特征行亚型分析[7]。Ren等人研究基于结合CT影像特征、纹理参数构建预测列线图，为术前组织亚型预测提供参考，更符合临床需求[10]。但算法选择较局限，未使用构建模型常用的算法，如SVM算法、RF算法。本研究对比了两种机器学习算法构建诊断模型的效能，结果显示SVM算法略优于RF。可能是因为SVM作为有监督的二进制分类器，用于分类和回归任务,在许多模态问题识别中具有优越性，能提供更好的分类性能，而随机森林算法(RF)是基于集合模型进行预测的技术，通过决策行分类决策，能在不影响准确性的前提下估计缺失数据，解决数据不平衡和分类问题，能对复杂的成像生物标志物进行高通量分析和挖掘，预测患者特异性结果，至于两种算法效能的优劣程度可能与数据等有关，尚有待探索。

在病理分类的最优特征子集中，所选的特征多为GLCM和GLRLM，代表了基于体素的灰度变化，可以反映肿瘤的复杂性和异质性[11-12]。在我们的研究中，GLCM对预测胸腺瘤类型具有重要价值，尤其小波滤波所占比例较大，可能与肿瘤细胞积累增多、核质比增加等有关，其中肿瘤的病理、生理学基础复杂，涉及多种机制；因此，胸腺肿瘤病理类型与放射组学特征，特别是与高阶特征的确切关系仍有待完全阐明，目前对于胸腺瘤组学分析的研究仍处于起步阶段。

本研究的局限性，主要包括下列几点：1)本研究为回顾性分析，不可避免存在选择偏倚，且样本量较小，按照7:3划分数据集，易导致模型过拟合，使模型在测试集上AUC值较高；2)仅对B3型胸腺瘤和胸腺癌两种病理类型的影像特征进行比较，缺乏其他胸腺亚型间的对比；3)ROI分割选取动脉期CT图像轴位病灶最大层面进行二维分割，提取的CT影像组学特征较局限，丢失平扫及静脉期相关信息，同时未提取病灶三维结构特征；4)机器学习模型较少，未进行多种模型比较，对研究结论支持力度较弱；5)本研究为单中心，所获模型缺乏外部数据验证支持；6)与半自动分割勾画相比，手工勾画病变可能丢失部分图像信息。未来将扩大研究样本量，同时纳入病灶三维影像组学信息，应用贝叶斯等机器学习算法提供模型诊断效能，在常规CT影像的基础上，改进上述缺陷以期提高研究的临床实用价值[13]。

综上所述，机器学习方法的应用使医学图像作为生物标志物成为可能，参与优化癌症治疗和改善临床结果判读，基于CT动脉期的影像组学联合机器学习模型，可以为B3型胸腺瘤和胸腺癌鉴别提供参考，但其临床应用价值，特别是影像特征与病理相关性的解释尚有待进一步探索。