CT纹理分析鉴别诊断胰腺导管腺癌、胰腺神经内分泌肿瘤及实性假乳头状肿瘤
2020-05-03张燕燕纪婉莹
王 俊,孙 阳,张燕燕,纪婉莹,刘 屹*
(1.中国医科大学附属第一医院放射科,辽宁 沈阳 110001;2.安徽医科大学第一附属医院放射科,安徽 合肥 230022)
胰腺导管腺癌(pancreatic ductal adenocarcinoma, PDAC)是胰腺最常见的恶性肿瘤,约占胰腺肿瘤的80%,为少血供肿瘤,其临床及影像表现需与胰腺神经内分泌肿瘤(pancreatic neuroendocrine tumors, PNET)、胰腺实性假乳头状瘤(solid pseudopapillary tumor of the pancreas, SPTP)等相鉴别。PNET虽为富血供肿瘤,但约41%~49%增强后无明显强化[1]。SPTP具有恶性潜能,病灶以实性成分为主且较小时,难以与PDAC和PNET鉴别。PDAC、SPTP和PNET影像学表现有所重叠,术前鉴别诊断存在一定困难[2]。基于图像像素强度及空间分布特点,纹理分析可反映肿瘤异质性[3-4],而胰腺肿瘤相关纹理分析研究尚少[5]。本研究探讨采用CT纹理特征诊断及鉴别诊断PDAC、SPTP及PNET的可行性。
1 资料与方法
1.1 一般资料 回顾性分析2014年6月1日—2017年5月31日199例于中国医科大学附属第一医院经病理确诊的胰腺占位病变患者,其中98例PDAC,62例SPTP,39例PNET。纳入标准:①术前2个月内接受胰腺CT平扫+增强检查;②均有术后病理结果。排除CT未能确切显示病变者。
1.2 提取纹理特征 由1名具有5年以上腹部影像学诊断经验的主治医师分析CT图像,于横断面图像肿瘤最大层面沿肿瘤边缘手动勾画ROI,使其与肿瘤边缘距离约2 mm(图1)。以基于MITK平台(www.mitk.org, 版本2015.05.1)的A.K.软件(GE, Artificial Intelligence Kit)提取ROI纹理特征。采用其中46个纹理特征(表1),包括13个直方图特征、14个灰度共生矩阵特征(gray-level co-occurrence matrix, GLCM)、8个灰度游程长度矩阵特征(gray-level run length, GLRL)及11个灰度区域大小矩阵特征(gray-level zone size matrix, GLZSM)[6]。
1.3 选择特征及分类 采用基于随机森林算法进行特征选择[7]。首先按重要性进行特征排序,之后计算嵌套模型的特征组合的袋外错误率,最后消除所选择特征组合中的冗余进行改进选择,为进一步预测建模提取特征(图2)。采用线性判别分析(liner discriminant analysis, LDA)、K邻近(K nearest neighbor, K-NN)、随机森林(random forest, RF)、自适应增强算法(Adaboost)、朴素贝叶斯(naive bayesian, NB)及神经网络(neural network, NN)6个常见机器学习分类器,以重复10次的十折交叉验证为标准,对所选特征进行分类。
图1 于增强CT轴位图像手动勾画PDAC(A)、PNET(B)和SPTP(C)的ROI的示意图
表1 用于鉴别PDAC、SPTP及PNET的CT纹理特征
1.4 统计学分析 采用R语言3.4.2统计分析软件。采用单因素回归分析单个纹理特征对于一对多的二分类分组(①PDAC vs rest;②SPTP vs rest;③PNET vs rest)的鉴别效果;采用多因素回归分析分类器对二分类分组及三分类分组(PDAC vs PSTP vs PNET)的鉴别效果,以AUC评估分类器的鉴别能力:0.50 2.1 单因素回归分析单个纹理特征鉴别PDAC、SPTP及PNET 表2~4所列为鉴别PDAC vs rest、SPTP vs rest、PNET vs rest的诊断效能较好及以上的纹理特征,其中最佳者分别为低密度短域补偿(AUC=0.73,P<0.01)、灰度不均匀性(AUC=0.79,P<0.01)及总和均值(AUC=0.90,P<0.01)。 表2 单因素回归分析单个纹理特征鉴别PDAC vs rest的诊断效能 表3 单因素回归分析单个纹理特征鉴别SPTP vs rest的诊断效能 表4 单因素回归分析单个纹理特征鉴别PNET vs rest的诊断效能 2.2 多因素回归 分析分类器鉴别二分类分组及三分类分组(PDAC vs SPTP vs PNET) 基于随机森林算法选择的特征见表5。采用机器学习分类器对二分类组及三分类组所选择特征组合进行鉴别。二分类分组方法中,鉴别PDAC vs rest及SPTP vs rest时,分类器RF的诊断效能均很好(AUC=0.88,0.86);鉴别PNET vs rest时,6种机器学习分类器的诊断效能很好或极好,最高者为Adaboost(AUC=0.94),见表6。三分类分组机器学习分类结果显示所有分类器的分类准确度均较好,以RF的准确度最高(0.80,表7)。 表5 随机森林算法选择的特征组合 表6 多因素回归分析分类器鉴别二分类组基于随机森林算法选择特征的诊断效能 表7 多因素回归分析分类器鉴别三分类分组基于随机森林算法选择特征的诊断效能 图2 PDAC vs rest二分类分组的特征选择过程 A~B.特征重要性排序; C.计算嵌套模型特征组合的袋外错误率,可见前8个特征组合的袋外错误率明显降低; D.剔除冗余特征,剔除8个特征组合中的冗余特征后,剩余者为袋外错误率最低的特征组合 分析纹理特征为影像组学的一部分,也是一种图像处理方式,通过定量方式提取纹理信息而降低观察者的主观性,能检测肉眼可能无法观察到的细微差异,在肿瘤成像及各种器官系统中的应用越来越多[8]。CHOI等[9]分析CT纹理特征与PNET分化等级间的关系,发现CT纹理特征评估PNET分化等级优于传统CT图像特征的诊断性能。EILAGHIA等[10]定量分析CT纹理特征与PDAC的总体生存率的相关性,发现纹理特征(异质性和逆差距)有可能成为术前评估PDAC总体生存率的生物学标志物。 本研究采用单个纹理特征对鉴别胰腺肿瘤的诊断效能为较好或很好,表明纹理特征能区分不同类型胰腺肿瘤之间的细微差别。多因素分析中,极差是鉴别PDAC与其他肿瘤最重要的特征,可能由于肿瘤异质性较高,且内部易出现坏死等,使得极差能直观地反映其异质性。大小区域不均匀性是鉴别SPTP与其他肿瘤最重要的特征,假乳头区具有玻璃样变性的纤维组织,瘤周细胞排列整齐,瘤细胞间质有泡沫样组织细胞及胆固醇结晶,而实性区瘤细胞大小形态与正常细胞基本一致,大小区域不均匀性可能反映假乳头区和实性区之间的差异。病理学检查鉴别PNET与其他肿瘤往往亦存在一定难度,GLCM中的总和均值为其最重要的特征,可能与肿瘤间质血窦丰富且伴纤维组织增生有关[11]:血窦丰富意味着肿瘤强化更明显,总和均值特征也更加明显。对于所选择的重要特征组合,采用6种相对简单、高效及普遍的机器学习方法分类鉴别效能基本达到较好或很好,表明该特征对于鉴别胰腺肿瘤具有效能。 HAWKINS等[12]比较4种不同影像学特征选择和分类方法预测非小细胞肺癌患者生存率的准确率;PARMAR等[13]通过比较14个特征选择和12个分类方法的性能和稳定性预测肺癌患者的总体生存率,结果均表明随机森林分类器与大多数特征选择技术相结合具有较高性能,并认为分类方法是影响性能的主要因素[14]。本研究采用随机森林特征选择与不同分类方法组合,量化分析机器学习分类方法鉴别PDAC、SPTP及PNET的效能。胰腺肿瘤纹理分析中,随机森林算法对于选择变量和分类均为非常有效的无模型方法,不仅可识别对因变量具有线性影响的自变量,且可识别非线性效应,具有发现因变量和自变量间隐藏关系的能力,并可达到最佳诊断效能。 综上所述,采用CT纹理分析可非侵入性定量鉴别PDAC、SPTP及PNET,采用机器学习可进一步提高诊断效能。本研究的主要局限性在于:①胰腺肿瘤类型较少;②样本量较少,未建立独立的学习集和验证集;③未能采用相同CT设备对全部患者进行检查。2 结果
3 讨论