基于CT平扫影像组学模型鉴别结节/肿块型肺隐球菌病及肺腺癌与肺结核
2020-07-23樊梦思曹捍波余业洲邹立巍段绍峰
樊梦思,赵 红*,曹捍波,余业洲,邹立巍,段绍峰
(1.安徽医科大学第二附属医院放射科,安徽 合肥 230601;2.浙江大学舟山医院放射诊断中心,浙江 舟山 316000;3.GE医疗,上海 210000)
肺隐球菌病(pulmonary cryptococcosis, PC)是由新型隐球菌和格特(Gattii)隐球菌等引起的亚急性/慢性肺部真菌感染性疾病,主要发生于免疫功能受损者,也可见于免疫正常人群[1-2],后者常表现为单发或多发肿块或结节[3]。PC患者临床症状缺乏特异性,血清隐球菌荚膜多糖抗原(cryptococcal capsular polysaccharide antigen, CrAg) 检测对血清HIV检测阴性的PC患者敏感性不高[4]。影像学上结节/肿块型PC与周围型肺癌、肺结核(tuberculosis, TB)存在部分重叠,临床易发生误诊。隐球菌对脑膜及神经组织有明显亲和性,可透过血脑屏障造成严重中枢神经系统感染,因此及早确诊非常重要。影像组学采用人工智能提取数据特征化算法,将包含反映潜在病理生理特征的图像转变为高维度数据,之后对数据进行分析,以寻找能综合评价肿瘤表型的相关特征信息[5-6],已广泛用于肿瘤诊断、分级、预后评估及预测复发等[7-10]。本研究观察以影像组学预测模型鉴别诊断结节/肿块型PC与肺腺癌、肺TB的可行性。
1 资料与方法
1.1 一般资料 回顾性分析2016年10月—2019年5月28例经病理证实的结节/肿块型PC(PC组)、30例病理确诊肺腺癌(肺腺癌组)及26例肺TB(TB组)患者的胸部CT平扫资料。PC组男18例,女10例,年龄15~81岁,中位年龄53岁;血清HIV均为阴性。肺腺癌组男14例,女16例,年龄31~82岁,平均(61.9±12.7)岁。肺TB组男20例,女6例,年龄20~71岁,中位年龄52.5岁;经穿刺活检病理证实为肉芽肿性病变,结合抗酸染色、实验室检查及临床资料确诊为肺TB。所有患者接受胸部CT检查前均未经任何治疗。
1.2 仪器与方法 采用GE LightSpeed 64排VCT扫描仪,管电压120 kV,管电流164~320 mA,采用螺旋扫描模式,螺距1.2,准直128×0.625 mm;重建层厚5 mm,层间隔5 mm,行胸部CT平扫。
1.3 特征提取 将CT平扫软组织窗(窗宽350 HU,窗位50 HU)图像导入ITK-SNAP(www.itk-snap.org)软件,于病变较大层面手动勾画ROI,面积1.0~2.5 cm2,尽量避免钙化、空洞、坏死区域(图1~3)。将原始图像及ROI导入A.K(Artificial Intelligence Kitl Version V3.2.0.R)后处理软件,调整体素为1 mm×1 mm×1 mm,之后采用线性插值法对其重采样,以高斯滤波函数去噪、灰度离散化,对原始图像进行标准化重建及融合。计算病灶ROI的纹理特征,提取包括灰度直方图(Histogram)、灰度共生矩阵(gray level co-occurrence matrix, GLCM)、游程矩阵(run length matrix, RLM)、灰度区域大小矩阵(gray level size zone matrix, GLSZM)及Haralick特征在内的共386个特征。
图1 患者女,53岁,PC 轴位平扫CT图(红色为ROI) 图2 患者女,40岁,肺腺癌 轴位平扫CT图(红色为ROI) 图3 患者女,54岁,肺TB 轴位平扫CT图(红色为ROI)
1.4 图像和统计学分析 采用R软件3.5.1版(www.r-project.org)归纳上述数据,删除异常值所在列。按7∶3比例将所有样本分为训练集和测试集,训练集中含19例PC、21例肺腺癌、18例肺TB,测试集分别为9、9、8例。以单因素方差分析和秩和检验(ANOVA+MW)、Spearman相关系数、最小绝对收缩和选择算子(least absolute shrinkage and selection operator, Lasso)回归3种方法联合进行特征选择和降维,2特征的Spearman相关系数设为0.9,获得PC组与肺腺癌组、PC组与肺TB组之间存在显著差异的较优特征参数。采用随机森林法分别建立基于影像组学特征的预测模型,并以训练集进行评估,之后于测试集进行验证;绘制相应的ROC曲线,以AUC、敏感度、特异度及准确率评价其鉴别效能。
2 结果
本组实性病变直径约1~5 cm,图像均无明显呼吸及光束硬化伪影干扰。
经特征选择获得针对PC与肺腺癌的7个较优特征,分别为Histogram的第10百分位数(Percentile10)、GLCM的逆差距(inverse difference moment)、逆差距_所有方向_步长1_标准差(inverse difference moment all direction_offset1_SD)、熵_所有方向_步长7(entropy_all direction_offset7)、熵_所有方向_步长7_标准差(entropy_all direction_offset7_SD)、集群阴影_角度135_步长1(cluster shade_angle135_offset1)及RLM的长行程优势_角度135_步长7(long run emphasis_angle135_offset7)。采用随机森林法建立预测模型,并进行评估和验证,ROC曲线(图4A)示AUC为0.96[95%CI(0.87,1.00)],截断值0.97,鉴别PC与肺腺癌的敏感度1.00、特异度0.78、准确率0.89(表1)。随机森林模型自变量重要性排序见图5A。
图4 预测模型鉴别PC与肺腺癌(A)及PC与肺TB(B)测试集的ROC曲线
经特征选择,针对PC与肺TB获得4个较优特征参数,即Histogram的第10百分位数,GLCM的相关性_角度90_步长4(correlation_angle90_offset4),RLM的长行程优势_所有方向_步长1(long run emphasis_all direction_offset1),长行程优势_角度0_步长1(long run emphasis_angle0_offset1)。随机森林建模后于训练集进行评估,于测试集进行验证, ROC曲线(图4B)示AUC为0.99[95%CI(0.93,1.00)],截断值0.57,鉴别PC与肺TB的敏感度0.88、特异度0.89、准确率0.88(表1)。随机森林模型自变量重要性排序见图5B。
图5 随机森林模型自变量重要性示意图 A.PC组与肺腺癌组; B.PC组与肺TB组
表1 测试集中随机森林模型鉴别诊断PC与肺腺癌及PC与肺TB的效能
3 讨论
PC主要为通过呼吸道吸入隐球菌孢子至肺泡后引起,易感人群多为获得性免疫缺陷综合症(acquired immune deficiency syndrome, AIDS)、器官移植术、长期服用广谱抗生素及免疫力低下者等,也可发生于免疫功能正常人群,近年来发病率呈上升趋势,尤其在无免疫功能缺陷或基础疾病人群中[1-2]。血清CrAg检测对于HIV阴性PC患者的敏感度仅为25%~56%[4],导致诊断困难。PC临床症状及影像学表现均缺乏特异性,免疫功能正常者多以结节或肿块为主,多发于两肺下叶外周带,易误诊为肺腺癌。PC早期病理学表现为胶样病变,免疫功能正常者后期进一步形成肉芽肿性病变,易误诊为TB性肉芽肿[11]。对于肺腺癌,治疗方式主要包括手术、放射及化学治疗,而肺TB一般需6~8个月抗结核治疗,对免疫功能正常PC患者则需要应用氟康唑或伊曲康唑进行3~12个月的长效治疗[12],且隐球菌易侵入中枢神经系统,导致隐球菌性脑膜炎,病程长,预后差。
目前用于建立基于影像组学特征的预测模型的常用机器学习方法有随机森林、logistic回归模型、支持向量机、人工神经网络、聚类分析及“leave-one out”交叉验证等。随机森林是机器学习中的一个决策树概念,表示假设为连续的“if-than”,训练时生成大量决策树,结合每棵树的个体决策获得最优分类,具有相对较低的过度拟合倾向,在影像组学机器模型中的稳定性和预测性较高[13-14]。
本研究采用随机森林法以较优特征参数分别建立预测模型并于训练集数据进行训练,再于测试集数据进行验证,结果示模型鉴别PC与肺腺癌的AUC、敏感度、特异度、准确率分别为0.96、1.00、0.78及0.89,鉴别PC与肺TB时分别为0.99、0.88、0.89及0.88,表明基于随机森林的CT平扫图像影像组学可用于鉴别结节/肿块型PC与肺腺癌、肺TB性肉芽肿,并具有较好的诊断性能。经筛选可用于鉴别PC与肺腺癌、肺TB的7个较优特征包括Histogram的第10百分位数,GLCM的熵、逆差距、集群阴影、相关性以及RLM的长行程优势。第10百分位数指样本观测灰度列中有10%的灰度值小于或等于该值。熵描述共生矩阵的复杂性,其值越大表示共生矩阵越复杂,提示病灶越复杂、异质性越大。逆差矩指病灶的同质性,其值越大则变化越小、局部越均匀。集群阴影与GLCM的一致性和偏度有关,其值越小,偏度越小,即差异性较小。相关性度量GLCM元素的线性依赖关系,若矩阵元素值相差很大,则相关性值小。长行程优势描述图像粗糙度或平滑度,在光滑图像上其值较大。本研究PC组第10百分位数高于肺腺癌组及肺TB组,意味着CT图像中表现为低灰度值的病灶炎性坏死区域相对较少,即低值区灰度值对PC有一定提示作用。PC组逆差距、长行程优势高于肺腺癌组,而熵、集群阴影低于肺腺癌组,提示肺腺癌图像灰度不均匀。PC组相关性、长行程优势高于TB组,说明PC密度较TB病变更均匀,其局部像素灰度级相差小。本研究结果示PC病灶实性部分的图像灰度较肺腺癌和肺TB更均匀、集中,可能与PC肉芽肿病灶内细胞呈弥漫性分布、很少形成结节,且坏死不彻底、存在网状纤维支架有关[15]。本研究基于CT平扫图像,未采集CT增强图像纹理特征,结果显示基于随机森林的影像组学方法具有较好的鉴别诊断效能,有利于患者免于接受增强CT,从而减低辐射剂量。
综上所述,基于随机森林的影像组学方法可用于鉴别诊断结节/肿块型PC与肺腺癌、肺TB,为临床准确诊断和个体化治疗提供依据。本研究尚存不足:①样本量少;②仅采集平扫软组织窗单层局部病变图像,难以提取病变全部信息;③去除特征冗余时仅选择组间差异最大的特征,可能遗漏有潜在价值的特征参数。