APP下载

基于CT增强图像影像组学特征模型预测肺鳞癌和腺癌价值初探

2022-04-01唐彩银李通段绍峰张继

中国医疗设备 2022年3期
关键词:勾画组学预测

唐彩银,李通,段绍峰,张继

1. 泰州市人民医院 影像科,江苏 泰州 225300;2. GE(中国)医疗精准医学院,江苏 南京 210000

引言

肺癌是我国乃至全世界相关死亡的主要原因,以活检或手术切除为基础的病理检查是鉴别的金标准,但其应用主要受到固有的侵入性操作和取样误差的限制[1],因此亟需一种无创、有效的方法来帮助准确诊断肺腺癌(Lung Adenocarcinoma,ADC)和肺鳞状细胞癌(Squamous Cell Carcinoma,SCC)。多层螺旋CT是一种常规的、广泛应用于肺部疾病筛查的检查技术,但在大多数的情况下,ADC和SCC患者在增强图像上会表现出相似的视觉形态特征,这给放射科医师的诊断带来了困难,影像组学分析可以更

1 材料与方法

1.1 临床资料

回顾性分析89例病理诊断为ADC或者SCC的患者的影像资料,其影像资料来源于泰州市人民医院PACS系统。所有病例均应符合以下纳入标准:① CT扫描后行肿瘤切除或活检获得ADC或SCC的组织病理学证据;② 所有患者均接受CT增强扫描;③ 所有病灶均显示实性肿块,其短轴直径至少为10 mm以保证感兴趣区(Region of Interest,ROI)有足够的面积;④ 在CT扫描前没有接受任何治疗。排除标准:① 接受过肿瘤任何治疗或病变短轴直径小于10 mm的患者;② 组织病理证实为其他类型肺癌者。最后排除掉2例小细胞肺癌和2例腺鳞癌,共有85例患者参与本研究,其中51例ADC(年龄30~83岁,男性29例,女性22例),34例SCC(年龄38~77岁,男性19例,女性15例)。

1.2 仪器与方法

所有病例采用西门子FORCE CT进行扫描,扫描范围由肺尖至双侧肾上腺水平。扫描参数:球管电压120 kV,管电流110~240 mA,开启实时动态曝光剂量调节(Care-Dose 4D),准直×层数为0.6 mm×128,球管旋转时间0.5 s/圈。螺旋因子0.9,扫描层厚5 mm。增强对比剂采用碘海醇(350 mgI/mL),增强CT在注入造影剂60 s后进行扫描,静脉团注70 mL,流速2.5 mL/s。

1.3 图像分析

1.3.1 图像分割

采用ITK-SNAP(Version 3.40)软件在增强图像上勾画ROI,因为肿瘤在增强图像上显示出更好的轮廓和边缘,将增强后的DICOM格式图像分别导入ITK-SNAP软件,选择病灶的最大横截面勾画2D的ROI。所有的病灶勾画采用双盲法,由1位具有10年以上呼吸系统肿瘤影像诊断经验的高年资医师及1位研究生独立完成,出现分歧时协商解决。沿着肿瘤薄层CT增强图像中最大层面瘤体边缘内侧1~2 mm处手动勾画ROI,选择标准:选择肿块实质区,避免钙化、坏死和空泡。对于那些肿瘤与邻近组织粘连或伴有肺叶和节段性肺不张者,勾画医师需避免将粘连组织或肺组织纳入ROI。

1.3.2 数据预处理

数据集被随机分配到训练集或验证集中,其比例为7:3。训练集中的所有病例用于训练预测模型,而验证集中的病例用于独立评估模型的性能。分析前,将方差为零的变量好地检测出亚显微组织的变化,并可以利用医学影像的灰度分布特征来评价病变内部的异质性[2]。因此,对CT图像进行更详细的组学分析是十分必要的,有助于放射科和肿瘤科医师提高基于影像的疾病诊断的准确性,更好地了解ADC和SCC之间差异[3]。本研究利用CT增强扫描获取静脉期图像,再进行影像组学分析,探讨CT影像组学特征在鉴别SCC与ADC中的临床价值。排除在分析之外,然后用中值填充方法替换需要填充的缺失值和异常值。最后,用标准化方法对数据进行标准化。

1.3.3 纹理特征提取和模型建立

将勾画的ROI与原始图像导入AK软件(版本3.2.0,GE医疗中国)提取影像组学特征,AK软件基于pyradiomics开发,所提取的特征均符合ISBI标准。将生成的影像组学特征,通过相关性检验、单因素方差分析或秩和检验、单因素Logistic回归检验、随机森林算法进行组学特征的筛选。在相关性检验中,设置相关性系数为0.7、单因素Logistic回归分析检验中P值为0.05,在建立训练数据集最优特征子集的基础上,建立基于多元素Logistic回归和贝叶斯机器学习算法的Rad score评分模型。

1.4 统计学分析

通 过 受 试 者 操 作 特 征(Receiver Operating Characteristic,ROC)曲线来确定机器学习模型的性能,并计算灵敏度、特异度、准确率和曲线下面积(Area Under the Curve,AUC)。本研究的所有统计分析均使用R软件(版本3.5.1)和Python软件(版本3.5.6)进行。P<0.05为两组试验数据差异有统计学意义。

2 结果

2.1 典型影像学表现

ADC和SCC患者的典型影像学表现如图1所示。

图1 ADC和SCC患者的典型影像学表现

2.2 影像组学特征

经过单因素方差分析或秩和检验、单因素Logistic回归分析、相关性检验、随机森林算法对所提取的280个纹理特征的高维数据进行降维,筛选得到8个影像组学特 征( 图2):① wavelet-HHL_glszm_SmallAreaEmphasis;② wavelet-HHH_firstorder_Kurtosis;③ wavelet-HLL_firstorder_Skewness;④ waveletLHL_glcm_Correlation;⑤ wavelet-LHH_glcm_Correlation; ⑥ log-sigma-1-0-mm-3D_firstorder_90Percentile; ⑦ log-sigma-4-0-mm-3D_gldm_De pendenceNonUniformityNormalized;⑧ wavelet-LLH_glrlm_LongRunHighGrayLevelEmphasis。

图2 相关特征在Logistic建模中训练集和验证集中的相关系数

2.3 模型效能

根据这8个特征通过Logistic回归分析方法建立模型,通过ROC曲线计算训练集的AUC为0.97、灵敏度83.3%、特异度97.1%、准确率91.5%;验证集的AUC为0.89、灵敏度80.2%、特异度73.3%、准确率84.6%(表1、图3)。

表1 训练集和测试集在Logistic和贝叶斯模型的预测效能

图3 基于Logistic回归模型中训练集和验证集ROC曲线

2.4 训练集和验证集的Rad score

根据这个8个纹理特征以及对应的权重,构建影像组学标签,Rad score=4.5391×特征①+1.3817×特征②+[-2.5380×特征③]+2.2218×特征④+[-1.5687×特征⑤]+[-2.5499×特征⑥]+0.8153×特征⑦+0.4616×特征⑧。训练集和验证集的每例患者的影像组学评分的分布情况如图4所示,Rad score在两组患者中有明显的分布差异。

图4 Rad score对模型的评价

3 讨论

影像组学的方法能将图像信息转化为高维度的定量特征数据,全面描述肿瘤内部的异质性,能够弥补传统诊断模式的不足。本研究探讨CT增强图像影像组学特征在鉴别SCC和ADC中临床价值,结果显示基于多因素Logistic回归机器学习算法计算的训练集和验证集的AUC分别为0.97和0.89,高于基于贝叶斯机器学习算法模型的计算值,表明基于多因素Logistic回归机器学习算法的CT静脉期增强图像影像组学在鉴别SCC和ADC中有较大的临床应用价值。

本研究结果显示,基于多因素Logistic回归机器学习算法预测模型来鉴别SCC与ADC的效能最佳。本研究通过使用相关性检验、单因素方差分析或秩和检验、单因素Logistic 回归分析、随机森林算法四种降维方法最终筛选出8个定量影像组学特征,包括6个小波特征、2个高斯拉普拉斯变换特征,其中waveletLHL_glcm_Correlation、wavelet-LHH_glcm_Correlation中correlation反映了图像中局部灰度的相关性。有研究指出correlation对鉴别肺肿瘤有一定价值[4-5],本研究显示correlation在ADC和SCC中存在明显差异,进一步提示影像组学特征correlation在评价肺癌分型中的潜在价值。通过图像变换之后提取出影像组学特征能够有效地表达肿瘤的信息[6]。直方图是灰度级图像的函数,通过定量方式比较反映肿瘤内部异质性的生物指标:① 峰度(Kurtosis),表征概率密度分布曲线在平均值处峰值高低的特征数;② 偏度(Skewness),代表像素灰度值相对于平均值分布的不对称程度。众所周知,没有一个影像组学特征是一致的、有利的,研究中需要合理地经过图像的变换如小波变换、高斯拉普拉斯变换[7]来提取纹理特征,提高纹理分析的分类精度。上述特征在一定程度上解释了模型采用何种特征来做分类的,这些特征也可应用于其他类型的研究(如疾病术后预测)和疾病鉴别诊断等[8]。训练集中AUC值比较高,预测效果比较好,但因为整体的数据量不大,可能会出现过拟合的现象。但通过独立的验证集验证,验证效能效果比较好,可以排除过拟合的情况发生。通过Rad score评价模型可以看出,验证集的效能整体要比训练集低,进一步说明了该方法验证的有效性。影像组学特征与肿瘤血管的生长是密切相关的,本研究可进一步证实影像组学标签与组织病理学相关性。使用增强的CT图像进行分型的原因,主要考虑增强后的图像对病灶的范围勾画更加准确,结合肿瘤定位特征可以进一步提高准确率[9]。后续的研究会增加其他期相的对比。

本研究比较多因素Logistic回归和贝叶斯机器学习方法的预测效果,发现多因素Logistic回归机器学习方法对AUC、准确度和特异度指标的预测效果好,而在灵敏度方面贝叶斯机器学习方法预测效果较好。多因素Logistic回归模型能够准确预测静脉期CT增强图像影像组学特征来鉴别ADC和SCC。ADC和SCC患者术前的准确鉴别诊断,对肿瘤的治疗至关重要。CT影像组学特征与各种肿瘤的组织病理学特征及临床结果的相关性被认为是一种丰富的诊断信息来源[10]。多项研究表明,影像组学分析可以定量评估SCC与ADC内部纹理特征的不同,从而有助于做出鉴别诊断[11-12]。如LIU等[13]回顾性分析了87例患者的薄层CT图像,提取了5个影像组学特征,并用此特征建立预测鉴别SCC和ADC模型,准确率为95.4%,但后者没有通过验证集来进一步验证模型的可靠性,其结果的可重复性及可靠性有待进一步验证。罗婷等[14]研究采用熵总值、聚类萌及球面不对称性3个纹理特征建立模型,其鉴别非浸润性腺癌与浸润性腺癌的灵敏度、特异度、准确度分别为77.8%、91.7%和83.3%。尽管影像组学定量特征是用数学的模式表示的,但这些定量特征和传统影像特征存在一定相关性。随着影像组学在肺癌鉴别诊断中的广泛应用,影像组学预测模型有望成为一种无创鉴别肺癌病理类型的手段[15-16]。

局限性与展望:本研究属于回顾性分析,具有以下局限性:① 本研究训练集和验证集的样本量比较小,特别是验证集,需要多中心临床研究进行可重复性验证;② 本研究仅对增强后的静脉期图像进行比较,未比较平扫及动脉期时相的优劣;③ 图像的分割,本研究采取二维最大病灶ROI,可能三维勾画能够提供更丰富的信息。

4 结论

基于CT增强扫描静脉期定量特征构建影像组学标签预测SCC与ADC具有良好的预测效能,这将有助临床医师进行术前的无创鉴别。

猜你喜欢

勾画组学预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
影像组学在肾上腺肿瘤中的研究进展
两种自动勾画软件对危及器官勾画结果对比分析
放疗中CT管电流值对放疗胸部患者勾画靶区的影响
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用