LASSO与经典特征选择方法在高级别前列腺癌诊断中的价值*
2022-10-12成都大学附属医院放射科610081
成都大学附属医院放射科(610081)
王 娜 肖建明Δ 罗 钛 李春燕 吕赛群
【提 要】 目的 对比R语言中LASSO与经典特征选择方法在前列腺纹理分析诊断高级别前列腺癌中的效果。方法 回顾分析临床怀疑高级别前列腺癌,进行多参数磁共振检查的患者,所有患者均在磁共振检查后一个月内进行经直肠超声引导穿刺活检获得病理结果。提取T2WI、ADC、T1WI-DCE序列的纹理特征及T1WI-DCE的定量特征,分别应用LASSO和经典方法进行纹理特征选择,再对经特征选择后的数据分别通过多元logistic回归(LR)建立高级别前列腺癌的预测模型,最后采用受试者工作特征曲线(ROC)分别评价模型效能。结果 LASSO+LR验证集敏感度为0.8261,特异度为0.9444,准确度为0.8983;经典法+LR验证集敏感度为0.9130,特异度为0.9167,准确度为0.9153;两个模型验证组AUC之间无统计学差异(P=0.3630)。结论 LASSO和经典方法在用于前列腺纹理分析诊断高级别前列腺癌的特征选择时,均表现出良好效能,且差异无统计学意义,两者均可应用磁共振纹理分析鉴别高级别前列腺癌与良性前列腺增生。
前列腺癌是男性常见的恶性肿瘤,其发病率居全世界男性癌症发病率的第二位[1]。磁共振多参数成像因组织分辨率高、可清晰显示前列腺的解剖及病变、在前列腺疾病的诊断中具有特异性和准确性高的特点而被临床广泛应用[2-3]。近年来采用高通量数据的纹理分析鉴别前列腺癌与良性增生取得良好的效能被较多报道[4-5],本文旨在对比纹理分析过程中基于R语言LASSO与经典特征选择方法在高级别前列腺癌与良性前列腺增生的鉴别诊断的价值。
资料与方法
1.一般资料
收集本院2014年1月至2017年12月前列腺疾病患的磁共振检查资料和病理结果。本研究属回顾性分析,均已签署磁共振检查知情同意书。纳入标准为:①磁共振检查前未进行任何前列腺手术或药物治疗;②磁共振常规平扫和动态增强扫描序列的图像完整且质量都达到了诊断所需的要求;③在磁共振检查结束后一个月内完成经超声引导穿刺活检并获得前列腺良恶性信息的病理结果。最后进入研究的有:高级别前列腺癌患者共74例(Gleason评分≥7),年龄56~93(77.03±7.69)岁;良性前列腺增生患者120例,年龄50~93(73.29±8.81)岁。
2.检查方法
检查方法:采用德国Siemens公司Avanto1.5T超导型磁共振仪。检查前空腹4小时以上,使用腹部+脊椎相控阵线圈,取平卧位,头先进,扫描范围为包括前列腺全部层面。常规扫描横轴位、冠状位及矢状位T2WI,参数设置如下:FOV 20cm×20cm,TR 4000ms,TE 101ms,层厚 0.3cm,层间隔 0.06cm,NEX 1,矩阵256×205。横轴位T1WI参数设置如下:FOV 20cm×20cm,TR 500ms,TE 9ms,层厚 0.3cm,层间隔 0.06 cm,NEX:1,矩阵256×205:DWI扫描采用自旋回波-平面回波序列,参数设置如下:b值分布为0s/mm2、100s/mm2、800s/mm2,FOV 26cm×22cm,TR 3700ms,TE 80ms,层厚 0.36cm,层间隔 0,NEX 6,矩阵160×95。动态增强扫描采用T1高分辨力各向同性容积激发序列行多期动态扫描,参数设置如下:FOV 26cm×26cm,TR 5ms,TE 1.69ms,层厚 3.6mm,层间隔 0.6,NEX:1,矩阵192×138。先扫描平扫两期后在第三期扫描同时以2ml/s,总量0.2mmol/kg注射对比剂,接着以同样的速率和总量注射生理盐水,动态增强序列每期扫描时间为10s。
3.图像及数据分析
(1)图像处理
将原始DICOM图像数据导出,通过Omni-Kinetics 软件,分别在T2WI、ADC、T1WI-DCE序列中勾画所有层面所有病灶区为兴趣区(ROI),每一个序列的ROI勾画完成后,计算并提取出该序列的纹理特征67个,T1WI-DCE另提取定量特征99个。
(2)数据分析
将纹理和定量数据共300个特征载入R语言软件(版本:3.3.3),分别经过LASSO和经典方法进行纹理特征选择。LASSO降维过程:①使用函数cv.glmnet,并设置family=“binomial”和type.measure = “deviance”及默认10折交叉验证计算变异系数;②使用函数coef.lambda.1se提取出非0系数的特征变量。经典方法采用caret软件包,caret软件包依次执行:①函数nearZeroVar剔除常数变量、剔除方差极小自变量;②函数findCorrelation剔除相关性大于90%变量;③函数findLinearCombos剔除多重共线性变量;④函数createDataPartition将剩下的特征分成75%的训练样本和25%检验样本;⑤使用函数rfeControl进行特征选择,并设置抽样方法使用交叉验证,模型为随机森林;⑥使用函数ref提取出特征变量。对经LASSO和经典方法进行特征选择后的纹理及定量数据分别随机取70%作为训练组(高级别前列腺癌52例,前列腺良性增生83例),剩下的30%(高级别前列腺癌22例,前列腺良性增生37例)为验证组分别建立多元logistic回归预测模型。采用受试者工作特征曲线评价模型的效能。
结 果
经LASSO进行特征选择后,最优λ值筛选出11个纹理及定量特征,包括:T2.Quantile10、T2.Quantile95、ADC.MinIntensity、ADC.Quantile75、ADC.sumAverage、DCE.uniformity、DCE.Energy、ImageStd、Ve0.1、Vp0.75、Vp0.9;经caret包的经典方法进行特征选择后筛选出10个自变量:T2.Quantile5、T2.RelativeDeviation、T2.Variance、ADC.MinIntensity、ADC.Quantile95、ADC.sumAverage、ADC.uniformity、Vp0.1、Vp0.9、VpMedian。两个模型验证集预测结果见表1。
表1 验证集预测结果
四组模型训练集和验证集ROC曲线见图1、图2。
图1 LASSO+LR ROC曲线
图2 经典法+LR ROC曲线
图1、图2分别给出了LASSO+LR与经典法+LR训练组和验证组的ROC曲线。LASSO+LR与经典法+LR之间AUC无统计学差异(P= 0.3630)。
讨 论
高维数据在建模前通常需要对数据进行降维处理,既可以降低模型过拟合的风险,又能减少计算量和提高模型的可解释性。LASSO算法可以在高维数据中快速有效地提取出重要变量[6-7],简化模型,对于最后得到的回归方程,在估计出每一个放入模型的自变量的系数后,能够更好地解释它。LASSO的估计过程中加上了限制条件,这个限制条件的值越小,对估计参数的压缩作用就越强。当我们对这个目标函数求最小时,一些不重要的自变量的系数将被压缩为0,从而达到筛选变量的作用;再通过10折或5折交叉验证,得出平均误差最小的那个lambda值和平均误差在一个标准差以内的最大的lambda值,然后根据需要选择精简的模型或标准模型,得出筛选后的变量用于建模。本研究选择的10折交叉验证,并选取标准模型,获得11个纹理+定量特征用于建立逻辑回归预测模型。R语言的caret包可完整实现经典降维方法中对常数自变量、零方差或者近零方差的自变量、相关性较高自变量、多重共线性自变量的剔除[8];之后为防止部分自变量的权重过高对数据进行标准化,再通过logistic回归、决策树、随机森林等方法实现对高维数据的降维。LASSO计算了每一个变量的系数,而经典降维方法在删除相关性较高或多重共线性自变量时并未计算和验证其系数,保留了其中的一个,这种算法的不同或执行顺序的不同导致了这两种特征选择方法所得出的自变量不完全相同。当通过一系列连续型和/或类别型预测变量来预测二值型结果变量时,logistic回归是一个非常成熟且有用的工具,已广泛应用于各领域。纹理特征对病灶的信号强度、分布、形态等进行量化,用以客观反映病变特征,相比于传统的肉眼观察获得的病变信息更客观稳定。目前已应用于全身各部位的影像分析。
本研究的LASSO方法与经典方法筛选出的T2WI纹理特征和T1WI_DCE纹理及定量特征不完全相同,但ADC序列的纹理特征基本一致,说明ADC序列的纹理特征在诊断高级别前列腺癌的性能佳且稳定,是诊断前列腺疾病十分重要的序列,与文献报道一致[9-10]。ADC.MinIntensity是ADC的最低信号强度,ADC值越低,表示病灶区水分子扩散受限程度越高;ADC.Quantile95是ADC信号强度95%分位值,与ADC.MinIntensity相对应,其值越大,表示病灶区水分子扩散受限程度越低。ADC这两个特征参数代表了典型的前列腺癌的特征,与文献报道的前列腺癌病灶区ADC呈低信号的结果[11-12]相符。而T2WI在不同的降维方法中被筛选出不同特征可能是因为T2WI的信息受到的干扰较多,炎症、出血、增生等情况可具有相似的纹理特征[13],还需要更多的数据证实。
LASSO和经典方法在用于前列腺纹理分析的特征选择时,均表现出良好效能,且无显著差异,两者均可应用临床纹理分析的高级别前列腺癌与良性前列腺增生的鉴别诊断。