运用超声造影特征选择的淋巴结良恶性鉴别
2018-06-12林细林
林细林,张 麒,韩 红
(1.上海大学通信与信息工程学院,上海 200444;2.复旦大学附属中山医院超声科,上海 200032)
0 引言
淋巴结病变分为良性病变和恶性病变。良性病变包括反应性增生和淋巴结核,恶性病变包括淋巴瘤和转移性恶性肿瘤[1]。甲状腺癌转移性淋巴结病变为淋巴结恶性病变的易发症[2]。利用计算机辅助区分甲状腺癌转移性淋巴结病变和良性病变具有重要的临床意义。超声造影(contrast-enhanced ultrasound,CEUS)通过向血液中注射造影剂来增强血液的背向散射,并用谐波成像显示淋巴结内部新生血管,经由经验丰富的医生判断淋巴结的良恶性[3]。
医生人工判断存在主观性和可变性,难以准确、客观地对良恶性淋巴结作出评价,而运用影像组学可对CEUS图像提取量化特征,以定量描述淋巴结的性质。影像组学是一种新兴的医学影像分析手段,其通过数据挖掘技术从医学图像中提取多维度的量化特征[4-11],并通过特征选择等降维技术筛选得到具有更好鉴别能力的特征子集,从而建立图像特征和病理良恶性、分子分型或预后等之间的关联。影像组学较少应用于CEUS图像,本文将其应用于CEUS图像中淋巴结病变的良恶性分类,效果较好。
由于特征数量多且相互之间存在冗余及干扰信息,因此需对提取到的特征进行降维,从而获取具备更佳鉴别能力的特征子集。该任务即为特征选择。本文运用三种特征选择方法对高维的淋巴结CEUS特征进行降维,以提高计算机自动分类的准确率。
1 材料和方法
1.1 视频分帧和病灶跟踪
①视频分帧。
本课题的淋巴结CEUS图像序列采集自复旦大学附属中山医院超声科,采集了50个病人共计66个淋巴结肿大病灶(包含35个良性病灶和31个甲状腺癌转移性病灶)的CEUS图像序列。将采集到的视频文件统一分离为静态的JPEG图像帧。临床上通常在屏幕上双幅并排显示B型超声图像和CEUS图像,获取的图像帧如图1所示。
图1 临床淋巴结图像Fig.1 Clinical image of a lymph node
②病灶跟踪。
与CEUS图像相比,B型超声图像能更加明显地呈现病灶形态。因此,首先在第一帧B型超声图像中勾勒病灶轮廓以确定其位置,接着运用实时压缩感知跟踪(real-time compressive tracking,RTCT)算法跟踪B型超声图像的病灶区域并进行运动补偿[8]。该算法的基本思想是:确定第一帧中跟踪窗口的位置,在当前窗口中心位置采集若干正样本;在远离窗口中心的位置采集若干负样本,对这些样本提取多尺度图像特征;利用符合压缩感知有限等距性条件的随机测量矩阵,对提取到的多尺度图像特征进行优化,从而对朴素贝叶斯分类器的参数进行更新[4-5]。接下来的每一帧,均在前帧窗口中心的附近位置提取若干样本,在分类器中得分最高的样本将被确定为跟踪到的当前帧病灶位置。根据B型超声图像每帧相同的位移量,可以对CEUS图像中的病灶进行运动补偿。
1.2 时空域特征提取
运用影像组学,对运动补偿后的CEUS图像进行时空域特征提取,得到312维特征。
①时域特征。
计算每帧图像的平均灰度值,得到平均灰度随时间变化的曲线 (time-intensity curve,TIC)如图2所示。
图2 平均灰度变化曲线Fig.2 Average gray change curve
从TIC提取峰值增强强度(peak enhancement,PE)、达峰时间(time to peak,TTP)、曲线下面积(area under the curve,AUC)等9个量化特征[1]。本文基于有无运动跟踪、有无低通滤波相互组合的4种情况,提取时域特征,共9×4=36个。
②空域特征。
TIC达到峰值时的图像帧称为峰值帧。以峰值帧为中心、前后均取若干帧平均得到的图像称为时间平均图像。本文从3种图像(有运动补偿的时间平均图像、无运动补偿的时间平均图像、峰值帧图像)中分别提取92个空域特征,共92×3=276个。92个特征如下。
一阶统计量:中值(Median)、直方图熵(EntropyHis)等共18个统计学特征。
灰度共生矩阵纹理特征:对比度(Cont)、能量(E)、均一度(Hm)、熵(Et)。在像素间隔0,1,...,15时分别计算,因此共含4×15=60个特征。
二值图像特征:用大津阈值法[6]将灰度图转为二值图。提取1/n外部面积比值(AR1n_out)、中心偏移度(CDD)、径向偏离度(RDD)、离散度(DD)、内部面积比与外部面积比的比值(RARx)、径向离散度(RSD)等共14个特征。
1.3 特征选择
特征选择能有效降低特征的维数,消除噪声及冗余特征。挑选出与问题相关及具有良好区分能力的特征子集[7],并称之为影像组学印签。筛选出的特征更能代表问题的实质,从而有效地提高分类的精确度。本文分别运用最小绝对压缩(least absolute shrinkage and selection operator,LASSO)法、支持向量机回归特征(recursive feature elimination based on support vector machine,SVM-RFE)法、Fisher准则法这3种方法,对312维特征进行降维。
由Robert Tibshirani提出[7]的公式为:
(1)
(2)
式中:yi为响应向量(标签);xi=(xi1,xi2,...,xin)为观察向量(量化特征);βj为第j个变量的回归系数。
Guyon等人提出将SVM-RFE用于特征选择[10]。SVM-RFE的基本流程如下[7]。
①当前特征(current feature,CF)子集包含所有的特征,最优特征(best feature,BF)子集为空集。
②设定每一次迭代时删除的特征数为1。
③重复以上步骤,直到CF的集合中不包含任何元素。
根据单个特征的特征权重|w|,对当前特征子集内的特征进行降序排列。删除排名最后的特征,余下的特征构成新的CF。若当前CF的判别准确率高于BF的准确率,则该CF成为新的BF。
④返回BF子集。
Fisher准则:设N个样本分属2类,记为wi={x(k),k= 1,2,…,Ni},i=0,1;记x(k)、mi(k)、m(k)分别表示样本x的样本均值在第k维的取值、wi的样本均值在第k维的取值、所有样本的均值在第k维的取值。
(3)
(4)
(5)
1.4 SVM留一法分类
假设有n个样本,将其中(n-1)个样本用于训练SVM分类器模型,剩余一个样本用于预测,交叉验证n次,得到平均预测分类结果。
2 试验和结果
全体312维特征的支持向量机(support vector machine,SVM)留一法分类准确率(Acc)、精度(Pre)、敏感性(Sen)、特异性(Spc)、约登指数(Yi)分别为87.1%、85.2%、82.1% 、85.7%、67.9%。
2.1 LASSO筛选后分类结果
试验表明,当特征数为10个左右时,分类性能最佳。试验时,分别筛选出8~12个特征并进行SVM留一法分类,结果如表1所示。
表1LASSO特征选择后分类结果
Tab.1ClassificationresultsoffeatureselectionbyusingLASSO%
当筛选特征数为11个时,SVM留一法分类Acc、Pre、Sen、Spc、Yi分别达到了98.5%、100%、97.1%、100%、97.1%。试验结果表明,DD、AR13_out、RSD、AR12_out、 RDD、EntropyHis、AUC、TTP这些量化特征在良恶性淋巴结间有显著差异(t检验p<0.001)。
2.2 SVM-RFE筛选后分类结果
使用SVM-RFE筛选特征,最先剔除的排在最后,最后剔除的排在第一,按排列顺序筛选出前8~12个特征并进行SVM留一法分类,结果如表2所示。
表2SVM-RFE特征选择后分类结果
Tab.2ClassificationresultsoffeatureselectionbyusingSVM-RFE%
结果显示,选出10个特征作为特征子集时,SVM留一法分类Acc、Pre、Sen、Spc、Yi分别达到了92.4%、94.1%、91.4%、93.6%、 85.0%。AR13_out、DD、AR12_out、PE、CDD、median这些特征均满足p<0.001。
2.3 Fisher准则筛选后分类结果
采用Fisher准则筛选出8~12个特征并进行SVM留一法分类,结果如表3所示。
表3Fisher准则特征选择后分类结果
Tab.3ClassificationresultsoffeatureselectionbyusingFisthercriterion%
筛选出9个特征时,SVM留一法分类Acc、Pre、Sen、Spc、Yi分别达到了92.4%、94.1%、91.4%、93.6%、85.0%。AR13_out、AR12_out、DD、RAR2、RAR3、PE特征均满足p<0.001。
3 结束语
经影像组学提取高维量化特征,并由LASSO、SVM-RFE、Fisher准则法这三种方法降维后的影像组学印签相对全体特征,分类准确度均得到提升。SVM留一法最佳,分类准确率分别达到了92.4%、92.4%、98.5%,说明特征选择能够得到鉴别能力更强的特征子集。
LASSO特征筛选的SVM留一法分类性能显著提升,Acc、Pre、Sen、Spc、Yi分别达到了98.5%、100%、97.1%、100%、 97.1%,相较全体特征的分类结果提高了11.4%、14.8%、15.0%、14.3%、29.2%。DD、AR13_out、RSD、AR12_out、RDD、EntropyHis、AUC、TTP这些量化特征在良恶性淋巴结间差异显著,有望对区分甲状腺癌转移性淋巴结与良性淋巴结和治疗评估提供帮助。在后续工作中,将进一步探究影像组学在肿瘤诊疗中的应用。
参考文献:
[1] 张麒,戴伟,韩红,等.淋巴结超声造影图像序列的特征提取[J].自动化仪表,2015,36(10):40-43.
[2] DAVIES M,ARUMUGAM P J,SHAH V I,et al.The clinical significance of lymph node micrometastasis in stage I and stage II colorectal cancer[J].Clinical and Translational Oncology,2008,10(3):175-179.
[3] FFSCHNEIDER M.Bubbles in echocardiography: climbing the learning curve[J].European Heart Journal Supplements,2002(4):C3-C7.
[4] LIU L,FIEGUTH P W.Texture classification from random features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3):574-586.
[5] WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[6] 王君.基于SVM-RFE的特征选择方法研究[D].大连:大连理工大学,2015.
[7] TIBSHIRANI R.Regression shrinkage and selection via the LASSO[J].Journal of the Roya Statistica Society:Series B,2011,73(3):273-282.
[8] ZHANG K,ZHANG L, YANG M H.Real-time compressive tracking[M].Berlin:Springer,2012:864-877.
[9] GUYON I,WESTON J,BARNHILL S,et al.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1-3):389-422.
[10]AERTS H J W L,VELAZQUEZ E R,LEIJENAAR R T H,et al.Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach[J].Nature Communications,2014(5):4006.
[11]ZHANG Q,XIAO Y,SUO J,et al.Sonoelastomics for breast tumor classification: a radiomics approach with clustering-based feature selection on sonoelastography[J].Ultrasound in Medicine & Biology,2017(6):109-115.