APP下载

浸润性乳腺癌超声高通量图像特征预测同侧腋窝淋巴结转移

2019-05-24胡雨舟李佳伟汪源源余锦华

肿瘤影像学 2019年2期
关键词:腋窝分类器灰度

胡雨舟,李佳伟,郭 翌,汪源源,余锦华,常 才

1.复旦大学电子工程系,上海 200433;

2.复旦大学附属肿瘤医院超声科,复旦大学上海医学院肿瘤学系,上海 200032

乳腺癌严重威胁女性健康,其发病率位居女性恶性肿瘤的首位,且发病年龄趋于年轻化[1]。术前明确诊断淋巴结转移可辅助临床医师决定手术方式,因此早期检查和诊断淋巴结是否转移至关重要。本研究基于影像组学理念,从浸润性乳腺癌患者的乳腺超声图像出发,首先提取基于乳腺影像报告与数据系统(Breast Imaging Reporting and Data System,BI-RADS)[2]的高通量特征、基于尺度不变特征转换(scale-invariant feature transform,SIFT)[3]的特征和基于卷积神经网络(convolutional neural network,CNN)的特征,并结合患者临床信息,形成一套相应的特征体系。其次,在特征筛选部分,利用十折法bootstrap 100次,先用t检验进行单因素分析,再用最小化绝对值收缩与选择算子(least absolute shrinkage and selection operator,LASSO)[4]回归模型进行多因素分析,最后按特征出现频次选择最优特征组合,使用基于十倍交叉验证的线性核支持向量机(support vector machine,SVM)分类器[5]对乳腺肿瘤同侧腋窝淋巴结转移进行预测。

1 资料和方法

1.1 临床数据

本研究主要包括2个数据集,记为数据集A和数据集B,均来自复旦大学附属肿瘤医院,且2个数据集中的数据不重复。数据集A是400幅乳腺超声图像,仅用来训练提取CNN特征所用的全卷积神经网络(fully convolutional neural network,FCN)。数据集B是380例女性乳腺癌患者的超声图像,用来研究乳腺超声图像特征与淋巴结转移之间的相关性。数据集B的采集时间为2014年4月—2016年6月,患者年龄23~83岁(平均年龄52.03岁,方差11.06岁)。所有患者经病理学检查确诊为浸润性乳腺癌,均通过手术治疗。每例患者都有若干幅乳腺超声图像,选择其中最具代表性的1幅图像进行分析。根据术中淋巴结冷冻切片检查结果及术后石蜡包埋切片病理学检查结果判断淋巴结转移:前哨淋巴结和腋窝淋巴结两者之一发生转移即视为腋窝淋巴结转移。380例患者中,发生淋巴结转移146例,未转移234例。所有图像均由经验丰富的超声科医师进行手动分割,后续特征所需要的肿瘤区域界定基于该手动分割结果。

1.2 特征提取

1.2.1 基于BI-RADS的高通量特征

美国放射学会(American College of Radiology,ACR)开发了BI-RADS来标准化乳腺肿瘤的超声描述。BI-RADS采用7个描述符来帮助分类,其中有5个描述符描述肿块部分,分别是形状、方向、边缘、回声特性和后方回声特性[2]。

根据描述符设计460个基于BI-RADS的高通量特征,以量化和评估肿瘤,具体特征及其与BI-RADS描述符的对应关系详见文献[6]。形态特征用于描述肿瘤的几何特征,包括BI-RADS中的形状、方向和边缘,共15个。灰度特征反映原始乳腺超声图像中肿瘤区域的灰度级和直方图分布,共16个。纹理特征反映图像中详细的、不可见的灰度变化和联系。以下选择6种纹理特征来显示不同的肿瘤纹理特性:① 基于边界的纹理特征表示肿瘤区域内部与周围区域灰度的区别,共15个。② 基于感兴趣区(region of interest,ROI)的纹理特征描述整个ROI中灰度级的分布,共6个。 ③ 灰度共生矩阵(gray-level cooccurrence matrix,GLCM)纹理特征描述在一定范围内的两个灰度级强度频率之间的指定空间线性关系,共23个。④ 灰度游程矩阵(gray-level run-length matrix,GLRLM) 纹理特征计算在给定方向上具有相同灰度的1组连续的共线图像点的游程来表征纹理的粗糙度,共13个。⑤ 灰度区域矩阵(gray-level size zone matrix,GLSZM)纹理特征反映小像素群的均匀性,共13个。⑥ 邻域灰度差分矩阵(neighborhood gray-tone difference matrix,NGTDM)纹理特征衡量每个图像像素的灰度与其邻域灰度之间的差异,共5个。小波特征是应用小波分解后的系数来表征不能被灰度和纹理特征直接反映的信息。离散小波变换将二维图像分解成近似、水平、垂直和对角这4组分量,每组分量计算灰度和纹理特征。每组分量计算89个特征,共有356个小波特征。

1.2.2 基于SIFT的特征

SIFT算法是一种在尺度空间中寻找极值点,并提取其有关大小和方向描述子的方法[3]。SIFT特征是图像的局部特征,与图像大小和方向无关,对噪声的容忍度好,且信息量丰富,区分度好[3]。本研究中,SIFT特征是基于乳腺肿瘤超声图像中ROI提取的。

SIFT特征的数据量很大,对1个极值点使用常见的4×4个种子点来描述,1个极值点就可产生128维的SIFT特征向量,而1幅图像中存在很多个极值点,这样整个特征的数量将十分庞大。为解决SIFT特征数据量过大的问题,采用计算机视觉领域常用的特征压缩的方法。先使用高斯混合模型(Gaussian mixture model,GMM)[7]将原始SIFT特征用8个高斯分布函数去近似估计,再使用费舍尔向量(Fisher vector)根据GMM中的参数对SIFT特征进行特征压缩[7-8]。GMM对样本的概率密度分布进行估计,而估计采用的模型是几个高斯模型的加权和[8]。每个高斯模型代表1个类,对样本中的数据分别在几个高斯模型上进行投影,就分别得到在各个类上的概率,本研究采用了8个类。使用费舍尔向量压缩后,每幅图像的SIFT特征维度相同,为2 048维。

1.2.3 基于CNN的特征

近年来,CNN研究吸引了很多学者的关注。在医学图像研究领域,CNN被广泛用于实现图像的自动分割[9-10]。根据相关研究,CNN中的特征图代表图像中的有用信息,是一种新型的有效特征[11]。FCN[12]是CNN在图像分割中的一种经典运用,是一种端到端的网络结构,可对每个像素点进行有效分割。

本研究基于经典的VGG-16网络设计了一个FCN来对数据集A中的图像进行训练,网络的输入为乳腺超声灰度图像,标签为手动分割结果。网络结构见图1,图1B是图1A中Block的具体结构。Conv代表卷积层,M×N×H表示卷积层的卷积核为M×N,特征图数为H。Deconv是反卷积层,K代表该反卷积实现了K倍上采样。Max pooling代表最大池化层,该网络中最大池化层的窗口大小为2×2,步长为2。BN为批量标准化(batch normalization)层,ReLU为修正线性单元(rectified linear unit),Sum是累加层,Dropout是随机丢弃层。对该网络,随机初始化各层的参数,学习率0.000 1,衰减率0.000 1,批大小20,动量0.9,训练了1 000个循环。

对训练后的网络,将数据集B中380例患者的ROI图像输入FCN。根据文献[11],较深卷积层的特征图可提取更深层、更有效的信息。本研究选择Block 13中卷积层的512个特征图,使用类似2.2.2中的方法,将原始的512个特征图采用8个高斯分布函数去近似估计,并使用费舍尔向量对GMM中的参数进行压缩,最后每个图像提取了8 192个CNN特征。

1.2.4 临床信息

经与医师讨论,加入3个重要的患者临床信息,即年龄、肿瘤大小和肿瘤位置。肿瘤大小是将超声图像中的像素点数乘以采样时显示使用的图像尺度。肿瘤位置根据实际超声检查时肿瘤是否在乳房的外上象限来判定。本研究将这些易获取且重要的临床信息也视为特征,来进行后续的特征筛选与分类预测。

1.3 特征筛选

提取完所有特征后,每例患者共得到10 703个特征,从不同方面描述乳腺肿瘤特性。但这个特征集的维度极其巨大,有些特征与淋巴结转移的关系并不密切。为选择相关性最大的特征来进行分类预测,特征筛选必不可少。为使特征筛选更具有普适性,筛选时使用十折bootstrap的方法。每次bootstrap将样本随机分成10等份,依次使用其中的9份进行特征筛选,因此每次bootstrap依次使用342例样本进行10次特征筛选。本研究进行了100次bootstrap,共进行了1 000次特征筛选,记录下每个特征出现的次数。

具体特征筛选包括单因素分析和多因素分析两部分。首先,对特征集使用t检验方法进行单因素分析,计算每个特征与淋巴结转移之间的相关性,筛选出其中P<0.05(差异有统计学意义)的特征[13]。其次,采用LASSO回归模型对特征进行多因素分析[4]。LASSO回归模型通过在最小化计算中加入1个L1范数作为惩罚项来调整复杂度,从而得到1个较为精炼的模型,使得某些系数收缩到零。复杂度调整程度由参数λ来控制,λ越大,对变量较多的线性模型的惩罚力度越大,最终模型中的变量就越少。本研究通过十倍交叉验证法得到最优λ值。最后,获取最优λ值对应的权重,其中非零权重对应的特征即为筛选出的最相关特征。

1.4 分类预测

对筛选后的特征集,采用1个十倍交叉验证的线性核SVM分类器来构建预测系统[5]。每次将380例患者的数据分成10等份,342例用于训练,38例用于测试,进行十折遍历。采用受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)、准确率、灵敏度和特异度来衡量模型的优劣[14]。整个方法的流程图如图2所示。

图2 整体流程图

2 结 果

2.1 SIFT描述子的作用

图3A、3B分别是1幅已选取ROI的乳腺超声图像的医师手动分割结果和计算机提取的SIFT特征的描述子分布,红色线条表示SIFT描述子的位置、大小和方向。由图3可见,肿瘤内部的红色线条数远少于肿瘤外部,表明肿瘤内部的SIFT描述子数量远少于肿瘤外部。肿瘤内部灰度不均匀区域也会出现大量SIFT描述子。同时,SIFT描述子的方向和大小对肿瘤周围区域的灰度变化也很敏感。因此,SIFT描述子在表征肿瘤内部均匀程度、肿瘤边界位置、肿瘤周边区域灰度分布等方面都有不错的效果。

图3 SIFT描述子的作用

2.2 LASSO模型特征筛选

图4展示了bootstrap中某一次LASSO模型中不同 λ值下模型的均方误差(mean squared er-ror,MSE),其中红色的点为MSE均值,上下的灰色区域代表置信区间。置信区间越大,表明MSE可能值的范围越大,MSE的结果越不稳定。从图4中可以看到,λ 较大(0.01< λ <0.1)时,即选取的特征较少时,模型的性能相近,MSE较低且较置信区间小,表明模型的效果较好且较稳定。随着 λ 值不断变小,MSE的均值和置信区间随之增大,表明随着惩罚力度变小,相关性相对较小的特征降低了模型的性能。选取保证MSE最小所需特征时的 λ 值,在图4中用实线标出。

2.3 分类结果

在数据集B中,对于100次使用十折法bootstrap的特征筛选结果,按特征出现次数将其进行排序,出现次数越多的特征对模型的作用越大,排序越靠前。表1展示了利用排序前N个特征建立的使用十折法线性核SVM分类器的分类结果。可以看到,使用特征数为50~150个时建立的分类器效果相近。特征数较少时,分类器的效果不佳,表明仅使用某几个特征预测淋巴结转移的效果并不理想。而特征数过多时,特征的冗余则降低了分类的准确率。选取AUC最大时的特征数,为100个。

图4 不同 λ值下LASSO模型的MSE

表1 不同特征数下分类器的分类效果

表2 加入CNN特征与不加CNN特征的分类结果比较

表2比较了加入CNN特征与不加入CNN特征时最优的分类结果。由表2可见,加入CNN特征后,使用100个特征构成的预测结果比不加入CNN特征时有明显提升。表明CNN特征的加入能有效地提高分类的准确率,对淋巴结转移的预测有帮助。

对于数据集B中的380例患者,图5使用100个特征的十倍交叉验证线性核SVM分类器模型的ROC曲线。该线性核SVM分类器的AUC为0.903,准确率为82.6%,灵敏度为90.6%,特异度为69.9%。

3 讨 论

乳腺癌严重危害女性健康。根据中国国家癌症研究所统计,2015年确诊患乳腺癌的中国女性约为268 600人,占全部女性新发癌症人数的15.09%[15]。淋巴结是否转移是影响乳腺癌预后的重要指标,无淋巴结转移者5年生存率可达90.5%,反之仅为53.6%[16]。原发乳腺癌在局部生长扩散的同时,可通过淋巴系统转移至腋窝淋巴结(axillary lymph node,ALN)。前哨淋巴结(sentinel lymph node,SLN)是原发肿瘤发生淋巴结转移必经的第一批淋巴结。如果前哨淋巴结发生转移,腋窝淋巴结也极有可能发生转移[17]。因此,术前明确淋巴结是否转移非常重要。

超声检查由于非侵入性、无辐射性和实时性的优点,是诊断乳腺癌最普遍和最有效的方法[18],不但能对乳腺癌原发灶进行定性和定位,还可检测腋窝淋巴结状态。但由于大部分腋窝淋巴结的超声特征不典型,超声检查并不能明确诊断。此外,由于腋窝的结构较深,某些较小的淋巴结易漏诊。如果能根据乳腺癌原发灶的超声图像特征,找到其与淋巴结转移之间的联系,实现对淋巴结转移的预测,从而对高风险患者进行重点排查,这对提高腋窝淋巴结检查的效率和准确率均有一定意义。

利用乳腺癌病灶超声图像预测腋窝淋巴结转移在临床上引起了关注。李燕等[19]对95例浸润性乳腺癌患者进行分析,利用肉眼观察提取了乳腺肿瘤超声图像的5个定性特征,最后取得AUC为0.783 8、准确率为70.79%、灵敏度为81.82%、特异度为64.29%的结果。时兆婷等[20]回顾性分析335例浸润性乳腺癌患者的临床病理及超声资料,认为年龄、肿瘤大小、组织学分级和边缘成角数为影响腋窝淋巴结转移的危险因素。但以上研究均基于医师观察,特征不够丰富,预测的准确率也有待提高。

针对乳腺肿瘤超声检查时腋窝淋巴结体积小、特征不典型和容易漏诊的情况,本研究提出基于乳腺超声图像特征预测乳腺肿瘤腋窝淋巴结转移的方法。由表2结果可见,分类器的AUC为0.903,准确率为82.6%,灵敏度为90.6%,特异度为69.9%。与文献[19]相比,在更大量的数据上实现了更好的分类结果。同时,CNN特征的使用较好地提高了分类器的分类性能。最后使用的100个特征包括46个CNN特征、42个SIFT特征、10个BI-RADS特征和2个临床信息。2个临床信息是肿瘤位置和大小。10个BI-RADS特征分别为2个形态特征、1个纹理特征和7个小波特征,其中2个形态特征是描述肿瘤边缘粗糙程度,1个纹理特征是描述肿瘤内部回声特性。从最后筛选的特征结果来看,肿瘤边缘粗糙程度、内部回声特性、位置是否在外上象限及肿瘤大小都是临床医师在实际检查中可关注的问题。分类器模型效果良好,经过筛选后的特征对乳腺肿瘤腋窝淋巴结转移有较好的区分作用,表明筛选出的乳腺肿瘤超声图像特征与腋窝淋巴结转移之间有一定的关联。本研究能为超声科医师在进行淋巴结超声检查时提供转移可能性的参考,帮助他们对患者进行更准确、更有针对性的检查。

为实现基于乳腺超声图像特征预测乳腺肿瘤腋窝淋巴结转移,本研究基于乳腺肿瘤超声图像特点和重要的患者信息设计了相应的特征体系,并对特征进行基于单因素分析和多因素分析的特征筛选,将筛选后的特征集在1个使用十倍交叉验证法的线性核分类器中实现了AUC=0.903的效果,表明该方法是有效的,能为临床医师进行乳腺肿瘤淋巴结检查提供转移可能性的参考。本研究的主要贡献有4点:一是结合乳腺超声图像特征和临床信息,设计了乳腺超声图像特征体系,且特征易获取;二是提出了利用CNN特征描述乳腺肿瘤超声图像的方法,并证明了该特征对分类结果有较大帮助;三是在特征数量众多的情况下,实现了严格而有效的特征筛选;四是在一定程度上实现了对乳腺肿瘤腋窝淋巴结转移的预测。

猜你喜欢

腋窝分类器灰度
采用改进导重法的拓扑结构灰度单元过滤技术
高频彩色多普勒超声在早期诊断乳腺癌腋窝淋巴结转移中的价值分析
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
Arduino小车巡线程序的灰度阈值优化方案
基于特征选择的SVM选择性集成学习方法
腋下广告
基于差异性测度的遥感自适应分类器选择
乳腺癌中DLL4的表达与临床病理参数及腋窝淋巴结转移的关系