APP下载

基于深度学习的乳腺数字化X线BI-RADS密度分类的研究

2019-04-25贾田菊马彦云李延涛武慧慧宁艳云崔曹哲李灯熬

山西医科大学学报 2019年4期
关键词:放射科乳腺准确率

贾田菊,马彦云,李延涛,武慧慧,宁艳云,崔曹哲,李灯熬#

(1山西医科大学影像系,太原 030001;2山西医科大学第一医院放射科;3太原理工大学大数据学院智能感知与大数据研究所;*通讯作者,E-mail:tym-y-y@163.com;#共同通讯作者,E-mail:lidengao@tyut.edu.cn)

乳腺X线密度(mammographic density,MD)简称乳腺密度,是在全数字化乳腺X线摄影(full-field digital mammography,FFDM)图像上乳腺纤维实质与脂肪组织相对量的度量,用以客观评估乳腺腺体组织相对量[1]。近年来,越来越多的研究表明乳腺密度与乳腺癌的发病风险密切相关[2,3]。研究表明乳腺X线筛查乳腺癌的敏感性很大程度上取决于乳腺密度,对于乳腺密度较低的乳房,乳腺X线灵敏度为87%,对于致密型乳腺,灵敏度下降至63%[3],故致密型乳腺的患者需要联合其他检查(如乳腺断层融合技术DBT,超声和乳腺MRI)来增加检出灵敏度。

目前,乳腺密度的评估主要通过放射科医师及计算机成像系统和相关辅助软件进行判断和计算,主要评估方法有定量和定性两类,定量方法主要是借助计算机成像系统和半自动诊断系统,但目前未常规用于临床。定性方法主要是通过放射科医师的视觉主观评估对乳腺密度分类,包括Wolfe标准[4],Tabar分类[5]和广泛使用的乳腺影像和报告数据系统(BI-RADS)标准等分类方法[6]。BI-RADS分类是由美国放射学分会指南推荐使用的分类标准,目前在多个国家较为通用,其将乳腺密度分为四类:a为脂肪型、b为散在纤维腺体型、c为不均匀致密型、d为极度致密型。尽管有研究表明,放射科医师在经过适当的培训后,定性评估BI-RADS等级密度的结果具有高度的可重复性和一致性[7],但评估是主观的,在放射科医师之间的差异性仍较大[8],无法准确评估乳腺密度,从而无法准确检出乳腺病变及早期筛查乳腺癌。

传统的机器学习依赖于人工特征提取过程,但人工特征提取过程困难且耗时,其发展始终受限,且类似乳腺密度研究本身难以进行特征提取。可自动提取特征的深度学习解决了这一难题,同时也促使近几年来人工智能的迅速发展。目前深度学习已成功应用在各个方面,在医学成像方面亦有建树,本研究试图通过深度学习的方法解决上述问题。在大数据训练的基础上,深度学习在人工智能的应用中已表现出良好的性能,在生物医学成像方面,深度学习可用于胸腹部淋巴结的检测、肺部结节检测及病理鉴定[9,10]、乳腺病变的检测和诊断[11]及图像分割[12]。基于深度学习在乳腺病变的研究主要集中于疾病的检测与诊断,而乳腺密度作为乳腺癌主要的危险因子之一,将深度学习的视角聚焦于此,可进一步对乳腺癌进行风险监测与预防,降低乳腺癌的影响。

本研究结合了深度学习和全数字化乳腺X线摄影检查,对乳腺密度进行分类,旨在大数据学习的基础上,构建基于深度学习的乳腺密度分类模型,对乳腺密度进行准确、客观、标准化的分类,并有望整合于临床常规流程中。

1 材料和方法

1.1 研究对象

回顾性分析在我院2015-08~2018-02间行全数字化乳腺X线摄影检查的患者4 549例(包括22例单侧乳房切除患者)共18 152幅图像,患者均为女性,平均年龄为43岁,所有病例均为正常或非乳腺癌患者,并且无部分切除手术史和假体植入史。所有图像均由Hologic全数字化乳腺机获得,投照位置均为双侧乳腺(术后患者为单侧乳腺)的内外侧斜位(MLO位)和头尾位(CC位)。根据第五版ACR制定的BI-RADS标准,由两位有经验的放射科医师对乳腺密度进行双盲评估,并分别记录乳腺密度评估结果,若两位评估结果一致,则为最终评估结果;若两位评估结果不一致,则由两位协商达成统一意见后作为最终的评估结果。

1.2 深度学习模型

卷积神经网络(convolutional neural networks,CNN)作为深度学习的经典网络,已经在医学图像中表现出了良好的分类性能,其具有极强的适应性,善于挖掘数据局部特征,提取全局数据特征和分类,CNN通常包括以下几种层:卷积层,线性整流层,池化层和全连接层,常见的CNN架构是堆叠几个卷积层和整流层,再加一个池化层,然后使用全连接层控制输出。在此基础上搭建不同的网络模型,例如Lenet、Alexnet、Resnet等模型。网络的深度对模型的性能至关重要,网络层数的增加,可进行更复杂的特征提取,理论上是可以取得更好的成果,然而实际上随着网络深度增加出现了网络退化问题,深层的网络存在梯度消失或者梯度爆炸的问题,使得深度学习模型难以进行训练。医学图像的特殊性要求网络不断进行加深,所以本研究采用CNN基础上更深层次的网络模型:深度残差网络(deep residual network,ResNet)中的ResNet 50(见表1),该模型特征之处在于,在网络加深的基础上采用特有的残差网络块通过恒等映射解决了网络性能退化的问题,并同时减少了运算的参数量,其次归一原始化有效解决了随着网络加深出现的梯度消失问题,并使网络收敛。因此采用ResNet 50模型,能更好地训练更深层的CNN,提高图像分类和目标检测的准确性。

表1 ResNet 50的具体结构

本研究的分类任务选用相对较好的交叉熵损失函数,用来估计模型预测值与真实值的不一致程度,损失函数越小,模型的鲁棒性就越好。同时选取目前最好的Adam优化方式,用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而使损失函数最小化。

本次研究计算机安装的是Ubuntu 18.04操作系统,在两块Titan 1080显卡上完成运行,并在pytorch框架上进行网络的构建。

1.3 研究方法

图像处理:所有原始图像均经历一个简单去背景过程,将包含乳腺的最小矩形从整幅图像中分割出来(见图1),由于乳腺大小的个体差异较大,将图像统一调整为512×512像素。

两位医师对乳腺密度双盲评定的最终结果为:a类1 256幅(占6.9%)、b类7 074幅(占39.0%)、c类8 542幅(占47.1%)、d类1 280幅(占7.1%),本研究将图像数据分为小数据集(使用METLAB软件随机抽取各类图像1 000幅,共4 000幅)和原始数据集(18 152幅)分别进行实验,两次实验使用的ResNet模型均各自进行了微调过程。

我们使用MATLAB软件进行统计学分析,记录并计算随着迭代次数增加的各类准确性,使用受试者工作特性曲线(ROC)和曲线下面积(AUC)评估模型的分类性能。

A.右侧乳腺CC位的原始图像;B.右侧乳腺CC位的简单去除背景后的图像图1 原始图像与去背景图像Figure 1 Original image and background image removed

为了训练和测试CNN模型,将小数据集随机混合并按乳腺密度进行分层,按8 ∶2分为训练集和测试集,其中训练集使用十倍交叉验证。在十倍交叉验证中,训练数据被分成10个大小相等的10个子集,每次10个子集中的9个用于训练集,1个验证集对网络进行参数微调,重复10次取平均AUC;测试集测试其对乳腺密度各个分类的准确性。将原始数据集按如上的方法进行训练和测试,得到平均AUC和准确率,并将两次数据集的准确率和AUC对比,对比分析随着样本量的增加,准确率和模型分类性能的变化。

2 结果

基于深度学习的乳腺密度分类模型进行分类时,随着迭代次数的增加,模型的分类准确率逐渐趋于稳定,当使用小数据集(使用METLAB软件随机抽取各类图像1 000幅,共4 000幅)时,不同乳腺密度类别的分类准确率分别为:a类为91%,b类为86%,c类为84%,d类为90%(见图2),AUC值为0.893;当使用原始数据集(18 152幅)时,不同乳腺密度类别的分类准确率分别为:a类为91%,b类为89%,c类为88%,d类为90%(见图3),AUC值为0.923(见图4);与此同时,与小数据集相比,b和c的准确率明显增加,达到几乎与a和d较为一致的准确率,其AUC值也高于小数据集的AUC,说明随着样本量的增加,分类模型的分类性能亦逐渐好转。

图2 模型在小数据集训练时的密度分类准确性Figure 2 Density classification accuracy of the model in small data set training

图3 模型在原始数据集时的密度分类准确性Figure 3 Density classification accuracy of the model in the original data set

图4 模型在不同数据集时的乳腺密度分类性能的ROC曲线Figure 4 ROC curve of breast density classification performance of the model in different data sets

3 讨论

乳腺密度作为乳腺癌最重要的危险因素之一,可用于乳腺癌风险评估预测和监控中以及确定个体化乳腺癌筛查方案,但目前,乳腺密度评估的不一致性是广泛存在的问题。随着深度学习的兴起,在无手工特征提取的图像中,深度学习已经显示出良好的图像识别和分类能力,在医学方面的应用逐渐增多,已有学者将深度学习引入乳腺疾病的检出和诊断,甚至乳腺病理切片的研究,但仅有少量研究将深度学习用于乳腺密度的测量及分类,乳腺密度作为乳腺癌的危险因素之一,对其研究刻不容缓。本研究的乳房密度定性评估的特征提取过程尤其困难,而构建的模型可以直接模拟放射科医师做出视觉评估,但难以判断其是模拟的具体哪部分信息。这也就决定了乳腺密度分类更适合用于无需手工特征提取的深度学习方法,因此,本研究首先构建了一个基于深度学习的乳腺密度分类模型,该模型通过学习大量由放射科医师分类的图像后能自动对乳腺密度进行评估分类。该方法避免了手工特征提取的过程,预期会达到更为一致的乳房密度评估,从而有助于改进当前的乳腺密度定性评估并应用于临床中。此外,通过人工智能对乳腺密度进行客观评估,可以准确地评估个体患者和大型普筛的乳腺癌风险[13]。

Mohamed等[14]的研究表明,其构建的CNN模型可以准确评估b和c的分类,CNN模型区分b类和c类的准确率为94%,当删除部分质量较差的图像数据时,分类准确率增加到98%。本研究中,分类模型对a和d的分类准确率较高,在90%左右,也是因为在临床工作中,放射科医师的视觉评估很容易区分,而b和c的分类准确率欠佳,但在增加数据量之后,准确率得到了相应的提高,说明随着数据量的增加,本研究所构建的分类模型可以达到较好的分类准确率,具有较好的分类性能。相较于之前的视觉评估过程,基于深度学习的乳腺密度分类模型可对乳腺密度进行较为准确、客观的评估。

本研究分类的准确率低于前者的研究成果,究其原因可能是:①所使用的网络模型及其优化过程不同所致;②本研究中采用的乳腺密度的评估方法是ACR提供的BI-RADS分类标准,属于定性评估,主要依靠放射科医师主观进行判断,虽然采取了双盲阅片诊断,但仍无法完全避免阅片诊断误差;③本研究始终保持与ACR BI-RADS标准相一致的四分类,符合常规临床诊断需求,但也就出现了准确率较低的情况;④主要原因还是本研究目前纳入训练的数据量仍是有限的,对于深度学习的需求仍远远不够。所以,下一步需要扩大数据集,进一步规范放射科医师的视觉评估或纳入多位资深医师的评估,使得原始数据集更大、更准确,模型更为成熟。

本研究的创新点在于:①将卷积神经网络模型ResNet 50用于乳腺密度分类任务。②所研究数据直接采用医院的真实数据,真实反映乳腺图像的个体差异性;受检患者的年龄段较为集中,b类和c类的数据量较大,同时也反映了乳腺密度的分布;将乳腺密度按BI-RADS分类分为四类符合常规临床诊断。有相关研究[1]表明将乳腺密度按照脂肪型和致密型分类后,未发现乳腺密度与乳腺癌风险之间的相关性,但按照BI-RADS标准分为四类后,发现乳腺密度与乳腺癌风险是相关的。所以本次研究根据BI-RADS标准的四分类具有一定的临床意义。

虽然本次研究着重点在于乳腺密度的定性评估,但作者认为,乳腺密度的定性评估应该与定量评估相结合,目前所用的计算机成像系统已安装Quantra定量分析软件,接下来可以将二者结合起来更好地用于乳腺密度的准确评估,为进一步研究深度学习从二者结合的角度对乳腺密度更为精准的分类奠定基础。

4 结论

总之,本研究所构建的基于深度学习的卷积神经网络(CNN)分类模型能够以较高的准确率对乳腺密度进行自动分类;可作为一种潜在的计算机化工具,协助放射科医师在临床工作中对乳腺密度进行准确、一致的分类;预计,该模型将有助于乳腺病变的检出及乳腺癌的早期筛查,并有望为预防乳腺癌提供科学依据。

猜你喜欢

放射科乳腺准确率
我国放射科住院医师规范化培训现状的调查与思考
乳腺结节状病变的MRI诊断
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
放射科专业基地入科教育的实践探讨
新型冠状病毒感染疫情期间放射科应急防控管理方案的探讨
体检查出乳腺增生或结节,该怎么办
高速公路车牌识别标识站准确率验证法
红外乳腺治疗仪治疗乳腺增生的疗效观察