基于多尺度特征的乳腺肿块检测方法研究
2019-01-11邬向前
陈 珊, 卜 巍, 邬向前
(1 哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001; 2 哈尔滨工业大学 媒体技术与艺术学院, 哈尔滨 150001)
0 引 言
乳腺癌是女性最常见的癌症类型。据世界卫生组织统计,全球每年有超过50万妇女死于乳腺癌,超过120万妇女被诊断患有乳腺癌,且发病率不断上升[1]。在中国女性中,乳腺癌约占所有女性癌症的15%。并有数据显示,中国乳腺癌的发病率每年正以3%的速度上升。这一现实状况即使其已然成为女性群体中性命攸关的危重病症之一。但乳腺癌的致病诱因至今还未获得彻底揭示,因此尽早发现乳腺癌并尽早治疗则显得尤为重要。
乳腺钼靶X光检查是目前早期乳腺癌检查的主要方法,医生通过阅读乳腺钼靶图像,初步判断有无乳腺癌变。但这种初期诊断主要基于医生的主观判断,容易出现漏诊和误诊的情况。研究表明,这种人为诊断的敏感度为84%,特异度为91%[2- 3]。分析可知,漏诊和误诊的发生可概略归结为医生长时间阅片疲劳、医生阅片经验的差异和钼靶图像中病灶特征不明显等原因。漏诊易耽误宝贵的治疗时间,误诊则会给就诊者带来很大的精神压力。因此,提升医生的阅片效率和诊断准确性至关重要。
乳腺肿块病变检测,是乳腺钼靶图像诊断中的关键任务之一,即是要对乳腺钼靶图像中的肿块病变进行准确定位和分类,但由于乳腺钼靶图像中的不同肿块病变往往具有不同的形状和尺度(如图1所示,红色矩形框区域为肿块),检测上存在一定难度。有效的乳腺肿块病变检测方法应当能对乳腺钼靶图像中不同形状和尺度的肿块病变都能有较好的检测性能。
以往的大多数乳腺病变检测方法都基于两阶段框架:先在图像中生成候选区域,接着就在这些区域上对肿块目标进行后续的定位和分类,比如Fast R-CNN[4]、Faster R-CNN[5]等。应对大小尺度不同的目标主要是通过在候选区域生成时,采用变化窗口大小的滑动窗口,或是采用选择性搜索法[6]和对目标位置进行回归的RPN网络,再在第二阶段开始时将这些区域放缩到同样大小,旨在进一步调整区域的位置和边界。
SSD(Single Shot MultiBox Detector)网络[7]是时下自然图像领域中性能较优的图像检测方法之一。相比于两阶段检测网络Fast R-CNN、Faster R-CNN,SSD网络在简化模型的同时,保持了较高的检测性能。其运行机理就是将所有计算压缩到一个单一网络中,去除了区域候选生成和特征重采样等操作,使得网络更易于训练。同时,SSD网络在最终预测时将来自多个层不同尺度的特征图的预测进行集成,在每个不同尺度的特征图中生成一系列大小和长宽比不同的默认检测框,用来解决图像中检测目标尺度不一的问题。综上分析可知,本文即将SSD网络应用到乳腺肿块病变检测任务中,基于不同层多尺度特征来对肿块病变进行定位和分类,并在DDSM数据库[8]上获得了优秀的检测性能。
(a) 肿块图像1 (b) 肿块图像2
1 乳腺肿块的多尺度检测模型
本文提出的基于多尺度特征的乳腺肿块病变检测方法的总体过程如图2所示。从图2中可以看到,乳腺钼靶图像先被输入到基网络中进行特征提取,本文采用的基网络为ResNet-50网络(只保留最后一个卷积层之前的部分,包括最后一个卷积层);再经过附加的数个卷积模块进行分析处理;选择其中一些特征层,利用这些层的不同尺度的特征图进行肿块病变目标位置和目标类别的预测;最后将这些特征层的预测结果结合起来,经过非极大值抑制去除冗余检测框,得到最终的乳腺钼靶图像肿块病变检测结果。 这里将针对方法过程中的关键部分:附加特征层和多特征层预测,可做阐释论述如下。
1.1 附加特征层
在基网络后添加了一些特征层,这些特征层在尺度上逐层递减。如此一来,这种设计就能进一步加深网络,得到更抽象的特征,抽象的特征能使目标的分类更为准确;同时也有助于此后在不同尺度特征图上的目标预测研究。不同特征层的不同尺度特征图上的一个特征单元在原图中对应的感知野大小也不同,因此在不同特征层的不同尺度特征图上进行目标预测,可以对图像中大小尺度不同的目标功能实现较好的检测性能。本文在基网络后添加3个卷积模块,共6个卷积层,作为附加的多尺度特征层。该研究结构描述详见表1。
表1 检测网络结构
1.2 多特征层预测
多特征层预测是SSD方法的长足优势所在。这里将对此给出探讨分述如下。
(1)在每个特征层上的预测设计。可通过设定默认检测框来实现。在预测时,SSD将对每个默认检测框在图像中所对应的区域进行目标类别预测和目标所在位置的预测。SSD针对可用于预测的特征图中的每个特征单元(即m×n×p大小的特征图中的一个1×1×p的特征单位),设定了多个默认检测框,这些默认检测框有不同的大小和长宽比,如图3所示。其中,图3(b)即以网络结构中的卷积模块2为例,展示了默认检测框的具体设定情况。卷积模块2中的特征图大小为9×7×512,图3 (b)为9×7大小的方格,划分的每个方格都对应着特征图中的一个特征单元。
(a) 肿块标注图像 (b) 默认检测框
设定默认检测框时,涉及的性能参数有默认检测框大小和默认检测框长宽比,而设定默认检测框大小和长宽比都是为了确定该默认检测框在原图像中对应的区域范围。其中,默认检测框大小指的是某一预测特征层上的默认检测框在原图像中对应的感知区域的大小,长宽比指的是该感知区域的长度与宽度的比值。默认检测框对应到原图像的具体映射方式将在2.1节训练部分予以详述。每个特征层在预测时,即对每个默认检测框在原图中对应的区域进行目标类别的预测,并在原图对应区域内进行坐标偏移量的回归。
对于某一特征层m×n×p大小的特征图,为得到肿块目标定位和目标类别的预测结果,网络采用大小为3×3×p的卷积核进行卷积。如果在每个特征单元上设定k个默认检测框,图像中共有c个目标种类(包括背景区域),那么用于肿块目标定位预测的卷积滤波器个数为k×4,这里的4代表每个默认检测框预测出来的目标位置坐标偏移,而用于目标类别预测的卷积滤波器个数为k×c,此处的c代表对每个默认检测框的类别预测,预测结果是一个长度为目标类别数的向量,向量的每个维度表示该默认检测框属于该类别的置信度,即每个特征单元在预测时的输出数量将为k×(c+4)。对于m×n×p大小的特征图,利用k×(c+4)个卷积核大小为3×3×p的卷积滤波器进行卷积,得到(c+4)×k×m×n个输出,如此就完成了在该特征图上的目标预测。
(2)多特征层检测结果的集成设计。用于预测的特征层,可以是基网络中的某些层,也可以是附加的多尺度层。对多特征层的检测结果进行集成,就是在训练时将每一层的检测结果与ground truth(真值,专业人员标注的肿块病变区域)来做出比较,再将所有层与ground truth比较后的评估结果计入到损失函数中,并对该损失函数进行最小化训练;测试时,只要将每一预测特征层的预测结果映射到原图像中,同时通过非极大值抑制操作对冗余检测框进行消除即可。这一部分将在2.1节训练部分和2.2节测试部分中论证呈现。本文选择了res3d、res5c、卷积模块1、卷积模块2、卷积模块3、全局均值池化层作为预测特征层来对肿块目标进行预测。为了使得检测网络能够达到更好、更快的收敛,基网络ResNet-50先在乳腺钼靶图像分类任务上预训练了18 000次迭代。
2 模型的训练和测试
2.1 训练
在前文分析基础上,研发推得本文训练时的主题研究过程可详见如下。
2.1.1 将默认检测框映射到原图中对应的感知区域
SSD通过设定默认检测框大小和长宽比,来将默认检测框映射到原图中对应的感知区域。整个映射过程分为3个步骤。对此可做解析描述如下。
(1)找到默认检测框中心在原图中的对应位置。计算原图相对于默认检测框所在特征层的特征图的缩放比例r,将默认检测框中心在该特征图中的坐标乘以r,就会得到该默认检测框中心在原图像中的对应位置。
(2)计算每个预测特征层的默认检测框在原图中对应感知区域的最小尺度和最大尺度(按边长计)。被选中用于预测的特征层中的每个特征单元在原图中对应的感知区域大小随着层次增加而变大。SSD为层次最低和层次最高的特征层分别设定了最小和最大的感知区域,剩余的特征层在原图中对应的感知区域范围则在这最小感知区域和最大感知区域之间较为平均地顺次分布。具体来说,假设这些被选中的用于预测的特征层对应原图的最小感知区域和最大感知区域分别为Smin和Smax,S1,S2, ......,Sk是Smin和Smax之间从小到大排列的一些值(S均代表区域边长),那么第一个预测特征层的最小感知区域为Smin,最大感知区域为S1,第二个预测特征层的最小感知区域为S1,最大感知区域为S2,…,第k个预测特征层的最小感知区域为Sk-1,最大感知区域为Sk,最后一个预测特征层的最大感知区域为Smax。
(3)根据每个预测特征层的默认检测框在原图中对应感知区域的最小尺度(记为Minsize)和最大尺度(记为Maxsize),以及默认检测框的长宽比ar,划定每个默认检测框在原图中的具体映射区域。每个长宽比ar对应2个长方形默认检测框(如图3 (b)所示的2个蓝色矩形框),其在原图映射区域的长和宽分别为:
(1)
除了设定的长宽比ar对应的默认检测框之外,每个预测特征层的每个特征单元都有2个预先设定的正方形默认检测框(如图3(b)所示的2个红色矩形框),其在原图映射区域的边长分别为:
(2)
2.1.2 匹配方式研究
对于匹配方式,在将预测的检测框和ground truth框定的肿块病变目标区域进行匹配时,为了保证每个ground truth区域都能获得一个与其匹配的检测框,首先为每个ground truth区域找到与其IoU值最大的检测框进行匹配。除此之外,将任意一个与ground truth区域IoU值大于某一阈值(记为匹配阈值)的区域与其进行匹配。以该匹配方式进行训练,不仅能使得最佳匹配的区域在预测时获得较高置信度,也可以使得那些和ground truth区域匹配得较好的区域也在预测时获得较高分,这样与实际情况更贴合,能使得训练结果更符合期待。本文在训练时,将ground truth框定的区域和检测框的匹配阈值设为0.2,而在自然图像中,这个值一般为0.5、甚至是更高。这主要是以下2点原因造成的:一是由于乳腺钼靶图像上往往只有一个肿块目标,有2个或是2个以上肿块目标的情况特别少,将匹配阈值调低可以使得训练时能匹配到更多的正样本,否则正负样本类别不平衡程度会过于严重,以至于难以训练得到好的检测结果。二是因为相比于自然图像中的例如猫或者狗这样的目标,肿块病变的边缘非常不清晰、不明确[9],在检测时对肿块病变进行准确定位的难度更大,因此需要对其降低匹配标准。
2.1.3 损失计算
乳腺肿块病变检测任务包含了2个子任务:肿块检测和肿块分类。因此在衡量计算损失时,也由2部分组成,分别是:定位损失和分类损失[7]。研究推得的计算损失的数学运算公式可表示为:
(3)
在计算损失中,定位损失采用了平滑L1损失,并且(cx,cy,w,h)表示位置信息,(cx,cy)表示区域的中心坐标,w,h分别表示区域的宽和高[7]。定位损失的数学运算公式可见如下:
(4)
(5)
(6)
(7)
(8)
分类损失采用了softmax损失[7],其运算公式的数学表述如下:
(9)
(10)
2.1.4 训练过程中的优化研究
针对训练过程中得到的样本正负类别不平衡的问题,本文还采取了与文献[7]中相同的措施。在训练匹配阶段,往往匹配到的正样本的数量非常少。为了防止正、负样本发生倾斜,训练时并不将所有的负样本都纳入训练样本,而是从中随机挑选出一部分,使得正、负样本的比例为1:3。这种将正、负样本比维持在合理范围内进行训练的做法,能够使得网络得到更好、更快的收敛。
为了训练得到更鲁棒的模型,在训练过程中,本文采用与SSD[7]相同的重采样数据增广。对于输入的乳腺钼靶图像,重新采样与肿块病变区域IoU值为0.1、0.3、0.5、0.7和0.9的区域,放缩到输入图像相同大小,作为新的输入数据进行训练。如果ground truth中心区域落在采样区域内,那么就将采样区域与ground truth交叠的部分作为该采样区域的ground truth,否则就认为该采样区域内不包含肿块病变。
2.2 测试
利用训练过的SSD网络模型对新的乳腺钼靶图像样本进行测试,模型在每一个预测特征层进行目标预测,即对每个默认检测框进行目标位置偏移和目标类别置信度的预测。当目标类别置信度大于设定的置信度阈值时,该默认检测框的预测结果将会保留下来。这些被保留下来的检测框可能会有冗余,如图4所示,因此需要引入非极大值抑制(Non-maximum Suppression, NMS)处理对冗余检测框进行抑制,使得对每个目标的检测尽量只保留一个最优框。
图4 冗余检测框
非极大值抑制的做法大致如下:将所有被预测为同一类别的检测框按置信度高低进行排序,选出置信度最高的检测框。再遍历剩余该类别的检测框,若和选中的置信度最高的检测框的IoU值大于某一阈值(记为NMS阈值),则该检测框就被舍去。从未处理的检测框中再选出置信度最高的,重复上述过程。最后被保留下来的检测框将在最终的检测结果中呈现。本文将NMS阈值设定为0.1。因为相比于自然图像,在乳腺钼靶图像中,发生冗余样本框重叠的情况要少得多。
3 实验结果与分析
本文在DDSM数据库上对提出的基于多尺度特征的乳腺肿块病变检测方法进行性能评估,验证其有效性。实验环境为Intel© CoreTMi7-4790k CPU和NVIDIA Tesla K40c GPU。对DDSM数据库中的乳腺钼靶图像进行整理,挑选出包含肿块的图像用于乳腺肿块病变检测方法的性能评估,其中有良性肿块图像1 106张,恶性肿块图像1 160张。将乳腺钼靶图像放缩至1 152×896大小。若将图像放缩得过大,在实验时将会超出内存限制;若将图像放缩得过小,那么肿块区域将会变得过小,甚至是消失。本文实验中,对整理出的DDSM数据库中的乳腺钼靶图像进行90°、180°、270°旋转,作为数据增广。
在本文中,采用FROC(the Free Response Operating Characteristic Curve)曲线作为乳腺肿块病变检测的评测指标。FROC曲线是以平均每幅图像的假阳性区域个数(False Positives per Image,FPI)为横坐标,敏感度(Sensitivity)为纵坐标的曲线。其中,假阳性区域为检测出是病变、但实际是正常的区域。FPI被定义为:
(11)
敏感度,即检测出的病变区域个数占数据集中实际病变区域个数的比例,Sensitivity被定义为:
(12)
为验证本文提出的基于多尺度特征的乳腺肿块病变检测方法的有效性,本文在DDSM数据库上构建实验,并与目前在DDSM数据库上性能较优的乳腺肿块病变检测方法的性能进行比较。
本文方法在DDSM数据库上进行肿块病变检测的FROC曲线如图5所示。从图5中可以看到在平均每幅图像的假阳性区域个数为一定时,本文提出的乳腺肿块区域检测方法分别对良性肿块和恶性肿块处理后得到的检测敏感度。部分检测结果的展示如图6所示。图像中的蓝色矩形框区域是ground truth区域,红色矩形框是本文方法检测出来的top3的肿块病变区域。可以看出大部分预测矩形框的中心都能与ground truth中心较好地重合,但在大小上仍有出入。检测错误的矩形框大多处于乳腺区域边缘(如图6(b), 6 (c)所示),这是因为乳腺区域边缘和肿块边缘有类似性质,边缘两侧的区域有较大的对比度,这将需要在此后的研究中再继续加以改进。
图5 本文方法的FROC曲线
考虑到一些方法只有针对恶性肿块进行检测的检测结果,因此仅在对恶性肿块的检测上与其它方法进行比较。比较的结果可见表2。由表2可知,分别比较了在敏感度(Sensitivity)为0.70、 0.75、 0.80、 0.88、 0.92时,平均每幅图像假阳性区域个数(FPI)的大小。在Sensitivity相同的情况下,FPI越小意味着检测器的性能越好。结果表明,本文提出的方法的检测性能要远远胜过目前在DDSM数据库上取得较好结果的数个方法,这就验证了SSD网络这种基于多尺度特征的方法应用于乳腺肿块检测任务上的有效性。
(a) 检测结果1 (b) 检测结果2
(c) 检测结果3 (d) 检测结果4
SensitivityFPIDhungel等人[10]Eltonsy等人[11]Sampat等人[12]本文方法0.704.00--0.680.754.80--0.860.80--1.000.920.85--1.501.050.88-2.402.701.440.92-5.40-1.92
4 结束语
本文将在自然图像检测领域性能较佳的SSD网络应用到乳腺肿块病变检测任务中,提出了基于多尺度特征的乳腺肿块病变检测方法,该方法在不同层次不同尺度的特征层上对肿块目标进行检测。不同层次不同尺度的特征层中的每个神经单元在原图像中所对应的感知区域大小不同,因此每个特征层对某一尺度级别的目标的检测性能相对于其它尺度级别更好。对不同层次不同尺度特征层的预测结果进行结合,可使得模型对尺度不一的目标都有较好的检测结果。本文在DDSM数据库上展开实验验证,结果表明基于多尺度特征的乳腺肿块病变检测方法的性能要优于目前在DDSM数据库上性能较佳的一些肿块检测方法,证实了本文方法的有效性。