APP下载

基于坐标匹配和子图切分定位乳腺钼靶图像的感兴趣区域*

2020-04-15章鸣嬛顾雅佳肖勤刘文坚张璇陈瑛

生物医学工程研究 2020年1期
关键词:子图原图分类器

章鸣嬛,顾雅佳,肖勤,刘文坚,张璇,陈瑛△

(1.上海杉达学院大数据分析与处理研究中心,上海 201209;2.复旦大学附属肿瘤医院放射诊断科,上海 200032;3.澳门城市大学人文社会科学学院,澳门 999078)

1 引 言

据2018年的统计数据显示,全球每年有超过50万妇女死于乳腺肿瘤,超过120万妇女患有乳腺肿瘤[1]。据中国抗癌协会公布的统计数字显示,我国乳腺肿瘤发病率以每年3%的速率递增,己接近欧洲中等发达国家水平。

乳腺X线摄影技术是目前通过普查早期发现和诊断乳腺肿瘤的首选方法[2]。乳腺影像报告和数据系统(BI-RADS)是美国放射学会推荐采用的一种乳腺影像报告诊断标准。在最新修订的BI-RADS分类诊断标准第五版[3]中,BI-RADS包括1~6六个类别,其中第4类(BI-RADS4)表明受检者罹患恶性肿瘤的可能性为3%~94%。

DDSM是美国佛罗里达大学开发的应用于乳腺肿瘤筛查的数字钼靶X线图像数据库,共包含超过两千个病例的图像数据。每个病例包括左右两侧乳房CC及MLO两个视角的四张图像。

国内外很多学者将计算机辅助检测(CAD)应用于对医学图像的研判。模式识别中的分类算法大多能适用于乳腺肿瘤图像的识别。1999年,Penareyes等[4]将模糊系统和遗传算法相结合,用于乳腺肿瘤识别。2003年,Abonyi等[5]通过构建有监督聚类模型对乳腺肿瘤数据集进行分类。2008年,Lin等[6]利用粒子群算法寻找SVM最佳参数的算法,用于乳房肿块的识别,准确率较同类分类器有较大提升。2014年,Dheeba等[7]设计了基于PSO算法的小波神经网络,用于识别乳腺肿瘤数据。

卷积神经网络(convolutional neural network, CNN)因其较强的特征表达及信息提取能力,能实现特征自动提取和分类器训练,故在图像分类[8]、目标检测[9]和图像分割[10]领域均取得了显著的成绩,也广泛应用于乳腺肿瘤影像自动识别领域[11]。

本研究探索了在设计乳腺钼靶图像分类器过程中提取ROI的新方法。经验证,该方法可为医生的临床判断提供辅助检测的依据,并为细分BI-RADS4和进一步精准诊断奠定基础。

2 数据采集

试验图像来自DDSM公开数据库。乳腺肿瘤的X线影像表现主要为钙化、肿块阴影及结构紊乱三类[12]。成簇微小钙化灶是乳腺肿瘤的重要X线征象,故检测和识别乳腺X线图像中的钙化灶已成为乳腺肿瘤筛查CAD系统的研究热点之一[13]。在钙化灶中,呈簇状分布的多形性钙化灶[14]较为常见。故将DDSM中分类为BI-RADS4且呈簇状分布多形性钙化的钼靶图像为对象,选取良性和恶性病例各20例。

DDSM的每幅图像均包含了钼靶原图(以下简称“原图”)和降采样后的图像(以下简称“缩略图”)。缩略图中已用红圈勾画出病灶区域。缩略图分辨率较低,信息损失较多,故不可直接用于处理和分析。原图尺寸较大,且存在大量的无效区域,故也不宜直接作为处理和分析的对象。由于原图中并未标注病灶区域,而缩略图相对于原图的纵横比例未做任何改变,因此,可根据缩略图上的病灶区域的坐标位置,定位出原图中的病灶位置。这是初步切割出的ROI。

3 方法

3.1 ROI定位

在缩略图上做纵、横两个方向的遍历,当遇到红色像素点时,就记录该点的位置坐标。根据若干相关的像素点求得病灶区域的外切矩形,并得到该外切矩形左上角A和右下角B的坐标。利用此二者的坐标,即可确定原图中的病灶区域。

ROI定位过程见图1。

图1 ROI定位过程

MNPQ是已由医生勾画出的红色病灶区域。ACBD为其外切矩形。A点坐标计为A(XA,YA)。设病灶区域的高和宽分别为h和w,则B点坐标可计为(XA+w,YA+h)。定位过程如下:

(1)当检测到某像素点的灰度值在(255,0,0)附近时,便记录该点的位置坐标。

(2)将其横、纵坐标分别写入列表X_list和Y_list。因此,X_list中至少包括[XM,XN,XP,XQ],Y_list中至少包括[YM,YN,YP,YQ]。

(3)由几何关系可知,A点和B点的坐标可分别表示为A(min(X_list), min(Y_list))和B(max(X_list), max(Y_list))。

(4)由缩略图上A、B两点的坐标,即可在原图上截取出对应位置的ROI。

以某幅BI-RADS4类良性图像为例展示截取结果。

图2截取原图的ROI

Fig.2The segmentation of ROI on the raw image

图2(a)勾画了红圈的缩略图,图2(b)显示了该病灶区的外切矩形。图2(c)是从原图中截取的ROI。由图2(c)可见,虽然ROI中仍存在部分无效区域,但已较容易找到钙化点的位置。

3.2 子图切分

得到的ROI中仍存在无效区域,需进一步处理。可逐行逐列扫描ROI,再对切分所得的子图进行选择。一幅原图可能切分出若干张含有钙化点病灶的子图,在医生指导下挑选其中含有较明显病灶的子图。

图3 逐行逐列扫描并切分ROI

起始分割点为坐标原点(左上角),见图3。黑框内是第一次切分所得的子图,蓝框内是右移64个像素后得到的子图,黄框内是下移64个像素后得到的子图,依次逐行逐列扫描并切分。由于病灶多集中在图像中央地带,四周较少,故依次再分别从坐标原点右移15和30个像素,从坐标原点下移15和30个像素作为切分的起始点。据此方法路线可得到若干切分后的子图。

分别尝试了64×64、128×128和256×256三种尺寸。经验证,128×128的切分尺寸效果最佳。这是因为64×64尺寸较小,病灶所占据的比例过大,特征反而不明显;256×256尺寸又较大,而某些ROI甚至不足256×256,无法对ROI进行有效切分。若病灶特征过于明显,在后续模式识别时可能会出现过拟合现象。因此,在选择子图时应加入若干包含残缺病灶的子图,以增强模型的泛化性能。

批量切分所有图像的ROI。共采集有效的学习样本1 236幅,其中包含良性病灶的子图608幅,包含恶性病灶的子图628幅。

3.3 分类器设计

为验证上述ROI提取算法的有效性,分别设计机器学习分类器和CNN卷积神经网络分类器,对试验图像加以识别。

利用机器学习分类器进行识别前,需提取图像的特征参数。分类性能取决于特征参数的设定。常用的参数提取方法有小波变换[15]、Gabor滤波[16]和灰度共生矩阵[17]等。基于上述方法提取并融合,共得到53个参数。参数的构成见表1。

表1 53个特征参数的构成

使用灵敏度分析算法进行参数筛选以降低模型的复杂度,最终获得32个影响力较大的参数。通过灵敏度分析,可剔除灵敏度绝对值较小的参数,达到优化模型的目的。

设计支持向量机、决策树和集成分类器并分别测试其性能。集成分类器的设计是对若干分立分类器进行投票集成。使用软投票方式来集成分类器。其算法原理见式1。

(1)

经典的CNN模型有VGGNet[18]和AlexNet[19]等。AlexNet的网络层数为8层,包括5层卷积和3层全连接层。激活函数ReLU后设有LRU层,用以归一化激活函数的结果。本研究在AlexNet的基础上,去除其局部响应归一化(LRU)层,并综合考虑了过拟合等问题,调整了卷积层部分参数的设置,使模型性能有较大提升。其卷积层的模型结构见表2。

两种分类器均采用随机抽样方式,利用十折交叉验证法组织样本数据。在训练集和测试集中,均保证良性子图和恶性子图的分布接近总体分布。采用测试集的准确率作为模型的评价指标。

4 结果

4.1 机器学习分类器

表3为各机器学习分类器在测试集上的准确率对比。

表2 改进后的AlexNet卷积层结构

表3 各机器学习分类器的准确率

由表3可知,集成分类器的性能最佳,其测试集上的准确率可达99.3%。

4.2 CNN分类器

本研究分别使用VGG16、VGG11和AlexNet训练模型,并设计了改进后的AlexNet。图4为各CNN在测试集上的准确率对比。

图4 各CNN的准确率

VGG16为16层VGG,VGG11为11层VGG,AlexNet_v2为经典的AlexNet。AlexNet_v1为改进后的AlexNet。横坐标为测试次数,有效测试次数≥75次;纵坐标为测试集上的准确率。由图4可知,AlexNet_v1的预测效果最佳,且准确率相较于其它分类器最为平稳,其平均测试准确率为98.68%。

对比机器学习分类器和CNN分类器可知,两者的最高准确率接近。由于后者的计算复杂度较高,对硬件环境的要求也很高,一般要用到GPU图像处理部件。因此,集成分类器对于识别钼靶钙化图像具有更好的推广价值。

5 讨论

由实验结果可知,运用本研究的技术路线采集样本并进行模式识别,可达到优良的分类性能。若不提取图像的ROI,直接识别整幅图像,其测试集上的准确率最高仅为52.2%。

本研究的技术路线可应用于乳腺肿瘤大规模筛查的工作中,可提升筛查效率,减轻医生负担。将一幅图像输入系统,系统能根据设定的切分起始点和切分尺寸,自动扫描图像并输出若干子图。若某幅图像的所有子图中包含一张预测类别为恶性的子图,即可初步判定该图像的拥有者为恶性肿瘤患者,将提示医生进一步诊断确认。

BI-RADS标准中,BI-RADS4表明受检者罹患恶性肿瘤的可能性为3%~94%。这一概率区间太大,不利于精准诊断及相应的治疗。若能基于人工智能技术对BI-RADS4类图像的类别进行4a、4b和4c类的自动细分,缩减其各自罹患恶性肿瘤的概率区间,则非常有利于对患者的精准诊断及制定相应的治疗方案。

本研究为上述问题的预初实验。该方法已可对BI-RADS4类的钙化图像进行良、恶二分类识别。后续将采集合适的样本,将本研究的技术路线延伸到对BI-RADS4的精细分类上。

6 结束语

本研究基于坐标匹配和子图切分技术来定位乳腺钼靶图像的ROI。利用该方法及后续的分类器模型可高效识别BI-RADS4的簇状分布多形性钙化钼靶图像。因此,该技术路线可应用于乳腺肿瘤钼靶影像钙化灶的自动筛查,并为细分BI-RADS4奠定技术基础。

致谢

感谢周智骏、潘雍昊、刘若尘和郭宗安同学,承担了本课题的部分技术实现工作。

猜你喜欢

子图原图分类器
关于2树子图的一些性质
完形:打乱的拼图
临界完全图Ramsey数
不含3K1和K1+C4为导出子图的图色数上界∗
找一找
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
跨越平凡
巧拼火柴棒
基于层次化分类器的遥感图像飞机目标检测