APP下载

基于改进的自适应提升算法的乳腺癌图像识别研究

2020-12-29张红斌邬任重蒋子良武晋鹏姬东鸿

关键词:精准度图像识别肿块

张红斌,邬任重,蒋子良,武晋鹏,袁 天,滑 瑾,姬东鸿

(1.华东交通大学软件学院,南昌 330013; 2.华东交通大学信息工程学院,南昌 330013;.武汉大学国家网络安全学院, 武汉430072)

乳腺癌是女性发病率最高的癌症[1],它给患者及其家属带来了身心上的折磨.乳腺癌的早期筛查与诊断能有效提高患者存活率[2],但它需要病理医生具备大量专业知识和诊断经验.然而医疗条件的匮乏、医疗资源的分配不均及日益增长的就诊数量导致乳腺癌患者得不到及时就诊.因此,患者治愈率受到一定影响[3].基于计算机的乳腺癌图像识别模型是破解这一困局的有效手段.本文提出“基于改进的自适应提升算法的乳腺癌图像识别”新方法,期望可以辅助病理医生准确、高效地分析乳腺图像,为提高诊断效率及缩短患者就诊周期奠定重要基础.

1 相关工作

在执行有监督学习算法时,需要大量带标记的训练样本.由于其特殊性,乳腺癌图像只能由具备专业知识的病理医生标记[4].然而,医学图像标注非常费时、费力,但准确、可靠的标注是实现高质量乳腺癌图像识别的重要前提.常见乳腺癌数据集包括:乳腺癌数字存储库[5](Breast Cancer Digital Repository,BCDR)、乳腺病理组织图像数据库[6](Breast Cancer Histopathological Images Dataset,BreaKHis)、数字乳腺影像子集[7](Curated Breast Imaging Subset of Digital Database for Screening Mammography,CBIS-DDSM)等.其次,图像特征提取是训练优良识别模型的重要保障.尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)[8]、方向梯度直方图(Histogram of Oriented Gradients,HOG)[9]、纹理基元[10]等均已在乳腺癌图像识别研究中取得成功.Li[10]提取乳腺图像内部及其边缘的纹理基元特征,综合线性判别分析(Linear Discriminant Analysis,LDA)与K近邻(K-Nearest Neighbor,KNN)算法完成乳腺肿块良恶性分类.Awan[11]使用图像中更多的上下文信息完成乳腺肿块分类.Wang[12]提取4个基于形状的特征和138个基于颜色的纹理特征,然后采用链状代理遗传算法(Chain-like Agent Genetic Algorithm,CAGA)完成乳腺组织图像分类.近年来,基于深度学习的卷积神经网络(Convolutional Neural Networks,CNN)方法在乳腺癌图像识别研究中取得了不错的成绩.Araújo[13]采用CNN模型提取乳腺图像特征,然后基于支持向量机(Support Vector Machine,SVM)算法训练分类模型.Han[14]提出基于类结构的深度卷积神经网络(Deep Convolutional Neural Network,DCNN),完成端到端乳腺肿块分类.Danaee[15]用堆叠降噪自动编码器(Stacked Denoising Autoencoder,SDAE)将高维、有噪声的基因表达转换为低维、有意义的特征,然后基于SVM算法完成乳腺肿块分类.不同于现有工作,本文从多特征融合的角度实现乳腺癌图像识别,即综合利用传统特征及CNN特征之间的互补性,构建性能更优的乳腺癌图像识别模型.

2 乳腺癌图像识别模型

2.1 识别模型框架

提出基于改进的自适应提升算法的乳腺癌图像识别模型,它包括:图像特征提取与组合、多特征融合及乳腺癌图像识别.首先,从形状、纹理、深度学习等角度提取图像的Gist[16](G)、SIFT(S)、HOG(H)及VGG16[17](V)特征,根据特征性质进行合理组合;其次,改进传统的有效区域基因优选[18](Effective Range Based Gene Selection,ERGS)算法,即根据图像特征在不同类别乳腺图像上的有效区域,计算特征的ERGS权重.基于Adaboost算法[19]计算图像特征隶属不同类别乳腺图像的预估概率;采用ERGS权重加权预估概率,实现多特征融合,完成乳腺癌图像识别.综上,基于改进的自适应提升算法的乳腺癌图像识别模型的基本框架如图1所示.

图1 基于改进的自适应提升算法的乳腺癌图像识别模型基本框架Fig.1 The framework of breast cancer image recognition model based on modified adaboost algorithm

2.2 图像特征提取及组合

如图1阳性乳腺图像所示,乳腺肿块具有1)多样性,即形态多变;2)密度不同、成像对比度不强,多隐藏于乳腺组织中;3)部分边缘不清晰等特性.因此,应优选合适的特征准确地刻画这些视觉特性.SIFT[8]是一种基于尺度空间的形状特征,它对图像缩放、旋转、尺度空间、仿射都具有不变性,且它可减少形状、角度、光线等因素的影响,准确定位多变的肿块形状,进而改善乳腺癌图像识别精度.Gist[16]模拟人类观察习惯以提取图像中简明的上下文信息,它从全局角度刻画隐藏于乳腺组织中的肿块,且肿块的纹理特性不同于正常图像,Gist特征能准确描述这一变化.HOG[9]是一种目标检测描述子,它计算和统计图像局部区域的梯度方向直方图,故HOG能获取乳腺肿块的边缘信息,较准确地描述肿块的表象和形状.VGG16[17]特征基于CNN模型,CNN中的卷积层与池化层交替出现,卷积层提取特征,池化层对特征做降采样,最后形成深层特征.VGG16是目前主流的CNN类模型,能够较好地解释乳腺肿块的多样性特点.上述四种特征在融合之后可充分发挥它们之间的互补性.例如,某些特征组合如“S+G”“S+G+H”判别性更佳,解释性也更好,因为它们主要体现纹理与形状两大视觉特性的融合,能更准确地识别乳腺肿块,请参见3.2.1节实验结果.

2.3 改进的ERGS算法

传统ERGS算法[20]根据特征的权值大小完成特征筛选.它仅选取权值最大的特征,这必然会丢失一些来自其它特征的重要判别信息,最终影响识别性能.故改进ERGS的决策函数,使其成为一个多特征融合算法,更好地利用不同特征之间的互补性,构建高质量的识别模型.算法描述如下.

算法1:改进后的ERGS算法

输入:
图像特征fz,z∈{G,S,H,V}

输出: 多特征融合结果

1)计算特征fz在样本cq上的有效区域ERzq,

q∈{Neg,Pos},

[μzq-(1-pq)τσzq,μzq+(1-pq)τσzq].

2)计算特征fz重叠区域OAz:

3)计算特征fz重叠区域系数ACz:

4)根据重叠区域系数ACz计算特征fz的ERGS权重wz:

5)运用ERGS权重wz,对分类模型输出的预估概率pzj加权,取其最大值生成多特征融合结果:

max(pz)=max{sum(pzj*wj:1≤j≤n)}.

3 实验结果

3.1 数据集及基线

选取CBIS-DDSM[7]数据集来验证所提算法.CBIS-DDSM源于癌症影像档案,它是医学数字成像和通信(Digital Imaging and Communications in Medicine,DICOM)格式的乳腺造影图像.数据集中有753项钙化病例和891项肿块病例,每个病例都包含乳房侧斜位(Mediolateral Oblique,MLO)和头尾位(Craniocaudal,CC)视图,图像是灰度的(如图1所示)并伴有一张掩码图像,该掩码图像指定分割前肿块的区域,即由病理医生标注的病灶区域(乳腺图像数据集约163.6 GB,可从网址https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM中获得其详细信息).首先,采用Python(PIL库)对CBIS-DDSM数据集进行预处理:将图像大小统一为1152×896,得到2 781幅完整的“.PNG”格式的乳腺造影图像.它包含两类样本:阴性(Negative,Neg)与阳性(Positive,Pos).样本分布:阴性1 434幅、阳性1 347幅,把数据集随机分为训练集(70%)和测试集(30%)完成相关实验.

采用如下四类基线与本文算法(ERGS-Ada)进行比较:

1) 传统算法:逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、K近邻(KNN)、朴素贝叶斯(Naive Bayes,NB),它们均来自scikit-learn软件包[21];

2) 融合类算法:传统ERGS算法[20]、Adaboost[19]、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)[22];

3) ERGS类算法:将改进的ERGS算法应用于传统算法,得到ERGS-LR、ERGS-RF、ERGS-KNN、ERGS-NB及ERGS-GBDT等一组新算法;

4) 深度学习模型:主流的VGG16[17]及Densenet169[23]模型.

3.2 实验结果及分析

采用精准度(Accuracy)度量算法性能,计算公式如(1)所示:

(1)

(2)

“TPall+TNall”是正确分类的图像总数,TPall计算正确分类的正例,TNall计算正确分类的负例,“TPall+FPall+TNall+FNall”是图像总数.基于准确率(Precision)、平均准确率(Average Precision,AP)设计如下度量标准:

(3)

(4)

mass∈{Neg,Pos},Nmass=2为乳腺图像类型数.此外,计算所有识别模型的平均精度如公式(5)所示,其中Nclassifier=6.

(5)

ΔAccuracy=max(AccuracyERGS)-

max(AccuracyBasic).

(6)

公式(6)计算改进的ERGS算法与基本算法识别最优值之间的差值,该值为正说明ERGS类算法更优.上述指标从不同角度评判乳腺癌图像识别性能.

3.2.1 乳腺癌图像识别结果 表1是采用3.1节基本算法(传统算法与融合类算法)得到的识别精准度,由公式(1)计算.MA值由公式(5)计算,根据MA值对各单类别特征(“S”“G”“H”“V”)进行排序,如表1中最后一列所示.

表1 基本算法识别精准度Tab.1 Recognition accuracy of basic algorithms %

由表1可发现:1)基于MA值,“S”特征的分类精准度最高,在六个基本算法中,它有五个结果最优.“G”特征次之,它有一个最优、三个次优.显然,“S”特征可减少图像中形态、视角等变化带来的噪声.而“G”特征主要提取图像中的简明上下文信息,即全局纹理,故它从全局角度能更好地完成乳腺肿块识别.相反,“V”特征效果不佳.这是因为:CNN模型虽然具有强大的学习能力和特征表示能力,但它需配合海量训练样本,受标记样本数量局限,CNN模型提取的“V”特征表现较差;2)Adaboost算法整体性能最优,其平均精准度达66.39%,较次优算法提升66.39%-64.03%=2.36%.且它采用“S”“G”“V”三类特征识别时均达最优,最优识别精准度为82.42%,较次优值(选取RF算法及“S”特征)提升82.42%-76.08%=6.34%.因为Adaboost算法集多个弱分类器于一体,最终获得判别能力更优的强分类器,基于该强分类器来提升乳腺癌图像识别精度.此外,除“H”特征之外,Adaboost算法对不同图像特征都具有较好鲁棒性;3)表1结果仅依赖单类别特征,乳腺癌图像识别精度还有待提高.

表2对比本文算法(ERGS-Ada)与改进的ERGS类算法(第3类基线),“S+G+H+V”表示将“S”“G”“H”“V”这四种特征进行融合,其它特征组合的命名方同理,MA值、排名计算方式同表1.ΔAccuracy(公式6)计算表2中ERGS类算法最优识别性能相对基本算法的提升幅度,该值为正说明ERGS类算法更优.例如,对于NB算法,ERGS-NB的提升幅度ΔAccuracy=63.16%-63.04%=0.12%,其它结果计算方式类似.根据MA值对特征进行排序,如表2中最后一列所示.

表2 ERGS类算法识别精准度Tab.2 Recognition accuracy of the ERGS algorithms %

由表2可发现:1) 基于MA值,“S+G+H”组合的识别性能整体最佳,达到74.24%,相比表1中最优值,它提升了74.24%-71.61%=2.63%.此外,其它特征组合如“H+G”“S+G”也表现不错.它们的MA指标(MASGH=74.24%、MASG=73.86%、MASH=73.11%)均优于对应单类别特征.当选取“S+G”特征组合并执行ERGS-Ada算法时,识别精准度最优,达86.24%,相比表1中最优值,它提升了3.82%.显然,在乳腺癌图像识别中,应充分利用不同特征之间的互补性,进而减少因病灶区域乳腺肿块形态、视角、光照等变化所带来的噪声干扰,最终改善识别性能.2) 基于MA值,“S+V”>“H+V”>“G+V”,“S+V”组合的MA指标较“H+V”提升64.26%-55.96%=8.30%,相比“G”和“H”,“S”特征与“V”特征的互补性最强.且它们的精准度均优于“V”特征.同理,基于MA值,“S+H+V”>“S+G+V”>“H+G+V”.这些结果表明:由于提取方式不同,传统特征(尤其是“S”“H”次之)与深度学习特征之间确实能互为补充,进一步增强了模型的判别性.3) 采用改进的ERGS算法完成多特征融合之后,包含“S”的七种组合表现最优,这进一步说明:对于CBIS-DDSM数据集,“S”特征能更准确地描述图像视觉内容,它在ERGS特征融合中扮演最重要角色,且改进的ERGS算法具有较强鲁棒性;4) 表2中ΔAccuracy值皆大于0,显然无论对于哪种分类算法,改进的ERGS算法都能有效地为特征分配合适权重,从而提升不同乳腺图像之间的区分度,最终得到判别性更强、解释性更好的乳腺癌图像识别模型.

3.2.2 综合比较 表3是乳腺癌图像识别更细化的性能对比.第1列、第6列表示选取相应特征的识别模型,如“NB(S)”表示选取“S”特征及“NB”算法完成识别.对于ERGS类算法,均选取表2中的最优值.如“ERGS-NB”是表2中采用“S+G+H”特征组合的ERGS-NB算法.表3中第2~3列、第4列、第5列计算如公式(1)、(3)、(4)所示.第7~10列同理.

表3 多特征融合前后乳腺癌图像识别结果Tab.3 Breast cancer image recognition results before and after multi-feature fusion %

由表3可发现:1)改进的ERGS算法能有效提升乳腺癌图像识别性能.除ERGS_KNN(Neg)、ERGS_GBDT(Pos)、ERGS_GBDT(AP)之外,其它ERGS类指标均表现不错,共计21/24=87.5%的ERGS指标性能提升;2)“S”特征对乳腺肿块的描述最准确,除KNN类算法外,“S”的表现均最优,其中“S”特征对“Pos”(阳性)样本的识别非常准确,这是因为阳性样本中包含大量有别于阴性样本的病灶区域,且这些区域多表现为形态视觉差异(参见图1).这为基于ERGS-Ada算法的多特征融合奠定了重要基础;3)总体上,“Pos”(阳性)样本(即乳腺肿块)的识别准确率较高.在临床诊断中,这具有重要的应用价值,它可有效避免误诊与漏诊情况,使更多患者能接受及时诊治;4)基于Accuracy和AP指标,ERGS-Ada算法整体表现最优,它较次优模型的Accuracy、AP值分别提升86.24%-82.42%=3.82%和87.81%-84.75%=3.06%.虽然,它对“Pos”(阳性)类样本的识别并非最优,但ERGS-Ada能更好地识别“Neg”(阴性)类样本,最终整体推升算法的AP值与Accuracy值.

对比全部模型的精准度,结果如图2所示(图中均选择各算法最优值,其中传统ERGS算法仅选取最优特征的精准度,故它同Adaboost算法,图2中不再显示).

图2 各基线最优值与ERGS-Ada算法的精准度比较Fig.2 Accuracy comparisons between the ERGS-Ada algorithm and state-of-the-art baselines

如图2所示: CNN类模型识别性能不佳,主要原因:1)训练样本偏少,无法驱动CNN类模型更好地获取深层特征;2)CNN类模型是基于ImageNet预训练得到的,ImageNet中并未包含乳腺图像.因此,预训练模型未能有效捕获相关图像特征.总之,ERGS-Ada算法的精准度较次优算法(Adaboost)提升3.82%,它能有效改善乳腺癌图像识别性能,算法的实用性较高.

3.3 关键参数展示

本节重点剖析ERGS-Ada算法的内部细节,表4展示执行ERGS-Ada算法后,某测试样本(阴性,真实标签为0)的预估概率、特征重叠区域系数、ERGS权重及预测结果,其它样本的结果与之类似,不再赘述.表4中预估概率由Adaboost算法计算,而重叠区域系数由算法1计算.

由表4可发现:1)“S”“V”两单类别特征能正确预测该样本,而“G”“H”特征对该测试样本的预测效果不佳,即阳性的预估概率高于阴性,最终导致错误预测,显然肿块多样化的形态特性被“S”和“V”更好地捕获并用于识别过程;2)“V”特征的重叠区域系数最大,故在相应特征组合中其ERGS权重也更大.“S”特征重叠区域系数次之,而“G”特征最小.“V”特征的最大上边界与最小下边界间距离较小,该特征在样本中的区分度不高,这便拉升了其重叠区域系数;3)在全部特征组合中,8/11=72.72%组指标预测正确,这较单类别特征的50%提升了22.72%,而“H+G+V”“H+G”及“H+V”的预测结果出错.主要原因:“G”发挥了负面作用,它在7组融合实验中均预测错误.相反“S”特征则更为强势,它充分发挥了正面作用.未来拟考虑进一步改进算法1,以“收缩”负面特征权重,以达到更优的预测效果.

4 结论与展望

基于计算机的乳腺癌图像识别模型能辅助病理医生准确、高效地分析乳腺图像、缩短患者就诊周期.为充分利用特征间互补性,提出基于改进的自适应提升算法的乳腺癌图像识别模型,有效改善识别性能.实验表明:1)ERGS-Ada算法表现最优,其精准度达86.24%.特征之间的互补性得到充分利用;2)阳性图像更易识别,其准确率最高可达99.18%;3)对于CBIS-DDSM数据集,各类特征在识别中作用的降序排列:SIFT>Gist>HOG>VGG16.

表4 某测试样本的预估概率、ERGS权重及预测结果Tab.4 The estimated probability,ERGS weight and predicted results of a testing sample

未来工作:1) 由于“V”特征识别效果不佳,尝试采用其它深度学习模型(Inception-ResNet[24])提取更优的乳腺图像特征,并与传统特征融合,进一步提升识别性能;2)引入判别相关分析(Discriminant Correlation Analysis,DCA)[25]算法,充分挖掘特征之间的跨模态语义,综合跨模态语义及ERGS-Ada算法完成更高质量的乳腺癌图像识别;3)采用PGGAN[26]模型对图像样本做数据增强(Data Augment),从而更好地训练识别模型;4)增加病灶区域定位功能,引入non-local block[27]+Mask R-CNN[28]对乳腺肿块病灶区域进行精准定位.

猜你喜欢

精准度图像识别肿块
颈部肿块256例临床诊治分析
乳腺良性肿块采用改良的乳腺肿块切除术治疗的可行性及临床疗效分析
让党建活动更加有“味”——礼泉县增强“两新”党建精准度
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
乳房有肿块、隐隐作痛,怎么办
基于高精度差分法的线性常微分方程边值问题研究
图像识别在物联网上的应用
图像识别在水质检测中的应用
压力表计量检定及校准方法探讨