基于改进AlexNet和注意力机制的乳腺癌自动检测

2022-06-15郭笑颜王波张剑飞刘明

齐齐哈尔大学学报（自然科学版） 2022年3期

郭笑颜，王波，张剑飞，刘明

郭笑颜，王波，张剑飞，刘明

（齐齐哈尔大学计算机与控制工程学院，黑龙江齐齐哈尔 161006）

乳腺癌是女性中最常见的癌症类型，如果能在乳腺癌的早期确诊和治疗，可以显著提高患者生存率。组织病理学检查是癌症确诊的黄金标准，针对医生很难在乳腺癌病理组织切片上精确快速的描绘出患病区域，给出一种基于改进AlexNet和注意力机制的网络模型用于IDC的自动检测，首先将全视野数字病理切片按照坐标信息进行不重复切片，然后将小切片输入至网络模型中进行训练，预测和评估，最后将小切片的分类结果按照坐标信息还原到全视野数字病理切片上，通过对小切片的二分类间接完成IDC的检测任务。该方法最终取得了86.34%的准确率、78.20%的1评分和84.12%的平衡准确率，具有一定的实用价值和科研意义。

乳腺癌；自动检测；AlexNet；注意力机制

根据世界卫生组织公布的数据显示，乳腺癌是女性中最常见的癌症类型，每年影响210万女性。在2018年约有62.7万名妇女死于乳腺癌，占女性癌症死亡人数的15%[1]。其中70%约为浸润性乳腺导管癌（Invasive Ductal Carcinoma，IDC），近20年以来IDC发病率具有明显上升的趋势。如果能在乳腺癌早期确诊和治疗，可以显著增加成功治疗的机会，98%的患者都将存活5年以上，但是如果在乳腺癌的后期才被发现，治疗的成功率下降到25%[2-3]。

在乳腺癌的诊断过程中，病理学家首先需要对通过手术或者穿刺取得的组织切片染色，然后在显微镜下对组织切片进行病理学检查来确定是否发生癌变。目前，患者的组织切片可以被扫描形成全视野数字病理切片（Whole slide image , WSI），可以提供不同组织区域、不同分辨率的图片供病理学家分析诊断，同时为计算机自动分析奠定了基础。Spanhol等[4]在2016年公开一个乳腺显微图像数据集BreaKHis，该数据集目前已经成为乳腺显微图像的基准数据集，大量研究人员在此基础上开展科学研究[5-7]。Bhuiyan等[8]提出了一种基于迁移学习加分类器的乳腺癌分类模型。使用4个预训练的卷积神经网络（CNN）用于提取图像特征，然后对特征向量进行降维，最后分别使用SVM, K近邻分类和逻辑回归对图像进行分类。实验结果表明，在放大40倍的显微图像上得到了最好的结果，使用预训练的ResNet-50做特征提取器，SVM做分类器时准确率为96.24%，召回率100%。Cruz-Roa等[9]基于WSI利用三层CNN对IDC的患病组织区域进行自动检测，得到1评分为71.80%，平衡准确率为84.23%。由于WSI的像素规格较大和病理组织的复杂，专业的病理学家在WSI上精确快速描绘出患病区域仍然是一项非常具有挑战性的任务。本文首先将WSI按照坐标信息切分为小切片，然后搭建基于改进AlexNet和注意力机制的网络模型对小切片进行训练、预测和评估，最后将小切片的分类结果按照坐标信息还原至WSI上，健康切片和患病切片分别加上绿色和红色边框，从而在WSI上划分出患病区域和健康区域，通过二分类完成IDC的自动检测任务。

1 方法和数据

1.1 方法

本文提出一种基于改进AlexNet[10]和通道注意力机制网络模型对IDC进行自动检测。首先使用全局平局池化层替代AlexNet的全连接层，使用批量归一化（Batch Normalization，BN）[11]代替AlexNet中局部响应归一化，添加通道注意力机制模块；然后对数据集进行相关预处理，输入至模型中进行训练、预测和评估。AlexNet包含8层CNN，并以很大的优势获得了ImageNet2012大规模计算机视觉挑战赛的冠军。它首次证明了CNN学习的特征超越手工提取的特征，一举打破计算机视觉的现状，从此CNN开始了飞速的发展。

注意力机制是一种资源分配的机制，根据注意力对象的重要程度重新分配资源，在深度神经网络的结构设计中，注意力机制所要分配的资源为权重。视觉注意力核心思想是基于原有的数据找到其之间的关联性，然后突出其某些重要特征。注意力机制有通道注意力，像素注意力和多阶注意力等。SENet是2018年提出的通过建模输入特征的通道间关系，从而得到不同通道的权重，乘到输入特征上，以获得特征重标定的通道特征注意力的方法[12]，如图1所示。通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处较小的特征。

压缩操作（Squeeze），在得到多个卷积特征图之后采用全局平均池化操作对每个卷积特征图进行压缩，将每个二维的特征通道变成一个实数数列（即2*h*w--1*1*2），这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配均为2。它代表着在特征通道上响应的全局分布，而且靠近输入的层也可以获得全局的感受野，使得网络低层也能利用全局信息。

激励操作（Excitation），它是一个类似于循环神经网络中门的机制。通过参数w来为每个特征通道生成权重，输出为1*1*2的对应不同通道的权重，其中参数w被用来显式地建模特征通道间的相关性。

特征重标定（Scale），将激励操作的输出的权重看作是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

图1 SE block结构

1.2 数据集

本文数据集来自宾夕法尼亚大学和新泽西州癌症研究所的162位被诊断出IDC女性患者的WSI以及按照坐标对WSI进行不重复切片，切分成50*50的WSI小切片（www.andrewjanowczyk.com/use-case-6-invasive-ductal-carcinoma-idc-segmentation）。如图2(a)所示代表原始WSI，图2(b)表示病理学家标注的WSI，图2(c)代表切片后的WSI。小切片是按照坐标信息从病理学家手动标注WSI的组织区域（去掉载玻片边缘和脂肪区域）中不重复切割而来，其中红色部分代表患病区域，绿色部分代表健康区域。

图2 WSI切片示例

图3为WSI按照坐标切片后的健康和患病切片，切片以患者编号、坐标和类别信息作为文件名，例如8913_idx5_x101_y701_class0.png表示8913号患者WSI的轴坐标为101，轴坐标为701，class0表示类别为健康的小切片。通过观察可明显看到与健康切片相比，患病切片的纹理更加复杂，经过苏木精和伊红染色后颜色更深。

图3 健康和患病切片

2 实验

2.1 数据集预处理

首先将数据集划为训练集和测试集，然后从测试集中分割出验证集，其中训练集、验证集和测试集三者之间的比例约为3∶1∶1，数量分别为98, 32, 32。按照坐标信息切片后的训练集中健康切片数量为63474，患病切片数量为22620，比例约3∶1。健康切片和患病切片的数量不平衡，容易造成对少数类分类识别效果不佳的问题。本文对切片采用随机水平和垂直平移、以阈值40度进行随机旋转和水平垂直翻转进行数据增强操作，二者数量达到平衡。增强后的切片如图4所示，数据集数量如表1所示。

图4 数据增强

由于AlexNet网络模型的输入规格为227*227*3，需要将WSI的小切片处理成为标准输入大小，本文使用OpenCV库将图片大小调整为标准大小。数据预处理是机器学习方法用于数据分析中重要的环节，合适的预处理方法不仅提高模型的训练效率并且能有效提升模型的泛化能力。本文采用归一化预处理方法,可以在不改变图像信息的前提下将输入像素范围压缩至0～1之间，加快网络模型的训练，如图5所示。

表1 数据集数量

图5 归一化预处理

2.2 AlexNet

网络模型的超参数是网络初始化的值，这些数值并不能在CNN训练的过程中学到，每个神经网络都会有最佳超参数组合，这组参数能够得到最大的准确率。然而对每个神经网络而言，并没有确定最佳超参数组合的直接方法，所以通常都是通过反复试验和经验得到的，本章实验超参数配置如表2所示。

表2 超参数设置

本节根据上述的算法和超参数设置，使用Keras框架搭建AlexNet网络模型结构用于训练。将预处理后的训练集和验证集输入至网络模型中进行训练，训练完成后将测试集输入至模型中进行评估。经过100次迭代训练，最终模型在测试集上取得了85.10%的准确率、76.32%的1评分和82.79%的平衡准确率，混淆矩阵如图6所示。训练集和验证集的损失值和准确率变化如图7所示。

2.3 改进AlexNet和注意力机制

在图7中，训练集的损失值不断下降，而验证集损失值在40次以后就趋于平缓，不再下降。同时训练集准确率不断提高，达到92%，而验证集的准确率在86%浮动。模型出现了过拟合现象。AlexNet网络模型的总参数一共达到了60965128，模型参数过多导致了出现过拟合现象。6000多万参数中，全连接层参数数量达到了58631144，占总参数量的96.2%。由于AlexNet出现了过拟合现象，为了获取更好的分类识别结果，本节将对AlexNet模型进行改进，并且添加了注意力机制模块，如图8所示。

图6 AlexNet混淆矩阵

图7 AlexNet损失函数和准确率曲线

图8 改进AlexNet结构

（1）使用全局平局池化层（Global Average Pooling，GAP）替代AlexNet的全连接层，全局平均池化取每个卷积特征图的平均值作为输出，对卷积特征图进行降维，极大的降低了模型的参数数量。

（2）使用BN代替AlexNet中局部响应归一化，局部响应归一化用相邻的像素进行归一化，这是借鉴生物学上“侧抑制”的做法。BN对整个批次进行归一化，一定程度上隔离神经网络中层与层之间的高阶交互，通过减少内部协变量偏移有效地加速了深度网络的训练。

（3）添加通道注意力机制模块，让网络利用全局信息有选择地增强有益卷积特征图通道并抑制无用卷积特征图通道，从而能实现卷积特征图通道自适应校准。

使用表2相同的超参数配置，使用Keras搭建图8所示的网络模型结构。将训练集和验证集输入至网络模型中进行训练，经过100次迭代后，改进的AlexNet和注意力机制模型结构在测试集上取得了86.34%的准确率、78.20%的1评分和84.12%的平衡准确率。混淆矩阵如图9所示。训练集和验证集的损失值和准确率变化如图10所示。

图9 改进AlexNet混淆矩阵

图10 改进AlexNet损失函数和准确率曲线

基于改进AlexNet和注意力机制的网络模型在100次迭代后趋于收敛，训练集和验证集的损失值50次后在0.34左右浮动，准确率在87%左右浮动。与AlexNet模型相比，测试集准确率高出1.24%，1高出1.88%，平衡准确率高出了1.33%。通过对AlexNet模型进行改进，很大程度上降低了模型的参数数量，避免出现过拟合现象，同时增加了通道注意力机制，使改进后的模型在准确率、1和平衡准确率上都取得了提升，对IDC切片具有更好的识别效果。

3 结论

由于WSI的规格较大，在WSI上快速精确地描绘出乳腺癌患病区域对于病理医生来说是一个巨大的挑战。本文首先将WSI按照坐标信息进行不重复切片，然后搭建基于改进AlexNet和注意力机制的网络模型对WSI切片进行训练、预测和分类，最后将分类后的结果按照坐标信息还原至WSI上，从而通过二分类完成IDC的自动检测任务。实验结果表明，融合注意力机制的改进AlexNet网络模型避免了过拟合现象，与AlexNet模型相比，测试集准确率高出1.24%，1评分高出1.88%，平衡准确率高出了1.33%，具有更好的识别效果和研究价值。

[1] World Health Organization, (2020). [Onlion]. Available:www.who.int/cancer/prevention/diagnosis-screening/breast-cancer/en/.

[2] SIZILIO G R M A, LEITE C R M, GUERREIRO A M G, et al. Fuzzy method for pre-diagnosis of breast cancer from the fine needle aspirate analysis[J]. Biomedical Engineering Online, 2012, 11(1): 1-21.

[3] BRAY F, FERLAY J, SOERJOMATARAM I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA: a cancer journal for clinicians, 2018, 68(6): 394-424.

[4] SPANHOL F A, OLIVEIRA L S, PETITJEAN C, et al. A dataset for breast cancer histopathological image classification[J]. Ieee transactions on biomedical engineering, 2015, 63(7): 1455-1462.

[5] SONG Y, ZOU J J, CHANG H, et al. Adapting fisher vectors for histopathology image classification[C]//2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017). IEEE, 2017: 600-603.

[6] ZHI W, YUENG H W F, CHEN Z, et al. Using transfer learning with convolutional neural networks to diagnose breast cancer from histopathological images[C]//International Conference on Neural Information Processing. Springer, Cham, 2017: 669-676.

[7] NEJAD E M, AFFENDEY L S, LATIP R B, et al. Classification of histopathology images of breast into benign and malignant using a single-layer convolutional neural network[C]//Proceedings of the International Conference on Imaging, Signal Processing and Communication, 2017: 50-53.

[8] BHUIYAN M N Q, SHAMSUJJOHA M, RIPON S H, et al. Transfer learning and supervised classifier based prediction model for breast cancer[J]. Big Data Analytics for Intelligent Healthcare Management. Academic Press, 2019: 59-86.

[9] CRUZ-ROA A, BASAVANHALLY A, GONZÁLEZ F, et al. Automatic detection of invasive ductal carcinoma in whole slide images with convolutional neural networks[C]//Medical Imaging 2014: Digital Pathology. International Society for Optics and Photonics, 2014, 9041: 904103.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 1097-1105.

[11] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C] //International conference on machine learning. PMLR, 2015: 448-456.

[12] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018: 7132-7141.

Automatic detection of breast cancer based on the improved AlexNet and attention mechanism

GUO Xiao-yan，WANG Bo，ZHANG Jian-fei，LIU Ming

(College of Computer and Control Engineering, Qiqihar University, Heilongjiang Qiqihar 161006, China)

Breast cancer is the most common type of cancer among women. If breast cancer can be diagnosed and treated early, it can significantly improve the survival rate of patients. Histopathologic examination is the gold standard for cancer diagnosis. It is difficult for doctors to accurately and quickly depict the disease area on pathological sections of breast cancer. This paper presents a network model based on improved AlexNet and attention mechanism for automatic detection of IDC. First, the whole field digital pathological patches are sliced according to coordinate information. Then it is input into the network model for training, prediction and evaluation. Finally, the classification results of patches are restored to the full field digital slices according to the coordinate information. Through the two classification of small patches, the detection task of IDC is completed indirectly. This method finally achieved 86.34% accuracy, 78.20%1 score and 84.12% balanced accuracy, which has certain practical value and scientific research significance.

breast cancer；automatic detection；AlexNet；attention mechanism

2020-11-08

黑龙江省省属高校基本科研业务费科研项目（135409608）

郭笑颜（1996-），男，河南南阳人，在读硕士，主要从事深度学习和计算机辅助诊断研究，gxyhpu@163.com。

TP391.9;R737.9

1007-984X(2022)03-0032-05