基于监督对比学习的乳腺癌检测算法
2023-06-22栗鑫
摘 要:利用机器学习辅助提高医生诊断效率是常用的方法。用机器学习方法进行乳腺癌检测,常由于乳腺癌数据的不平衡而出现问题。为了解决这一问题,研究在多层感知机的基础上嵌入监督对比学习进行乳腺癌检测,该方式通过数据增广,弥补不平衡数据的影响,同时利用同一类特征距离拉近,反之拉远的性质,增强特征表示效果,提高诊断准确率。实验结果证明,与现有的算法相比在准确率等方面优于其他算法,这证明了该算法的有效性。
关键词:监督对比学习;乳腺癌检测;多层感知机;不平衡数据
中图分类号:TP181 文献标识码:A 文章编号:2096-4706(2023)02-0079-05
Breast Cancer Detection Algorithm Based on Supervised Contrastive Learning
LI Xin
(Taiyuan Normal University, Jinzhong 030619, China)
Abstract: Using Machine learning is a common method to assist doctors with improving the diagnosis efficiency. The use of machine learning methods for breast cancer detection often causes problems due to the imbalance of breast cancer data. In order to solve this problem, supervised contrastive learning is embedded on the basis of multi-layer perceptron for breast cancer detection. This method makes up for the influence of unbalanced data through data augmentation, and makes use of the nature of the distance narrowing of features of the same class, and the nature of the distance stretching on the contrary, to enhance the feature representation effect and improve the diagnostic accuracy. The experimental results show that compared with the existing algorithms, the algorithm is superior to other algorithms in terms of accuracy and other aspects, which proves the effectiveness of the algorithm.
Keywords: supervised contrastive learning; breast cancer detection; multi-layer perceptron; unbalanced data
0 引 言
乳腺癌作為三大癌症之一,虽然近年的新增病例有所稳定,但其发病率及死亡率仍在女性中占据很高比例[1],所以要居安思危[2],继续努力提高该疾病的检测效率,时刻避免该疾病隐匿。乳腺癌数据中患病人数占比小,这种数据的不平衡给传统的分类方法[2],比如朴素贝叶斯分类器、KNN、多层感知器(MLP)[3]、决策树法、SVM带来了挑战,主要原因是传统分类方法在不平衡数据中常伴有噪音影响和结果偏向于多数类,导致少数类准确率不高。因此,本文引入监督对比学习,利用其优势数据增强,来填补少数类数据数量不足的影响,同时利用其损失函数将同一类数据特征距离拉近,不同类数据特征距离远离,提高不平衡数据样本分类效果。
监督对比学习利用数据的监督信号[4],能够为数据学习到一个良好的嵌入表示,同时改善了对噪声标签敏感。2020年Khosla在NeurIPS上提出了监督对比学习方法(Supervised contrastive Learning)[5],使同一类的嵌入表示更加接近,不同类的嵌入表示更加远离。该方法的优势主要有三方面:
(1)监督对比损失函数(Supcon)将正样本扩展为同类样本及其增强样本,避免了潜在的错误否定,以此来正确区分数据类别;
(2)该损失函数为数据集提供了一致的top-1精度提升,抵抗力也有所增强;
(3)该损失函数比交叉熵损失函数对超参数的范围更不敏感。综合以上性质,将监督对比学习嵌入在多层感知机中,提出一种基于监督对比学习的乳腺癌检测算法,用来辅助多层感知机进行不平衡乳腺癌数据的分类。
实验结果表明,本文提出的基于监督对比学习的乳腺癌检测算法在准确率、F1值、精确率、召回率上均比SVM、KNN、朴素贝叶斯等分类算法有所提高,能有效地解决乳腺癌数据不平衡分类问题,从而证明该算法可以更好地帮助医生进行检测。
1 相关工作
1.1 乳腺癌检测方法
乳腺癌检测工作,是一个典型的数据分类问题,因此本文对传统的分类算法如朴素贝叶斯分类器、KNN、决策树法、SVM、MLP五种法进行了总结和分析。
首先分析朴素贝叶斯分类器,朴素贝叶斯分类器优势在于分类稳定,但对数据缺失不敏感,属性相关性大时效果欠佳,除此外还需要知道先验概率;对于KNN算法,该算法模型优势在于简单易理解,无须训练集、准确性高、适合多标签问题,但面临数据多维不平衡时其准确率会受到影响大幅下降,且可解释性差;然后是决策树,决策树是一种基本的分类方法,优势在于能够处理数值类和类别类的特征,但是它不是很稳定,对于数据的噪音非常敏感;其次是SVM,SVM是一种有小样本学习方法,没有传统的归纳演绎过程,抓住关键、删除所谓冗余部分,高效且简单,大大简化了常用的分类问题,而且具有较好的“鲁棒”性,但不可避免的问题是该算法针对大规模的数据使无法实施,且难以进行多分类的;最后分析多层感知器(Multi-layer perceptron, MLP)[3],MLP是基础的人工神经网络,是前向结构、十分简单,主要优势在于不仅可以对线性不可分数据进行识别,而且高效快速的在原始数据集中提取学习数据中的高级特征,能快速解决复杂分类问题。
虽然以上传统方法都能对乳腺癌数据进行合理的分类,但乳腺癌数据中患病数目占总数据较小,是不平衡的数据,用传统的分类方法对乳腺癌数据集进行分类准确率偏低。基于已上传统分类模型,选择一种简单且高效准确的分类方法——MLP,提出在MLP中嵌入监督对比学习,弥补MLP受不平衡数据的影响,旨在达到更高的分类效果和准确率。
1.2 监督对比学习
对比学习(Contrastive Learning)[4]是针对无监督学习[6]提出的一种的方法,广泛应用于自我监督学习中[7],而后发展为自监督学习的对比,最后发展出带标签的有监督学习,他们是利用标签信息来进行对比学习。此外,对比学习也以监督的方式使用,成为监督对比学习,监督对比学习增加了对比学习中对于正样本选择的范围,更有利于分类效果。
监督对比学习[8]中的监督对比损失函数(Supcon)[9]是一种新的损失函数,它使对比学习能够应用于监督环境,通过利用标记数据,鼓励将来自同一类的规范化嵌入拉得更近,而将来自不同类的嵌入拉得更远,该方法增强了正样本选择,使正样本更加多样化,同时仍然包含语义等相关信息。主要作用有以下几点:
(1)首先Supcon可以在下游训练中使用,还通过标签信息在特征学习中发挥积极作用,提高分类效果;
(2)Supcon简单易于实现,训练稳定,对一些数据集和体系结构的精确度达到了一定的提升;
(3)对超参数变化具有鲁棒性。
本文中考虑的监督对比损失,将来自同一类别的所有样本作为正的样本集与来自同一个数据集中剩余样本的负的样本集进行对比学习。此外它的功能还有很多,例如在自然语言处理中,监督对比学习帮助在辅助任务上进行预训练大型语言模型;在图片的学习中,也有自我监督学习的应用。Supcon可以通过最大化数据与其增广数据的相似性同时最小化与其他数据的相似性来学习数据的特征表示。将其应用在疾病等领域的应用是十分可取的、有效的。
2 模型方法
在本文中,目标是学习到对乳腺癌数据分类有效的特征表示。因此,提出了一种基于监督对比学习的乳腺癌检测算法。该算法将监督对比学习嵌入在多层感知机中,不仅能获得更好的嵌入式特征表示,同时也弥补原MLP针对不平衡数据的分类问题。如图1所示,展示了基于监督对比学习的多层感知机模型(Supcon-MLP)。在Supcon-MLP模型中,包含数据增广、编码器、激活层和输出层。通过加入了一种新的监督对比损失(Supcon),最大化数据与其增广数据的相似性同时最小化与其他数据的相似性来学习数据的特征表示。
Supcon-MLP模型主要包含三个步骤:
(1)数据增强,对一个样本的数据的特征做随机的增广,产生两个数据xi,xj;
(2)这两个数据送到多层感知中机进行编码,并进行投影操作,最后产生两个特征向量z,嵌入表示zi,zj;
(3)利用监督对比损失函数Supcon计算损失,利用交叉熵损失进行分类。
接下来具体介绍关于该模型的三个组成部分。
2.1 数据增强
数据量规模小会导致难以发现隐藏的内容,数据规模越大,质量就越高,模型的泛化能力就越高。因此解決此类样本数量不均衡、数据规模小的问题,常通过数据增强的方式有效提高,使模型拥有较好的泛化能力。
采用简单的数据增强的方式对数据进行增强,通过在特征中随机选取百分之十的特征做掩码操作[10],实现特征的增强。在增强中,需选取相对能维持正确的类标签的特征,进行增强操作。如果特征发生了巨大的变化,将影响类标签可有效性。
2.2 基于MLP的模型结构
多层感知器(MLP)是一种简单、基础的神经网络。MLP结构中包含有输入层、隐藏层、输出层,含有一层隐藏层是最简单的多层感知机。此外,在MLP中各层之间是全连接,流程为:输入层→隐藏层→输出层,最终完成对输入的向量转化。具体内容有:
(1)输入层→隐藏层:前一层的输出会作为当前层的输入。计算方式为:权重乘以输入加偏置的值。设输入为x1,只在第一个转换的公式为:
F(x1)=w1x1+b1 (1)
(2)隐藏层→输出层:就是一个多类别的LR逻辑回归,设输入为x2,只在第二个的转换的公式为:
F(x2)=w2+b2 (2)
(3)将输入层、一层隐藏层和输出层结合起来的最简单多层感知机的公式为:
F(x)=g(w2(w1x1+b1)+b2 (3)
此外在多层感知机中,激活函数能将线性的数据转变为非线性的数据,最终将输出值控制在(0~1)之间。最常用的激活函数是Sigmoid函数和Relu函数,在本文中选择Relu函数。Dropout的功能是为了避免过度拟合。
2.3 损失函数
损失函数由监督对比损失和交叉熵损失两部分组成如式(4)所示,两者相关联系如图2所示,损失函数曲线图如图3所示。
lossfinal=lossCE+αlossSup (4)
α表示平衡这两个损失的超参数。
监督对比损失函数的优势增加更多的负面因素的例子,提高了区分信号和噪声的能力。这一特性对于通过监督对比学习的表示学习非常重要,负样本的数量的增加,表现的性能也会提高。监督对比损失最为关键的方面是拥有执行积极信息挖掘的内在潜力。来自强势的正/负的梯度贡献是很大的,而对于一些简单的正/负的梯度贡献是很小的。此外,对于强势的正数,其影响随着负数的增加而增加。方程的该性质,将它推广到所有正数。监督对比损失函数公式为:
(5)
其中,I表示所有的样本,P(i)是指与i同一类的样本,A(i)表示的是与i不同类的样本集,τ表示温度参数,Zi, Zj, Za为特征表示结果。
交叉熵用于计算两个分类概率的分布差异值,特征值通过筛选后进入softmax,对输出的结果进行计算处理,使其分类的正负概率值和为1,再通过交叉熵损失函数计算损失。交叉熵的值越小,模型预测效果就越好。交叉熵损失函数公式为:
(6)
3 实验结果及分析
3.1 数据集
验证提出的方法在乳腺癌检测分类任务上的优越性,对此不平衡乳腺癌数据分类的数据集进行了实验,如图4所示,为实验中的部分数据。
数据集使用的分别是威斯康辛大学威斯康辛诊断乳腺癌数据库(Wisconsin Diagnostic Breast Cancer, WDBC)和在UCI公开数据库中获取的真实乳腺癌疾病诊断数据集(WHG)。如表1所示。
WDBC数据集中不平衡比为1.68,WHC数据集中不平衡比为1.9。其中WDBC数据集中的每个病例数据都包含10个特征数据和一个类别标签,类别标签为良性和恶性。其中WHC数据集中每个病例数据都包含9个特征数据和一个类别标签,类别标签为良性和恶性。对于此两组数据集,每组数据集使用每个类70%的样本进行训练,20%用于验证,其余10%用于测试。
3.2 实验设置
在本文提出的Supcon-MLP模型中,采用Adam优化算法对所有模型进行训练,学习率lr设置为10-2,失活率dropout设置为0.5,超参数α为1,dropout设置为0.5,迭代次数epoch设置为500次,这样的参数设置能使模型达到理想性能。此外,所有实验都是在一台Intel(R) Core(TM) i5-10200H CPU上进行的,在Pytorch和Python 3.6中实现。
3.3 评价指标
本实验采用了四个评价指标,分别为准确率(Accuracy)、F1、精确率(Precision) 和召回率(Recall)[11]。Acc通过计算正确分类的样本数占据全部样本数的比值计算,Acc代表了算法分类的准确程度。Acc计算公式为:
(7)
单独计算每一类的F1值,然后对其进行非加权平均计算得出最终F1值。F1值是针对不平衡数据分类的关键指标,能更好反映出不平衡数据分类模型的好壞。F1计算公式为:
(8)
Pre值指的是被预测为正类的数据中所有真正类所占的比重。Pre计算公式为:
(9)
Rec值指的是真正类数据中被预测正确的数据所占比例。Rec计算公式为:
(10)
3.4 实验对比模型
为了证明提出模型的有效性,在乳腺癌数据集上分别使用决策树法、朴素贝叶斯分类器、SVM、KNN、MLP进行对比分类。
3.5 实验结果
3.5.1 与其他模型的比较结果
评估本文所提出的算法在不平衡数据分类问题中的有效性,在上述两个数据集上将其与其他五个分类器算法进行了比较,如表2所示,分析得出,与其他分类模型相比,该模型的结果优于其他所有分类模型。例如,与没有嵌入对比学习的多层感知机相比,在数据集WDBC上的Acc值和F1值分别提高了3.2%和9.9%,数据的提升证明所提出算法的有效性。
3.5.2 监督对比损失函数对数据的影响
如表3所示,通过改变平衡这监督对比损失和交叉熵损失函数的超参数,用准确率、F1、精确率、召回率四个指标检验该模型的分类性能。实验结果表明,当α为1时,即监督损失函数和交叉熵损失比值为1时,各项指标都会达到最高,分类性能同步达到最高。
4 结 论
乳腺癌检测主要针对不平衡数据,机器学习的方法对不平衡数据的检测常伴随有少数类精确率不高和噪声影响较大的问题。针对此问题,提出了一种基于监督对比学习的乳腺癌检测算法,利用监督对比学习的优势,将同一类样本中的特征数据尽可能靠近,非同类样本的特征数据尽量远离,来区分不同类别的数据。监督对比学习的加入能最大限度地挖掘正负样本信息,多层感知机同时对数据特征有着高效的提取和学习,所以能大幅度地提升乳腺癌的检测。实验结果表明,提出的基于监督对比学习的乳腺癌检测算法是十分有效的,在之后的研究中,希望将该算法模型扩展到更多的应用领域。
参考文献:
[1] BRAY F,FERLAY J,SOERJOMATARAM I,et al.Global Cancer Statistics 2018:Globocan Estimates of incidence and Mortality Worldwide for 36 Cancers in 185 Countries [J].CA Cancer J Clin,2018,68(6):394-424.
[2] HASTIE T,TIBSHIRANI R,FRIEDMAN J.The Elements of Statistical Learning [M].Springer Series in Statistics.Berlin:Springer,2009.
[3] ISA I S,SAAD Z,OMAR S,et al.Suitable MLP Network Activation Functions for Breast Cancer and Thyroid Disease Detection [C]//2010 Second International Conference on Computational Intelligence,Modelling and Simulation.Bali:IEEE,2010:39-44.
[4] CHEN T,KORNBLITH S,NOROUZI M,et al.A Simple Framework for Contrastive Learning of Visual Representations [J/OL].arXiv:2002.05709 [cs.LG].[2022-08-03].https://arxiv.org/abs/2002.05709v2.
[5] TIAN Y L,SUN C,POOLE B,et al.What makes for good views for Contrastive Learning? [J/OL].arXiv:2005.10243 [cs.CV].[2022-08-06].https://arxiv.org/abs/2005.10243.
[6] HE K,FAN H,WU Y,et al.Momentum Contrast for Unsupervised Visual Representation Learning [J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:9726-9735.
[7] HU X M,ZHANG C W,XU Y S,et al.SelfORE:Self-Supervised Relational Feature Learning for Open Relation Extraction [J/OL].arXiv:2004.02438 [cs.CL].[2022-08-09].https://arxiv.org/abs/2004.02438.
[8] KHOSLA P,TETERWAK P,WANG C,et al.Supervised Contrastive Learning [J/OL].arXiv:2004.11362 [cs.LG].[2022-08-07].https://arxiv.org/abs/2004.11362.
[9] YANG S,WANG S D,WANG Y Q,et al.MB-Supcon:Microbiome-based Predictive Models via Supervised Contrastive Learning [J].Journal of Molecular Biology,2022,434(15):167693.
[10] WANG J,YANG C C,YAN L H,et al.Speech Enhancement Algorithm of Binary Mask Estimation Based on a Priori SNR Constraints [C]//2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).Honolulu:IEEE,2018:937-943.
[11] 王成,劉亚峰,王新成,等.分类器的分类性能评价指标 [J].电子设计工程,2011,19(8):13-15+21.
作者简介:栗鑫(1995—),男,汉族,山西长治人,硕士研究生在读,研究方向:机器学习。
收稿日期:2022-10-23