基于Lasso特征选择乳腺癌二分类算法研究
2023-08-04辛瑞昊
冯 欣,张 航,辛瑞昊
(1.吉林化工学院 理学院,吉林 吉林 132022;2.吉林化工学院 信息与控制工程学院,吉林 吉林 132022)
乳腺癌[1](Breast cancer)是一种新发数高的一种疾病,已然成为一种噩梦。因此,研究乳腺癌发病机理,降低乳腺癌死亡率,提高乳腺癌预后效果迫在眉睫,这也是现在医疗领域所面临的一个巨大挑战。
在目前研究中,已经有很多学者针对乳腺癌分类提出自己的模型去展开研究。王冬[2]等人针对乳腺癌分类诊断提出了一种基于人工鱼群优化的随机森林模型,其最终准确率能达到97.48%。章飞[3]等人针对女性乳房造影图片的特征提取数据集进行分类诊断,使用多种机器学习算法建立分类模型对比。Lahoura[4]等人针对乳腺癌分类诊断问题提出一种基于云计算的无监督极限学习机(ELM)乳腺癌远程诊断系统,诊断准确率达到98.68%。Wang[5]等人将ELM与卷积神经网络(CNN)相结合针对乳腺癌分类问题进行检测,其实验结果效果良好。因此对乳腺癌的分类研究已然成为现在的一个研究趋势。
本研究利用乳腺癌公开数据集,针对不平衡数据采用随机过采样算法,特征选择采用了Least absolute shrinkage and selection operator(Lasso)回归算法[6]与序列前向选择算法。最后使用多种分类器的准确率对本研究提出的算法进行一定的评估,同时对最优临床特征进行可视化分析,本研究将为乳腺癌的诊断研究提供一定的参考。
1 特征选择模型及方法
1.1 Lasso回归模型
Lasso回归[7-9]是一种压缩估计,该模型因为惩罚项而更加精练,它的另一个优势在于子集收缩的同时保留了回归系数的压缩。在考虑一般线性问题的时候,线性函数矩阵优化目标为
(1)
其中β表示估计参数向量;y表示观测向量;X表示变量矩阵值;观测值是由变量值计算得到的。
Lasso的优化目标为
(2)
Lasso回归是在线性回归的基础之上添加了正则化得到的,见公式(2)。由于Lasso回归能够将一些回归系数归零,这样可以有效地解决各特征之间的多重共线性困扰,这将成为本研究中特征选择的一个新方法。
1.2 SFS模型
序列前向选择[10-11](SFS,Sequential Forward Selection)是一种搜索策略算法。主要思想为从空集Y0开始,每次选择一个特征x加入最新的特征子集Y中,可以保障特征函数最优。其算法步骤如下:
1.建立空的特征子集Y0={Ø};
3.更新目前最优特征子集:Yk+1=Yk+x+,k=k+1;
4.转到第2步。
1.3 评价指标
机器学习中的预测结果一般分为如下几种结果,见表1。其中True Positive(TP):把正样本预测为正。True Negative(TN):把负样本预测为负。False Positive(FP):把负样本预测为正。False Negative(FN):把正样本预测为负。本研究的评价指标准确率[12-13](ACC),它的求解公式为
表1 分类预测结果
(3)
通过上述评价指标来评判模型是否合理,以及模型结果是否符合预期结果。
2 基于不平衡数据集分类模型构建
本研究实验流程见图1。首先对原始数据集进行标准差标准化处理方法,针对平衡数据集采用的随机过采样[14]方法。接下来是特征选择这块,使用Lasso回归算法做初步的特征选择,使用五倍交叉验证取五次回归系数不为0交集特征做接下来的实验。接下来使用基于随机森林(RF)的序列前向选择算法,经过分类器取最优ACC结果。最终将得到的最优临床特征进行多方面的可视化分析,具体情况见下述章节。
图1 实验流程图
3 实验结果与分析
3.1 数据集介绍
本研究使用威斯康星州的乳腺癌公开数据集[2]进行实验,该数据集有357例轻度患者,212例重度患者。数据集中含有32个属性,其中含有30个特征。数据集根据平均值、标准误差以及最值将细胞核分为三组,数据集特征介绍见表2。
表2 数据集特征介绍
3.2 实验结果
利用第2节中所述算法对乳腺癌诊断分类进行测试。首先利用标准差标准化处理完数据集之后,使用随机过采样算法进行数据集的平衡,平衡后的样本个数见表3。接下来运用Lasso特征选择算法,运用五倍交叉验证取回归系数不为0的特征的交集,特征由原始30个变成8个,进行接下来的实验。
表3 数据预处理:随机过采样算法平衡数据集
第二步特征选择算法使用了SFS算法,此算法结合随机森林分类器对其进行最优特征子集评估,本研究从8个特征依次往下递减,去寻找最优特征子集区间。为了保证实验的稳定性,在进行分类诊断准确率评估的时候结合了十倍交叉验证,其评价结果见表4。表4中出现的分类器依次为:支持向量机(Support Vector Machine,SVM[15])、K邻近法[16](K-Nearest Neighbor,KNN)、决策树(Decision Tree,DT)、朴素贝叶斯(Naive Bayes,NB)、随机森林(Random forest,RF)、线性判别分析(Linear Discriminant Analysis,LDA)、自适应提升算法(Adaptive Boosting,AdaBoost)和极限梯度提升算法(Extreme Gradient Boosting,XBG)。根据表4得到最优特征子集以及最适用模型的分类器,最优特征子集将用于下一步分析。由表4可知,最优特征子集的特征个数为6个的时候最好,并且最优的是随机森林分类器。最优6个特征为:平均半径(radius mean)、平均周长(perimeter mean)、平均区域(area mean)、区域(area se)、最差周长(perimeter worst)和最差对称性(symmetry worst)。接下来探究了6个特征对乳腺癌轻度患者与重度患者的显著差异性,见3.3节。
表4 UCI乳腺癌二分类实验结果
3.3 临床特征可视化分析
本研究针对实验最优特征子集进行单个特征分析,为了证实特征对于区分不同程度的患者样本的效性,从最优的6个临床特征的数据分布情况(箱线图)、对应的student-t检验[17](Student's t test,T-test)的p-value[18]值以及主成分分析[19-20](Principal Component Analysis,PCA)后的降维图等不同角度来进行验证。见图2,本研究通过箱线图将最优的6个临床特征进行数据集的分布显示,通过不同颜色表明不同程度的患者类型,其中黑色表示重度患者,白色表示轻度患者,从图2中可见,单个特征的数据集在区分二分类问题上有一定的区分度。图3是介绍了每个特征的p-value值,一般p-value值小于0.05可以证明该特征在不同分类上具有显著差异性。由于本实验中得到的p-value值太小,为了能可视化出来,使用了“-log10(p-value)”函数(此函数为单调递减函数)进行了变化,同时使用“-log10(0.05)”进行对比(此函数为p-value=0.5),最终结果对比见图3,可视化图形很好地展示6个特征的单独p-value值均小于0.05,为显著差性特征。PCA降维一般用于提取数据的主要特征分量,在维度压缩的同时尽可能保留更多的变量。
图2 特征箱线图分布情况
图3 特征T-test的p_value比较
本研究将针对上述6个特征进行降维分析,进一步通过可视化验证最优特征区分重度与轻度患者的优越性。侧重于三维可视化,所以特征也是压缩到3个。如图4所示,三维坐标分别表示压缩后的三个特征值,能够很好地看见不同类别的样本经过PCA降维分析之后比较容易辨别。此处可视化展示将从另外的角度说明最优特征子集对于数据集的分类效果比较好。
图4 PCA降维的3D图
3.4 SEER数据库验证
为了证实本研究提出算法的优越性,继而针对SEER(The Surveillance,Epidemiology,and End Results)[21]数据库(https://seer.cancer.gov/)中乳腺癌数据集进行了进一步验证。本研究选择了最近的时间年份(2015年)诊断数据进行实验探究,根据临床常用字段加上意义取舍。最终保留下来17 636个样本,其中2 623个死亡样本,15 013个存活样本数据,特征为:种族(Race recode)、性别(Sex)、原发灶部位(Primary Site)、组织学类型(Histologic Type ICD-O-3)、双侧/单侧(Laterality)、肿瘤大小(CS tumor size)、肿瘤进入程度(CS extension)、淋巴结情况(CS lymph nodes)、转移部位(CS mets at dx)、生存时间月份(Survival months)和是否有多原发癌(First malignant primary indicator)11个特征。经过对原始数据集的数据进行标准差标准化与随机过采样的数据预处理阶段,接下来运用Lasso特征选择算法,运用五倍交叉验证取回归系数不为0的特征的交集,特征由原始11个变成10个,进行SFS算法,特征从10个依次递减,至于找到最优特征子集。结合分类器最终得到以下评价结果见表5,根据表格中内容可知,最优特征子集的特征个数为6个的时候最好,并且最优的是随机森林分类器。如图5所示为了使实验结果更好地展示出来,横坐标表示最优特征组合个数,纵坐标表示该子集下的分类准确度,结合不同分类器找到最优结果是随机森林分类器,准确度达到97.24%,为临床医疗诊断提供了理论支持。根据上述实验最终得到的6个特征为:Race recode、Primary Site、Laterality、CS tumor size、Survival months和First malignant primary indicator。上述特征组成的子集对区分乳腺癌的生存与死亡分类有显著差异性。
number图5 不同分类器二分类准确度
表5 SRRE乳腺癌二分类实验结果
4 结 论
本研究针对威斯康星州的乳腺癌数据集,平衡数据后,提出Lasso回归与SFS相结合算法进行特征选择步骤,从而减少对冗余临床特征的研究,结合8种分类器进行模型最终评价,为乳腺癌分类诊断提供新的探究思路。通过数据可视化展示出最优特征子集的乳腺癌分类效果图,为医疗大数据行业的临床研究提供了理论支撑。为了验证本研究算法的优越性,利用SEER数据库中的乳腺癌数据集进行验证,通过本文的算法的验证,从最初的11个特征筛选到最后的6个特征,实验结果表明乳腺癌的分类准确率达到97.24%。本研究提出的方法模型在威斯康星州的乳腺癌公开数据集和SEER数据库乳腺癌数据集中体现比较好,但未在其他疾病的数据集中探究,这将成为未来的研究重点。