APP下载

应用随机森林和支持向量机对三阴性乳腺癌基因数据的降维和筛选

2020-06-28郭志旺郭维恒刘学慧王立芹

中国卫生统计 2020年3期
关键词:降维排序阴性

秦 璞 郭志旺 郭维恒 张 蕊 刘学慧 王立芹,△

【提 要】 目的 应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法 使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果 数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论 针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。

随着云计算、计算机智能存储等技术的快速发展,海量高维数据已渗入到各个领域,在医学研究中比较常见的高维数据就是基因表达数据。传统统计方法难以对基因表达数据进行有效的处理分析,机器学习[1]是目前处理高维数据的主要方法,这类方法具有强大的特征识别、分类和预测的能力。通过机器学习的方法从基因表达数据中筛选出与疾病密切相关的基因,可指导基础研究和临床实践,降低基础研究费用,便于研究靶向治疗药物,减轻患者痛苦,因此疾病相关基因的筛选对疾病的诊断和治疗具有重要的现实意义[2-3]。

三阴性乳腺癌是指癌组织免疫组织化学检查结果为雌激素受体、孕激素受体及人表皮生长因子受体2均为阴性的乳腺癌,约占乳腺癌的20%左右[4-5],具有恶性程度高、侵袭能力强和易远处转移等特点,与其他类型的乳腺癌相比5年生存率更低[6-9]。本研究应用随机森林(random forest,RF)和支持向量机(support vector machine,SVM)处理三阴性乳腺癌患者和非三阴性乳腺癌患者的基因表达数据,筛选与三阴性乳腺癌有关的基因并通过一些指标组合进行模型评价,为临床诊断、治疗和基础研究提供参考。

资料与方法

1.数据

使用癌症基因组图谱(the cancer genome atlas,TCGA)公共数据库的乳腺癌RNA-seq数据,应用GDC Data Transfer Tool软件下载数据样本,对数据进行合并处理后,通过临床数据癌组织免疫组织化学检查结果可明确诊断为三阴性乳腺癌病人169例,非三阴性乳腺癌病人820例,共989个样本,每个样本测得60483个基因。

2.原理与方法

(1)随机森林

(2)支持向量机

支持向量机以统计学习理论为基础,基于结构风险最小化原则,在小样本含量条件下具有较好的推广能力和良好的泛化能力[12]。支持向量机可以通过核函数将原本线性不可分的数据转化为线性可分数据,本研究使用运算速度较快的线性核。使用R3.5.1软件中的“e1071”包进行分析。

(3)递归特征消除算法(recursive feature elimination,RFE)

递归特征消除法的主要思想是反复的构建模型,该方法是一个循环过程,每个过程都包含以下3个步骤:①用当前数据集训练分类器,获得与分类器特征相关的信息即每个特征的权重;②根据事先制定的规则,计算所有特征的排序准则分数ci;③在当前数据集中移除对应于最小排序准则分数的特征。该循环过程一直执行到特征集合中剩余最后一个变量时结束,执行的结果为获得一列按照特征重要性排序的特征序号列表,这个迭代循环过程实际上是一个序列后向选择的过程,它在整个循环过程中先是去除了与判别不相关的特征,保留了对判别相对重要的优化特征子集,因而可以达到优化特征子集选择,提高判别精度的目的。

将支持向量机与RFE算法整合可有较好的变量筛选效果,即SVM-RFE,该算法是由Isabelle Guyon等人[13]于2002年提出的,即SVM-RFE。该算法利用SVM线性核模型对数据集进行训练,得到每个特征的权向量,然后递归地删除秩最小的特征,并将其存储在堆栈数据结构中,迭代过程一直持续到最后一个特征保留下来。使用R3.5.1软件中“sigFeature”包进行分析。

(4)变量重要性

变量重要性就是每个变量对分类结果的影响,变量的重要性评分是用来衡量预测变量对结局变量影响大小的评价指标。本研究随机森林变量重要性采用的是基尼系数下降值,支持向量机采用的是判别函数系数值w2。

(5)假发现率(false discovery rate,FDR)

FDR[14]是对一个多重假设检验阳性结果中误差比例的度量。通常直接经t检验得到的P值,若不经过矫正发现的差异表达基因,则会存在大量的“假阳性”,而通过FDR矫正则会降低其中假阳性的比例。使用R3.5.1软件中“qvalue”包进行分析。

(6)统计分析方法

本研究基因表达数据有60483个基因,若使用全部基因建模,很多模型会出现高维失效,导致模型效果较差或者无法求解,因此对数据进行降维处理。最常用的降维方法为t-FDR,即对t检验得到的P值进行FDR多重校正,删除无统计学意义的基因。本研究还使用随机森林进行降维,计算每个变量基尼系数下降值和所有变量基尼系数下降值的均值,删除基尼系数下降值位于均值以下的基因。

使用随机森林、支持向量机、SVM-RFE来计算变量重要性,使用向前变量选择法按照变量重要性评分,从大到小逐个引入变量,每加入一个变量就重新构建一次模型。通过Holdout验证法对模型进行评价,将数据随机分割成两部分,其中2/3的样本为训练集,另外1/3的样本为测试集,计算测试集训练结果的敏感度、特异度、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)、准确率、约登指数和F1统计量。本研究应变量样本不平衡,使用约登指数和F1统计量为主要评价指标,数据分析流程见图1。

图1 统计分析流程图

(7)统计分析软件及程序包

本研究使用R3.5.1软件进行数据处理和分析,除上述程序包以外还使用了“caret”等基础软件包。

结 果

1.降维

通过t-FDR降维,剩余18702个基因。通过随机森林降维,剩余6326个基因。

2.变量排序结果

经t-FDR和随机森林降维后,分别使用随机森林、支持向量机、SVM-RFE对基因变量的重要性进行排序,前10位基因见表1。

3.预测结果与模型评价

使用随机森林和支持向量机两种分类器,对排序基因采用向前变量选择法对是否为三阴性乳腺癌患者进行分类,变量个数与评价指标存在一定关系,结果见图2~4。随着纳入模型的变量个数增多,指标会有一定的上升趋势,而继续增多则会趋向于平稳,综合考虑变量个数和评价指标,选取变量少而评价指标高的模型作为最终模型,最终模型选出变量个数及评价指标见表2~4。

经随机森林降维结果各评价指标不及经t-FDR降维结果。使用SVM-RFE方法进行重要性排序,建模后约登指数最高为0.8271;使用支持向量机进行重要性排序,建模后约登指数最高为0.8392;两种排序方法建模效果均不及随机森林排序效果。

经t-FDR降维、使用随机森林排序后,使用随机森林建模,入选变量个数为8个时,模型各评价指标均达到最优;若使用支持向量机建模,入选变量个数为8个时模型整体效果最好。经随机森林降维、使用随机森林排序后,使用随机森林建模,入选变量个数为8个时,模型各评价指标均达到最优;若使用支持向量机建模,入选变量个数为5个时模型整体效果最好,结果详见图2。

预测模型支持向量机的敏感度要远高于随机森林,而随机森林的阳性预测值要高于支持向量机,但整体上用支持向量机分类要优于随机森林。

图2 基于RF重要性排序各模型评价指标随变量个数变化趋势图

图3 基于SVM重要性排序各模型评价指标随变量个数变化趋势图

图4 基于SVM-RFE重要性排序各模型评价指标随变量个数变化趋势图

排序t-FDR降维RFSVMSVM-RFERF降维RFSVMSVM-RFE1ESR1RPSAP42KIRREL3-AS1ESR1RP4-583P15.14OR7E110P2MLPHTRNP1WWTR1AGR3PROSPTMSB15B3GATA3IGKV2-26SF3B6GATA3SRD5A2VSNL14AGR3TMEM178ARAD51AP2LINC00504OR4C1PZNF518B5TTC6FRMPD2TTC39CTBC1D9MIR6726NT5DC26FOXA1RFX2IGKV2-26CCDC170RP11-13E1.5SRD5A27TBC1D9TRBV6-7ELOVL7CT62IGLV1-36NCLP28CCDC170ADAMTS1PF4V1MLPHRP11-361M10.4FTH1P199CT62GAPDHP24AC007292.7FOXCUTRPL31P54VRTN10RP11-279F6.1RP1-261G23.4LINC01675FOXA1SLC25A39P2LINC01015

表2 基于RF重要性排序各个模型评价指标结果

表3 基于SVM重要性排序各个模型评价指标结果

表4 基于SVM-RFE重要性排序各个模型评价指标结果

4.统计分析结果与基因文献研究的关联性结果

对本研究的六种基因排序方法中排序前50的基因进行文献搜索,发现ESR1、AR、CCDC170、ERBB4、GATA3、FOXA1、THSD4、AGR2、AGR3、CXXC5、FAM171A1、FSIP1、CA12、FOXCUT、RHOB、SPDEF、TFF1、TFF3、MLPH、ADAMTS1等基因与三阴性乳腺癌相关;ACADSB、BCAS1、DNALI1、SRD5A2等基因与乳腺癌相关;AC007255.8、ANXA9、B3GNT5、CCDC125、DSC2、FZD9、MYB、SRARP、TTC6、LINC00504、LMX1B、ELOVL7、FRMPD2、RFX2、SF3B6等基因与其他癌症有关;因此排在前面的基因大部分和三阴性乳腺癌或者其他癌症的转移或者预后相关,并且其中大部分基因是基于随机森林重要性评分筛选出来的且多数是编码基因,基于t_RF筛选出来的有31个,基于RF_RF筛选出来的有28个,基于t_SVM筛选出来的有3个,基于RF_SVM筛选出来的1个,基于t_RFE筛选出来的有2个,基于RF_RFE筛选出来的有2个。

讨 论

本研究显示:t-FDR降维处理结果好于随机森林降维结果,使用随机森林重要性评分排序结果最好,使用支持向量机建模预测效果优于随机森林。

本研究数据有60483个基因,属于超高维数据,直接分析花费时间长、模型效果差,因此本研究先对数据降维处理。应用随机森林降维时,以所有变量基尼系数下降值的均值为截断点进行变量删除,降维后剩余基因数量远少于t-FDR降维,最终模型效果也不及t-FDR降维效果,可能是截断点选取过大导致某些重要基因被删除,使得结果差于t-FDR降维结果,所以在使用随机森林降维时选用指标及临界值的设置有待深入研究。

本研究比较了SVM、SVM-RFE、RF三种基因排序方法,结果显示随机森林算法最优。由于硬件设施的限制,放弃了SVM非线性核算法,仅使用SVM线性核算法进行重要性排序,但是变量间可能存在非线性关系,最终导致变量的重要性排序不够稳定。RF本身就可处理线性和非线性问题,所以RF的基因重要性排序较好,后期还可研究使用SVM非线性核算法进行变量排序的效果如何。

Isabelle Guyon等人[15]将递归特征消除的思想与SVM相结合,这种融合后的方法选择的基因具有更好的分类性能和生物学性能。通过SVM和SVM-RFE两种排序方法最终模型效果比较,可以看出SVM-RFE基因排序效果明显好于仅用SVM排序效果,指标波动有了很大收敛,见图3~4。可能由于本研究SVM仅使用线性核的限制,导致SVM-RFE排序结果差于RF排序结果,后期还可将递归特征消除的思想与RF相结合做更深入的研究。

本研究显示支持向量机进行建模分类时结果好于随机森林,使用支持向量机预测能力更强。机器学习方法中经验风险指的是训练集的平均损失,当样本容量足够大时,经验风险最小化能保证很好的学习效果,但样本容量较小时会导致过拟合现象。支持向量机[16-20]以结构风险最小化为准则,在经验风险上加上表示模型复杂度的正则化项,通过最大化不同类别之间的距离来寻找最优分类超平面,提高了分类模型的泛化性,对维度过高和过拟合等问题有着较好的抗性。

搜索文献发现本研究中排序靠前的基因大部分已有基础研究,并且与乳腺癌密切相关。其中有研究表明[21]ESR1启动子的高甲基化导致雌激素受体表观遗传沉默;孙嘉慧等人[22]研究发现ESR1基因敲除能够增强乳腺癌细胞的侵袭能力。多项研究[23-26]表明基因CCDC170与ESR1表达高度相关,还与不同的乳腺癌病理分子分型相关,而且影响乳腺癌患者的预后,因此CCDC170可能参与乳腺癌的发病与转移进展,并影响患者的治疗和预后。雄激素受体基因AR在三阴性乳腺癌中研究广泛,大量临床前研究[5,27-33]证实了AR在癌组织细胞增殖过程中的作用,并通过一系列的临床试验对AR拮抗剂在乳腺癌中的安全性和有效性进行了进一步评估,得到AR可能成为治疗三阴性乳腺癌的潜在靶点。最近基因SRARP[34]被鉴定为雄激素受体AR的一种新型辅抑制因子,SRARP与生存的基因组和表观基因组范围的关联强烈支持它们的肿瘤抑制功能,特别是DNA高甲基化、低表达、体细胞突变和低拷贝数的SRARP与不良的癌症结局相关。对于基因ERBB4、TFF1、TFF3、GATA3、FOXCUT等,目前均有研究[35-42]表明这些位点与三阴性乳腺癌诊断或预后相关。

猜你喜欢

降维排序阴性
混动成为降维打击的实力 东风风神皓极
作者简介
卡培他滨对复发转移三阴性乳腺癌的疗效分析
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
恐怖排序
降维打击
节日排序
三阴性乳腺癌的临床研究进展
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
hrHPV阳性TCT阴性的妇女2年后随访研究