APP下载

微阵列数据中的先验信息对基于LASSO变量选择方法影响的模拟研究*

2015-01-27陈江鹏唐小静文小焱

中国卫生统计 2015年3期
关键词:先验精度通路

陈江鹏 彭 斌 文 雯 唐小静 文小焱 胡 珊

重庆医科大学公共卫生与管理学院卫生统计与信息管理教研室(400016)

微阵列数据中的先验信息对基于LASSO变量选择方法影响的模拟研究*

陈江鹏 彭 斌△文 雯 唐小静 文小焱 胡 珊

重庆医科大学公共卫生与管理学院卫生统计与信息管理教研室(400016)

目的 探讨微阵列数据中的先验信息对基于LASSO变量选择方法的影响。方法 设置真实模型后,逐步融合先验信息,采用R、MATLAB软件编程,模拟比较先验信息对LASSO,group LASSO(简称为gLASSO)中的non-overlap group LASSO(简称为nogLASSO)和overlap group LASSO(简称为ogLASSO)变量选择的影响。结果 经典的LASSO、ogLASSO变量选择方法在处理模拟微阵列数据时具有较好的预测精度(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),LASSO可解释性最强(平均入选模型基因数分别为21.52、111.95、101.01)。nogLASSO在处理基因通路信息时,当[X295]被错分至第19个通路后,尽管未改变其效应值,但入选模型次数大为减少,预测精度下降较为明显,而ogLASSO表现更稳健。结论 融合微阵列数据中的先验信息并未提高基于LASSO变量选择方法的预测性能及效率,经典的LASSO变量选择方法仍为处理微阵列数据的有效方法。

变量选择 LASSO算法 模拟

基于LASSO变量选择方法简介

随着计算机计算能力和速度的大幅提升,Tibshirani提出的LASSO(Least Absolute Shrinkage and Selection Operator)变量选择方法[1]因其良好的预测精度和可解释性已广泛应用于高维数据分析。

LASSO估计最大的优点在于它是一种连续收缩的正则化估计,能准确地筛选出重要的变量,并能给出系数的估计,一些相关度较低的变量系数直接压缩为0,能同时达到变量选择和参数估计的目的,同时具有子集选择和岭回归的优点。Efron等提出的LARS[2]很好地解决了LASSO的计算问题,使LASSO方法广为流行。

方 法

1.模拟数据

从京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)下载6个基因通路图,采用R软件对基因通路图进行调整并构造基因网络。调整后基因网络中包含K=19个基因通路,p=35个基因,模拟时,样本量取n=100。

模拟数据由以下方式生成:

z=α+x1β1+x2β2+…+xpβp+ε

其中:预测变量xj服从正态分布xj~N(0,1);ε为误差噪声且与自变量独立,ε~N(0,1)。β=(β1,β2,…,β315)T是一个p=315维稀疏参数向量,即仅部分系数为非零;z为潜变量。从中选取8个基因:第2个通路中[X26,X31],第6和7个通路的重叠基因[X85],第14通路中[X217,X221],第18通路中[X286,X291,X295],设定为差异表达,即这些基因为致病基因,其效应大小分别设置为:β26=β31=4.0,β85=4.0,β217=β221=6.0,β286=β291=β295=3.0。其他基因效应设置为0,固定α=-3.0。

在基因表达数据中,响应变量常为二分类变量(如疾病状态等),其与潜变量关系定义为[6]:

模拟数据随机分为训练集(75%)和测试集(25%),训练集用于估计和选择重要变量(即构造模型),测试集用于评估模型的预测能力。实验重复100次以避免模拟数据不稳定性对变量选择结果的影响。

2.分析方法

(1)LASSO方法

忽略微阵列数据的基因通路结构,直接采用LASSO方法对数据进行分析。采用R软件(R3.1.0,http://www.r-project.org)“glmnet”包[7]完成,LASSO的协调参数λ使用10折交叉验证获得。

(2)nogLASSO方法

融合基因通路信息,忽略通路间重叠基因,采用nogLASSO方法对数据进行分析。采用R软件“gglasso”包完成,nogLASSO的协调参数λ使用10折交叉验证获得。基因通路设置包括两种情景,情景1:按照真实通路分组信息进行设置,[X295]仅位于第18通路;情景2:将[X295] 错误分组至第19通路,[X295]仅位于第19通路。

(3)ogLASSO方法

融合基因通路信息及通路间重叠基因,采用ogLASSO方法对数据进行分析。采用MATLAB软件“SLEP”工具箱完成,ogLASSO的协调参数λ使用计算机自动生成λmax与人工输入λ之比。基因通路及重叠基因设置包括三种情景,情景1、2同前;情景3:将[X295]保留在第18通路的同时错误分组至第19通路,[X295]同时位于第18、19通路即为重叠基因。

3.评价指标

结 果

基于LASSO变量选择方法筛选差异表达基因结果比较见表1。所有结果均为每个模型分析100个模拟数据集后的平均结果。从表1可见,LASSO变量选择模型最为稀疏,平均每次筛选时仅仅识别21.52个基因,而gLASSO平均选择基因数均大于100。

预测精度方面,从AUC和MSE上看,LASSO模型均为最优(AUC=0.8915;MSE=0.0928),ogLASSO与之接近;从平均正确选择次数上看,LASSO仍表现良好,平均正确选择次数达到98次,nogLASSO与之接近。

从表1可以看出,当使用nogLASSO时,一旦某一基因被错分至另一通路,尽管未改变效应值,[X295]选中次数大幅减少。而使用ogLASSO时,[X295]选中次数降幅不大,其预测精度和可解释性较nogLASSO更为稳健。

基于LASSO变量选择方法筛选差异表达基因时,每个基因入选模型次数如图1~3所示。

*:括号内标注为该方法模拟情景序号。

讨 论

本研究使用模拟数据,在设置真实模型的基础上,探讨微阵列数据中的先验信息对基于LASSO变量选择方法的影响,并从预测精度和可解释性两大方面评价其结果。本研究不仅横向对比LASSO,nogLASSO,ogLASSO三种方法在处理微阵列数据时的优劣,而且通过调整其中某一基因([X295])位置,试图探讨错误的先验信息对基于LASSO变量选择方法的影响,并考察模型的稳定性。

一种算法预测精度高往往很难具有较好的可解释性。然而使用三种基于LASSO变量选择方法比较处理微阵列数据后发现,经典的LASSO回归模型具有较好的预测精度、可解释性以及泛化性能,不需使用任何先验信息可以直接使用标准化数据进行分析,不失为筛选差异表达基因的有效方法。实际分析处理基因表达数据时,尽管某种疾病的致病基因数往往较少,但实际工作中收集样本较困难加之基因芯片价格昂贵,因此,LASSO仍需要突破不能处理差异表达基因个数大于样本量情况的限制。此外,在处理高维小样本数据集时,LASSO具有凸优化的性质,在构建线性回归模型时过于严格,容易出现过拟合问题,也是改进的角度之一。我们还注意到使用LASSO(R软件“glmnet”包)进行变量选择速度非常快。“glmnet”包的运行速度与预测变量、协变量以及入选模型的协变量个数呈线性关系,因此较适用于高维数据分析[9]。

尽管nogLASSO能够同时选择基因和通路,但根据选择结果我们可以看到所选通路均为包含差异表达基因的通路,认为整个通路基因均差异表达,尽管较符合生物学解释,但实际意义并不大。从生物学角度上讲,差异表达基因与所在通路的其他基因势必存在相互调控的关系,若能直接筛选出差异表达基因也可推导出此结论,nogLASSO预测性能较差原因可能在于此。从平均正确选择基因次数上看,其表现与LASSO接近,但平均选择基因数显著大于LASSO,因此,正确选择基因次数较高可以归因于入选模型基因数大大增加。

从ogLASSO筛选结果上看,与差异表达基因所在同一通路的其他基因会受到该基因较大影响,入选模型次数大幅增加,但较nogLASSO有明显改进。尽管未改变效应值,将错误分至第19通路时,从选中次数和图2、3中可以发现,nogLASSO在筛选差异表达基因时受给定的通路信息影响较大。ogLASSO较nogLASSO更为稳健,其预测精度也较好,因此,可以使用其作为筛选差异表达基因的常规方法,但当通路中包含基因过多时,gLASSO构造模型不再具有稀疏性,需在此方面进行改进。

尽管融合了微阵列数据中的先验信息,但从实验结果上看到,预测精度以及可解释性并未随着融合信息的增多而更优,尤其是当某一位点基因被错分至另一通路时,尽管未改变其效应值,但入选模型次数大为减少,预测精度下降较为明显,入选模型的基因群中也包含了大量实际并无关联的基因。在基于LASSO变量选择方法中,先验信息(如通路、重叠基因)的使用并未使预测性能等方面得到改进,经典的LASSO变量选择方法仍为处理微阵列数据的有效方法。

LASSO依赖于线性模型,尽管本研究发现LASSO能够较为准确地筛选差异表达基因,但在分析多基因遗传病时基因之间关系很可能为非线性。因此,有必要继续开发不同的基因数据分析方法,同时与以往方法进行比较研究,但需要注意的是,在改进方法时既要考虑到融合先验信息,更重要的是其预测精度和效率的提高。

[1]Tibshirani R.Regression Shrinkage and Selection via the Lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.

[2]Efron B,Hastie T,Johnstone I,et al.Least angle regression.Journal of the Institute of Mathematical Statistics,2004,32(2):407-499.

[3]Yuan M,Lin Y.Model selection and estimation in regression with grouped variables.Journal of the Royal Statistical Society:Series B (Statistical Methodology),68:49-67.

[4]Liu J,Ye JP.Fast Overlapping Group Lasso.CoRR abs/1009.0306.

[5]张秀秀,王慧,田双双,等.高维数据回归分析中基于LASSO的自变量选择.中国卫生统计,2013,30(6):922-926.

[6]Albert JH,Chib S.Bayesian analysis of binary and polychotomous response data.Journal of the American Statistical Association,1993,88(422):669-679.

[7]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of Statistical Software,2010,33:1-22.

[8]James G,Witten D,Hastie T,et al.An introduction to statistical learning with applications in R.America:Springer Press,2013.

[9]Motyer AJ,McKendry C,Galbraith S,et al.LASSO model selection with post-processing for a genome-wide association study data set.BMC Proceedings,2011,5(9):1-4.

(责任编辑:郭海强)

Influence of Prior Information of Microarray Data on Variable Selection Based on LASSO:A Simulation Study

Chen Jiangpeng,Peng Bin,Wen Wen,et al

(Department of Health Statistics and Information Management,School of Public Health and Management,Chongqing Medical University(400016),Chongqing)

Objective Objective To explore the influence of prior information of microarray data on variable selection based on LASSO.Methods After setting the true model,we incorporated prior information into LASSO,non-overlap group LASSO(nogLASSO for short)and overlap group LASSO(ogLASSO for short) variable selection models and compared the influence by MATLAB or R software.Results LASSO、ogLASSO models seemed to have good prediction accuracy when processing microarray data(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),while only LASSO achieved a interpretable model(The average of genes selected in the models:21.52、111.95、101.01 respectively).When [X295] was misclassified into 19th pathway,the average of genes selected in the models decreased and the forecast precision declined by nogLASSO model,while ogLASSO model's performance seemed to be more robust.Conclusion Incorporating prior information of microarray data does not improve the prediction performance and efficiency of variable selection based on LASSO,therefore the simple LASSO regression model may be an efficient means to deal with microarray data.

Variable selection; Least Absolute Shrinkage and Selection Operator; Simulation

国家自然科学基金(81373103),重庆市科委基础与前沿研究计划项目(cstc2013jcyjA10009)

△ 通信作者:彭斌,E-mail:pengbin@cqmu.edu.cn

猜你喜欢

先验精度通路
BOP2试验设计方法的先验敏感性分析研究*
氧化槐定碱体内体外通过AKT/mTOR通路调控自噬抑制HBV诱发肝纤维化
热连轧机组粗轧机精度控制
超高精度计时器——原子钟
分析误差提精度
基于DSPIC33F微处理器的采集精度的提高
苦参碱抑制RPMI8226细胞增殖及对Notch通路的影响
基于自适应块组割先验的噪声图像超分辨率重建
先验的风
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察