APP下载

基于分而治之的Lasso方法对海量基因数据的研究与验证

2018-07-12兰晓然

统计与决策 2018年12期
关键词:卡方海量遗传

兰晓然,张 灏,2

(1.太原理工大学 数学学院,太原 030024;2.亚利桑那大学 数学系,美国 亚利桑那州 图森 85721)

0 引言

近来医学发展尤其迅猛,但仍有许多遗传疾病的病因和发病机制尚未明确,多数学者认为与遗传因素及环境因素等多种因素共同作用有关,遗传与环境交互作用起到重要作用,属于多个易感基因参与的复杂疾病[1]。因此,定位与性状或疾病相关联的位点,对医学研究人员了解性状和一些疾病的遗传机理至关重要。与此同时,在基因学研究中会出现高维海量数据集,如何在大量基因中选择出强相关的位点变量,是变量选择研究要迫切解决的问题。

基因位点的选择研究,要求变量选择方法应保持的特点有:(1)可解释性,能很好地解释基因位点对疾病的作用。(2)强相关位点选择的稳定性。(3)尽量控制计算机的消耗时间。这些问题也是变量选择至关重要的问题,但原来已有的方法如:最优子集选择、逐步回归、岭回归等只具有其中部分性质。因此,如何解决这些问题,成为变量选择界一大热点。在Frank提出ridge Regression和Bireman提出Nonnegative Garrote算法的基础上,Tibshirani于1996年提出了一种新的算法即Lasso,此方法成功的应用于COX模型。虽然Lasso方法很好地弥补了传统方法上的不足[2],但是针对海量基因数据,仍会出现计算机开销大,运行时间过长的问题。

针对上述问题,本文提出一种基于分而治之的Lasso算法,再通过采用Q-Q图对筛选结果进行验证,并选用卡方和Fisher检验对筛选出的位点进行显著性检验,从结果表现改进的Lasso方法可以有效地对海量基因数据进行变量选择,挑选出与疾病强相关的致病位点,并极大地缩小了计算机耗费时间。

1 Lasso方法

Lasso方法是1996年Tibshirani提出的既能对变量进行选择[3],又能得出参数估计值的一种变量选择方法。

考虑如下普通线性模型:

其中Y=(y1,y2,…,,yn)T为响应变量,n为样本容量,X=(X1,X2,…,Xn)为p维预测变量,Xi=(Xi1,Xi2,…,Xin)T,i=1,2,…,n,β=(β1,β2,…,βp)T稀疏,即β1,β2,…,βp有很多系数为零,ε=(ε1,ε2,…,εn)T是正态分布随机误差,即ε~N(0,σ2In) 。 假 设 观 测 数 据 (yi,xij),i=1,2,…,n,j=1,2,…,p已经过中心标准化处理,即:

在下文中,除特别说明外,数据(X,Y)均为已经过中心标准化处理的数据。

对固定非负数义,Lasso方法定义如下:

Lasso方法不仅继承了传统方法的优点,而且是十分有效的变量选择算法,使得其在统计学中受到更为广泛的关注与研究。Lars算法是由Efron等提出的,目前在R语言中有Lars程序包,直接调入就能进行变量选择的有关计算,非常方便实用。

2 分而治之方法

针对高维海量的基因数据,变量具有稀疏性[4]。用Lasso进行变量选择,会使计算机消耗过大,计算时间过长。所以,本文提出了分而治之方法,它不仅能够更好的排除错误模型选择带来的伪相关,而且可以极大地降低计算时间。变量选择的时间复杂度一致于O(napb),a>1,b≥0[5]。

假设参数数量p相当大,定义,是稀疏的。假设总数据集的大小为n,将其划分为K份,则第k个子集有nk个观测值:( )xk,i,yk,i,i=1,…,nk。 记,则对第k个子集(k=1,…,K)的对数似然函数:

相应的惩罚估计为:

其中ρ(β;λk)训练参数λk的惩罚函数,可参见Fan和Lv(2011)[6]。

3 实验分析

3.1 实验数据

本文数据来自16年研究生数学建模,数据详细描述如表1所示。

表1 属性变换表

研究关联基因的选择问题已成为一个热点话题,很多关于MS的GWAS和Meta[7]的文章陆续发表。

3.2 实验过程

试验中,对基因数据运用Lasso与分而治之方法进行分析比较。首先观察两种方法在计算时间消耗的大小,说明分而治之算法能很大的节省时间,降低消耗。然后对筛选出的变量进行验证。具体步骤如下:

(1)时间消耗对比

表2 时间消耗对比表

由表2可以看出,经过split-and-conquer操作后,预测精度影响不大,但明显缩短了运行时间。以下将N/5为分块标准在进一步研究。

(2)调整参数lambda的确定

对lambda的格点值,进行5折交叉验证,选取交叉验证均方误差误差最小的lambda值。然后,按照得到的lambda值,用全部数据重新拟合模型(见下页图1、图2)。

可以看到最佳的lambda取值就是在红色曲线的最低点处,Lasso与分而治之方法选择出来的参数都是在误差接近0.24的值约为-3。

(3)变量筛选

Lasso和分而治之算法采用的算法是循环坐标下降法,因为遗传病为0~1分类问题,所以采用Logistic回归模型。

由图3可看出,随着横轴L1范数的增加来调整系数,可以看出在横轴为15的范围内只有7个变量的系数不为0,位点rs2273298第一个被选择出来。由此可以得出分而治之选择出来7种致病位点分别为rs12036216、rs7368252、rs2273298、rs932372、rs7522344、rs12133956、rs2143810。

图1 Lasso方法lambda选择图

图2 分而治之方法lambda选择图

图3 分而治之方法位点选择图

3.3 实验结果分析与检验

3.3.1 变量选择结果分析

为了减小随机性带来的误差,本文对变量选择进行了100次循环,则各变量在100次中被选次数如表3所示。

使用Lasso方法对数据进行筛选,在100次的筛选中,位点rs12036216、rs7368252、rs2273298、rs932372每次都会选中,而位点rs3013045、rs11573253、rs6683624选中次数较少,位点rs6683624仅被选择了1次。相对于Lasso方法,分而治之方法选择的位点更集中,位点rs12036216、rs7368252、rs2273298、rs932372在100次中都被选择,其余的位点rs7522344、rs12133956、rs2143810也多次被选择。说明分而治之方法在保持稳定性的基础上,选择的区间更紧凑。从理论上来说,分而治之方法在对每份子数据集进行变量选择时,去除与类属性不相关的变量,其中包含部分冗余的变量,但是再对所有变量进行系统整合再进行选择,可以删除冗余变量。因而,可以保证变量选择的有效性。

表3 致病位点被选次数统计表

3.3.2 Q-Q Plot验证结果

Q-Q Plot主要是用来估计数量性状观测值与预测值之间的差异。在GWAS研究中,Q-Q Plot的X和Y轴主要是代表各个SNP的-lg(P.values)[8]。预测的线是一条从原点发出的45°角的虚线,实际观测值则是标的实心点。在GWAS研究中,如果哪个SNP点出现了较大的偏离,则认为这个SNP位点的观测值的偏离是由这个SNP突变所产生的遗传作用造成的。Q-Q Plot的具体算法为:将P值由大到小进行排序,进而运用公式计算得出横纵坐标,计算分别为公式为:验证结果如图4所示。

图4 Q-Q图

图4中,细线表示零假设下的期望值,黑点表示对不同遗传位点和性状关联性分析的结果。通过对位点观测值的统计量与期望统计量进行比较,可以看出遗传位点间是否存在群体分层现象,并验证是否存在一些位点对遗传性疾病的具有显著的影响。针对Q-Q Plot通常呈现的结果,图4显示,蓝线和红线下端重合,表明遗传位点不存在群体分层,但上端存在一些偏差,表明存在对遗传疾病具有显著影响的遗传位点。并且由图可看出,有7个遗传性位点的观测值统计量偏离期望统计量,表明有7个遗传性位点对遗传病具有显著影响,这一结论恰好与运用分而治之分析出的7个关联性大的位点相一致。

3.3.3 卡方检验和Fisher检验

卡方检验是根据卡方分布的原理[9,10],计算检验统计量卡方的值,再与卡方分布的临界值比较,确定P值并做出推断,卡方值计算的基本公式为:

其中A为实际频数,T为理论频数。

在群体遗传学中卡方检验是应用最多的一种假设检验方法,常用来判断某事物的频数分布是否符合某一理论分布,若符合即可按该理论分布来处理。就本实验而言,用Lasso方法和分而治之方法分析出的数据关联性最高的遗传位点,可以用卡方检验来验证其实验得出的数据是否具有显著性。

在二分类问题中,由于某些类别的例数较少,在本文采用Fisher检验,假设有2×2列联表,如表4所示。

表4 2×2列联表

如果固定行和列,那么在零假设条件下出现在四格表中的各数值分别为n11,n12,n21,n22,假设边缘频数n1·,n2·,n·1,n·2和n··都是固定的,在A和B独立或没有齐性的零假设下,对任意的i,j,nij服从超几何分布为:

分别用卡方和Fisher方法来检验位点与某遗传病的关联性,检验结果如表5所示。

表5 显著性检验

通过表5分析可得,卡方检验和Fisher检验在5%的显著性水平下,均拒绝原假设,通过5%显著性检验,表明运用Lasso、分而治之方法筛选出的7个遗传位点对遗传位点具有显著的影响作用。

综合分析,本文在筛选变量时,运用Lasso、分而治之方法筛选出的位点,再运用Q-Q图、卡方以及Fisher方法进行检验。结果表明,分而治之方法能够有效地应用于海量的基因数据中,对其进行变量选择,不仅节省了计算时间,较小计算机消耗,而且保证了选择变量与类标签的强相关性。

4 结论

Lasso方法在变量选择时具有很好的性质,但是在处理海量的基因数据选择相关致病基因时,会出现费时,消耗大的问题。于是为了更好地解决关联基因位点的选择,本文提出分而治之方法,此方法除了拥有Lasso的一般性质外,还保留了强稳定性,具有易排除伪相关变量的特性。实验数据表明,分而治之方法通过了卡方与Fisher检验,并与Q-Q图分析出的结果一致。但是,分而治之方法在K值的选择上还需要进一步研究,以便得到最优的K值。

猜你喜欢

卡方海量遗传
非遗传承
卡方检验的应用条件
一种傅里叶域海量数据高速谱聚类方法
卡方变异的SSA的FSC赛车转向梯形优化方法
卡方检验的应用条件
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
海量快递垃圾正在“围城”——“绿色快递”势在必行
三大抽样分布的理解与具体性质