APP下载

条件推断森林在高维组学数据分析中的应用*

2016-06-24哈尔滨医科大学卫生统计教研室150081

中国卫生统计 2016年2期

哈尔滨医科大学卫生统计教研室(150081) 杨 凯 侯 艳 李 康



条件推断森林在高维组学数据分析中的应用*

哈尔滨医科大学卫生统计教研室(150081) 杨 凯 侯 艳 李 康△

【提 要】 目的 探讨条件推断森林(CIF)在自变量相关情况下变量筛选和分类研究中的应用。方法 通过模拟实验和实例比较RF和CIF的变量筛选和分类,并通过变量重要性评分和OOB错误率进行评价。结果 模拟实验表明,在自变量相关的情况下,CIF的变量筛选结果明显优于RF的变量筛选结果;实例数据分析结果表明,CIF筛选出变量的OOB错误率低于RF。结论 CIF适用于变量相关的情况,具有实用价值。

【关键词】条件推断森林 相关 变量筛选

近年来,基因组学、蛋白组学和代谢组学等高通量检测技术得到迅速发展,产生了大量的高维组学数据。高维组学数据变量的数量远大于样品例数,不适合使用传统的统计学方法,多变量分析容易出现“过拟合”和“维数灾难”问题[1]。高维组学数据的分析主要包括特征标志物的筛选和判别分析,使用最普遍的多变量分析方法是主成分分析和偏最小二乘判别分析。随机森林(random forest,RF)是近年发展起来并广泛使用的高维组学数据分析方法[2],这种方法在对数据进行处理的同时能够给出变量重要性评分(variable importance measures,VIM),据此可以进行变量筛选。然而,当自变量间存在共线性时,根据VIM评分筛选变量会出现一定的问题,即可能降低差异相关变量的VIM值,提高无差异变量的VIM值[3-4]。为此Strobl等(2008)提出条件推断森林(conditional inference forest,CIF),对RF的随机置换方法进行改进,计算得到条件变量重要性评分(conditional variable importance measures,cVIM),能够提高自变量存在共线性时VIM的准确性。本文将CIF用于分类研究,通过模拟实验证明其变量筛选效果优于RF,并应用于基因组学数据中。

原理与方法

1.RF中的变量重要性评分VIM

设有m个变量,n个观测对象,RF通过随机置换计算VIM的基本原理为:使用所有自变量X和应变量Y建模,并计算袋外数据(OOB)的预测错误率,然后通过随机置换自变量Xj打乱其与应变量Y的关系,再次建模并计算OOB的预测错误率,如果自变量Xj(j =1,2,…,m)对应变量Y有预测作用,则自变量Xj随机置换后模型对OOB的预测错误率会显著增加。Breiman提出使用自变量Xj置换前后模型对OOB的预测错误率差值在所有树中的平均值作为自变量Xj的VIM。Xj在第t棵树中的VIM值定义为

自变量Xj在ntree棵树中的平均VIM值为

2.自变量相关时VIM的问题

RF通过随机置换计算的VIM值会高估相关变量的作用,其原因是在对变量Xj进行随机置换时不仅打乱其与应变量Y的关系,同时也打乱了与其它自变量X-j=X1,…Xj-1,Xj +1,…,Xm的关系,使自变量X1,…,X12和应变量Y的联合分布改变,而自变量Xj的VIM指随机置换Xj前后对OOB数据Y预测错误率的影响。事实上,VIM是随机置换Xj前后对X和Y联合分布的影响,包含Xj置换前后对Y和X-j的影响。当Xj和X-j、Y独立时,随机置换Xj不会影响X和Y的联合分布,即VIM(Xj)=0;当Xj和X-j、Y不独立时,随机置换变量Xj会改变X和Y的联合分布,即VIM(Xj)>0。因此,当自变量Xj与X-j、Y不独立时,自变量Xj的VIM值包含Xj对X-j的影响,此时Xj的VIM值被高估。

3.条件推断森林(CIF)的原理及cVIM的计算

为了减小VIM中随机置换Xj前后对X-j的影响,可以使用CIF方法,即分层随机置换的方法(按照X-j进行分层)保留Xj和X-j的部分相关结构。具体算法如下:

(1)建立随机森林(RF)。

(3)计算Xj与其它自变量的相关系数,根据检验P值给出相关变量子集Xs(Xs⊂X-j)。

(4)根据森林中的每棵树中变量在树生长过程中确定的阈值把样本分到不同层。

(6)计算Xj在第t棵树中的cVIM值,即

则自变量Xj在ntree棵树的平均cVIM值为

在计算自变量Xj的cVIM时,分层变量Xs可以通过指定与变量Xj的相关系数或P值确定。

上述计算过程可以使用R语言party包[5]实现。

模拟实验

1.条件设置

(1)为了说明cVIM在自变量独立时评价的准确性和在自变量相关时的优势,分别设计两个模拟实验进行考察。模拟实验共设置12个自变量X =(X1,X2,…,X12)和1个应变量Y,产生数据的模型为:

其中,自变量X1,…,X12服从N(0,Σ)的多元正态分布,所有自变量的方差σj均为1,误差e服从N(0,0.5)的正态分布,回归系数βj的设定如下表1。当自变量独立时,设变量间的协方差为0,即σjk=0(j≠k);当部分自变量相关时,设变量X1,…,X4的协方差为0.9,即σjk=0.9(j≠k≤4),其余变量的协方差设为0。由于变量的方差σj=1,变量间的协方差等于相关系数。分类时,应变量Y大于均值-Y设为一组,小于均值-Y设为另一组。

表1 模拟实验模型自变量系数的设置

(2)RF和CIF中树的数量ntree=500,每棵树每个节点的备选分枝变量mtry分别设置为1、5、8,把自变量间相关系数检验结果P≤0.5的变量作为分层变量Xs进行分层随机置换。

(3)为比较VIM和cVIM两种统计量的排序,对VIM和cVIM进行离差标准化,消除两种变量重要性变异大小的影响,并使数值落在[0,1]内。离差标准化的方法为

2.模拟实验结果

(1)图1给出了自变量独立时VIM和cVIM的结果(只给出mtry=5)。结果显示,VIM和cVIM均正确得出不同自变量的重要性,X1、X2、X5和X6是差异大的变量,X3和X7是差异小的变量,其余变量是无差异变量。

(2)图2给出了部分自变量相关时VIM和cVIM的结果。结果显示,当mtry=1时,对于随机森林(RF),由于差异小的变量(X3)和无差异变量(X4)与差异变量X1、X2相关,它们的VIM明显高于差异大的独立变量(X5和X6)(见图2A);对于条件推断森林(CIF),差异小的相关变量(X3)和无差异的相关变量(X4)的cVIM则明显低于差异大的独立变量(X5和X6),更真实反映出变量在分类中的重要性(见图2B)。

图1 自变量独立时VIM和cVIM的评价结果

图2 部分自变量相关时两种VIM的评价结果

当mtry增加,对于RF,差异大的变量(X1、X2、X5和X6)的VIM明显高于其他变量,差异小的相关变量(X3)和无差异的相关变量(X4)的VIM值仍然被高估(见图2C和图2E);而CIF则能明显降低无差异的相关变量(X4)的重要性评分,使其更加接近独立无影响变量(X8~X12)(见图2D和图2F)。

实 例

本文实例数据选自40例结肠癌患者和22例正常对照结肠组织的2000个基因表达数据[6],分别使用RF和CIF对数据进行变量筛选,树的数量ntree=500,备选分枝变量现对VIM和cVIM的变量筛选结果进行比较。

图3给出了VIM值前50基因的两种VIM值,其中有6个基因,即G1671、G49、G399、G1946、G257和G1263,其cVIM值为0,表明这些基因很可能与其它基因存在共线性,而对结肠癌患者和正常对照的分类和预测没有作用。

图4给出了RF和CIF不同变量个数OOB的预测错误率,使用两种方法筛选出的不同个数基因建模并对OOB进行预测。结果显示,当选择的变量个数相同时,CIF的OOB错误率明显低于RF的OOB错误率,即CIF需要较少的变量个数使OOB错误率达到稳定。更重要的是,用CIF选入的变量相对更为稳定和可靠。

图3 VIM值(A)前50的变量重要性评分及对应的cVIM评分(B)

图4 RF和CIF不同变量个数的OOB预测错误率

讨 论

1.随机森林(RF)是由决策树组成的组合分类器,对复杂数据具有良好的适应性,能够有效地分析非线性、共线性和具有交互作用的数据[7],在对数据进行处理的同时能够给出变量重要性的VIM值。

2.在自变量相关的情况下,RF的VIM评价方法很可能不够准确。即无论变量是否对分类有作用或者作用大小,其重要性很可能高估。本文给出的条件推断森林(CIF)得到的cVIM值则能够显著地降低共线对VIM的影响,更真实地反映自变量X对应变量Y的作用。

3.节点备选分枝变量个数mtry的选择会影响变量重要性评分的计算。当mtry=1时,两种算法都会高估相关变量的重要性,但VIM会使得差异小的相关变量和无差异相关变量的重要性大于差异大的独立变量,cVIM则不会出现这种情况。在应用过程中,可以选择作为备选分枝变量的个数。

树的数量ntree会影响变量重要性评分计算的稳定性。在应用过程中,选择足够大的ntree能够保证种子数不同时RF和CIF对变量重要性评价的稳定性。

4.高维组学数据具有高维小样本特性,很可能存在大量的相关变量。在变量相关时,与RF筛选出的变量相比较,CIF筛选变量具有更好的灵敏度和特异度,通常其判别的OOB错误率低于RF筛选出的变量。

5.CIF使用分层随机置换的方法计算变量的重要性,高维组学数据的变量数目巨大,分层随机置换的速度比较慢。Schwarz等人[8]开发出的随机丛林(random jungle,RJ)软件包(现为Ranger软件包)可以实现CIF在多核计算机上的并行运算,极大的提高CIF的运行速度。

参考文献

[1]柯朝甫,张涛,武晓岩,等.代谢组学数据分析的统计学方法.中国卫生统计,2014,31(2):357-359.

[2]Breiman L.Random Forests.Machine Learning,2001,45(1):5-32.

[3]Strobl C,Boulesteix AL,Kneib T,et al.Conditional variable importance for random forests.BMC bioinformatics.2008,9(307).

[4]Nicodemus KK,Malley JD,Strobl C,et al.The behaviour of random forest permutation-based variable importance measures under predictor correlation.BMC bioinformatics,2010,11(110).

[5]Hothorn T,Hornik K,Strobl C,et al.party:A Laboratory for Recursive Partytioning,2010.

[6]Alon U,Barkai N,Notterman DA,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays.Proceedings of the National A-cademy of Sciences,1999,96(12):6745-6750.

[7]李贞子,张涛,武晓岩,等.随机森林回归分析及在代谢调控关系研究中的应用.中国卫生统计,2012,29(2):158-160,163.

[8]Schwarz DF,König IR,Ziegler A.On safari to Random Jungle:a fast implementation of Random Forests for high-dimensional data.Bioinformatics,2010,26(14):1752-1758.

(责任编辑:郭海强)

The Application of Conditional Inference Forest to the Analysis of High-dimensional Omics Data

Yang Kai,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

【Abstract】Objective To explore the application of conditional inference forest(CIF)in variable selection and classification in the case of independent variable correlation.Methods We use simulated experiment and actual data to compare the variable selection and classification of RF and CIF,and then variable importance measures and OOB estimate of error rate were used to evaluate these two methods.Results Simulation experiment suggested that variable selection of CIF was obviously better than the result of RF in the case of independent variable correlation.Analysis results of actual data suggested that OOB estimate of error rate of variables selected by CIF was lower than variables selected by RF.Conclusion CIF was applicable to independent variable correlation and possessed practical value.

【Key words】Conditional inference forest;Correlation;Variable selection

*基金资助:国家自然科学基金资助(81473072)

通信作者:△李康,likang@ ems.hrbmu.edu.cn