多次交叉验证对PLSDA模型的影响研究*
2017-03-09哈尔滨医科大学公共卫生学院卫生统计学教研室150081
哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)
曲思杨 张秋菊 王文佶 谢 彪 孙 琳 高 兵 刘美娜△
多次交叉验证对PLSDA模型的影响研究*
哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)
曲思杨 张秋菊 王文佶 谢 彪 孙 琳 高 兵 刘美娜△
目的 比较一次交叉验证和多次交叉验证对PLSDA最优模型的影响,探讨在个体正确分组和少数个体错分时,多次交叉验证对PLSDA最优模型稳定性的影响。方法 打乱数据集中个体顺序进行多次交叉验证,通过一次交叉验证和多次交叉验证的方法对模拟数据和真实数据进行分析,使用成分数和MSEP等参数值来评价模型变异性和稳定性。结果 模拟数据结果,仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;打乱5%的标签时,5000次交叉验证结果中,成分数范围是1~8,MSEP值的范围0.2061~0.6463;真实数据结果,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,MSEP范围是0.0802~0.3761。结论 一次交叉验证结果不稳定,在应用PLSDA建模时,多次交叉验证在少量个体错分时能够获得稳定模型,建议使用多次交叉验证确保PLSDA模型稳定性。
交叉验证 PLSDA 高维数据
偏最小二乘判别分析(partial least squares discriminant analysis,PLSDA)在高维数据中应用广泛,成为标准的高维数据分析方法,通过所建的模型对新的个体进行分类预测,模型的优度影响预测的准确性[1-2]。评价模型预测能力的可靠方法是应用外部数据验证,但对于小样本的高维数据由于样本量的限制无法进行外部数据验证,因此采用交叉验证的方法来评价PLSDA模型[3-5]。在进行交叉验证的过程中常规方法是只进行一次交叉验证评价PLSDA模型[6],但有研究证明对于同一组数据,当交叉验证中训练集和测试集的个体组成发生变化时,PLSDA模型也随之发生变化,一次交叉验证结果存在偶然[7]。本研究利用改进的交叉验证方法,打乱个体分组进行多次交叉验证并应用于PLSDA,避免一次交叉验证结果带来的偶然性,使PLSDA模型更加稳定。本文使用成分数和预测均方误差评价PLSDA模型。成分数表示PLSDA模型中主成分个数,说明模型的复杂程度。预测均方误差(mean squared error of prediction,MSEP)可评价模型的预测能力,MSEP值越小,模型的预测值与真实值相差越小,说明模型预测能力越好。
方法介绍
1.一次交叉验证
通过PLSDA方法建模后,评价模型时通常仅进行一次交叉验证[8]。以7折交叉验证为例:将整个数据集分成7个子集,其中6份为训练集,1份为测试集,使用训练集建立不同主成分数的模型,然后通过所建模型对相应测试集中的个体进行预测,重复此过程,直到每个个体在测试集中仅出现一次,最终将错误率最低的模型作为最优模型。
但是,只进行一次交叉验证而确定的最优模型存在偶然性,结果并不稳定。如图1(a)所示,在子集的生成过程中,从数据集中每隔6个个体抽取1个个体放入子集中。第一个子集中由1、8、15、…个体组成,第二个子集中由2、9、16、…个体组成,以此类推。根据每个子集构成的方式,当打乱数据集中个体顺序时,每个子集的组成也发生改变(图1b)。若用打乱个体分组后的子集重新拟合模型,所得最优模型成分数以及模型参数如MSEP(预测均方误差)等均会发生变化,最优模型因打乱数据集中个体顺序而发生改变[9]。
图1 原始数据的交叉验证法个体组成(a)和 打乱数据集顺序的交叉验证法个体组成(b)
2.多次交叉验证
如果多次打乱个体分组,进行多次交叉验证,就可得到多个最优模型,而出现频率最高的模型即可作为最优模型。仍以7折交叉验证为例:首先,根据上文中的方法将数据分为7份,进行一次交叉验证;然后,打乱数据集中个体顺序重新拟合模型进行交叉验证;不断打乱数据集中个体顺序,进行多次交叉验证,直至交叉验证结果参数范围趋于稳定。基于以上所述可以得到多次交叉验证模拟实验结果,见图2~3,最优模型应为成分数为4且对应MSEP值最稳定的模型。
图2 多次交叉验证后主成分数分布图
图3 多次交叉验证后MSEP值分布图
本研究通过模拟数据和实际数据,比较一次交叉验证和多次交叉验证结果,实现对于同一组数据,进行多次交叉验证可以得到最稳定且最优预测模型。
结 果
1.模拟实验结果
模拟数据:模拟产生变量数均为10、样本量均为20的A、B两组数据,A、B两组中任意两变量间的相关系数设为ρ=0.5,且两数据集中各变量取值不同。另模拟产生样本量为40、变量数为400的C组数据,服从N(2,1)的正态分布,并将C组数据与A、B两组差异变量数据合并为模拟数据集(如图4所示)。为了模拟在收集的病例组和对照组数据分组有误的情况,在合并数据后打乱不同比例(d%=0、5)的数据标签,共产生2组不同的模拟数据。
图4 模拟实验数据结构示意图
模拟方法:将以上2组模拟数据拟合PLSDA模型,交叉验证时分别进行1次和多次交叉验证,观察不同交叉验证结果的成分数和MSEP值等参数。
由表1可知:随着交叉验证次数增加,在模拟实验次数为5000时,MSEP值范围增大并趋于稳定,因此本研究模拟实验均使用5000次交叉验证。模拟实验结果:对模拟数据进行5000次交叉验证,可以得到5000个最优模型。由表2可知:①仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;②在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;③打乱5%的分组标签后,最大成分数由6增加到8,MSEP值的范围扩大为0.2061~0.6463;由表3可知:随着打乱标签的比例增大,MSEP值范围增大。
表1 不同交叉验证次数的成分数和MSEP范围比较
表2 打乱不同比率标签1次和5000次交叉验证结果
表3 打乱不同比率标签进行多次交叉验证的结果比较
2.实际数据验证
数据来源:本研究中使用真实数据,病例组为患有过敏性紫癜儿童患者57例,对照组是来自同一医院就诊的非过敏儿童患者57例,收集研究对象抗凝血血浆,经过UPLC-TOF/MS联用仪器检测分析获得代谢组学检测数据,经数据预处理后获得824个变量。以此数据为实例验证数据集。
对以上代谢组学数据使用PLSDA方法建模,交叉验证时进行1次和多次交叉验证,根据表4可以确定10000次交叉验证情况结果稳定,因此对于实际数据分析选择10000次交叉验证,比较1次和10000次交叉验证结果的成分数和MSEP值等参数。结果如表5所示,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,成分数6出现次数最多;MSEP范围是0.0802~0.3761,且出现次数最多的值是0.2104。将10000次交叉验证结果中参数频数最大的模型即成分数是6、MSEP值是0.2104的模型作为最优模型,可提高最优模型的稳定性。
表4 不同交叉验证次数的成分数和MSEP范围比较
表5 1次交叉验证和5000次交叉验证模型参数比较
讨 论
交叉验证是评价PLSDA模型的主要方法,通常情况下交叉验证仅进行1次[10],但由于交叉验证时数据集中的个体被随机分为训练集和测试集,就同一组数据若打乱个体分组进行2次交叉验证时会得到不同的结果,1次交叉验证存在偶然性[11]。本研究将多次交叉验证法应用于PLSDA中,使模型参数在一个范围内趋于稳定,将参数出现次数最多的模型作为最优模型,为后续模型预测提供可靠依据[12]。
多次交叉验证本质上是由多个1次交叉验证组成,根据模拟实验结果,5000次交叉验证得到的5000个最优模型的成分数和MSEP值存在较大差异,因此其中1次交叉验证结果不具有代表性,不能将5000次交叉验证中的任意1次结果作为最终结果,1次交叉验证得到的最优模型不稳定。进行多次交叉验证能够使多个模型的成分数和MSEP值等参数在某一范围内稳定。稳定的参数范围让所有可能的最优模型包含在多次交叉验证的多个模型中,将成分数和MSEP值频数最大的模型作为最优模型,此模型是多次交叉验证得到的多个模型中出现次数最多也是最稳定的模型。本研究中儿童过敏性紫癜诊断的金标准是进行肾穿活检,大部分家长考虑到肾穿对儿童肾脏的伤害不愿意配合,临床医生仅依靠临床体征和生化指标来诊断,这种情况下会出现少数个体分组有误。此时,多次交叉验证结果参数值变异增大,在打乱一定比例的分组标签的情况下,改变部分个体分组模拟个体错分,进行多次交叉验证可以确定最优模型。
研究表明在高维数据中,5%的个体出现分组有误时,多次交叉验证仍然可以得到稳定可靠的模型,更多的个体出现错分时多次交叉验证能否得到稳定的模型有待进一步研究。
[1]蒋红卫,夏结来,李园,等.偏最小二乘判别分析在基因微阵列分型中的应用.中国卫生统计,2007,24(4):372-374.
[2]蒋红卫,夏结来,张春霞,等.核偏最小二乘回归及其在医学中的应用.中国卫生统计,2007,24(3):239-242.
[3]Anderssen E,Dyrstad K,Westad F,et al.Reducing over-optimism in variable selection by cross-model validation.Chemometrics and intelligent laboratory systems,2006,84(1):69-74.
[4]Schaffer C.Selecting a classification method by cross-validation.Mach Learn,1993,13(1):135-143.
[5]Dai Q.A competitive ensemble pruning approach based on cross-validation technique.Knowl Based Syst,2013,37(2):394-414.
[6]Westerhuis JA,Hoefsloot HCJ,Smit S,et al.Assessment of PLSDA cross validation.Metabolomics,2008,4(1):81-89.
[7]Triba MN,Le Moyec L,Amathieu R,et al.PLS/OPLS models in metabolomics:the impact of permutation of dataset rows on the K-fold cross-validation quality parameters.Mol Biosyst,2015,11(1):13-19.
[8]Barker M,Rayens W.Partial least squares for discrimination.J Chemom,2003,17(3):166-173.
[9]Stone M.Cross-validatory choice and assessment of statistical predictions.Journal of the royal statistical society.Series B(Methodological),1974,36(2):111-147.
[10]Szymańska,Saccenti E,Smilde AK,et al.Double-check:validation of diagnostic statistics for PLS-DA models in metabolomics studies.Metabolomics,2012,8(1):3-16.
[11]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection.Appears in the International Joint Conference on Artificial Intellignece(IJCAI),1995.
[12]Hall P,Racine J,Li Q.Cross-validation and the estimation of conditional probability densities.J Am Stat Assoc,2004,9(2):115-126.
(责任编辑:郭海强)
Research of the Effect of Multiple Cross-validation on PLSDA Model
Qu Siyang,Zhang Qiuju,Wang Wenji,et al.
(DepartmentofBiostatistics,HarbinMedicalUniversity(150081),Harbin)
Objective To compare the effect of one cross-validation and multiple cross-validations on PLSDA optimal model and discuss the effect of multiple cross-validations on stability of the optimal model when a few individuals are wrong grouped and when all individuals are right grouped,respectively. Methods The order of individuals in one dataset was disorganized to perform multiple cross-validations.Simulative data and real data were analyzed using one cross-validation and multiple cross-validations.The variation and stability of the models were tested using parameters like principal component number and MSEP. Results For simulative data,the principal component number of one cross-validation is 3 and MSEP is 0.3792;for result of 5000 cross-validations when the data is not disordered,the range of principal component number is 2~6 and the range of MSEP is 0.2569~0.5794;for result of 5000 cross-validations when the data is 5% disordered,the range of principal component number is 1~8 and the range of MSEP is 0.2061~0.6463;for result of 10000 times cross-validation of real data,the range of principal component number is 4~10 and the range of MSEP is 0.0802~0.3761.Conclusion PLSDA models built by one cross-validation are not stable whereas multiple cross-validations can help build PLSDA models more stably when a few individuals are wrong grouped.So multiple cross-validation is recommended to ensure the stability of PLSDA model.
Cross validation;PLSDA;High dimensional data
黑龙江省自然基金重点项目(ZD201314);国家自然基金(81502889)
△通信作者:刘美娜,E-mail:liumeina369@163.com