主成分分析在动物科学的应用研究进展
2017-01-18宋志芳解佑志芦春莲曹洪战
宋志芳,解佑志,芦春莲,李 赛,曹洪战*
(1.河北农业大学动物科技学院,河北 保定 071000;2. 河北正农牧业有限公司,河北 辛集 052360)
主成分分析在动物科学的应用研究进展
宋志芳1,解佑志1,芦春莲1,李 赛2,曹洪战1*
(1.河北农业大学动物科技学院,河北 保定 071000;2. 河北正农牧业有限公司,河北 辛集 052360)
主成分分析(PCA)采取降维思想,同时保持数据对方差贡献最大的特征,在畜牧生产上用于研究影响性状的变量,既简化变量个数,又获取足量信息,降低课题研究的复杂性.在全基因组关联分析(GWAS)中,PCA可用于校正群体分层,降低群体分层对关联结果的假阳性,通过PCA图可以看出研究群体是否有分层现象.本文主要对PCA的原理、分析软件以及在畜牧生产和GWAS中的应用加以综述.
主成分分析;群体分层;降维;假阳性;GWAS
繁殖性状、体型性状、生长性状和屠宰性状等是畜禽生产中较重要的经济性状,也是品种选育的目标性状.每个性状都有很多衡量变量,分析变量数量多会增加分析难度.如果采用主成分分析(PCA)法,可得到主成分1~10的特征值、贡献率和累计贡献率,挑选累计贡献率达到85%以上的主成分,最后找出特征向量最大的性状变量[1].PCA是基于多元统计分析原理的一种统计方法,对某性状的多个变量进行研究,根据性状间的相关性,找出能反映主要信息的少数几个互相独立的综合性状[2-4].PCA在畜牧业中广泛应用,已经成为研究畜禽品种的分类、起源和进化、选育以及进行各种生产性能变量分类的重要手段[5-7].通过找出某性状具有代表性的变量,纳入综合选择指数,为性状改良和品种选育提供参考,提高育种效率.在全基因组关联分析(GWAS)研究中,如果群体存在分层现象,就会降低关联分析的假阳性,影响关联分析效果.因此,需要对群体分层进行校正.采用PCA法并将其作为协变量纳入线性模型中进行群体分层校正,在GWAS中得到应用.总之,PCA在畜禽育种和关联分析过程中具有一定的作用和研究意义.
1 PCA的概念和原理
PCA又称主成分回归分析或主分量分析,在统计学中采用降维思想,将多变量转化为少数几个综合变量,能够简化数据集,在多元统计分析中是一种重要的统计方法,选出主成分以有效利用大量数据并降低工作量.所谓主成分就是通过原始变量的线性组合形成的数个综合指标.
在研究某一问题时,为了获取更全面和更详细的信息,通常会选取多个变量进行说明[8],但如果选取变量过多加之变量之间的信息重叠,会增加研究工作的复杂度和工作量.因此,通过原始变量之间的线性关系,少数几个线性组合代替原始变量,且能解释大部分变量信息.PCA的结果依靠分析数据的准确性,因此要求原始数据精准.主成分与原始变量的基本关系:①利用PCA得到的主成分都是原始变量的线性组合;②主成分数量较原始变量数量大大减少;③各主成分之间互不相关;④主成分能够保留原始变量的绝大部分信息.
2 PCA的分析步骤和软件
PCA可广泛用于自然科学、医学、社会经济和管理等多个领域.PCA的分析步骤:①根据研究问题选取初始分析变量,应充分考虑所选原始变量是否合适;②根据初始变量的特性选择求主成分的方法(协方差阵或相关阵);③求出矩阵的特征根和相应的特征向量;④判断是否存在多重共线性,如果存在,返回第①步;⑤确定主成分的个数,选取主成分;⑥结合主成分对研究问题进行深入分析和讨论[9].基于PCA的分析原理和步骤,研发了相关的分析软件.
2.1 PCA的分析软件
2.1.1 SPSS软件 SPSS软件提供了进行PCA的功能模块-Factor,导入相关数据后进行因子分析,分析结果会显示各主成分解释原始变量总方差的情况,且SPSS会默认保留特征根大于1的主成分,且默认利用相关阵求解主成分.事实上,可认为选择主成分的个数并改变特征根值.选取主成分后,还要确定主成分是否能对分析问题有一个的合理解释.还可绘制主成分分析图,直观展示分析结果.
2.1.2 R软件 选取初始分析变量后,可以用R语言进行PCA分析,分别用cor、eigen和plot函数求出相关系数矩阵、相关系数矩阵的特征值和特征向量以及各主成分的方差变化折线图(碎石图),然后绘制基于第一主成分和第二主成分的观测样本散点图,分析2个主成分间的线性关系.此外,R语言还包括分析PCA的princomp函数,一般书写格式为princomp(x=数据框或矩阵名称,cor=TRUE).导入数据并运行该函数后,会得到主成分系数矩阵和各观测样本在各主成分的得分等.除此之外,运用R语言环境下的SNP Relate和gdsfmt软件包也能进行SNP芯片数据的主成分分析,进行PCA聚类和绘图.
2.1.3 全基因组复杂性状分析软件 全基因组复杂形状分析(GCTA)软件具有多种分析功能,如估计全基因组SNP数据的亲缘关系、近交系数和估计各染色体所解释的方差等.利用GCTA软件可以进行基于SNP芯片数据的PCA.首先将SNP原始数据转化为plink的二进制格式文件,利用GCTA编程进行主成分分析,可以设置主成分个数,最后得到.eigenval和.eigenvec文件.在后者的首行加上相应的表头,生成R作图用的矩阵文件,将其导入R中,进行绘图.分别把主成分1和主成分2当做x轴和y轴,绘制PCA图.如研究样本有不同的群体或家系,可用不同颜色加以区分.
2.2 SAS软件 SAS是1966年开发的一款统计分析软件,具有数据储存和管理、数据分析和图形处理等多个功能模块,其中也能进行主成分分析.首先用data命令导入数据,用input name$选择分析的变量,接着运行proc princomp变量列表、var 变量列表、run、proc print data 变量列表、var 输出变量、run,就可得到相关阵的特征值和特征向量.根据输出特征值,能看出前几个主成分的贡献率,然后可进行聚类分析,得到谱系聚类图.SAS的功能强大、操作简单且灵活、能随时获得帮助信息,得到简明的操作指导.
2.3 EXCEL软件 EXCEL是另一款进行PCA和绘制PCA图的可选软件.将SNP数据用GCTA软件进行PCA的计算,可在EXCEL软件中进行PCA图的绘制.首先用EXCEL打开主成分文件,文件表头分别是样品名、PC1、PC2、PC3.绘制前先对数据进行整理,排序样品名称(使同一个群体的样本在一起).分群体分步选择数据后,绘制PCA图.按步骤绘制PCA图后,也可对图形进行坐标轴和颜色的调整.
3 PCA的研究进展
3.1 PCA在畜禽生产上的研究 虽然研究人员往往对通过多个性状来研究进化模式和过程很感兴趣,但是目前的数量模型方法都是针对单变量的.常用PCA来减少多维数据的维数,使单变量性状模型可以适用于单个主成分[10].已经有很多关于PCA在动植物性状方面的应用,为动植物的选育提供参考.我国拥有丰富的地方畜禽品种资源,且性状优良.与某性状相关的指标很多,如果收集性状指标信息,进行PCA,找到与性状相关的且具代表性的指标,可为品种的选育提供参考和依据.张力等[11]运用PCA方法分析了长白母猪的11个繁殖性状,确定了断奶窝重、初生个体重、育成率和乳头数4个能反映长白母猪繁殖性状主要信息的选育目标.杨慧等[12]进行了金定鸭胸宽、胸深等体型性状的PCA,将10个性状指标简化成了3个主成分并选取体重、胸深、骨盆宽、胫围和颈长作为代表性的指标,明确了金定鸭的体型特征.程郁昕等[13]对120头AA肉鸡活重、屠宰重和胸肌重等7个屠宰性状进行PCA分析,提取了3个主成分(分别为屠宰因子、胸肌因子和瘦肉因子),很好地解释了屠宰性状的指标信息.综上所述,PCA在畜禽生产中能够大大降低性状分析的变量,提取少数几个能反映性状信息的变量,为畜禽育种工作提供依据,也减少了今后选育性状的测量指标.但目前还没发现PCA在实际生产应用中的效果,还需进一步研究、探讨和验证PCA在实际畜禽生产中的作用.
3.2 PCA 在GWAS上的应用研究 SNP基因芯片的发展使得广泛利用GWAS方法分析性状与SNP信息的关联成为可能,加之基因测序和重测序成本的降低,也使得群体分析应用广泛.在GWAS分析中,PCA的结果能作为协变量用于校正群体分层给关联分析带来的假阳性.可以将PCA结果的主成分1和主成分2作为x轴和y轴绘制PCA散点图,每个点代表1个样本.通过散点图能够看出样本的遗传背景,如果2个样本遗传背景相似,就会聚集在一起,将整体样本分成几个亚群[14].如果分析的样本全部来自同一品种,PCA能够检测离群样本,在GWAS分析时将个别离群样本剔除.如果大量样本混淆(群体分层),则需要将PCA结果作为关联分析的协变量,提高关联分析结果的准确性,即先鉴定代表基于个体之间遗传关联的群体结构,再将主成分当做协变量用到线性模型中.除了检测离群样本外,还能够推断各亚群间的进化关系.大量文献显示,群体校正后,用Q-Q Plot图来展示校正前后GWAS结果的分布,确定群体分层校正对关联分析结果的有效性.除了应用动植物性状外,GWAS在复杂疾病基因定位和基因组研究方面也有广泛应用[15],且群体分层现象易被忽视.实际上,PCA可以应用于成千上万个位点,从基因数据中提取前几个主成分,用于群体的校正,对GWAS分析中的群体结构检测和群体分层校正具有很大的作用,成为生物科学和医学的重要分析工具[16].Price等[17]将PCA应用于GWAS,利用PCA分析基因型数据的特征值和特征向量,最后关联分析校正后的基因型和表型.奚玉莲[18]在利用77k基因芯片对秦川牛的多脊椎性状进行GWAS中,进行了PCA和祖先估计,以揭示秦川牛的遗传变异;郭家中[19]在进行奶牛重要经济性状的GWAS中采用PCA和简单线性回归模型分析样本群体混杂因素,以降低对关联分析结果的干扰;阿地力江.卡德尔[20]在研究德保矮马矮小性状相关候选基因中,利用PCA和遗传结构分析进行品种系统关系发生和遗传结构.除了PCA,基因组控制法(GC)、多维标度分析(MDS)、混合线性模型和分层分析法也能检测分析样本的群体结构并校正群体分层.
3.3 PCA在生物信息学上的应用 计算机技术的快速发展带来了多维数据信息,使得人们很难获取相关信息,采用化学模式识别方法能够根据样品的某种性质进行分类和特征选取,在生物信息学中得到了广泛应用.PCA是化学模式识别方法之一,用于分类和聚类.Chapman等[21]在植物病理实验中应用了PCA的双投影图,表明PCA结合实验数据可以发现基因和比较阵列数据的分子序列谱.张瑞杰等[22]研究了在基因表达谱数据分析中,利用PCA结合层次聚类法和K-均值聚类法对组织样品的分类效果,表明PCA能提高聚类质量.在基因表达谱研究中,涉及多个基因且基因间存在相关性,为了便于研究,通常使用PCA简化变量.比如最终可用数个基因解释原来成千个基因所解释的90%的信息,然后解释数个基因的生物学意义.对于基因芯片数据,可用PCA对多变量数据矩阵进行简化,有助于简化分析和多维数据的可视化,但可能会丢失一部分有用信息.在实际生物信息学分析中,要根据实际情况考虑是否使用PCA.总之,PCA能从基因芯片中筛选有效数据,是生物信息学分析中常用的统计分析方法.
3.4 PCA最新分析方法的研究进展 传统的PCA分析方法是通过对原始数据的协方差矩阵进行奇异值分解来分析问题,使得分析结果受原始数据的方法影响较大,过于突出方差较大的信息.马士国等[23]提出了一种新的PCA分析思路--从相关函数矩阵入手,能弥补传统分析方法的不足.在不同的应用领域,对PCA进行改进.如姜健[24]针对飞行实验对高效异常诊断手段的迫切需求,采用分段线性思想改进PCA,进而改善了诊断模型参数估计的精度.PCA还可应用于工业生产过程监测,但无法衡量变量间非线性依赖程度,王中伟等[25]提出了一种基于对数变换和最大信息系数PCA的的过程检测方法,且该方法有效可行.为更好地分析某一特定问题,可对PCA进行改进或与其他分析方法相结合,提高分析结果的有效性.
4 小 结
PCA在畜禽生产和GWAS研究中都得到了广泛应用,随着基因测序技术和SNP基因分型技术的发展和畜禽选育工作的需要,PCA还会得到大量应用.因为研究者关注疾病或性状与SNP位点的关联,而群体分层又是影响关联效果的一个因素.PCA法在应用时也存在一定的局限性,如一般只提取前2个主成分,而忽略了其他主成分对群体分层的效果以及高维数据中低频变异关联研究中的人群分层问题还没有定论.因此必须继续研究和探索PCA,尤其是在GWAS分析中能够有效检测和控制群体结构.
[1] 赵燕, 何俊, 金俊杰, 等. 马站红鸡生长与繁殖性状的主成分分析[J]. 江苏农业科学, 2017, 45(5): 153‐156.
[2] 斐鑫德. 多元统计分析及其应用[M ]. 北京: 北京农业大学出版社, 1991: 196‐212.
[3] 周以飞, 黄华康. 作物品种试验与统计分析[M ]. 福州: 福建科学技术出版社, 2003: 305‐312.
[4] 鲁生霞. 聚类分析及其在家畜遗传育种中的应用[J]. 畜禽业 , 2003, (10):6‐8.
[5] 张学余, 陈国宏, 程金花. 部分地方鸡品种体量及生态特征的多元统计分析[J]. 云南农业大学学报, 2005, 20(4):486‐490.
[6] 张毅, 向钊, 杨飞云, 等. 聚类分析确定荣昌猪繁殖性状选育变量[J]. 中国兽医学报, 2004, 24(4): 405‐406.
[7] 陈国顺. 运用聚类分析和主成分分析筛选猪的血清变量[J].甘肃农业大学学报, 2005, 40(6): 723‐727.
[8] 许淑娜, 李长坡. 对主成分分析法三个问题的剖析[J]. 数学理论与应用, 2011, (4):116‐121.
[9] 何晓群. 多元统计分析(第四版)[M]. 北京: 中国人民大学出版社, 2015.
[10] Josef C U, Daniel S C, Matthew W P. Comparative analysis of principal components can be misleading[J]. Syst Biol,2015, 64(4): 677‐689.
[11] 张力, 肖天放. 运用主成分分析与聚类分析确定猪繁殖性状的选育指标[J]. 中国农学通报, 2008, (8): 28‐31.
[12] 杨慧, 张力, 黄青雅, 等. 金定鸭体型性状的主成分分析研究[J]. 中国农学通报, 2012, (17): 12‐16.
[13] 程郁昕, 王燕. AA肉鸡屠宰性状的主成分分析[J]. 畜牧与兽医 , 2013, (12): 61‐63.
[14] Zhao S C, Zheng P P, Dong S S, et al. Whole‐genome sequencing of giant pandas provides insights into demographichistory and local adaptation[J]. Nat Genet,2012, 45(1): 67‐71.
[15] Spencer C C, Su Z, Donnelly P, et al. Designing genome‐wide association studies: sample size, power, imputation,and the choice of genotyping chip[J]. PLoS Genet, 2009,(5): e1000477.
[16] Price A L, Zaitlen N A, Reich D, et al. New approaches to population stratification in genome‐wide association studies[J]. Nat Rev Genet, 2010, 11(7): 459‐463.
[17] Price A L, Patterson N J, Plenge R M, et al. Principal components analysis corrects for strafication in genome‐wide association studies[J]. Nat Genet, 2006, 38(8): 904‐909.
[18] 奚玉莲. 秦川牛基因组遗传变异及其与脊椎数的关系研究[D]. 杨凌: 西北农林科技大学, 2016.
[19] 郭家中. 奶牛重要经济性状的全基因组关联分析[D]. 杨凌: 西北农林科技大学, 2013.
[20] 阿地力江.卡德尔. 全基因组扫描筛选德保矮马矮小性状相关候选基因研究[D]. 北京: 中国农业科学院, 2015.
[21] Chapman S, Schenk P, Kazan K, et al. Using biplots interpret gene expression pattern in plants[J].Bioinformatics, 2001, 18: 202‐204.
[22] 张瑞杰, 许杰, 王增权, 等. 利用基因表达谱对组织样品分类的方法的研究[J]. 中国卫生统计, 2003, (20):2‐5.
[23] 马士国, 余桐奎, 王志伟. 改进的主成分分析方法[J]. 舰船科学技术, 2012, (10): 21‐23+80.
[24] 姜健. 基于改进PCA算法的航空发动机状态诊断模型[J].燃气涡轮试验与研究, 2017, (2): 32‐36.
[25] 王中伟, 宋宏, 李帅, 等. 基于对数变换和最大信息系数PCA的过程监测[J]. 科学技术与工程, 2017, (16): 259‐265.
Research Progress on Principal Component Analysis in Animal Science
SONG Zhi‐fang1, XIE You‐zhi1, LU Chun‐lian1, LI Sai2, CAO Hong‐zhan1*
(1.College of Animal Science and Technology, Agricultural University of Hebei, Hebei Baoding 071000, China;2. Hebei Zhengnong Anima Husbandry Limited Company, Hebei Xinji 052360, China)
Principal component analysis (PCA) takes the idea of dimensionality reduction and also maintains the characteristics of the largest contribution data to the difference. In livestock production, PCA is used to study variables of traits and expected to simplify the number of variables as well as obtain sufficient information to reduce the complexity of research. In genome‐wide association analysis (GWAS), PCA can be used to correct population stratification and reduce the false positive results of population stratification for association results. The PCA diagram can be shown whether the study population is stratified. In this paper, the principle of PCA, analysis software and its application in livestock production and GWAS are reviewed.
Principal component analysis; Population stratification; Dimensionality reduction; False positive; GWAS
S81
A
10.19556/j.0258-7033.2017-11-021
2017-05-22;
2017-08-24
河北省科技计划项目(15226301D)
宋志芳(1992-),女,山东菏泽人,硕士研究生,研究方向为动物遗传育种,E-mail:18730285576@163.com
*通讯作者:曹洪战(1970-),男,博士,教授,硕士、博士研究生导师,研究方向为养猪生产与动物遗传育种与繁殖,E-mail:chz516@126.com