陆地棉品种(系)资源的主成分分析和聚类分析
2015-03-26王清连李成奇
李 飞, 王清连, 李成奇
(现代生物育种河南省协同创新中心,河南科技学院棉花研究所,河南 新乡 453003)
品种(系)资源是棉花育种的重要基础材料,合理利用品种(系)资源,选择适宜的亲本进行杂交是育种工作的关键。目前,中国种植的陆地棉品种均是由美国的岱字棉、斯字棉、金字棉等种质资源衍生而来,遗传基础较狭窄[1-3],限制了亲本材料的有效利用。因此,对品种(系)资源进行客观评价具有现实意义。主成分分析是一种利用降维的思想,在损失较少信息的前提下,把多个指标转化为几个相互无关的综合指标的多元统计方法[4-8]。聚类分析是一种用于生物资源分类和亲缘关系研究的多元统计方法[9-10]。近年来,同时利用主成分分析和聚类分析研究小麦[11-12]、水稻[13]、大豆[14-15]、黍稷[16]等作物种质资源的报道较多,在棉花上也有一些报道。Brown[17]对美国区域试验棉花品种的农艺和纤维品质性状进行了主成分和聚类分析,结果表明,来自密西西比河三角洲、中部和德克萨斯高平原地区品种的遗传基础高于来自东部、墨西哥和圣华金河地区的品种。孙长发等[18]调查了河南省春棉区域试验棉花品种的17个数量性状,用主成分分析法提取了累计贡献率达90.10%的前4个主成分,聚类分析法将所有材料分为5类。许乃银等[19]利用长江流域棉花区域试验品种的纤维品质数据进行了主成分和聚类分析,从8个纤维品质性状中提取了4个主成分,并将20个试点划分为4个纤维品质相似亚区。上述研究均是以参加区域试验的少数品种为材料评价种质资源,对棉花育种实践的指导意义不大。本研究选用中国近年来育成或引进的172份陆地棉骨干品种(系)为材料,对棉花19个农艺性状进行主成分分析和聚类分析,为深入评价陆地棉品种间(系)的遗传多样性和合理选配亲本组合提供理论依据。
1 材料与方法
1.1 试验材料
供试的172份陆地棉品种(系)中,64份来自黄河流域棉区,25份来自长江流域棉区,55份来自西北内陆棉区,18份来自北部特早熟棉区,10份为国外引进材料(表1)。所有材料均经过多代自交。
表1 供试材料的来源、数目及名称Table 1 Source,number and name of experimental materials
1.2 试验方法
分别于2012、2013年将172份材料种植在河南科技学院棉花育种试验田。随机区组设计,单行区,3次重复;行长5 m,行距1 m,每行14~16株,大田常规管理。对2年所有材料,分别考查株高、主茎长、主茎节数、总果枝数、有效果枝数、果枝长、果枝节数、苗期(出苗期~现蕾期)、蕾期(现蕾期~开花期)、花铃期(开花期~吐絮期)、生育期(出苗期~吐絮期)、果枝始节、始节高度、单株籽棉产量、单株皮棉产量、单铃质量、衣分、衣指和籽指等19个农艺性状。将2年6次重复各性状的平均值作为该性状的最终表型值。
1.3 数据处理
利用 Excel 2010进行数据基本整理。利用SPSS 19.0软件将各性状标准化后,采用降维的方法进行主成分分析,基于主成分特征向量矩阵和各农艺性状的标准化值,根据公式F=Z·A计算各供试材料的主成分得分值,其中F、Z、A分别为主成分得分值矩阵、标准化矩阵和特征向量矩阵[18,20]。利用NTSYSpc 2.10e软件将数据标准化后,计算欧式(Euclid)遗传距离,以类平均法(UPGMA)对172份材料进行聚类[21]。
2 结果与分析
2.1 供试材料农艺性状的描述统计
172份供试材料19个农艺性状的描述统计结果列于表2。由表2可知,供试材料在19个农艺性状上均表现较大差异,变异系数由大到小依次为皮棉产量、籽棉产量、果枝长、始节高度、有效果枝数、果枝节数、果枝始节、主茎长、株高、衣指、单铃质量、衣分、籽指、主茎节数、苗期、蕾期、花铃期、总果枝数、生育期。其中,皮棉产量变异系数最大(29.92%),其次为籽棉产量(26.37%),生育期变异系数最小(5.08%),说明棉花的产量受基因型和环境影响最大,生育期受基因型和环境影响最小。
2.2 主成分分析
表2 供试材料19个农艺性状的描述统计Table 2 Descriptive statistics of 19 agronomic traits of experimental materials
对19个农艺性状数据标准化后进行主成分分析,获得19阶遗传相关矩阵及其特征值和特征向量(表3)。前5个主成分特征值大于1,累计贡献率达到80.253%,可反映大部分遗传差异信息。表4列出了各主成分中排名前3的代表性材料及其主成分得分值。得分值越高,材料受此主成分的影响越大。由表3和表4看出,第1主成分的特征值为5.856,贡献率为30.822%;特征向量除籽指外均为正值,其中果枝长、生育期和果枝始节的特征向量较大,分别为0.759、0.816和0.799,说明第1主成分得分值高的材料表现为果枝长、生育期长、果枝始节位高,代表性材料有荆8891、鲁棉21号和鑫秋1号。第2主成分的特征值为3.450,贡献率为18.157%;有效果枝数、籽棉产量、皮棉产量和衣指的特征向量较大且为正值,株高、主茎长、果枝长、果枝节数、苗期、蕾期、花铃期、生育期和始节高度的特征向量为负值,说明第2主成分得分值高的材料产量高、生育期短、株型较好,代表性材料有百棉5号、冀棉958和岱字棉15。第3主成分的特征值为2.607,贡献率为13.719%;株高、主茎长、主茎节数和总果枝数的特征向量较大且为正值,说明第3主成分得分值高的材料植株高,主茎节数和总果枝数较大,代表性材料有晋棉9号、新陆早48号和新陆早33号。第4主成分的特征值为1.995,贡献率为10.500%;衣分和籽指的特征向量较大,其中前者为负值,后者为正值,说明第4主成分得分值高的材料衣分低而籽指高,代表性材料有岱红岱、乌干达3号和晋棉14号。第5主成分的特征值为1.341,贡献率为7.056%;特征向量为正值且较大的性状有株高、主茎长、始节高度、单铃质量、衣指和籽指,特征向量为负值且绝对值较大的性状有主茎节数、总果枝数、有效果枝数、果枝长和果枝节数,说明第5主成分得分值高的材料植株较高,铃质量较高,衣指和籽指较高,代表性材料有新陆早28号、新陆早 11号和新陆早27号。
表3 19个农艺性状的主成分分析Table 3 Principal component analysis of 19 agronomic traits
2.3 聚类分析
表4 各主成分中排名前3的代表性材料及其主成分得分值Table 4 Representative materials and their principal component scores of the top-3 in each principal component
对172份陆地棉品种(系)的19个性状数据标准化后,进行了聚类分析。在遗传距离为5.62时可将所有材料分为10个类群,不同类群材料农艺性状的平均值见表5。第Ⅰ类群包括4个材料:kk1543、晋棉6号、锦棉2号和黑山棉,其中,晋棉6号和黑山棉来自北部特早熟棉区,锦棉2号来自西北内陆棉区,kk1543为前苏联早期品种。该类群材料植株较矮,果枝长度短,单铃质量偏低,生育期较短,衣分和衣指较低。第Ⅱ类群包括47个材料,分别是新陆早1号、新陆早5号、新陆早2号、新陆早4号、新陆早51号、新陆早6号、新陆早9号、新陆早37号、新陆早38号、新陆早7号、晋中200、新陆早46号、拉玛干77、新陆早8号、中棉所13、18-3、新陆早42号、新陆早10号、新陆早40号、系9、新陆早20号、新陆早13号、中棉所27、岱字棉16、新陆早19号、新陆早34号、新陆早36号、新陆早21号、中棉所22、新陆早22号、新陆早32号、新陆早45号、新陆早47号、新陆早15号、新陆早18号、新陆早23号、新陆早24号、新陆早25号、苏棉16、新陆早35号、新陆早27号、新陆早28号、新陆早39号、新陆早31号、新陆早11号、新陆早26号、中棉所19。绝大部分为西北内陆棉区的新陆早系列,所有性状表现均适中。第Ⅲ类群包括2个材料,新陆早3号和新陆早49号,表现为植株较高,果枝长度最长,果枝节数最多,籽棉产量和皮棉产量较低。第Ⅳ类群仅有1个材料新陆早48号,表现为植株最高,总果枝数最多,果枝节数较少,生育期短,始节高度最高,单铃质量较低,衣分最高。第Ⅴ类群包括30个材料,来自西北内陆和黄河流域2个棉区,分别是新陆早12号、中棉所31、辽棉18号、晋棉5号、中棉所33、中棉所26、百棉2号、豫棉5号、辽棉10号、辽棉16号、中棉所30、中棉所64、中棉所37、辽棉4号、辽棉5号、豫棉12号、锦棉4号、辽棉7号、新陆早17号、新陆早30号、中棉所42、中棉所50、中棉所58、中1707、中棉所24、中棉所36、中棉所10号、中棉所20、豫棉7号、中棉所14。表现为植株最矮,果枝长度较短,果枝节数最少,生育期最短。第Ⅵ类群由12个材料构成,分别是新陆早29号、新陆早33号、石选87、晋棉24号、贝尔斯诺、中棉所18、辽棉8号、绿早254、锦棉5号、黔农465、晋棉9号、晋棉14号。表现为总果枝数较多,生育期较短,单铃质量较高。第Ⅶ类群包括43个材料,分别是中棉所12、石远321、江苏棉1号、鲁棉1号、鲁棉研29、中棉所23、冀棉12、鄂棉3号、鄂沙28、陕1155、PPM8、新陆早16号、中棉所40、新陆中36号、泗棉2、苏棉9号、赣棉8号、徐州142、豫棉21号、川棉56、鑫秋1号、新陆早41号、百棉5号、晋棉45号、冀棉958、国欣棉3号、邯郸802、中棉所35、晋棉13号、晋棉29、陕2365、邯郸885、苏棉1号、晋棉36号、中植棉2号、岱字棉15、辽棉19号、百棉1号、鲁棉21号、鲁棉28号、泗棉4、辽棉23号、豫棉9号。大部分来自于黄河流域棉区,表现为有效果枝数最多,籽棉产量和皮棉产量最高,单铃质量最高,衣分和衣指最大。第Ⅷ类群包括30个材料,来自中国四大棉区以及国外引进,区域差异较大,具有生育期最长,单铃质量较高的特点,分别是中棉所15、湘棉3、盐棉48、中棉所25、苏棉10号、中棉所34、湘棉10号、洞庭1号、锦棉1号、汾无195、陕棉4号、鄂棉14、中棉所17、豫棉1号、钱江9号、泗棉3、冀棉7号、晋棉8号、冀棉1号、斯字棉2B、99M7、晋中169、乌干达3号、鄂荆1号、荆8891、鲁棉4号、鲁棉10号、鲁棉6号、中棉所8号、苏棉6号。第Ⅸ类群包括2个材料,苏棉12号和美国的99M4,表现为总果枝数最少,生育期长,果枝始节最高、籽棉产量和皮棉产量较低。第Ⅹ类群仅有1个材料岱红岱,表现为植株较矮,有效果枝数最少,生育期长,籽棉产量和皮棉产量最低、衣指最高。
表5 不同类群材料农艺性状的平均值Table 5 Averages of agronomic traits of clustered materials
3 讨论
主成分分析是将多个复杂的原始指标转化为几个具有代表性的互不相关的综合指标(主成分),每个主成分都是原始指标的线性组合,保留了原始指标的大部分信息,从而减小分析的复杂性[4]。Panthee等[22]收集了尼泊尔的179份大蒜材料,调查8个农艺性状,主成分分析提取的4个主成分可以解释超过86%的总变异。赵德新等[23]对55个茄子种质材料的18个形态学性状进行了主成分分析,将18个性状简化为6个主成分,代表81.071%的遗传变异。本研究利用主成分分析将棉花19个农艺性状简化为5个主成分,累计贡献率达80.253%,反映了大部分遗传变异信息。当前,中国人多地少,粮棉争地矛盾日益突出。为协调粮棉发展,在确保粮食生产安全的前提下,培育早熟、高产的棉花品种至关重要。由本研究主成分分析结果可以看出,第2主成分得分值高的材料生育期短、产量高。因此,在进行早熟、高产育种时,可考虑第2主成分得分较高的材料,如百棉5号、冀棉958和岱字棉15。
聚类分析发现,一些生态区域相同,亲缘关系较近的材料被聚在一起。例如来自河南省的百棉2号和豫棉5号在遗传距离为1.91处被聚在一起,来自北部特早熟棉区的辽棉18号和晋棉5号在遗传距离为2.14处被聚在一起,新陆早系列的新陆早15号、18号、23号和24号在遗传距离为2.87处被聚在一起。说明本研究利用包括株高在内的19个农艺性状对陆地棉种质资源进行聚类,具有一定可行性。同时,从聚类的10个类群中发现,一些来自不同生态区的材料被划分在同一类群。如第Ⅰ类群的4个材料中,2个来自于北部特早熟棉区,1个来自于西北内陆棉区,1个为前苏联品种;第Ⅷ类群包含了来自中国四大棉区和国外引进的材料。说明陆地棉材料间的遗传差异与地理来源关系不大,亲本材料应从不同的类群中选择,这与其他学者的研究结果一致[11,14,23-24]。聚类的10个类群中,第Ⅴ类群生育期最短、株高最矮(代表性材料有中棉所50、中棉所58、新陆早17号、锦棉5号),第Ⅶ类群籽棉产量和皮棉产量最高(代表性材料有百棉1号、百棉5号、冀棉958、锦棉1号、岱字棉15)。根据主成分分析结果,在棉花早熟、高产育种时,应从第Ⅴ、Ⅶ类群和第二主成分得分值高的材料中选择优异亲本材料。此外,结合材料系谱图发现,同系列的陆地棉材料常选用同一个优异的品种作为亲本材料,如新陆早42号和新陆早51号均以新陆早10号作为母本,这可能是导致中国陆地棉遗传基础狭窄的一个重要原因[25],因此需不断扩大不同地区不同系列品种间的交流和加强国外引种力度,提高中国棉花遗传多样性。值得说明的是,本研究的聚类分析是基于表型数据,由于表型性状容易受环境因素的影响,只有严格控制环境因素,才能得到准确的聚类结果[11]。结合表型数据与分子标记数据评价种质资源[26-29],将更有助于探明种质间的亲缘关系,提高亲本选配的预见性。
[1] 刘文欣,孔繁玲,郭志丽,等.建国以来我国棉花品种遗传基础的分子标记分析[J].遗传学报,2003,30(6):560-570.
[2] CHEN G,DU X M.Genetic diversity of source germplasm of upland cotton in China as determined by SSR marker analysis[J].Acta Genetica Sinica,2006,33(8):733-745.
[3] 张小娟,何团结,陆徐忠,等.陆地棉SSR核心引物筛选及95份骨干种质的遗传多样性分析[J].棉花学报,2011,23(6): 529-536.
[4] 何亮.主成分分析在SPSS中的应用[J].山西农业大学学报,2007,6(5):20-22.
[5] 娄丽娜,王 辉,王 成,等.腌制萝卜种质资源的遗传多样性[J].江苏农业学报,2013,29(6):1421-1426.
[6] 赵一洲,李正茂,刘福才,等.粳稻盐粳188航天诱变SP2代的性状变异与选择[J].江苏农业科学,2013,41(6):58-61.
[7] 陈培峰,王建平,黄 健,等.太湖地区香稻品种稻米品质性状相关和聚类分析[J].江苏农业学报,2013,29(1):1-7.
[8] 孙菲菲,王 夏,王 强,等.南京地区白菜种质资源遗传主成分与聚类分析[J].江苏农业科学,2014,42(3):106-109.
[9] 康美玲,田忠景,张倩倩.利用醇溶蛋白电泳图谱分析不同玉米品种的遗传多样性[J].江苏农业科学,2013,41(10): 70-72.
[10]阮燕晔,郭 瑞,崔震海,等.利用SSR技术分析辽宁省32个骨干玉米自交系的遗传多样性[J].江苏农业科学,2013,41(11):29-32.
[11]周丽艳,郭振清,马玉玲,等.春小麦品种农艺性状的主成分分析与聚类分析[J].麦类作物学报,2011,31(6):1057-1062.
[12]王绘艳,史雨刚,马昊翔,等.30份春小麦品系主要农艺性状的聚类分析[J].中国农学通报,2014,30(18):60-64.
[13]李培富,杨淑琴,马宏伟.宁夏水稻主要农艺性状的主成分及聚类分析[J].中国农学通报,2006,22(12):162-166.
[14]李向华,常汝镇.中国春大豆品种聚类分析及主成分分析[J].作物学报,1995,24(3):325-332.
[15]罗 珊,康玉凡,濮绍京,等.黑河地区55份大豆品种资源农艺性状和营养成分的聚类分析[J].大豆科学,2009,28(3): 421-425.
[16]胡兴雨,陆 平,贺建波,等.黍稷农艺性状的主成分分析与聚类分析[J].植物遗传资源学报,2008,9(4):492-496.
[17]BROWN J S.Principle component and cluster analysis of cotton cultivar variability across the US cotton belt[J].Crop Science,1991(31):915-922.
[18]孙长发,赵 晖,陈荣江.棉花新品种产量品质性状的聚类分析与综合评价[J].西北农业学报,2010,19(4):77-81.
[19]许乃银,陈旭升,狄佳春,等.长江流域棉花纤维品质的区域特征研究[J].棉花学报,2003,15(4):221-226.
[20]陈荣江,张万琴,王文峰,等.棉花数量性状的因子分析与品种的聚类分析[J].福建农林大学学报:自然科学版,2009,38 (3):225-230.
[21]张 鹏,张海洋,郑永战,等.芝麻种质资源因子分析及聚类分析[J].中国油料作物学报,2008,30(1):71-78.
[22]PANTHEE D R,KC R B,REGMI H N,et al.Diversity analysis of garlic(Allium sativum L.)germplasms available in Nepal based on morphological characters[J].Genetic Resources and Crop Evolution,2006(53):205-212.
[23]赵德新,孙治强,任子君,等.茄子形态学性状主成分分析及聚类分析[J].河南农业大学学报,2009,43(4):393-397.
[24]陈华萍,王照丽,魏育明,等.四川小麦地方品种农艺性状与品质性状的聚类分析[J].麦类作物学报,2006,26(6):29-34.
[25]郭志军,赵云雷,陈 伟,等.陆地棉SSR标记遗传多样性及其与农艺性状的关联分析[J].棉花学报,2014,26(5):420-430.
[26]ZHANG Y X,ZHANG X R,CHE Z,et al.Genetic diversity assessment of sesame core collection in China by phenotype and molecular markers and extraction of a mini-core collection[J/OL].BMC Genetics,2012,13:102[2012-11-15].http://www.biomedcentral.com/1471-2156/13/102.
[27]LI G S,ZHANG L J,BAI C K.Chinese Cornus officinalis:genetic resources,genetic diversity and core collection[J].Genetic Resources and Crop Evolution,2012(59):1659-1671.
[28]BAI C K,WEN M M,ZHANG L J,et al.Genetic diversity and sampling strategy of Scutellaria baicalensis germplasm resources based on ISSR[J].Genetic Resources and Crop Evolution,2013 (60):1673-1685.
[29]耿立格,王丽娜,张 磊,等.河北省绿子叶黑豆种质资源表现型和ISSR标记遗传多样性分析[J].植物遗传资源学报,2010,11(3):266-270.