基于主成分分析和聚类分析的玉米品种的综合评价
2022-06-21张中伟杨海龙谢文锦李方明高旭东
张中伟 杨海龙 付 俊 谢文锦 李方明 高旭东
(丹东农业科学院 辽宁凤城 118109)
玉米是全世界重要的粮食作物之一, 同时也是我国旱田作物中种植面积最大的作物,2020年我国玉米种植面积达6.2 亿亩,产量约2 600 亿kg[1]。玉米不仅是主要的粮食作物, 又是重要的工业原料和饲料来源, 东华北春玉米区是我国的玉米主产区之一和重要的商品粮基地, 在国民经济中具有举足轻重的战略地位[2]。 传统育种中,仅通过个别农艺性状表现和产量高低判断玉米品种的优劣具有局限性,对玉米品种多个性状指标进行全面分析和综合评价才更具有可靠性和客观性[3]。 主成分分析是采取降维的方法, 把多个指标转化为少数几个综合指标的一种统计方法, 使这些综合指标尽可能反映原始数据的信息,从而对品种进行科学评价。 聚类分析是研究事物分类的基本方法, 在主成分基础上进行聚类分析可以有效去除一些影响较小的因子, 便于对品种进行综合分析和全面评判[4]。 笔者以东华北春玉米组的33个参试玉米品种为研究对象,选取14个主要农艺性状数据, 综合应用主成分分析和聚类分析来评价品种的优劣,旨在为玉米新品种选育、审定和推广提供参考。
1 材料与方法
1.1 供试材料及试验设计
试验材料为国家区域试验东华北中晚熟春玉米组各单位提供的33个玉米品种,其中以郑单958 为对照品种, 各品种编号和品种名称见表1。 试验于2021年在丹东农业科学院试验基地进行。 试验采取随机区组排列,3 次重复,5 行区,小区面积 20 m2,试验密度为67 500 株/hm2, 四周设不少于4 行的保护行。 田间管理同当地大田。
表1 参试玉米品种名称及编号
1.2 调查项目
调查生育期(X1)、株高(X2)、穗位高(X3)、穗长(X4)、穗行数(X5)、秃尖长(X6)、穗粗(X7)、轴粗(X8)、行粒数(X9)、百粒质量(X10)、出籽率(X11)、空秆率(X12)、倒伏(折)率(X13)和产量(X14)14个性状。 每次重复实收中间3 行风干脱粒,产量按14%含水量计算。其他农艺性状均按国家区试标准观察、考种和记载。
1.3 数据分析
采用Excel 整理各品种的产量数据和主要农艺性状数据。 用SPSS 26.0 进行主成分分析和聚类分析。
2 结果与分析
2.1 玉米品种主要农艺性状变异分析
由表2 可知,参试玉米品种的14个农艺性状的变异各不相同,变异系数幅度为1.08%~148.37%,倒伏(折)率、空秆率、秃尖长的变异系数较大,分别为148.37%、101.79%和68.98%。 生育期、出籽率的变异系数较小,分别为1.08%和2.26%。 说明倒伏(折)率和空秆率受自然条件和品种影响较大, 在玉米品种选育时,抗倒伏(折)性状的选择范围更大,说明本地区适宜筛选出抗倒性好的玉米品种。
表2 参试玉米品种主要农艺性状及变异分析
2.2 不同玉米品种主要农艺性状的主成分分析
对参试玉米品种的14个农艺性状进行主成分分析, 首先对原始数据进行标准化处理, 然后进行KMO 检验, 得到 KMO 值=0.535>0.500; 对其进行Bartlett 球形度检验,得到卡方值=247.993,Sig.<0.05,进一步说明各性状间存在较强的相关性, 适宜进行主成分分析。
根据特征值大于1 的标准,选取前5个主成分,其累积贡献率达 77.058%(表 3), 包含了 14个农艺性状的绝大部分信息,因此,可以选择这5个主成分作为玉米品种的综合性评价指标。
主成分特征向量值反映了各农艺性状在主成分中的影响力大小和方向,由表3 可知,主成分1 主要反映倒伏(折)率、空秆率、穗粗和轴粗性状;主成分2主要反映穗长、行粒数和产量性状;主成分3 主要反映株高性状; 主成分4 主要反映穗位高性状; 主成分5 主要反映百粒重性状。 主成分分析结果表明抗倒性指标已经成为评判一个玉米品种优劣的重要性状,玉米育种中应综合选择产量和抗性指标,从而筛选出优质、高产、抗性优良的玉米品种。
2.3 不同玉米品种的综合评价
根据表3 中各主成分的特征值,计算33个玉米品种的主成分因子得分, 再以每个主成分的贡献率为权重, 构建出不同玉米品种的综合评价模型:F=0.266Y1+0.185Y2+0.133Y3+0.107Y4+0.080Y5(表 4)。
表3 参试玉米品种的14个农艺性状的主成分载荷矩阵和特征值
由表4 可知,在33个玉米品种中,综合得分较高的品种为金园23 和吉农玉1898,这2个玉米品种在产量和抗性等综合性状上表现都比较好。
表4 28个参试玉米品种的主成分因子综合得分及排名
2.4 不同玉米品种综合得分的聚类分析
利用SPSS 26.0 软件,将各品种对应综合得分采用系统聚类中平方Euclidean 距离聚类和平均联接(组间)构建系统聚类图(附图),在遗传距离为10 处将33个玉米品种分为3 大类。 第1 类是综合性状较优的品种,共有2个,分别为金园23 和吉农玉1898,这一类群品种综合性状较好、产量较高;第2 类群为综合性状居中的品种,有16个品种;第3 类群的品种有15个,这类品种综合评分较低。
附图 28个玉米品种14个农艺性状的系统聚类分析
3 讨论与结论
产量相关农艺性状变异系数的大小反映了玉米品种丰产性和稳产性的表现[5]。 本研究中33个玉米品种的14个主要农艺性状变异系数为1.08%~148.37%,其中倒伏(折)率、空秆率、秃尖长的变异系数较大且均在60%以上, 说明这些性状在不同玉米品种中表现差异较大且易受环境影响, 性状改良潜力较大,而生育期、出籽率的变异系数相对较小,这类性状相对稳定,较能反映玉米品种的稳产性,在玉米高产育种中,出籽率是可以直接进行选择的性状,这与张亚菲等[6]、钱双宏等[7]的研究结果基本一致。
对玉米品种进行科学有效评价, 需要对各性状指标进行综合分析。 主成分分析法通过降维思维,在最大程度保留原有数据信息的前提下, 将原有多指标转化为个数较少的综合指标, 可以避免重复信息干扰、排除主观因素影响。 聚类分析是以各主成分的综合得分作为评价品种的新指标, 采用平方欧式距离和平均联接(组间)构建系统聚类图,将不同品种进行归类,从而衡量各品种的优劣。 近年来,主成分分析和聚类分析方法已被广泛应用在种质资源及作物杂交组合综合评价相关研究中[8-13]。
笔者选取14个农艺性状作为评价33个玉米品种的指标,通过主成分分析提取前5个主成分,累计贡献率达到77.058%, 将14个农艺性状评价指标转换成5个主成分指标,并对综合得分进行排序,然后应用欧式距离对33个玉米品种进行系统聚类分析,初步筛选出金园23 和吉农玉1 898 两个优异的玉米品种。 较优品种聚在同一类群,间接验证了主成分分析和聚类分析结果的正确性和一致性, 可为筛选适宜东华北春玉米区种植的优良玉米品种及推广应用提供科学依据。