主成分回归法对亚麻纤维产量的综合评价
2014-01-16吴建忠
吴建忠
(黑龙江省农业科学院经济作物研究所,哈尔滨 150086)
主成分回归法对亚麻纤维产量的综合评价
吴建忠
(黑龙江省农业科学院经济作物研究所,哈尔滨 150086)
研究通过对亚麻12个农艺性状的相关性分析,确定亚麻纤维产量相关显著的农艺性状,利用主成分分析原理进行相关性状的降维处理,消除亚麻纤维产量综合评价中存在的性状间多重共线性影响,对亚麻纤维产量进行综合评价。结果表明,主成分回归法可以有效消除亚麻纤维产量综合评价中出现的性状间多重相关性问题,该法可对亚麻纤维产量进行综合评价,为作物产量的综合评价提供新思路。
亚麻;纤维产量;主成分回归;综合评价
亚麻(Linum usitatissimumL.)是亚麻科亚麻属,一年生草本长日照经济植物,是主要韧皮纤维作物之一,在纺织、化工、建材、装饰、医药等行业中有广泛应用,具有高经济附加值[1]。亚麻产业发展前景广阔,如何对亚麻前端产业(亚麻纤维产量)进行合理评价一直是亚麻育种工作者探索方向。
纤维亚麻育种目标是培育原茎产量高、出麻率高、纤维品质好、种子产量高、抗逆性强、适应性广、抗倒伏的新品种,以满足工农业生产需要。中国亚麻育种工作开始于19世纪50年代,主要是农家品种整理及种质资源引进,目前我国亚麻育种重点是高纤育种,抓紧吸收和利用国内外优良品种资源,选育出我国高纤品种[2]。纤维含量性状具有广泛遗传多样性,吴广文等研究发现,育成全麻率40%品种可能性大,但获得高麻率的同时,经常出现纤维质量下降现象[3],育种者需要可靠、有效的方法确定纤维含量。
主成分回归法应用于农作物产量综合评价报道较少,亚麻纤维产量综合评价是育种工作亟待解决的问题之一,目前亚麻纤维评估方法仅见利用亚麻茎中段出麻率快速估算单株出麻率,提高亚麻纤维估测效率[4]。本研究旨在提出一种快速而简单的亚麻纤维产量综合评价方法,通过对亚麻纤维产量相关性状进行深入分析,采用主成分回归分析,探讨纤维产量性状间相关性及影响亚麻纤维产量主成分因子,为亚麻纤维产量的综合评价提供技术支持和理论依据,为选育高纤亚麻新品种提供科学依据。
1 材料与方法
1.1 试验时间、地点
本研究供试的亚麻材料来源于黑龙江省农业科学院经济作物研究所亚麻育种研究室育种圃品种(系),分别于2012年和2013年在黑龙江省农业科学院国家高新技术产业示范园区(民主乡)种植并取样考种收集数据。
1.2 试验材料
通过随机取样方法,从试验地育种圃抽取样本52份,3次重复进行数据测量,收集12个亚麻性状。
1.3 试验方法
1.3.1 试验设计
在试验地块随机播种,2 m×1 m区设置,小区3次重复,行距为15 cm,播种均匀不断条,田间管理按常规方式进行,收获考种尽量保持一致。
1.3.2 性状考查及数据处理
亚麻农艺性状调查参照文献[5]。
利用DPS-v9.50数据处理系统[6]和Microsoft Ex⁃cel 2003数据分析软件进行数据整理及分析,具体分析如下:取各性状考种结果项2年3次重复的平均值进行一般统计量描述及分析,对性状指标进行相关性分析,对亚麻纤维产量相关性状进行主成分分析,对所得公因子进行多重共线性回归分析,探讨各相关性状对亚麻纤维产量的影响作用,进行亚麻纤维产量的综合评价。
2 结果与分析
2.1 试验材料的一般统计量表现
田间测量及室内考种所得12个亚麻性状(见表1),分别以代号(X1~X12)表示,由其一般统计量描述可见,生育期(X1)约74 d,变异方差较小,其变异系数只有2.94%,表明该性状变化较小;出苗数(X2)和收获株数(X3)变化范围及方差均较大,其变异系数分别达16.44%和19.40%,属于人工改良空间较大的性状;株高(X4)和工艺长度(X5)变幅也较大,但其变异系数较小,表明该性状在低世代选育可起关键作用;分枝数(X6)和蒴果数(X7)变异方差均较小,但其变异系数都较大,分别达16.78%和25.39%,应此这两个性状可考虑在低世代适当放宽选择强度,在高世代进行严格选育;干茎制成率(X8)是干茎产量占原茎产量的百分数,其变异方差较小,但反应干茎产量和原茎产量双重影响,因原茎产量(X10)变异方差最大,达1 400 520.98,其变异系数也较大,达15.50%,而干茎制成率(X8)变异系数却较小,表明干茎和原茎变化趋势较一致,均可反映纤维的物质积累情况,因此亚麻纤维育种在一定程度上应注重高世代对原茎产量(X10)的选育;全麻率(X9)反映纤维重量占干茎重量的比重,其平均值为27.72%,变异方差及系数分别为9.71和11.24%,是纤维产量重要评价因素;种子产量(X11)和纤维产量(X12)变幅、方差及变异系数较大。
2.2 性状相关分析
将亚麻各性状进行遗传相关分析,结果见表2,可见,与纤维产量X12遗传相关比较密切的性状有:原茎产量(X10)、全麻率(X9)、出苗数(X2)、收获株数(X3)、干茎制成率(X8)、株高(X4)、工艺长度(X5)和种子产量(X11),相关性状间关系见图1,其中与纤维产量直接相关的有全麻率(X9)和原茎产量(X10),且都达极显著水平,与纤维产量二级相关表现显著的有出苗数(X2)、收获株数(X3)和干茎制成率(X8),其中干茎制成率(X8)与原茎产量(X10)呈显著负相关,表现三级相关的性状有株高(X4)、工艺长度(X5)和种子产量(X11),种子产量(X11)通过与出苗数(X2)及收获株数(X3)的极显著负相关作用于原茎产量(X10)从而影响纤维产量(X12),株高(X4)、工艺长度(X5)和干茎制成率(X8)呈极显著负相关,从而间接作用于原茎产量(X10)影响到纤维产量(X12)。
表1 性状一般描述统计量Table 1 Character description statistics in general
表2 亚麻性状相关分析Table 2 Correlation analysis of characters in flax
图1 纤维产量相关性状Fig.1 Fibre yield related traits
2.3 性状间共线性分析
通过对纤维产量相关分析,在其余11个性状中选出与纤维产量相关的8个性状,相关系数分析(见表2)显示,部分性状间的相关性较高,如果直接进行回归分析可能会产生严重共线性问题。为揭示这一问题的存在,对所选8个性状进行线性回归分析(见表3),得到回归方程式:
其中,出苗数(X2)、收获株数(X3)、株高(X4)及工艺长度(X5)对纤维产量(X12)的影响水平不显著(显著水平值均大于0.05),同时该回归模型残差分析结果:R=0.997,决定系数R2=0.995,调整相关R2=0.997,Durbin-Watson值为2.280,接近于2,提示残差间无明显相关性。对相关性状进行亚麻纤维产量的多重共线性分析(见表4),各性状值方差膨胀因子(VIF)均在10以下,但出苗数(X2)、收获株数(X3)、株高(X4)及工艺长度(X5)的膨胀因子均接近于10,说明这些性状间的多重共线性关系显著。综合以上分析,经对这些性状作一步主成分分析,以消除性状间的多重共线性关系。
表3 相关性状的线性回归分析Table 3 Linear regression analysis of related properties
表4 性状间多重共线性分析Table 4 Multicollinearity analysis of traits
2.4 主成分分析
2.4.1 主成分提取
对纤维产量相关性状进行主成分特征值进行累积分析(见表5)。
由表5可知,前3个特征因子的特征值都大于1.8,而且3个主成分的累积贡献率达到75.89%,且均在20%以上。因此,宜提取前3个特征因子作为主因子进行主成分分析,可以概括亚麻生物学性状的绝大部分信息,其中第一主成分的贡献率最大,达33.66%,第二、三主成分贡献率分别为21.36%和20.87%。
表5 主成分特征值累计百分率Table 5 Cumulative rate of principal component characteristic value
为验证亚麻纤维产量相关性状间多重共线性分析结果的真实性,对所选因子进行载荷矩阵分析,结果见表6,共同度的大小衡量所提取因子包含原始数据的信息量,显然分析结果中大部分变量的共同度均高于0.7,说明提取的公共因子可反映原变量的基本情况,因此选择主因子数M=3,总贡献率达75.89%。
2.4.2 计算主成分载荷矩阵和特征向量
一般用某一原始变量在主成分上的载荷值表示主成分与原始变量指标之间的相关程度,载荷值越高,表明该主成分包含原始指标的信息量越多[7]。从选出的8个主要性状在各个主成分上的特征向量可以表明,主成分1的特征向量中,载荷较高且为正值的性状有出苗数(X2)、收获株数(X3)、株高(X4)、工艺长度(X5)和原茎产量(X10),只有种子产量(X11)为负值,且载荷值较高,表明亚麻出苗数(X2)、收获株数(X3)、株高(X4)、工艺长度(X5)、原茎产量(X10)和种子产量(X11)是亚麻纤维积累的主要影响因子,而除种子产量(X11)外其余5个性状是纤维物质积累的正向影响因素,只有种子产量(X11)越大,则纤维积累量越小。
表6 性状间因子载荷矩阵Table 6 Loading matrix of traits factor
主成分2特征向量中,只有全麻率(X9)的载荷较高,达到0.69,而全麻率是纤维占干茎重量的比值,结合性状相关分析可见,全麻率是由亚麻品种特性决定的亚麻纤维产量表现的一个方面,受栽培措施影响较小,因此全麻率不是亚麻纤维产量的作用因子。
主成分3特征向量中,载荷较高且为正值的性状有株高(X4)和工艺长度(X5),其特征向量分别为0.62和0.53,而株高和工艺长度表现极显著正相关,表明株高越高,工艺长度越长;载荷较高且为负值的性状有出苗数(X2)和收获株数(X3),出苗数和收获株数表现极显著正相关,这一特征向量中可合理解释亚麻田间性状的实际分布。
通过对亚麻性状的主成分分析,可以认为主成分1反映亚麻纤维物质积累的基本情况,对主成分1相关性状进行方差分析,回归方差达到极显著水平,进一步多元线性回归分析,得到回归方程式:
2.4.3 多元线性验证
为验证线性模型进行亚麻纤维产量综合评价的合理性,将7份亚麻品系的田间实测值与多元回归计算值进行比较(见表7),误差E为差值占实测值的百分比。结果显示,多元回归值误差均在6%以内,相对于亚麻纤维产量实测值而言,多元回归结果可以在一定程度上代表实际纤维产量。因此,可以利用便于测量的田间及考种数据进行亚麻纤维实际产量的综合评估,从而减少纤维测量的沤麻环节,提高纤维育种效率。
表7 纤维产量实测值与计算值比较Table 7 Measured values of fiber yield compared with the calculated value
3 讨论
本试验结果表明,亚麻性状中X2、X3、X6、X7、X9、X10和X11变异系数较大,说明可以通过良种选配和改善栽培措施等方法使这些性状得到较大程度提高。X4和X5变异系数次之,说明通过良种选配和改善栽培措施等方法可能使这些性状获得一定程度的改善;X1和X8性状间差异不大,其变异系数均较小,表明这两种性状通过良种选配和改善栽培措施等方法改进难度较大。
相关农艺性状间具有制约关系,即某一性状的提高有可能使得另外一个或几个性状下降,因此在选择育种中只有达到平衡才能培育出高优品种。在作物相关性状综合评价中提出利用主成分回归进行各相关性状分析,目的在于消除变量间的相关性,使得最终回归模型的参数更加可信,并建立相关性状评价的合理模型,实现对作物某一性状的综合评价[8-9]。主成分回归法是将主成分与多元共线性回归结合使用的方法,在多元线性回归中,若自变量之间存在较强共线性,则得出的回归模型不稳定,这时,可用少数几个主成分与应变量建立回归方程,避免上述情况发生。由于主成分之间互不相关,保证回归方程稳定性,因此该法可处理多重共线性问题[10]。
在主成分分析中,如果大部分变量的共同度都高于0.7,说明提取的公共因子已经反映原变量的80%。共同度的大小衡量因子分析中提取的因子包含原始数据的信息量,因此本研究对相关性状主成分提取最终得到合理解释。
本研究通过3种判别方法确定亚麻部分性状间存在较严重的多重共线性关系,分别为亚麻部分性状的相关系数接近于1,可认为性状间存在多重共线性;在亚麻相关性状的多元线性回归分析中,决定系数很大(R2=0.99),但部分偏回归系数检验不显著,此时性状间可认为存在多重共线性;最后采用方差膨胀因子VIF判别分析得到,出苗数(X2)、收获株数(X3)、株高(X4)及工艺长度(X5)的膨胀因子VIF均接近10,说明这些性状间的多重共线性关系显著。因此,本研究确定亚麻相关性状存在显著多重共线性关系,有必要进行相关性状的主成分分析。
通常在作物性状分析中,采用多元线性回归方法分析结果较合理,性状间关系与现代农业理论相吻合。但亚麻性状存在关联,受到外界环境影响,大多多元线性回归分析的结果难以采用。多元线性回归分析结果不合理性可用主成分回归分析方法加以校正[11],这种方法能在一定程度上纠正不合理分析结果。但在少数情况下,试用主成分回归分析方法也难以改变不合理结果。本研究中通过多元线性回归分析法解释亚麻纤维积累的影响因素,对亚麻纤维产量进行合理综合评价。因此,主成分回归法可作为亚麻纤维产量综合方法。
4 结论
本研究将亚麻12个农艺性状进行较全面深层次分析,表明主成分回归分析能有效解决影响亚麻纤维产量综合评价各相关性状间存在多重共线性问题。当亚麻纤维产量相关性状明确后,即可用主成分回归分析法进行亚麻纤维产量综合评价。
[1]Wróbel-Kwiatkowska M,Kulma A,Starzycka E,et al.Improving retting of fiber through genetic modification of flax to express pec⁃tinases[J].Transgenic Research,2008,17(1):133-147.
[2]康庆华,关凤芝,王玉富,等.中国亚麻分子育种研究进展[J].中国农业科学,2006,39(12):2428-2434.
[3]吴广文.俄罗斯亚麻资源研究现状和进展[J].黑龙江农业科学,2008(2):148-149.
[4]李明,杨学.一种估测亚麻出麻率的简便方法[J].中国麻作,2001,23(1):9-10.
[5]王玉富,粟建光.亚麻种质资源描述规范和数据标准[M].北京:中国农业出版社,2006.
[6]唐启义,冯明光.使用统计分析及其DPS数据处理系统[M].北京:科学出版社,2002.
[7]Roweis S T,Saul L K.Nonlinear dimensionality reduction by lo⁃cally linear embedding[J].Science,2000,290:2323-2326.
[8]白志英,李存东,孙红春,等.小麦代换系抗旱性生理指标的主成分分析及综合评价[J].中国农业科学,2008,41(12):4264-4272.
[9]朱宗河,郑文寅,张学昆.甘蓝型油菜耐旱相关性状的主成分分析及综合评价[J].中国农业科学,2011,44(9):1775-1787.
[10]颜虹.医学统计学[M].北京:人民卫生出版社,2005.
[11]陈锋.主成分回归分析[J].中国卫生统计,1991,8(1):20-22.
Comprehensive evaluation of fiber yield in flax with principal compo⁃nent regression
WU Jianzhong
(Institute of Industrial Crops,Heilongjiang Academy of Agricultur- al Sciences,Harbin 150086,China)
The correlation analysis between the 12 agronomic traits of flax in this study,and the flax fiber production related significant agronomic traits are determined.Comprehensive evaluation for flax fiber production based on the principle of using principal component analysis to reduce the dimension related traits,yield-related traits of flax fiber multivariate linear regression analysis.The results showed that the principal component regression method ccould effectively eliminate the multiple correlation among characters of flax production in the comprehensive evaluation.The method can be integrated assessment of flax fiber production.This study provides a new idea and method for the comprehensive evaluation of crop yield.
flax;fiber yield;principal component regression analysis;comprehensive evaluation
S563.2
A
1005-9369(2014)11-0022-06
2014-07-10
国家麻类产业技术体系建设专项资金(CARS-19);国家农业部科技支撑计划基金(2013BAD01B03);国家自然科学青年基金(31401451);黑龙江省农科创新青年基金(2012QN009);哈尔滨市科技创新工程青年基金(2013RFQYJ010)
吴建忠(1983-),男,助理研究员,博士研究生,研究方向为亚麻遗传育种。E-mail:wujianzhong176@163.com
时间2014-11-21 16:40:03[URL]http://www.cnki.net/kcms/detail/23.1391.S.20141121.1640.009.html
吴建忠.主成分回归法对亚麻纤维产量的综合评价[J].东北农业大学学报,2014,45(11):22-27.
Wu Jianzhong.Comprehensive evaluation of fiber yield in flax with principal component regression[J].Journal of Northeast Agricultural University,2014,45(11):22-27.(in Chinese with English abstract)