APP下载

大约克体型性状的相关、聚类与主成分分析

2019-02-21王继英韩丽娟赵雪燕王彦平

养猪 2019年1期
关键词:臀围峰度特征向量

王继英,韩丽娟,王 诚,赵雪燕,王彦平,谭 江

(1.山东省农业科学院畜牧兽医研究所山东省畜禽疫病防治与繁育重点实验室,山东 济南 250100;2.青州市畜牧局,山东 潍坊 262500;3.潍坊江海原种猪场,山东 潍坊 262500)

体重、背膘和体尺等性状是衡量家畜品种、生产性能、发育、健康状况和结实性的重要指标,在家畜育种工作中有着重要意义。影响体型的各性状(下面简称体型性状)之间往往有着很强的相关性,为了明确它们之间的主次关系,可对其进行聚类和主成分分析。聚类分析是依据变量的性质和特征的相似程度将彼此相近的样本分在一类,而差异较大的分在不同的类。主成分分析是根据性状间的相关性,找出能反映主要信息的少数几个彼此独立的综合性状。聚类与主成分分析已经成为研究畜禽选育及各种生产性能指标分类的重要手段,在遗传育种方面有重要意义[1-3]。

目前对各体型性状的关系及其在育种中的联合应用尚缺乏较为系统的研究。本研究选取了一家国家核心育种场大约克后备猪多年的体重、背膘、体高、体长、胸深、胸宽、管围、臀围等8个性状测定数据,应用聚类和主成分分析的方法,分析各性状之间的关系,并把测定的多个体型性状进行分类,选出代表性的指标,为大约克今后选育中多个性状的综合利用提供了参考依据。

1 材料与方法

1.1 试验材料

试验所用资料来自潍坊某原种猪场2012—2017年生产性能测定的8 445头大约克猪,测定指标包括体重、背膘厚、体高、体长、胸深、胸宽、管围、臀围等8个性状。从中筛选出体重在80~130 kg范围内、各项指标测定完整的6 307头用于分析。

1.2 数据分析

1.2.1 各性状的统计性描述及偏度、峰度分析 从GBS育种软件中导出数据后,利用Excel表整理,保存为R语言识别的格式。利用R语言summary函数进行各性状描述性统计、moments包进行各性状峰度和偏度分析。

1.2.2 各性状的相关、聚类及主成分分析 背膘厚、体高、体长、胸深、胸宽、管围、臀围等性状的度量单位不同,通常不能在同一水平上进行比较分析。为此,首先利用R语言的scale函数对原始数据进行标准化处理,然后采用R语言Hmisc包的rcorr函数计算各性状间的皮尔逊相关系数(Pearson correlation coefficient)矩阵及P值,hclust函数对各性状进行聚类分析,princomp函数对各性状进行主成分分析(Principal Component Analysis,PCA)。

2 结果与分析

2.1 体型性状的表型参数统计

从表1可以看出,80~130 kg体重范围内,背膘厚的变异系数最大为27.36%,体尺各性状的变异系数均较低,变异范围在3.90%~6.32%。

偏度与峰度的衡量是相对于正态分布来说,正态分布的偏度与峰度为0。体重、背膘厚、体长、胸宽、管围偏度系数极显著大于0,呈右偏态分布;臀围偏度系数极显著小于0,呈左偏态分布;背膘厚、体高、胸深这3个性状峰度系数显著或极显著大于0,比正态分布更陡峭,体重和管围峰度系数极显著小于0,比正态分布更平缓。偏度与峰度分析结果表明本研究中大多数性状经过长期选择,性状的数据分布显著偏离正态分布。

2.2 体型性状间的相关分析

相关分析是一种对表型性状的直观分析,可以反映不同体型性状参数之间的关系以及相互影响。从表2可以看出,各性状间均存在正相关,且显著性检验表明均呈极显著正相关(P<0.01)。其中,体重与其它各体尺性状(体高、体长、胸深、胸宽、管围、臀围)间相关系数均很大(>0.5),与背膘的相关系数较低(<0.5);体尺性状间相关系数也较高,例如体长与体高、体长与管围的相关系数均大于0.6。

表1 各性状参数的统计性描述及偏度、峰度分析

表2 各性状间相关系数矩阵

2.3 体型性状间的聚类分析

以体型性状间欧几里德距离作为聚类指标,用系统聚类法中的离差平方和法对8个性状进行聚类分析,其聚类图详见图1。可以看出,聚类图直观地显示了各性状间的关系,8个体型性状聚为3类,其中,体长、体高、体重和胸深聚为类Ⅰ,臀围、胸宽和管围聚为类Ⅱ,背膘厚与其它性状相关最低,单独聚为类Ⅲ。聚类图与表2中各性状间的相关系数相一致,体长与体高、体重与胸深、胸宽和管围这3对最先聚在一起的性状间具有较高的相关系数。

图1 大约克体型性状的层次聚类树状图

2.4 体型性状的主成分分析

在众多的体尺性状中,由于各性状间彼此相关而造成的信息重叠,如何选择几个有代表性的性状作为选育指标,需进行主成分分析来确定。大约克8个性状主成分分析的特征根值、贡献率和特征向量见表3。特征根值的大小表示该主成分所含信息量的多寡,而特征向量则表示在某个主成分中各个性状所起作用的大小和性质。由表3可见,前4个主成分的特征根值较大,特征根值贡献率分别为53.71%、11.77%、10.77%和8.83%,前4个主成分的累计贡献率85.08%,满足主成分的累积贡献率≥85%的要求。取前4个主成分后,所丢失的信息量已很少,另外4个主成分可以舍去,达到降维的目的。

4个主成分分别用F1、F2、F3、F4表示,则表达式分别为:

F1=0.420 5X1+0.236 4X2+0.357 1X3+0.377 9X4+0.377 6X5+0.367 7X6+0.359 8X7+0.299 5X8

F2=0.017 2X1-0.268 4X2+0.520 8X3+0.363 4X4+0.134 9X5-0.443 9X6+0.031 9X7-0.555 1X8

F3=0.013 6X1+0.872 9X2-0.039 3X3-0.113 0X4+0.150 6X5-0.112 2X6-0.130 9X7-0.413 6X8

F4=0.202 0X1-0.058 9X2+0.264 4X3-0.298 2X4+0.431 9X5-0.266 8X6-0.634 7X7+0.369 3X8

根据主成分分析的原理,每个主成分都是由测定性状间的相关关系而重新构成的一组线性组合,它包含着所有原始性状,又突出一些相关密切的主要性状。前4个主成分每个均有独特的信息侧重,分别为体重因子、体高因子、背膘因子和胸深因子,详述如下。

第一主成分中各性状的特征向量符号相同,最大的是体重X1(0.420 5),称之为体重因子。其它性状的特征向量均与体重符号相同,该主成分值大的猪体重大,背膘厚度和体尺性状也会相应变大。

第二主成分特征向量较大的是体高X3(0.520 8),称之为体高因子。与体高特征向量符号相同的性状中,特征根值较大的有体长和胸深,而与体高特征向量符号相反的性状中,特征根值较大的有胸宽、臀围和背膘。该主成分值大的猪体型高,体长也长,但背膘薄、胸宽和臀围小。

第三主成分特征向量较大的是背膘X2(0.8729),称之为背膘因子;与背膘特征向量符号相同的性状只有胸深和体重,而其它性状的特征向量均符号与之相反。该主成分值大的猪背膘厚、胸深和体重值也大,但其它体尺性状值则低,尤其是臀围小。

第四主成分特征向量较大的是胸深X5(0.431 9),称之为胸深因子;与胸深特征向量符号相同的性状中,特征根值较大的有臀围、体重和体高,而其它性状的特征向量均符号与之相反。该主成分值大的猪胸深、臀围、体重和体高值大,而其它性状值则低。

表3 体型性状各主成分的特征根值、贡献率和特征向量

3 结论

本试验对6 307头大约克的体重、背膘、体高、体长、胸深、胸宽、管围、臀围等8个性状进行研究。结果表明,各性状间均存在极显著正相关(P<0.01),8个性状聚为3类,相关系数大的性状先聚在一起,背膘厚与其它性状相关最低,单独聚为一类。主成分分析的前4个主成分的累计贡献率85.08%,前4个主成分各有独特的信息侧重,分别为体重因子、体高因子、背膘因子和胸深因子。主成分分析结果表明,各主成分信息侧重不一,要选育出集诸多优良性状于一体的猪种比较困难。而根据主成分因子进行猪种的选择,建立某特征明显的专门化品系,然后利用专门化品系间的杂交繁育体系是切实可行的。

猜你喜欢

臀围峰度特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
克罗内克积的特征向量
扩散峰度成像技术检测急性期癫痫大鼠模型的成像改变
臀围松量对女裤裆部特征的影响分析与模型构建
随吟
三个高阶微分方程的解法研究
基于自动反相校正和峰度值比较的探地雷达回波信号去噪方法
延续护理对高血压患者的血压、腰围/臀围比的影响
浅析下肢动作对裙子结构设计的影响