基于GBLUP和BayesB方法对肉鸡屠宰性状基因组预测准确性的比较
2022-01-14朱墨郑麦青崔焕先赵桂苹刘杨
朱墨, 郑麦青, 崔焕先, 赵桂苹✉, 刘杨
1南京农业大学动物科技学院动物繁育系,南京 210095;2中国农业科学院北京畜牧兽医研究所/动物营养学国家重点实验室,北京 100193
0 引言
【研究意义】畜禽的重要经济性状大多是遗传结构复杂的数量性状。常规的畜禽育种工作中,利用性状的表型记录值和系谱信息来计算个体之间的亲缘关系,通过最佳线性无偏预测(best linear unbiased prediction, BLUP)进行个体育种值(estimated breeding value, EBV)的估计,然后再进行排序、选择[1]。随着分子遗传学的发展,微卫星、限制性片段长度多态性(restriction fragment length polymorphism, RFLP)、单核苷酸多态性(single nucleotide polymorphism,SNP)等分子标记被开发出来,并用于动物育种,称为标记辅助选择(maker assisted selection, MAS)[2]。然而,畜禽的大部分重要经济性状受微效多基因控制,少数的几个标记解释的遗传变异十分有限,限制了标记辅助选择在畜禽育种中的应用[3]。2001年,MEUWISSEN等提出了基因组选择的概念[4],其核心思想是利用覆盖全基因组的标记进行基因组育种值估计,结合表型记录和系谱信息进行选择。相比标记辅助选择,基因组选择利用了覆盖全基因组的标记,可以更好地解释表型变异[5-6]。基因组育种值估计是基因组选择的核心内容。根据使用的统计模型的不同,可以将基因组育种值的计算模型分为直接法和间接法,直接法模型利用参考群体和预测群体的标记信息构建个体间的亲缘关系矩阵,并将关系矩阵代入混合模型方程组,通过求解混合模型方程组的方式获得个体的基因组育种值,如GBLUP[7]、SSGBLUP[8]等方法;间接法模型利用参考群体估计标记效应,在预测群体中将标记效应累加,进而直接获得个体的基因组育种值,间接法模型的代表主要是贝叶斯类模型,MEUWISSEN在提出基因组选择理论的同时也提出了两种贝叶斯方法:BayesA[4]和 BayesB[4],随后,一系列改进的贝叶斯法,如BayesC[9]、BayesCπ[9]、BayesDπ[9]和 BayesLASSO[10]等陆续被提了出来。【前人研究进展】作为重要的农业动物,鸡的基因组草图于2004年率先发布[11]。随后,鸡的60 K和600 K芯片相继开发问世[12]。中国农业大学和中国农业科学院也推出了适合我国地方品种蛋鸡50 K和肉鸡55 K芯片[13],极大地促进了基因组选择技术在家禽上的应用。ZHANG等利用BLUP、GBLUP和BLUP|GA对中国地方鸡生长和屠宰性状的基因组育种值预测,结果发现,BLUP|GA的表现最佳[14]。LIU等在三黄鸡的生长和屠宰性状的研究中发现,在GBLUP、BayesLASSO和BayesMix4模型之间并没有显著的差异[15]。WOLC等在对蛋壳质量的基因组选择研究中发现,多性状的一步法模型的表现最优[16]。【本研究切入点】屠宰性状是肉鸡的重要经济性状。但是,屠宰性状不能直接活体测量,只能在肉鸡屠宰后才能测量,或者通过间接测量其他性状的手段测量。使用间接测量的表型数据进行育种值的估计,会导致估计的结果不够准确,进而影响到个体的准确选择。近些年来,已经出现了许多关于肉鸡的基因组选择研究,但是,关于屠宰性状基因组选择研究鲜有报道[17-19]。【拟解决的关键问题】在家禽育种中,基因组选择主要是为了提高育种值估计的准确性。本研究为探讨肉鸡屠宰性状基因组选择的准确性,基于不同的模型和假设估计白羽肉鸡屠宰性状的基因组估计育种值(genomic estimated breeding value, GEBV),采用世代验证的方法评估预测结果的准确性,第5、6世代作为参考群,第 7世代作为验证群,为白羽肉鸡的育种中育种值估计的策略提供依据。
1 材料与方法
1.1 试验动物
试验动物群体来自广东新广农牧股份有限公司的白羽肉鸡祖代父系群体(B系)第5到7世代,共计3 362只,来源于227只公鸡和1 305只母鸡的后代。在42日龄时屠宰,记录胸肌重(breast muscle weight,BrW)、屠体重(carcass weight, CW)、腿肌重(thigh muscle weight, ThW),计算胸肌率(breast muscle rate,BrR)、腿肌率(thigh muscle rate, ThR)。对表型数据进行预处理,删除表型的缺失值和异常值(平均值±3倍标准差)。利用R语言中的GLM函数校正表型数据的世代、性别和批次效应。以上5个性状的描述性统计量见表1。
表1 各屠宰性状的描述性统计Table 1 Descriptive statistics for each carcass trait
1.2 基因型数据的获取与质控
1.2.1 基因组 DNA的提取及分型 采用常规酚-氯仿抽提法提取血样基因组DNA,使用NanoDrop 2000核酸分析仪检测 DNA的浓度和质量。质检合格后的DNA样品送至北京康普森生物技术有限公司,使用与中国农业科学院北京畜牧兽医研究所联合研发的“京芯一号”鸡 55 K SNP芯片进行基因分型[13]。
1.2.2 基因型数据的质控 采用 PLINK (V1.90) 软件对芯片的基因型数据进行质量控制[20]。质量控制的条件如下:1)保留样本检出率大于90%的个体;2)保留SNP检出率大于90%的位点;3)保留次要等位基因频率大于5%的SNP位点。芯片经过质控后,保留3 314个样本和42 104个SNP用于后续分析。
1.3 基因组选择的统计模型
1.3.1 GBLUP模型
式中,y是性状的表型值向量;b是固定效应的向量;u是加性遗传效应向量,服从正态分布:u~N(0,Gσ2 u);e是随机残差效应向量,服从正态分布:e~N(0,Iσ2 e);X和Z分别为对应的设计矩阵。
1.3.2 BayesB模型
式中,y是性状的表型值向量;b是固定效应的向量;Zi是第i个位点的基因型(0/1/2);gi是第i个位点的效应值;e是随机残差效应向量;X是对应的设计矩阵。BayesB 方法引入了一个SNP效应指示变量π,假设大部分无效应(比例为 π),只有一小部分标记有效应(比例为 1-π),且这一部分有效应的方差服从逆卡方分布[4]。本研究中,使用基于 R 语言的BGLR 包进行 BayesB 预测,设置蒙特卡洛马尔科夫链(Markov chain monte carlo, MCMC)长为20 000,burn in 为 10 000,π 值为 0.95。
1.4 基因组选择准确性的分析方法
本研究采用世代验证法来评估基因组选择的准确性。采用第5和6世代的群体作为参考群体,第7世代的群体作为验证群体。本研究使用基因组估计育种值(GEBV)与校正了世代、性别、批次后的表型(y*)的皮尔逊相关系数作为基因组选择准确性的评价指标。本研究中,对每个性状的验证进行20个重复。
2 结果
2.1 白羽肉鸡B系屠体性状的遗传力估计
胸肌率、胸肌重、屠体重、腿肌率和腿肌重的描述性统计量汇总于表 1。分别使用基于系谱构建的亲缘关系A矩阵和基于全基因组SNP信息构建的亲缘关系G矩阵,采用平均信息约束最大似然算法(average information restricted maximum likelihood, AIREML)估计加性遗传方差和残差方差,本研究中的方差组分使用ASReml 4.1.0 软件进行估计[21]。基于系谱构建的A阵估计BrR、BrW、CW、ThR和ThW的遗传力均高于基于基因组SNP信息构建的G阵估计BrR、BrW、CW、ThR和ThW的遗传力。各性状的遗传力估计结果见表2。
表2 各屠宰性状的遗传力估计Table 2 Results of heritability for each carcass trait
2.2 白羽肉鸡 B系屠宰性状基因组选择不同模型间比较
2.2.1 白羽肉鸡B系胸肌率、胸肌重的世代验证 采用世代验证法,使用 GBLUP 和 BayesB 方法对BrR 和 BrW 进行基因组预测分析,采用GEBV与y*的皮尔逊相关系数作为基因组选择准确性的评价指标。两种方法对 BrR 的预测准确性分别为 0.3262、0.3765。两种方法对 BrW 的预测准确性分别为0.2871、0.2257。准确性的结果见表3。由结果可以看出,在对 BrR 的基因组育种值估计准确性上,BayesB方法估计的准确性要高于 GBLUP 方法估计的准确性;而在对 BrW 的基因组育种值估计准确性上,GBLUP 方法估计的准确性要高于 BayesB 方法估计的准确性。
2.2.2 白羽肉鸡 B系屠体重的世代验证 采用世代验证法,使用 GBLUP 和 BayesB 方法对 CW 进行基因组预测分析,采用GEBV与y*的皮尔逊相关系数作为基因组选择准确性的评价指标。两种方法对 CW的预测准确性分别为 0.2780、0.1376。准确性的结果见表3。由结果可以看出,在对 CW 的基因组育种值估计准确性上,GBLUP 方法估计的准确性要高于BayesB 方法估计的准确性。
2.2.3 白羽肉鸡B系腿肌率、腿肌重的世代验证 采用世代验证法,使用 GBLUP 和 BayesB 方法对ThR和ThW进行基因组预测分析,采用GEBV与y*的皮尔逊相关系数作为基因组选择准确性的评价指标。两种方法对ThR的预测准确性分别为0.2153、0.2525。两种方法对 ThW 的预测准确性分别为0.2126、0.2844。准确性的结果见表 3。由结果可以看出,在对ThR和ThW的基因组育种值估计准确性上,BayesB方法估计的准确性要高于 GBLUP方法估计的准确性。
表3 各屠宰性状基于GBLUP和BayesB方法的世代验证结果Table 3 Results of generation validation based on GBLUP and BayesB method for each carcass trait
3 讨论
本研究系统探讨了基于不同模型对白羽肉鸡屠宰性状的遗传评估,屠宰性状的遗传力估计结果与先前的研究基本一致[14-15,22]。基于系谱构建的亲缘关系A矩阵估计的遗传力高于基于全基因组SNP信息构建的亲缘关系 G矩阵估计的遗传力。可能的原因是基因组信息可以反映系谱记录中无法体现的基因的同源状态,更真实地反映个体之间的遗传关系[7]。有研究发现,由于个体之间相似的环境组分,使得加性遗传方差的估计值升高,从而导致遗传力的过高估计[23]。因此,使用基于全基因组标记进行遗传评估相较于系谱记录,可以排除环境效应的影响,估计结果更加准确[24-25]。
本研究系统探讨了GBLUP和BayesB方法对白羽肉鸡屠宰性状进行基因组预测的效果。研究发现,基因组预测的准确性与性状的遗传力大致呈正相关。使用GBLUP方法和BayesB方法时,预测准确性最高的性状均是胸肌率。对于胸肌率、腿肌率和腿肌重,BayesB方法的基因组预测准确性高于GBLUP方法;对于屠体重和胸肌重,GBLUP方法的预测准确性高于BayesB。BayesB 方法引入了一个SNP效应指示变量π,假设大部分无效应(比例为π),只有一小部分标记有效应(比例为1-π),且这一部分有效应的方差服从逆卡方分布[4]。本研究中,除了在对屠体重的预测外,BayesB方法的预测准确性均高于GBLUP方法的结果,可能是由于BayesB方法的模型假设更加符合数量性状的微效多基因理论,但BayesB方法预测的偏差与GBLUP方法相比较大,这需要在后续研究中继续探讨。ZENG等研究发现,贝叶斯方法在性状的遗传结构未知时优于 GBLUP[26]。TENG等在对一个杂交鸡群体生长性状的基因组预测发现,BayesB方法优于GBLUP方法[27]。因此,基因组选择的计算模型没有绝对的标准,要根据目标性状的遗传结构来具体选择。
畜禽的育种工作注重时效性,计算效率是基因组选择在实际生产中应用时需要考虑的一个重要因素。贝叶斯模型的参数求解过程通过蒙特卡洛马尔科夫链(Markov chain monte carlo, MCMC)过程,采用高强度的吉布斯(Gibbs)抽样,往往需要经过上万次迭代,且无法并行计算,这常常限制了贝叶斯类的方法在育种中的应用,使得基于混合线性模型的方法(GBLUP为代表)在基因组选择中的应用最为广泛。但是,基于混合线性模型的方法的预测准确性要低于贝叶斯类模型[9]。在一些研究中,将最显著的SNP或验证过的QTL加入混合模型作为协变量来提高预测准确性,然而这些SNP或QTL解释的表型方差有限,可能会导致假阳性的结果[28-29]。还有研究者通过对SNP进行加权,构建性状特异性的亲缘关系矩阵,也能在一定程度上提高混合线性模型基因组预测的准确性[30-32]。然而,这些SNP的效应很容易被干扰。本研究中,BayesB方法的计算时长远远大于GBLUP方法(图 1),但是BayesB方法的预测准确性显著高于GBLUP方法。而且,对于3 000的样本量和55 K 的标记密度,BayesB的计算时间大约为7 h,尚在可接受的范围。在实际的育种中,使用低密度芯片数据,在样本和标记数量都不是十分庞大的情况下,为了提高基因组育种值预测的准确性,使用贝叶斯方法进行基因组育种值的估计是可行的方案。
4 结论
本研究使用GBLUP和BayesB两种方法对白羽肉鸡胸肌率、胸肌重、屠体重、腿肌率和腿肌重 5种屠宰性状进行了基因组选择分析。研究发现,基因组选择的准确性与性状的遗传力大致呈正相关。使用GBLUP和BayesB方法时,预测准确性最高的是胸肌率。对于胸肌率、腿肌率和腿肌重,BayesB方法的预测准确性均高于GBLUP方法;对于屠体重和胸肌重,GBLUP方法的预测准确性高于BayesB。但是,BayesB方法的计算时间要长于GBLUP方法。在实际的育种工作中,需要综合考虑育种值估计的准确性和育种的时效性来决定用何种方式估计基因组育种值。