猪基因组选择育种研究进展
2021-12-06邢文凯雷明刚
邢文凯,刘 建,刘 燊,王 闯,雷明刚*
(1.华中农业大学动物科学技术学院、动物医学院,湖北武汉 430070;2.江西正邦养殖有限公司,江西南昌 330096)
我国养猪历史悠久,经过不断发展我国养猪业产量持续增长,截至2019 年,我国生猪存栏数和出栏数分别占世界的55.78%和45.08%,位居世界之首。同时中国也是世界种猪进口大国,其原因在于大部分养殖企业难以长期有效地进行育种工作,导致我国种猪生产性能较低,且优秀种猪的生产性能无法长期维持[1-3],所以外来引种成为改善种猪生产性能的重要手段之一。
动物育种是一种在遗传水平上改良动物群体重要经济性状从而提高效益的方法,其关键点在于遗传优良个体选择的准确性[4]。在动物育种史中,育种方法的发展主要经历了3 个阶段:表型选育、最佳线性无偏预测法(Best Linear Unbiased Prediction,BLUP)[5]和标记辅助选择法(Maker Assisted Selection,MAS)[6]。全基因组选择法(Genomic Selection,GS)是指利用覆盖整个基因组的高密度SΝP 计算个体的基因组估计育种值(Genomic Estimated Breeding Value,GEBV)[7]。近年来,随着SΝP 分型技术不断发展,芯片检测的成本不断降低,计算方法不断丰富,全基因组选择迅速成为动物育种工作中的热点技术并且越来越多地应用到动物育种工作当中[8-9]。
本文主要从全基因组选择的步骤、分型技术和计算模型等方面进行综述,总结影响全基因组选择准确性的因素以及全基因组选择在猪育种中的优势和应用情况,对全基因组选择技术在我国猪育种中的应用提出建议和展望。
1 全基因组选择步骤
全基因组选择的流程包括参考群的建立、候选群体的选择2 个步骤。根据选择方法的不同,选择流程也有一定区别,大致可分为直接法和间接法。直接法在建立完参考群后,会结合基因型、表型值和系谱等信息,建立标记亲缘关系矩阵,结合特定的线性模型后计算出群体的综合选择指数;在第二步对候选群体的选择时,待选择个体的基因型和系谱信息也可以直接加入计算模型计算得出GEBV 和综合选择指数,从而进行个体的排序和选择。而间接法在第一步建立参考群时,通过结合个体的基因分型信息和性状表型值信息估计不同性状的SΝP 效应值,在第二步对候选群体进行基因芯片分型后,依据参考群体得到的SΝP 效应获得个体的GEBV,进而确定综合选择指数[10]。在应用全基因组选择技术时不管选择哪种选择方法,由于在计算过程中不需要候选群体的表型信息,所以可以在候选群体出生不久就对其进行选择,将世代间隔缩短,使选择准确性提高,从而提高群体的遗传进展[11]。
2 全基因组选择的SΝP 分型技术
2.1 高密度SΝP 芯片 SΝP 芯片技术由于其准确性高、灵活性强、通量大等特点被广泛应用于基因分型中,其原理是将目标DΝA 与固定在载体上的SΝP 寡核苷酸探针阵列进行特异性杂交反应,根据不同碱基杂交结合后其荧光强度的不同,从而达到识别目标DΝA 基因型的目的[12]。目前在猪品种中应用范围最广的SΝP 芯片有Ιllumina 公司的PorcineSΝP60v2 芯 片[13]和GeneSeek公司的PorcineSΝP80 芯片。在我国也有中国农业大学最新研发的CAUporcine55K 芯片和江西农业大学研发的“中芯一号”国产芯片,国产芯片与国外芯片相比在设计时加入了一些地方猪种的特异性SΝP 位点[1]。同时有研究表明,在使用不同密度SΝP 芯片进行全基因组选择时,芯片密度越高所获得的基因组估计育种值的准确性也越高[14],所以在企业在进行SΝP 基因分型时在条件允许的情况下可以选择密度更高的芯片;在国内应用全基因组选择技术时会面临国外芯片对地方猪种多态性较差的情况,这时选择使用国内自主研发的基因分型芯片将会有较好的效果。
2.2 简化基因组测序 简化基因组测序(Reduced-Repre sentation Genome Sequencing,RRGS)的原理是先将基因组序列通过限制性核酸内切酶切断,在每个酶切片段两端连上可以被特异性识别的接头序列,之后对每个片段进行选择扩增和测序从而得到基因组信息[9]。简化基因组测序的方法由Elshire 等[15]在2011 年首先提出,到目前为止,已经有多种简化基因组测序技术应用在基因分型工作中,包括RAD-seq(Restriction Site Associated DΝA Sequencing)[16]、GBS(Genotyping by Sequencing)[15,17]、2bRAD(Double Digest RAD-seq)[18]等,不同方法的区别主要在于是否在酶切片段两端进行接头连接或在PCR 扩增之后进行选择[19]。对猪育种而言,在使用GBS 分型技术进行基因分型后,不同品种或者群体中所获得的SΝP 位点通常都拥有较好的多态性,所以企业在进行区域间不同群体联合基因组选择育种或者对地方猪种进行基因组选择育种时可以考虑使用这一种基因分型技术。
2.3 全基因组重测序 全基因组重测序(Whole-Genome Sequencing,WGS)技术在使用时依赖动物的参考基因组信息,先得到个体的全基因组测序信息,再结合已知的参考基因组序列进行生物信息学对比分析,从而得到覆盖全基因组的SΝP 标记信息[20]。目前在使用WGS技术进行基因分型时一般选择低覆盖度重测序,将测序乘数设为0.5× 或者1×,以此来降低成本。随着WGS技术的不断发展和完善,WGS 技术分型准确性高的优势将会越来越明显,WGS 技术与全基因组选择技术结合将会对猪的育种工作做出巨大贡献。
3 全基因组选择的计算方法
2001 年Meuwissen 等[7]首次提出全基因组选择的概念,之后通过研究人员十几年的探究和实践,全基因组选择的选择模型和计算方法已经比较完善,而全基因组选择的计算方法主要是基因组估计育种值的算法,这些方法大致可以分成直接法、间接法和其他方法。
3.1 直接法 直接法是通过基因组信息构建的亲缘关系矩阵,结合线性混合模型来预测个体的GEBV[21]。直接法中最常用的2 种方法包括基因组最佳线性无偏估计法(Genome Best Linear Unbiased Prediction,GBLUP)[22]和 一步法(Single Step GBLUP,SSGBLUP)[23]。其中GBLUP法是将基于系谱构建的亲缘关系矩阵(A 矩阵)用全基因组亲缘关系矩阵(G 矩阵)来代替;SSGBLUP 法则是将GBLUP 法中的G 矩阵替换成H 矩阵,而H 矩阵是将亲缘关系矩阵和基因组关系矩阵合并到同一个模型当中,从而将系谱信息和基因型信息的结合在一起,进而对个体的GEBV 进行计算。
3.2 间接法 间接法通过结合参考群个体的基因分型信息和性状表型值信息估计不同性状的SΝP 效应值,在得到候选群个体的基因组信息后,根据参考群SΝP 的标记效应计算获得候选群的GEBV[24]。间接法主要包括最小二乘法、RRBLUP 法和Bayes 法,其中Bayes 法又包 括BayesA[7]、BayesB[7]、BayesC[25]、Bayes LASSO[26]等。其中不同方法的区别主要在于计算时SΝP 的效应和SΝP 的分布不同。
3.3 机器学习(Machine Learning)法 Machine Learning法是让机器模拟人类的认知过程来处理问题,不用预设基因交互作用模型,而是让计算机算法通过大量数据进行学习,以此获得处理高维非线性交互作用的能力。近年来,基于Machine Learning 的全基因组选择计算方法不断出现,如随机森林法、MKLMM(Multikernel Linear Mixed Models)法[27]和KAML(kinship Adjusted Multiple Loci BLUP)法[28]。其中KAML 法在2020 年首次提出并立刻成为全基因组选择方向的热点算法,其利用高速可并行的机器学习策略解析性状的复杂程度,机器学习过程整合了交叉验证、多元回归、网格搜索以及二分求极值等方法,智能化选择最佳预测模型、最可靠的协变量QTΝ、最优的亲缘关系矩阵,多方面优化模型以达到最理想的预测准确性。研究结果显示[28],KAML 具有与Bayes 方法近似的准确性,在部分性状上甚至表现更好,显著超过LMM 方法,但计算效率高于Bayes 方法30~100 倍。
3.4 计算模型的选择 在全基因组选择概念首次提出时,Meuwissen 等[7]比较了不同计算方法之间的准确性,其中BayesB 法准确性最高。Sun 等[29]比较了几种不同的计算方法后也得到了BayesB 方法准确性最高的结果,但BayesB 法的劣势在于相比其他方法计算时间较长。而Lee 等[30]在对韩国杜洛克使用BayesB 和BayesC 法进行全基因组选择时发现2 种方法的选择准确性大致相同。在国内也有不少研究人员对不同计算方法的准确性做出了对比。Wang 等[31]对比Bayes LASSO 和GBLUP 法对山羊体重全基因组选择计算的准确性发现,GBLUP 法相比Bayes LASSO 法准确性更高,计算时间也更短;Yin 等[32]对比了传统BLUP 法、直接法和间接法对后代的选择效果,发现全基因组选择法对后代的选择准确性显著高于BLUP 法,同时间接法准确性高于直接法,但是经过改进的GBLUP 法准确性与间接法相似,不过间接法的计算时间更长;Peng 等[33]在对比不同方法对全基因组选择准确性后得出SSGBLUP 法适用于中、高等遗传力性状,低等遗传力可以选择BayesA法。总之,没有适用于所有性状的最优方法,在对不同动物、不同性状应用全基因组选择时应该选择不同的计算模型,灵活运用,找出最适合的方法。
4 影响全基因组选择准确性的主要因素
全基因组选择的准确性受多个因素影响,选择的准确性可以由性状的GEBV 值准确性来体现。
4.1 参考群规模大小 参考群的规模是影响GEBV 的重要因素之一。Hayes 等[34]和van Raden 等[35]的研究都表明,参考群体的数量会影响全基因组选择的准确性。Haberland 等[36]研究认为,在对猪进行全基因组选择时参考群的大小应大于1 000 头才能达到较好的准确性。因此,参考群体的数量越大基因组选择的准确性会越高。
4.2 遗传力的高低 研究表明,随着遗传力升高,在进行全基因组选择时其GEBV 的准确性也越高[37]。相对于高遗传力性状,低遗传力性状可以增大参考群数量来提高选择准确性[38]。
4.3 SΝP 密度和数量 使用SΝP 标记的密度和数量可以影响SΝP 与控制表型的主效基因处于高度连锁不平衡(Linkage Disequilibrium,LD)的程度,当SΝP 标记密度越高、数量越大,SΝP 标记与QTL 连锁不平衡的可能性就越高,与影响目的性状基因的LD 值也越高[39],全基因组选择的准确性也会提高。
4.4 参考群和候选群的遗传联系 在候选群体应用全基因组选择技术时依靠参考群体得出的遗传参数进行计算选择,所以参考群与预测群体间遗传距离也将影响选择的准确性。研究表明参考群和候选群世代间隔数越小,准确性越高,当二者间隔在1~2 代时预测效果较好[40]。
4.5 参考群的更新 全基因组选择的选择效率随着世代的增加而降低,因此在进行2~3 个世代的基因组选育之后必须重新估计参考群的遗传参数才能保持其选择准确性。在实际育种进程中,有基因型信息的候选群体得到表型信息之后,可以加入参考群体进行群体的更新,以提高GEBV 估计的准确性[41]。
5 全基因组选择在猪育种中的优势
目前,在猪育种工作中使用的BLUP 法和MAS 法等常规育种手段已经极大地促进了猪的育种和生产工作,但与常规育种手段相比,全基因组选择技术具有无法比拟的优势。
5.1 提高性状的选择准确性 由于全基因组选择技术是在整个基因组范围使用SΝP 作为标记,能够捕获基因组中全部的遗传变异,并且可以通过更加准确地估计个体之间的亲缘关系来提高选择性状的育种值估计准确性,尤其是那些低遗传力性状(如繁殖性状)和难以进行测定的性状(如胴体性状),从而加快遗传进展。
5.2 实现早期选择 在参考群建立完毕后,对早期出生的仔猪个体进行基因分型,结合参考群得到的信息可以计算出初生仔猪的GEBV,可以在提高选择准确性的前提下对仔猪进行早期选择,减少测定的数量和成本。
5.3 保持遗传变异 在得到群体的基因组信息后,通过系谱纠偏和亲缘关系的梳理,解析群体中个体间基因组亲缘关系,可以为后期种猪的选种选配提供参考依据,降低群体间的近交数量,从而保持整个群体的遗传变异。
6 全基因组选择在猪育种中的研究应用
从全基因组选择概念首次提出之后,随着芯片技术快速发展,芯片成本的降低,全基因组选择技术已经广泛应用于动物育种工作中,奶牛、肉牛、羊、家禽和猪的全基因组育种工作不断推进并取得一定的进展。在猪育种领域当中,繁殖、生长、胴体等性状都是基本的研究方向,而繁殖和生长性状是猪基因组选择中首要考虑的两大类性状[42],生长性状与父系种猪的性能息息相关,繁殖性状对于各个商品场的经济效益更是重中之重。目前大部分知名的育种公司都已经建立起自己的基因组选择育种体系,并将基因组选择育种当做一种常规育种的手段进行实施。DanBred 公司从2011 年起在其育种核心群对杜洛克、大白和长白三大猪群实施基因组选择育种,每年测定10 000 头个体基因型,年遗传进展提高25%;TOPΙGS 公司在2011 年开始对公猪实施基因组选择育种,2012 年对母猪开始使用实施基因组选择育种,使遗传进展提高30%;PΙC 从2012 年开始尝试使用全基因组选择技术,从2014 年正式应用基因组选择技术之后相比传统育种方案提高了40%的遗传进展[43]。在我国则由温氏集团率先开展猪基因组选择育种技术的应用并在2013 年选育出了1 头杜洛克特级种公猪[44]。
6.1 全基因组选择在父系猪中的研究应用 在进行猪育种的过程中,父系猪的生长性状和胴体性状是人们主要关注的经济性状,由于生长性状和胴体性状属于中高等遗传力性状并且性状容易测定得到,所以在应用基因组选择技术时也具有一定优势。2009 年以来猪不同性状的全基因组选择技术应用逐渐普及,国际上许多知名育种公司和研究人员都开展了猪的全基因组选择育种工作,Christensen 等[45]对2 668 头丹麦杜洛克的生长性状进行全基因组选择后发现,全基因组选择育种比常规育种的准确性高。Tribout 等[46]在对父系猪应用不同的育种方案后发现在生长速度、背膘厚度、肉品质和饲料利用率等方面的基因组选择比传统选择方法对性状的遗传进展提升高 27%~33%。Akanno 等[47]利用基因组选择和RRBLUP 法对平均日增重和背膘厚的遗传进展有很大促进作用,并且利用高密度芯片可以降低连锁不平衡对性状的影响。Tage 等[48]建立了一个1 375 头的杜洛克猪参考群并对536 头猪的日增重和饲料转化率的进行全基因组选择计算分析,结果显示日增重和饲料转化率的选择准确性相比普通育种方法都有提高,准确性分别介于0.50~0.58 和0.39~0.45。Zhang 等[49]研究发现,在早期选择时进行全基因组选择分析对达 100 kg 日龄、达100 kg 背膘厚的选择准确性较普通BLUP 法分别提高了10%和14%,并且在性状测定结束后选择准确性还会进一步增加。
6.2 全基因组选择在母系猪中的研究应用 相比生长性状,母猪繁殖性状的遗传力普遍较低,这些性状的遗传进展比较缓慢,并且经过长期的育种工作各个品种的母系猪繁殖性能已经比较优异,但在繁殖性状中应用基因组选择可以更准确地选择候选个体并降低研究群体的近交水平[50],同时可以准确估计没有表型记录的候选群体的育种值[7]。2011 年Forni 等[51]应用SSGBLUP 法预测母猪产仔数性状的平均准确性为0.28~0.49,相比传统育种准确性(0.22)有显著提高。Guo 等[52]对产仔数等性状进行选择时发现,一步法、GBLUP 法预测准确性平均为0.171 和0.209,而传统BLUP 法准确性平均为 0.091。Lillehammer 等[53]对一个群体持续不断地进行全基因组选择选育后,将该群体母猪繁殖性状的遗传进展从16% 提高到了32%,并且在对后代进行基因组育种工作时,同时检测2 头公猪的基因型可以降低近交率而使繁殖性状对总遗传进展的贡献更大。Zhang等[49]对总产仔数这一性状进行全基因组选择分析也发现,与传统方法比,一步法使结果准确性提升19% 并且低遗传力的性状提高幅度更高。Guo 等[54]在对不同品系大白猪的总乳头数进行全基因组遗传评估时发现,GBLUP 法计算出的GEBV 准确性高于普通BLUP 法,并在设计的4 个模型中确定了适合大白母猪总乳头数选择的最优选择模型。
从以上全基因组选择技术在猪育种中的研究和应用情况可以看出该技术所具有的优越性,普及全基因组选择技术的应用可以对我国种猪育种工作作出巨大贡献。另外,全基因组选择技术的普及也存在一定的阻碍。由于育种成本和育种体系不完善等原因,大多数猪育种公司的生长性状测定值只有平均日增重、达100 kg 日龄和背膘厚等,测定性状偏少可能会导致基因组选择效果不佳,所以各个企业可以在确保测定结果准确的前提下适当加入更多性状来提高选择准确性。全基因组选择也为遗传力较低的繁殖性状提升提供了新的可能性,但为了提高选择结果的准确性可以在对母系猪应用全基因组选择技术时适当增加参考群体的规模。
7 建议与展望
与目前常规的育种方法相比,全基因组选择技术具有无法比拟的优势,随着高通量测序技术的发展和芯片分型成本的下降,全基因组选择技术将会更多的应用在国内种猪育种工作当中。鉴于此,提出以下几点建议与展望:①育种人员需要规范地进行性能测定和系谱记录,确保数据的准确性,同时参考群体的数量也要达到足够的规模。这是整个全基因组选择的第一步,如果数据准确性和参考群数量达不到要求,全基因组选择技术的效果也会大打折扣。②国内企业和育种公司在应用全基因组选择技术时要明确选育方向和目标,并且对不同品种进行选育时制定不同的策略,争取选育出符合企业自身利益和要求的品种。③现在国内大部分企业在实施全基因组选择技术时都是采用“企业+高校+基因分型公司”的合作体系,企业可以尽快将全基因组选择育种与常规种猪育种流程相结合,加快全基因组选择技术在种猪育种中的应用。④建立猪全基因组选择联合育种体系。由于目前全基因组选择技术的成本较高,并且每个群体在实施基因组选择育种时都需要建立一个单独的参考群,企业在实施猪全基因组选择育种工作时可以考虑将具有遗传联系的多个群体联合建立参考群,或者有目的地在多个养殖场建立有遗传联系的核心群体,最终实现更准确的遗传评估和更快的遗传进展,同时还能有效降低全基因组选择育种成本。虽然猪全基因组选择育种技术尚不如在奶牛中的应用普遍,但随着全基因组选择技术的不断发展和完善,种猪育种必将会进入基因组育种的新时代,国内的育种公司应该把握住这一次机遇,为中国种猪育种的发展和进步做出贡献。