我国奶牛基因组选择技术应用进展
2023-10-29孙东张张桂香刘丑生郑伟杰
孙东张 勤,李 姣,张桂香,刘丑生,郑伟杰
(1.中国农业大学动物科技学院,北京 100193;2.山东农业大学动物科技学院,泰安 271018;3.全国畜牧总站,北京 100125)
在以人工授精为主导技术的奶牛育种体系中,一头种公牛每年可承担一万头以上母牛的配种,种公牛对奶牛生产水平的贡献率在75%以上,因此种公牛培育是奶牛育种的核心工作。常规后裔测定的世代间隔为5~6年,尽管准确性高,但育种进程缓慢且成本高。基因组选择(genomic selection,GS)是最新一代的育种技术[1-2],可以实现不依赖表型信息对个体进行早期准确选择,从而大幅度缩短世代间隔,加快群体遗传进展[3]。因此,GS技术最早在奶牛育种得到广泛应用。2001年,Meuwissen等[4]首次提出基因组选择的概念,其基本思想是利用覆盖个体基因组的大量分子标记信息评估个体种用价值并选择遗传优良个体。2006年,Schaeffer[5]基于加拿大荷斯坦奶牛群体,测算出实施基因组选择可以节省约92% 的育种成本。2007年,首款商业化奶牛50K SNP芯片(Illumina)研发成功[6-7]。2009年1月,美国荷斯坦协会率先官方发布荷斯坦青年公牛的基因组预测传递力(genomic predicted transmitting ability,GPTA)并将之应用于早期选择[8],标志着奶牛育种进入基因组选择时代。之后,世界各国陆续在奶牛育种中应用该技术[9-11]。2012年,我国正式启动荷斯坦青年公牛基因组遗传评估工作[12-14]。
1 基因组选择技术的基本原理与方法
在畜禽基因组中存在大量的SNP位点,利用这些高密度的分子标记,可以直接或间接地捕获影响育种目标性状的所有基因信息[15-19]。基于此,GS的基本方法是:1)构建一定规模的参考群体(或称训练群体),参考群中个体需要有基因型信息和可靠性较高的表型信息;2)利用基因芯片对待测群个体进行基因型测定;3)建立基因组育种值估计模型或 SNP 效应估计模型;4)统计参考群和待测群信息,估计待测群个体的基因组直接育种值(direct genomic value,DGV);5)在奶牛育种中,进一步加权整合系谱指数(pedigree index, PI)和DGV信息计算基因组育种值(genomic estimated breeding value, GEBV)[15-16];6)依据各国制定的选育目标,计算个体综合选择指数,以此作为选择依据来指导奶牛育种工作[3]。如图1所示,其中,3个关键技术环节为:对基因组标记的高通量准确测定方法、足够大的高质量参考群体及高效可靠的GEBV估计方法[4]。
图1 奶牛基因组选择的基本过程示意图Fig.1 Schematic diagram of the basic process of genomic selection for dairy cattle
基因组选择的优势主要体现在:1)利用高密度标记可以捕获基因组的全部或大部分遗传变异,可以获得较高的选择准确性,尤其对低遗传力性状的选择具有重要意义[8,20-26];2)可以不依赖表型信息对个体进行早期准确选择。在奶牛育种中,这意味着对种公牛的选择可以不经过5~6年的后裔测定周期,从而大幅缩短世代间隔,加快遗传进展,并大幅降低育种成本;3)对于表型难以测定的性状(如抗病性状、肉质性状、饲料利用率等),相比传统的选择方法,基因组选择更为高效准确[27]。
2 国际奶牛基因组选择现状
自2009年始,基因组选择就陆续在各奶业发达国家的奶牛育种中大规模应用,现已广泛应用于青年公牛早期选择,近几年也开始用于后备母牛的选择。各国既有各自的基因组评估体系及综合选择指数,同时国际间也联合构建参考群体(表1),用于快速持续扩大参考群体规模(国际公牛组织, https:∥interbull.org)。
表1 主要奶业国家的基因组选择体系主要信息
2.1 北美奶牛基因组选择概况
美国的奶牛基因组遗传评估工作由奶牛育种委员会(Council on Dairy Cattle Breeding, CDCB)组织执行。2009年1月,美国官方发布了荷斯坦青年公牛的基因组遗传评估结果,成为最早开展奶牛基因组选择的国家,其基因组选择技术体系相对成熟,同时也是应用最为成熟、遗传进展最快的国家[28]。近几年,GS技术在美国商业化牧场的母牛群体中应用也越来越多。截至2023年5月,CDCB数据库已经拥有600万头荷斯坦母牛的基因组芯片数据,为胚胎供体选择、种子母牛筛选及犊牛淘汰、选种选配、遗传缺陷基因筛查和错误系谱矫正提供了重要依据。CDCB每月进行1次遗传评估并提供给育种公司和牧场,荷斯坦公牛使用80K高密度SNP芯片数据,产奶性状的评估准确性已达到80%,繁殖、健康和长寿性状的准确性为59%~77%;而母牛通常采用10K等低密度芯片,以降低大群体的检测成本。
美国和加拿大合作,构建了联合荷斯坦奶牛基因组选择参考群体,以提高基因组评估准确性[29]。目前,该参考群规模已达到4.2万头荷斯坦验证种公牛和40多万头母牛。其中,包括意大利和英国等国家的少部分公牛和母牛(国际公牛组织,2022)。超大规模的基因组参考群使得美国奶牛基因组选择应用效果显著,其基因组选择准确性远高于传统评估准确性(表2),显著加快了奶牛群体遗传进展(图2)。当前,美国荷斯坦奶牛的主要选育性状有13个,包括乳蛋白量、乳脂量、饲喂效率、体型评分、乳房综合指数、肢蹄综合指数、生产寿命、健康性状指数、奶牛生存力、体细胞评分、繁殖力指数、女儿产犊易产性(难产率)和女儿产犊死胎预期传递力。近年来,随着育种理念的进步及市场需求的变化,美国综合性能指数(total performance index, TPI)在奶牛健康与繁殖性状上权重有逐步加重的趋势。其它乳用品种也应用基因组选择技术,包括娟姗牛、更赛牛、爱而夏牛、乳用短角牛等,但参考群体规模仍然很小。
数据来自CDCB,2023年5月Data from CDCB, May 2023图2 美国荷斯坦奶牛产奶量性状的遗传进展Fig.2 Genetic progress for milk yield trait in Holstein cattle in the United States
2.2 欧洲和澳洲奶牛基因组选择概况
欧洲的奶业发达国家众多,奶牛养殖育种历史久远。2010年,由于受到各自参考群体规模小的限制,包括德国、法国、丹麦、瑞典、荷兰、芬兰和比利时在内的7个欧洲国家组建了基因组选择联合参考群体(EuroGenomics)[30-31],成功克服了单一国家参考群体规模有限(尤其是优秀验证公牛的后裔测定成绩积累)的难题,目前参考群规模达到4万多头验证公牛和几十万头母牛。基于此,北欧7国各自开展本国奶牛基因组育种,分别由荷兰奶牛育种公司(CRV)、VIT德国奶牛数据中心、法国GenEval公司及北欧(丹麦、瑞典、芬兰)遗传评估中心负责。英国、意大利、波兰等国家未参与欧洲联合基因组选择体系。欧洲7国的 EuroGenomics 合作项目使得各国的参考群规模得到极大提高,其 GEBV 可靠性提升了约10%,极大地提升了欧洲在奶牛育种方面的竞争优势。此外,欧洲各国根据实际国情制定了不同的选育目标,但基本均包含产奶性状(乳蛋白率、乳脂率)、健康性状(体细胞评分)、体型性状(肢蹄评分、乳房评分)、繁殖力性状(繁殖力、产犊难易)和长寿性状。目前,基因组选择技术已广泛应用于各国青年公牛、后备母牛的早期选种及选种选配。
新西兰和澳大利亚是澳洲主要的奶牛养殖国,分别于2008年、2011年开始基因组遗传评估[10],分别由新西兰家畜遗传改良公司(Livestock Improvement Corporation,LIC)及澳大利亚合作研究中心(Cooperative Research Centers Program,CRC)和初级产业部(Department of Primary Industries)负责,每年官方公布2次基因组评估结果。与主要欧美奶业发达国家相比,新西兰和澳大利亚参考群体规模较小,仅包含2 626头荷斯坦公牛、1 639头娟珊公牛和642凯威公牛,其主要选育性状有乳脂率、乳蛋白率、产奶量、体细胞评分、体重、繁殖力和产犊难易性状。
3 我国奶牛基因组选择技术平台的建立及应用
2008年,受农业农村部和中国奶业协会委托,中国农业大学奶牛育种团队在张沅教授、张勤教授带领下,启动我国奶牛基因组选择研究[32],于2012年1月成功构建了中国荷斯坦牛基因组选择分子育种技术平台并被农业农村部指定为我国荷斯坦青年公牛遗传评估的唯一方法[12-16,33-36]。该平台主要包括:构建了我国唯一的奶牛基因组选择参考群;研发了TA-BLUP等基因组育种值预测方法[37];提出了基因组性能指数(genomic China performance index,GCPI)。2012年5月,经农业农村部组织部署,我国全面启动荷斯坦青年公牛基因组遗传评估工作,截至目前已累计评估4 509头。2016年,“中国荷斯坦牛基因组选择分子育种技术体系的建立与应用”项目获国家科技进步二等奖(完成人:张勤,张沅,孙东晓,张胜利,丁向东,刘林,李锡智,刘剑锋,刘海良,姜力;完成单位:中国农业大学,北京奶牛中心,北京首农畜牧发展有限公司,上海奶牛育种中心有限公司,全国畜牧总站)。
大规模、高质量的参考群体是基因组遗传评估的重要基础[38-40]。自2008年开始,我国奶牛基因组选择参考群体持续扩大,荷斯坦母牛经过严格筛选,均具备规范的系谱及生产性能测定(dairy herd improvement, DHI)与体型数据,包括产奶(305天产奶量、乳蛋白量、乳蛋白率、乳脂量和乳脂率)、健康(体细胞数:用于评估乳房炎)、体型(体型总分、泌乳系统和肢蹄评分等)共计35个性状;其中,少部分母牛具有繁殖性状表型数据(首次产犊月龄等);此外,参考群还包括234头验证种公牛,其个体估计育种值(estimated breeding value, EBV)可靠性不低于80%。参考群所有个体均具有全基因组SNP芯片的基因型数据(50K、80K或150K)。截至目前,参考群规模已达1.79万头,为我国荷斯坦青年公牛基因组遗传评估提供了重要的数据支撑。
4 中国奶牛基因组性能指数(GCPI)
中国奶牛性能指数是评价种牛综合遗传性能的选择指数。2012年,中国农业大学奶牛育种团队、中国奶业协会育种委员会、全国畜牧总站联合制定了中国奶牛基因组性能指数[12],GCPI计算公式见图3。
图3 中国奶牛基因组性能指数(2012—2019年)[12]Fig.3 Genomic China Performance Index (2012—2019)[12]
其中,GEBV为合并基因组育种值;Milk为产奶量;Fatpct为乳脂率;Propct为乳蛋白率;Type为体型总分;MS为泌乳系统;F&L为肢蹄;SCS为体细胞评分。
2020年,荷斯坦青年公牛基因组评估开始采用新版GCPI指数(图4),生产性状由产奶量、乳蛋白率、乳脂率合并为乳蛋白量、乳脂量,为与国际接轨,将“量“与”率”辩证地统一,更强调乳质量的改进;校正系数由20改为4,常数由200改为1 800,保证了指数值的稳定性。各类性状的加权值分别为:生产性状60%、体型性状30%、健康性状10%。在重视产奶性状改进的同时,加强对生产效益具有重要影响的体型性状的选育[12]。
图4 新版中国奶牛基因组性能指数(2020-)[41]Fig.4 Updated version of the Genomic China Performance Index (2020-)[41]
利用基因组选择参考群体,对经过基因组检测的青年公牛利用SNP芯片的遗传标记基因型数据信息和GBLUP方法进行基因组育种值估计。计算模型与传统的动物模型BLUP(best linear unbiased prediction)模型类似,但是用基因组相关矩阵(G阵)替代个体亲缘关系矩阵(A阵),利用DMU软件,采用GBLUP方法估计公牛的各性状基因组直接育种值(direct genomic value, DGV),并与其系谱指数进行标准化后加权合并,计算得到中国奶牛基因组选择性能指数(GCPI)。我国荷斯坦青年公牛的基因组评估结果,作为《中国乳用种公牛遗传评估概要》的主要内容,由农业农村部于每年4月、8月、12月发布,目前各性状的基因组育种值评估准确性为0.70~0.79[41]。
5 基因组选择技术对我国奶牛群体遗传进展的影响
通过基因组选择技术的应用,选择优秀青年公牛并在全国推广使用其优质冻精,一是提高了选择准确性;二是缩短了世代间隔,加快了我国奶牛群体的遗传进展。本文作者基于中国奶牛数据中心(https:∥www.holstein.org.cn)收集的全国各地区中国荷斯坦牛系谱和表型数据,分析了母牛群体的遗传进展,结果显示:自2012年实施基因组选择以来,主要产奶性状遗传进展显著提高(图5)。
基于本文作者2021年12月完成的基因组遗传评估数据分析了荷斯坦公牛的遗传进展(图6)。基因组性能指数(GCPI)及产奶性状(产奶量、乳蛋白率、乳蛋白量、乳脂率和乳脂量)均获得了较显著的遗传进展;体型性状的遗传进展较小,肢蹄和体细胞评分性状的遗传进展不明显,可能因为体型性状易受鉴定员等环境因素影响,而体细胞评分性状可能因为遗传力低且育种值变异系数小等因素的影响[42]。
图6 荷斯坦公牛的GCPI及9个育种目标性状的遗传进展Fig.6 Genetic progress of GCPI and nine breeding target traits in Holstein bulls
6 我国奶牛基因组选择效果的验证
随着基因组选择技术的应用,可以利用基因组评估公牛女儿的表型值数据验证基因组选择的效果。作者利用1 686头公牛的女儿表型数据,来自全国27个省(市、自治区)、2 018个牛场416 086头女儿的生产性能测定(dairy herd improvement, DHI)及56 902头女儿的体型鉴定数据,统计分析了公牛基因组育种值(GEBV)与表型之间的趋势[43]。结果表明:公牛女儿产奶量、乳蛋白率、乳脂率与肢蹄评分的表型值与公牛GEBV分组趋势一致,且产奶性状GEBV组间的女儿性状表型值大部分达到极显著差异(P<0.01),说明我国荷斯坦公牛的基因组选择效果较好(图7、图8)。
图7 公牛GEBV与其女儿表型值的相关性(女儿按其表型值的大小分为5组)[43]Fig.7 Correlation of GEBV of bulls and phenotypic values of their daughters (daughters were divided into 5 groups according to the size of their phenotypic values)[43]
7 展 望
基因组选择技术的普及应用,给动物育种,尤其是奶牛育种带来了革命性的变化,其应用将愈发广泛和深入。随着育种理念和技术的不断进步发展,GS在动物育种应用过程中也面临着一些重大挑战:1)基因组选择方法的创新及改进。目前,基因组选择方法主要分为两类:一类是基于最佳线性无偏预测理论的GBLUP[44],该模型需要求解混合线性方程来估计个体加性遗传效应方差组分[45];另一类是贝叶斯方法[46-48],根据标记假设的不同,分为BayesA[4]、BayesB[4]、BayesC[47]、BayesR[49]、BayesLasso[50-51]等。近年来,机器学习方法也逐渐应用在基因组选择领域,与传统方法相比,它是一种非参数方法,无需提前设定假设,而是通过学习输入数据来构建表型与基因型数据之间的特定关系。目前常用的机器学习模型有支持向量机(SVM)[52-53]、核岭回归(Kernel Ridge Regression, KRR)[54-55]、随机森林(Random Forest, RF)[56-57]、深度学习(Deep Learing, DL)[58]。目前,尚无一种方法表现出全面的优越性。GBLUP在计算时效性上有明显优势,Bayes方法得益于对标记效应的合理假设,其预测准确性相比GBLUP有一定幅度提高,但大量参数的估计也增加了计算时长和资源的消耗。机器学习算法通过构建非线性模型可以捕获标记之间的相关性和相互作用,尤其是对于受到非加性效应影响的复杂性状,机器学习往往可以获得更为准确的预测结果[59],因此值得进一步开发利用。同时,随着生物技术和组学技术,如功能基因组学技术、基因组测序技术、胚胎基因型测定技术、基因编辑技术、干细胞技术等的发展,高效整合利用多组学先验信息的基因组选择方法也有待进一步开发[60-63];2)如何将难以测定的新性状纳入到选择指数中,包括饲料转化率、甲烷排放等性状[64-65]。在奶牛育种中,饲料通常占奶牛生产总直接成本的一半。针对当前绿色、可持续的时代发展主题,低饲料转化率、低温室气体排放将是未来奶牛育种选择的主要目标之一。但是此类性状测定难度大、成本高、效率低。开发高效表型智能测定设备、拓宽测定思路将是奶牛育种需要持续进行的工作。例如,通过视频和图像技术测定采食行为预测饲料转化率、红外光谱技术测定牛奶中CH4含量来间接测定个体甲烷排放等[65]。
我国于2012年开始在全国范围内启动荷斯坦公牛基因组遗传评估工作,由于验证公牛数量仅有273头,因此建立了“母牛为主+公牛”模式的基因组参考群。截至2023 年5月,我国奶牛基因组选择参考群规模已达 1.79万头,主要性状的基因组育种值估计准确性达70%。与欧美国家相比,我国的奶牛基因组选择存在参考群规模仍然较小、参测青年公牛数量较少、评估软件严重依赖国外进口、评估准确性不高的问题,建议:1)规范奶牛生产性能测定流程,完善表型测定数据、系谱数据、基因型数据质量的第三方核查制度,坚持进行持续的后裔测定,保证数据的完整性及准确性;2)持续扩大参考群体规模,积极寻求安全可靠的国际合作育种项目机会;3)推进 GS技术在青年公牛、核心群母牛、种子母牛家系和商业牧场的应用力度;4)持续开发并优化核心自主可控的、准确高效的基因组评估软件,打破国外的软件技术壁垒。