基于元共祖的基因组选择一步法理论及研究进展
2021-05-17付川珂赵书红李新云
付川珂,赵书红,李新云,项 韬*
(1.华中农业大学动物科学技术学院,湖北武汉 430070;2.农业动物遗传育种与繁殖教育部重点实验室,湖北武汉 430070)
基因组选择(Genomic Selection,GS)于2001 年问世[1]。与传统育种使用的最佳线性无偏预测法(Best Linear Unbiased Prediction,BLUP)相比,GS 理论上不依赖系谱信息记录,能够实现家畜早期选择,从而大大缩短世代间隔,依据基因型信息构建的个体间亲缘关系矩阵也更为准确,能够显著提升遗传评估的准确性,在有效控制群体近交增量的同时,为群体带来更大的遗传进展[2-4]。大多数GS 方法要求评估中所有个体均有基因型信息,但受基因分型的高成本等实际问题的限制,在实践中,群体中往往只有部分个体进行基因分型。群体中无基因型信息个体的表型记录无法在GS 中使用,造成了数据浪费,并导致预测准确性产生偏差[5-6]。
2009 年Legarra 等[7],2010 年Christensen 等[8]先 后提出基因组选择一步法(Single-step Genomic Best Linear Unbiased Prediction,SSGBLUP),将具基因型个体和无基因型个体的信息都整合利用起来。SSGBLUP 的准确性高于传统的BLUP 方法,同时,对于具有基因型信息的个体,SSGBLUP 的准确性也高于经典GS 方法的GBLUP 法[9-12]。因此,自2010 年起,SSGBLUP 逐步成为全球跨国猪育种集团的标准遗传评估方法[13]。
在SSGBLUP 的基础上,Legarra 等[14]提出了元共祖(Metafounder)的概念并建立了含元共祖的一步法(Single-step Method with Metafounders,MT-SSGBLUP)。MT-SSGBLUP 的准确性已被证明不低于SSGBLUP,同时其在杂交育种、系谱部分缺失群体育种及跨群体育种等方面具有巨大的应用潜力。
目前我国政府及国家生猪产业技术体系大力推行多地区、跨群体的猪基因组联合育种,加快生猪遗传改良进展,并降低养猪业对国外种猪的依赖性。然而,我国猪场众多,各场种猪来源多样,遗传背景差异大,同时疾病的防控阻碍了各场间的遗传交流,联合育种的目标仍然没有真正实现[15-17]。因为各群体间缺乏遗传交流,系谱无法关联,只能采用GBLUP 等方法对已被基因型测定的个体进行一定程度的联合育种,而不能使用SSGBLUP,导致大量记录和系谱信息的浪费。MTSSGBLUP 在跨群体育种方面的应用为我国实现联合育种的目标提供了思路。基于以上思想,本文介绍了元共祖概念和原理,并综述基于元共祖的基因组选择一步法方法的应用及对联合育种的展望。
1 基因组选择一步法的不足和不完善的解决方案
目前,SSGBLUP 被广泛研究及应用于畜禽生产实践中。研究者们在不同的物种、群体中对其应用效果进行了比较研究,并将SSGBLUP 扩展应用至各个方面[18-19]。
与BLUP 和GBLUP 方法相比,SSGBLUP 的优点在于将传统的基于系谱的亲缘关系矩阵A阵和基于基因型的亲缘关系矩阵G阵合并,使群体中具基因型个体和无基因型个体纳入一个关系矩阵(H矩阵):
在这个矩阵中,A 矩阵是基于系谱的亲缘关系矩阵,矩阵A11、A12、A21、A22是A矩阵的子矩阵;其下标1和2 分别表示无基因型和具基因型个体;G矩阵是具基因型个体间的基因组关系矩阵,通常按照Vanraden[2]方法一进行构建,p为群体的基础群个体的非参考等位基因频率(Second Allelic Frequency)。为了确保所有遗传变异都能够被SNP 标记捕获,多基因效应(Polygenic Effect)需要考虑进G矩阵中,因而通常将上式中的G矩阵替换成Gω=(1-ω)G+ωA22,ω 是基因型和系谱矩阵权重比[8]。
现在,SSGBLUP 作为畜禽研究的主流方法之一,应用日趋多元,但事实上还存在4 个问题没有完全解决:①构建基因型关系矩阵使用的基因频率应来自基础群体[2],而基础群体往往因年代久远而缺乏基因型信息,因此基础群的基因频率实际上是未知的[14];②理论上,基因型关系G 矩阵和系谱关系A 矩阵应相对于相同的(基础)群体,使得2 个关系矩阵能够兼容,但实际中基础群体一般未知,而系谱的起始群体会被视为基础群体,具有很大的随意性,因而2 个关系矩阵不能直接兼容[20];③在SSGBLUP 中,各性状应采用的最适基因型和系谱矩阵权重比ω未知,而ω值的设定应由品种特异性和性状特异性决定[11,21];④混合的多群体遗传评估至今没有能够借助SSGBLUP 得到有效实现,SSGBLUP 基本都是应用在单一群体内。究其原因,不同群体由于各自基础群开端难以连接,不同群体间依赖的系谱信息的亲缘关系为0,只能靠有基因型信息的个体建立起群体间关联,因而所建立的群体间亲缘关系矩阵准确性较差,不能有效地提高GS 准确性。
针对SSGBLUP 存在的问题,目前只有一些不完善的解决方案:第一,Vanraden 建议采用研究群体当前的基因频率代替基础群基因频率使用,虽然这种替代性使用方法在单一群体的GS 实践中有效,但在多群体GS 中不能直接采用,因为不同群体的SNP 位点基因频率不同。只有当个体间亲缘关系的建立是相对于同一个假定基础群时,不同群体间亲缘关系才可直接进行比较,多群体GS才能进行[22]。第二,为使基因型亲缘关系G矩阵与系谱亲缘关系A矩阵相兼容,已有几种方案被提出,均是调整G矩阵,使之与A矩阵兼容[9-10,23]。然而,这些调整方法并未彻底解决2 个矩阵兼容问题,只是调整两矩阵数值大小,使之相近。第三,育种企业在SSGBLUP 中,通常对所有不同性状均采用同一个基因型和系谱矩阵权重比值ω(如丹育猪育种集团采用0.25),而非各性状的最适ω值。采用不合适的ω会降低育种值估计的准确性和精确性[21]。这些替代方案虽然目前在GS 中广泛采用并被实践证明有效,但SSGBLUP 存在的这些问题在理论上一直没有彻底解决,SSGBLUP 方法有待进一步发展和改进。
2 元共祖的概念与相关理论
为了彻底解决SSGBLUP 中存在的一系列问题,Christensen[20]将G矩阵的参考等位基因频率固定在0.5,取代了Vanraden 方法一[2]中G矩阵的建立需使用基础群等位基因频率的方法。然后,Christensen[20]调整A矩阵,使A矩阵的建立,也相对于等位基因频率为0.5 的基础群,从而达到G矩阵与A矩阵兼容目的。Christensen[20]的方案理论上解决了SSGBLUP 存在的2个问题,即无需计算基础群等位基因频率和G矩阵与A矩阵兼容性的问题。然而,该方法实现极其困难,需要高度复杂的计算。该方法的副产物是基础群中的个体间不再独立,具有亲缘关系。这个亲缘关系用参数γ来表示,它展示了基础群中个体之间的关系和近交状况[20]。基础群个体间具有亲缘关系,这与传统BLUP 中,假设系谱的基础群个体间无亲缘关系相对立,但是与依据基因型标记信息得到的基础个体间具有亲缘关系的结论一致[24-25]。
通过复杂的计算,Christensen[20]和Legarra 等[14]推导出,参数η1和η2与群体等位基因频率pj密切相关:η1=Var(pj)和η2=E(2pjqj),其中qj=1–pj。因为E(2pjqj)=2E(pj)E(qj)–2Var(pj)=0.5–2Var(pj),所以有2η1+η2=2Var(pj)+0.5–2Var(pj)=0.5,因 而,即γ应为单一群体的基础等位基因频率方差的8 倍。这里将作为一个参数,是具有某种分布的假定的基因池中等位基因频率的方差[20,26-28]。为准确估计γ值,已有不同的方法进行了研究:Christensen[20]使用最大似然法(Maximum Likelihood,ML)来估计γ值,而Legarra 等[14]则建议在描述性统计的基础上使用矩量法(Methods of Moments,MM)来进行γ值的估计。Garcia-Baccino 等[29]利用模拟数据比较了几种不同估计γ的算法,并发现在单一群体中,广义最小二乘法可以有效地获得γ的无偏估计值。
基于Christensen[20]对于基础群内个体间具有相关性的思路,Legarra 等[14]提出了“元共祖”(metafounder)的概念。元共祖被假定为群体的原始开端,可以看成一个无穷大的配子池,所有配子具有共亲关系(Coancestry Relationship),该共亲系数被定义为γ/2。这些配子的共亲关系是群体的固有属性,只由该群体进化历程所决定。该共亲关系是有效群体规模Ne 的真实反映,其与γ之间关系:。有效群体规模越大,基础群个体间亲缘关系越远,配子的共亲关系越小[29]。系谱的基础群个体全部来源于该元共祖中配子有重复抽样的组合,由此基础群个体之间产生了联系,同一基础群两个体间加性遗传关系等于元共祖自相关关系(selfrelationship),均为γ[14]。理论上,元共祖自相关关系只需要估计1 次,在日常遗传评估中不需要重复估计。然而,随着基因型信息的大量累积,该系数估计的准确性理论上会增加,因此该系数也需要定期更新。
在传统的基于系谱的亲缘关系矩阵中,往往假设基础群中的所有个体与自身的亲缘关系为1,系谱中的其他个体间的亲缘关系将遵循Emik 和Terrill 规则[30]:
式中,a 表示个体间的亲缘关系,下标d 和s 分别代表个体i 的母亲和父亲,j 的代数早于i。元共祖概念的引入几乎无需改变此规则,仅仅需要将基础群个体的自身亲缘关系由1 变为1+γ/2,不同基础群个体间亲缘关系由0 变为γ即可[14]。据此,可以将系谱亲缘关系A矩阵重新构建为A(γ)阵。
在此基础上,Legarra 等[14]将元共祖概念引入至SSGBLUP 中。他们重新构建整合了基因型、系谱信息和元共祖信息的混合亲缘关系矩阵H(γ)阵,并得到了其逆矩阵形式:
其中,基因型关系G矩阵的构建方式与Vanraden[2]方法一基本一致,只需要将基础群体等位基因频率设置为0.5;A(γ)–1的构建可以跳过先构建A(γ)矩阵再求逆的方式,利用Henderson[31]法则,可直接构建逆矩阵,只需将系谱的基础群个体间亲缘关系由0 改为γ[14]。
与Christensen[20]的方案相比,元共祖概念的创立和应用有以下2 个优势:①元共祖可直接加入到系谱的起始位置,Henderson[31]直接构建系谱逆矩阵法则仍可使用,极大简化了[20]方案中复杂的计算过程,具有易操作性;②若自相关系数γ是依据群体的基因型和系谱信息所估算,则所建立系谱关系矩阵A(γ),能够和基因型关系矩阵G直接自动兼容[14,32]。与一步法中,通过调整基因型关系矩阵,使之与系谱关系矩阵兼容相反,元共祖方法通过调整基于系谱的亲缘关系矩阵,使之达到与基因型关系矩阵相兼容的目的[20,33]。此外,G矩阵的构建使用固定基因型频率0.5,无需推断基础群体的等位基因频率;③当同时分析多个群体时,因不同群体的元共祖间可能含有相同的配子,元共祖的概念可以很容易地从一个基础群扩展到多个基础群,不同的元共祖之间的亲缘关系用矩阵表示,其中,γ1和γ2分别表示2 个元共祖自相关系数,γ1,2和γ2,1表示2 个元共祖之间的相关系数。这样一来,不同群体可通过元共祖相关将各系谱基础群个体之间联系起来,从而建立起贯穿多群体的系谱亲缘关系A(Γ)矩阵,继而可构建含元共祖的整合基因型和系谱信息的亲缘关系H(Γ)矩阵,将一步法的应用扩展至多群体。
简言之,与SSGBLUP 相比,元共祖的概念的创立解决了一步法中基础群基因频率未知问题,并实现了基因型亲缘关系矩阵与系谱亲缘关系矩阵的自动兼容。此外,元共祖使得各群体的基础群产生联系,使GS 一步法从单个群体扩展到多个群体,为跨群体联合育种提供了新思路与方法。
3 元共祖方法的应用及研究进展
元共祖概念问世不久,研究开展十分有限,但已有学者开展了相关应用研究。含元共祖的基因组选择一步法(MT-SSGBLUP)已显现出其在基因组遗传评估中的优势和巨大应用潜力。
Garcia-Baccino 等[29]应 用QMSim v1 软 件[33]模拟了一个有效群体为3 000 的奶牛群体来比较多种不同GS 方法进行遗传评估的准确性。这个奶牛群体经历了100 代自然选择,并在近10 代经历了方向性的人工选择。每个个体由30 条染色体组成,每条染色体长度均假定为100 cM。每条染色体随机分布了基因频率相同的40 000 个等位基因,其中有1 500 个基因与一个遗传力为0.3 的性状相关联。在10 代的人工选择中,每代保留200 头公牛与2 600 头母牛,设计产生2 600 个子代,交配方案遵循估计育种值大小正向交配。个体的选留是依据BLUP 估计得到育种值,每代有40% 的公畜和20% 的母畜被更新。最终,获得的10 代系谱中有28 800 个体,共有14 300 个体有表型记录。所有的公牛(840 头)和第9、10 代的5 200 头母牛有基因型信息。Garcia-Baccino 等[29]比较了4 种遗传评估方法的准确性:①基于系谱的BLUP 方法(BLUP);②一步法(SSGBLUP),其中A–1没有考虑近交;③考虑 A–1矩阵中近交情况的一步法(SSGBLUP_F);④基于元共祖的一步法(MT-SSGBLUP)。4 种方法中,SSGBLUP_F 和MT-SSGBLUP 的准确性(均为0.74)优于其他方法(BLUP 和SSGBLUP 分别为0.51 和0.72),同时BLUP 和MT-SSGBLUP 的无偏性优于其他方法。因此,Garcia-Baccino 等[29]的结论是含元共祖的一步法(MT-SSGBLUP)比普通的一步法(SSGBLUP)可以获得更高的遗传评估的准确性和更小的偏差。
除纯种育种表现外,元共祖概念也被应用在杂种育种值的估计中,Christensen 等[34]使用一步法对二元杂交系统中动物的纯种表现和杂种表现进行基因组遗传评估,并在2015 年元共祖概念问世后,将含元共祖的一步法发展到三元杂交系统[32],2017 年由Xiang 等[35]实现了元共祖方法在杂交系统中的应用。Xiang 等[35]在丹系大白(YY),丹系长白(LL)和其杂交F1代群体(LY)中,应用元共祖的方法对母猪的头胎总产仔数性状进行了遗传评估,他们在二元杂交系统中,针对大白和长白猪,应用了2 个元共祖。元共祖之间的相关关系用正定矩阵表示,其中γL和γY分别代表LL 和YY 品种内的基础群个体的亲缘关系,γL,Y代表LL 和YY 品种间的基础群个体之间的亲缘关系。Xiang 等[35]通过一般广义最小二乘法估计出γL=0.756,γY=0.730,γL,Y=0.259。与早先的一步法在二元杂交系统中的应用[36]相比,引入元共祖的基因组遗传评估不同之处在于:①使2 个纯种群体从源头开始真正产生关联,二者成为一个完整结合体,2 个纯种群体之间出现了遗传相关,而不再是2 个基础群个体间毫无关联,仅由杂交一代联系起来的松散结构;②遗传参数发生了改变,遗传参数需要乘以(1-γ/2)才可以与传统育种估计的遗传参数相比较,但元共祖方法估计的遗传参数更接近真实值[14,29]。类似地,van G 等[37]验证了在猪的三元杂交系统中元共祖方法的优越性,并发现与其他方法相比,元共祖方法能够更好地收敛。在肉牛、肉羊的生产中,由于其物种起源复杂,杂交育种的遗传评估不能有效进行,元共祖方法的出现,给解决这个问题带来新的希望[38]。
此外,元共祖方法还被应用于群体中存在未知父母群(Unknown Parent Group,UPG)的基因组评估。Bradford 等[39]研究探讨了奶牛群在不同类别UPG 存在的情况下,BLUP、SSGBLUP、MT-SSGBLUP 这3 个方法对遗传力分别为0.3 和0.1 的性状的应用效果。研究将未知父母群体根据人工选择群体的10 个世代分成了0~4 代(UPG1)、5~7 代(UPG2)、8~10 代(UPG3)3 个部分。由于设置了3 个UPG,相应地,在元共祖方法中,也设置了3 个元共祖来构建Γ矩阵,结果表明,对遗传力为0.3 和0.1 的性状,与BLUP 和SSGBLUP相比,元共祖方法均具有最高的准确性。在拥有两代完整系谱、系谱缺失公畜、系谱缺失母系祖母这3 种情况的偏差比较中,与SSGBLUP 方法相比,MTSSGBLUP 在此3 种情形的一致性最好,表明元共祖方法能够更好地应对系谱缺失的情况。当存在缺失系谱时,BLUP、SSGBLUP 和元共祖3 种方法比较,最好的解决方案是用元共祖来模拟缺失的系谱,并提供合理的遗传趋势的预测[39]。Bradford 等[39]研究表明元共祖能够有效减小系谱缺失带来的评估结果偏差。Kudinov 等[40]的研究也证实,对单群体芬兰红奶牛公牛来说,UPG与MT-SSGBLUP 的GEBV 结果具有相同的可靠性,而在奶牛中没有观察到显著差异。Granado-Tajada 等[41]则在Latxa 羊中应用元共组模拟了缺失的系谱。这些研究证明该方法适用多种畜禽物种,在系谱不完整的数据集中,元共祖有望更好地解释系谱缺失的亲缘关系[39,42-43]。
4 联合育种新展望
元共祖概念的创立可使得不同群体间从基础群开始就建立起依赖于系谱信息的关系矩阵,同时再结合基因型信息校正亲缘关系,能够充分利用所有有效个体的表型、系谱和基因型信息,使得群体间关系矩阵从被基因型测定个体扩展至所有拥有系谱记录的个体,信息的充分利用将会使不同品系甚至不同品种的群体关联起来,并有望促进一步法在猪联合遗传评估中全面开展。该方法有效地解决了因在中国单一猪养殖群体的规模往往有限,致使GS 的参考群体规模偏小,影响GS 的准确性的问题[44-45]。通过元共组将多个群体关联,使它们产生了实际上的亲缘关系,避免了为扩大参考群体直接将不同群体混合利用GBLUP 进行基因组遗传评估对其准确性的提高有限,甚至对猪的遗传评估有弊的后果[44-46]。
元共祖概念的创立为我国在群体联合育种推行过程中遇到的难题提供了新思路,必将成为我国未来畜禽遗传评估中的一颗耀眼新星。