APP下载

猪50K 液相芯片基因组选择效果分析

2022-08-13张梓鹏罗文学王贵江丁向东

中国畜牧杂志 2022年8期
关键词:液相基因型准确性

邱 奥,张梓鹏,王 雪,罗文学,王贵江,丁向东*

(1.中国农业大学动物科学技术学院,畜禽育种国家工程实验室,农业农村部动物遗传育种与繁殖重点实验室,北京 100193;2.河北省畜牧良种工作总站,河北石家庄 050049)

基因组选择(Genomic Selection,GS)是动物育 种中继BLUP 方法后,又一具有里程碑意义的育种新技术、新方法。基因组选择已成为猪育种技术的热点,国内外各大育种公司都在应用基因组选择进行种猪选育。相较于基于系谱和表型信息的BLUP 方法,基因组选择可以在猪生长早期进行育种值估计,准确性与基于性能测定的常规育种相当,远高于传统的系谱指数准确性,对常规育种效率低和难以度量的性状,如繁殖性状、饲料报酬、肉质、抗病力等意义重大。随着2017年国家猪基因组选择计划的实施,我国逐渐建立起国家基因组选择参考群体和基因组选择平台,在部分猪场实施基因组育种并取得良好效果。张金鑫、周子文等对北京地区的种猪场进行基因组联合育种结果表明,利用高密度的SNP 可以更有效地建立场间遗传联系,扩大了育种群体,提高了选择准确性。Song 等研究了基于多性状模型和考虑基因与环境互作的基因组选择方法,能够有效提升基因组预测准确性。基因组选择已成为提升我国生猪育种水平的助推器。

高通量SNP 标记基因型分型是基因组选择的前提。在猪上,已开发了多款SNP 芯片,其中50 000 个标记左右的芯片(50K)是猪基因组选择的主流。Geneseek公司和江西农业大学等先后开发了Porcine SNP 50K Beadchip(Geneseek)和KPS Porcine Breeding Chip v2(中芯一号)2 款芯片,约50 000 个SNP 标记覆盖猪整个基因组。这2 款芯片基于Illumina 技术平台,被称为固相芯片。近年,基于靶向捕获测序技术(Genotype by Target Sequencing,GBTS)的液相芯片逐渐成为生物芯片的革命性技术。GBTS 是继凝胶电泳、荧光检测、固相芯片之后的新一代检测技术,其不仅对测序平台有很好的普适性,还具有标记增减灵活、检测高效、信息可加、支撑便捷和应用广谱等优势,已在玉米和小麦等动植物应用中取得了良好成效。中国农业大学基于GBTS 技术开发了国内首款猪GenoBaits Porcine SNP50K(液相50K,专利申请号:CN202110359470.7)芯片,包含55 000 个SNP 标记,覆盖猪整个基因组,具有液相芯片样本检测灵活、成本较低和支持国产测序平台等多方面优势,并在基因型填充方面,展示了与Geneseek 和中芯一号良好的兼容性。

目前,液相芯片在猪基因组选择的应用方面尚无报道。本研究将对猪50K 液相芯片基因组选择效果进行分析,探究液相芯片技术应用于基因组选择的可行性,以期为我国猪分子育种工作提供参考。

1 材料与方法

1.1 样本采集与表型数据处理 本研究所用猪只为来自河北张家口大好河山新农业开发有限公司(以下简称“大好河山”)的大白群体,表型收集2019—2021 年间的2 个生长性状:达百公斤体重日龄(AGE)和百公斤活体背膘厚(BF)及2016—2021 年间的繁殖性状总产仔数(TNB)。生长性状与繁殖性状统计、系谱记录数及基因组遗传力估计见表1。

表1 生长性状和繁殖性状数据统计

1.2 基因型检测和质量控制 本研究对1 199 头具有生长表型数据和800 头具有繁殖表型数据的个体进行基因型检测。对于生长性状,653 头由液相50K 测定,546头由Geneseek 测定,无共同个体;对于繁殖性状,750头由液相50K 测定,581 头由Geneseek 测定,2 款芯片共同个体为531 头。依照以下4 个标准对基因型数据进行质量控制:①去除性染色体和位置未知的位点;②去除检出率(Call Rate)低于90% 的SNP;③去除最小等位基因频率(MAF)低于0.05 的SNP;④去除检出率低于90%的个体。

质控后,本研究将2 款芯片的基因型填充至同一款芯片,参考邱奥等的文章,采用直接填充和合并填充的策略,直接填充将液相50K 填充至Geneseek 或将Geneseek 填充至液相50K,合并填充则是将2 款芯片生成一个新的SNP 集合。选取同时具有液相50K 与Geneseek 最年轻的100 头作为填充群体,分别使用液相50K 和Geneseek 个体作为参考群体,对100 头填充个体进行填充。本文的基因型填充参考群体分别为来自不同场的9 939 头Geneseek 个体和5 373 头液相50K个体。填充准确性采用相关系数作为评价标准,即对3种基因型A1A1、A1A2、A2A2 分别编码为0、1、2,然后计算填充的基因型和原始基因型之间的相关系数。

1.3 育种值估计 采用单性状重复力模型估计总产仔数育种值,模型如下:

本研究采用双性状动物模型估计达百公斤体重日龄和百公斤活体背膘厚育种值,模型如下:

式中,:达百公斤体重日龄或百公斤活体背膘厚观测值;:群体均值;:场年季性别固定效应;:个体随机遗传效应;:窝随机效应;:随机剩余残差;为相应的结构矩阵:

1.4 基因组育种值估计 本研究采用一步法(Single-Step GBLUP,SSGBLUP)分别估计总产仔数、达百公斤体重日龄和百公斤活体背膘厚基因组育种值(GEBV)。一步法可以同时利用系谱、基因组和表型信息,能够把有表型测定而无基因型信息的个体也估计出GEBV,从而提升准确性。总产仔数GEBV 估计同传统育种值估计,采用单性状重复力模型,生长性状达百公斤体重日龄和百公斤活体背膘厚分别采用单性状动物模型。模型中效应和结构矩阵同育种值估计,唯一不同的是,育种值估计模型中的个体随机遗传效应,由基于系谱构建的A 矩阵,变为在基因组育种值模型中综合系谱和基因组信息的H 矩阵,公式如下:

其中,H 矩阵由A 阵和G 阵2 部分构成,A:系谱构建的亲缘关系矩阵;G:基因组信息构建的亲缘关系矩阵,具体构建参照Vanraden 等的文章。

为保证A 阵和G 阵尺度相同,将G 阵进行校正,Gw=(1-w)G+wA11,参照Song 等的文章,w 设定为0.05。

1.5 基因组选择准确性评价 对于繁殖性状,同时有Geneseek 和液相50K 基因型的最年轻的100 头个体作为验证群体;对于生长性状,选取199 头年轻个体作为验证群体。本研究探究不同参考群体规模对基因组选择的影响,生长性状设置500 和1000 头2 个参考群体规模,繁殖性状设置400 和700 头2 个参考群体规模。需要说明的是,当生长性状和繁殖性状参考群体分别为500 头和400 头时,由于单款芯片基因型个体足够,没有将填充基因型个体纳入。基因组选择准确性为验证群体GEBV 和EBV 之间相关系数r(EBV,GEBV)。

本研究性状遗传参数估计使用DMU,育种值估计和基因组育种值估计使用自编程序fastBLUP 完成。

2 结果

2.1 芯片质控及基因型填充准确性 表2 展示了液相50K 和Geneseek 质控与填充前后芯片的基本数据。质控后,液相50K 和Geneseek 2 款芯片的位点数分别为42 302 和41 296,并集芯片位点数为62 039。在直接填充中,液相50K 和Geneseek 作为参考群时填充准确性更高,相关系数达到0.97,而在合并填充策略中,Geneseek+液相50K 并集作为参考群体的相关系数为0.93,合并填充准确性略低于直接填充。

表2 基因型质量控制前后芯片基本统计

2.2 基因组选择准确性 表3 和表4 展示了直接利用2款芯片和合并芯片对生长性状和繁殖性状的基因组选择准确性。表3 结果表明,对于生长性状,液相50K 对于AGE、BF 2 个性状的基因组选择准确性更高,参考群体大小为500 和1 000 时,液相50K 的AGE 和BF基因组选择准确性达到了0.525、0.605 和0.598、0.694,高于Geneseek 的0.514、0.589 和0.589、0.689,液相50K 在2 个生长性状的基因组选择准确性比Geneseek平均高出1.7%。同样,表4 也表明液相50K 对总产仔数(TNB)的基因组选择准确性略高于Geneseek,但提升幅度较小。表3 和表4 同时表明,2 款芯片的并集由于增加了SNP 标记数,基因组选择准确性比2 款芯片单独使用更高,当参考群体规模为500 头和1 000 头时,AGE 和BF 2 个生长性状的基因组选择准确性提升至0.533、0.616 和0.608、0.713,平均提升2.9%;对于繁殖性状,当参考群体规模为400 头和700 头时,总产仔数基因组选择准确性上升至0.561 和0.602,高于液相芯片的0.544 和0.596,也高于Geneseek 的0.542 和0.595。

表3 和表4 也表明,无论是单款芯片为主,还是2款芯片的并集,随着参考群体规模扩大,基因组选择准确性得到了提高。当生长性状和繁殖性状参考群大小为500 头和400 头时,主要用芯片的原始基因型,经过基因型填充后,参考群体分别扩大为1 000 头和700 头。对于繁殖性状,参考群由400 头扩大至700 头,液相50K 总产仔数的基因组选择准确性提升了9.7%。而生长性状则提升更加明显,AGE 和BF 的提升幅度达到了13.9%和14.7%。Geneseek 芯片和2 款芯片并集亦是如此,尤其是2 款芯片的并集,当参考群大小经合并填充达到700 头时,相较于参考群体大小400 头,合并填充的TNB 性状的基因组选择准确性提高到0.602,提升了7.3%,生长性状的合并填充基因组选择准确性也有较大幅度提升。结果说明,通过任何一种基因型填充方式扩大参考群体,生长性状和繁殖性状的基因组选择准确性均有较大提升,说明通过基因型填充扩大参考群来提高基因组选择准确性是非常可行的。

表3 生长性状基因组选择准确性

表4 繁殖性状基因组选择准确性

3 讨 论

本研究中,液相50K 和Geneseek 直接填充准确性最高,达到了0.97;2 款芯片合并填充的准确性低于直接填充的准确性,这意味着2 款芯片的合并会影响整体的填充效果,与之前研究结果一致。这可能是由于2 款芯片合并标记数增加,导致填充准确性下降。液相50K 和Geneseek 2 款芯片有相同位点33830,因此互相填充准确性很高,此外,2 款芯片衡量大白群体的连锁不平衡程度()分别为0.29 和0.32,很接近,表明2 款芯片兼容性很好。

通过基因型填充,不仅能够填充缺失基因型,更能够统一芯片类型,从而扩大基因组选择的参考群体,甚至增加标记数量。本研究2 款芯片的基因组选择结果表明,液相50K 的基因组选择效果优于Geneseek。对于使用多款芯片的群体,通过直接填充和合并填充2 种策略,均能扩大基因组选择参考群体,从而不同程度地提升基因组选择准确性。这与其他研究的结论一致。Geneseek+液相50K 并集的基因组选择准确性高于单款芯片,主要是因为2 款芯片的位点合并,使标记由Geneseek 或液相50K 单款芯片的4 万多SNP 增加到并集的62039,使得在参考群体大小相同的情况下,极大增加了基因组选择可用的信息,从而提升了基因组选择准确性,这与之前的研究相似。虽然合并填充准确性(Cor=0.93)低于直接填充准确性(Cor=0.97),但由于Cor>0.95 的位点数量较多,占总填充位点数的96.2%(59 934 个),仍然多于单款芯片的标记数,使得基因组选择有效位点数增加,在相同参考群体规模下,基因型填充后并集的基因组选择准确性仍然最高。也有研究表明,当填充群体的基因型填充准确性较低时,SNP 位点数的增加并未使基因组选择准确性得到提升,反而略有降低。因此,在实际操作中,需要综合考虑基因型填充准确性下降和SNP 位点数增加2 个因素的拮抗。

猪Geneseek 50K 芯片是目前在猪性状遗传解析和基因组选择中使用最为广泛的芯片,本研究表明,液相50K 与Geneseek 具有很好的兼容性,液相50K 能应用于基因组选择,且有优势。液相50K 主要依托靶向捕获测序技术,GBTS 作为高通量低成本的液相芯片检测技术,同一套标记可以通过控制测序深度来满足不同群体基因组选择对标记数量的需求。本研究使用的猪液相50K 芯片,可拆分为10K 和40K 2 款独立的芯片,更灵活应用于猪基因组选择。针对我国猪基因组选择实施存在的问题,丁向东等提出了“先低后高,先多后少”的液相芯片基因组选择策略,早期利用10K 低密度芯片对小猪进行大量基因型检测,提高早期选择的准确性和选择强度;后期对进入性能测定的个体使用40K 芯片进行测定,评估出最优秀个体进入核心群,大大降低了猪基因组选择实施成本,并且提高了基因组育种效益,这使液相芯片更容易在我国猪基因组选择中得到广泛应用。

4 结 论

在单款芯片使用中,液相50K 比Geneseek 的基因组选择准确性更高;相比单款芯片,通过基因型填充得到的合并芯片,其位点数增加,相同参考规模下基因组选择准确性更高;通过基因型填充,可以扩大参考群体规模,从而提升基因组选择准确性。这为液相50K 在猪基因组选择领域的应用提供了参考。

致谢:感谢河北张家口大好河山新农业开发有限公司提供猪只样品和数据。

猜你喜欢

液相基因型准确性
不依赖基因型的高效玉米遗传转化体系的建立
CT及超声在剖宫产瘢痕部位妊娠中的诊治价值及准确性
高效液相色谱法测定纺织品中的羟脯氨酸含量
固相萃取-高效液相色谱法测定水产品中四环素类的含量
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
产前超声检查和磁共振成像对胎盘植入诊断的准确性评估
成熟度和生长调节剂对不同基因型观赏向日葵种子休眠期的影响
浅谈分枝法在解决遗传学题目中的应用
窄内径多孔层开管柱的制备及在液相色谱中的应用
从一道高考题看自交与自由交配的相关计算