猪SNP液相芯片10K~50K基因型填充效果研究
2022-10-29张梓鹏都鹤鹤白俊艳王贵江罗文学倪俊卿丁向东
陈 宇,邱 奥,张梓鹏,都鹤鹤,白俊艳,王贵江,罗文学,倪俊卿,李 凯,丁向东*
(1.河南科技大学动物科技学院,洛阳 471000; 2.中国农业大学动物科学技术学院畜禽育种国家工程实验室 农业农村部动物遗传育种与繁殖重点实验室,北京 100193;3.河北省畜牧良种工作总站,石家庄 050061; 4.河南省畜牧总站,郑州 450008)
单核苷酸多态性(SNP)是基因组上最常见的一种遗传变异,是由单个核苷酸突变引起,占所有已知多态性的90%以上,广泛存在于基因组中。其具有密度高、分布范围广、遗传稳定、分型简单、可自动化检测等优点,被认为是目前最佳的分子标记。已广泛应用于全基因组关联分析(genome-wide association study)和基因组选择(genomic selection)等遗传分析和育种应用。尤其是基因组选择,高通量基因型检测是其实施的前提,正是由于2006年高通量SNP芯片的推出,基因组选择才正式应用于育种实践。SNP芯片标记密度对基因组选择准确性十分重要,然而高密度SNP芯片在大群体上的应用成本很高,为了降低成本,低密度SNP芯片应运而生,可通过基因型填充将其填充至高密度SNP芯片甚至测序数据,兼顾基因型检测成本和分子育种效率。在基因组选择育种实践中,通过基因型填充技术,能有效地将低密度芯片填充到高密度水平,并保持相当高的填充准确率,不影响基因组选择准确性,从而大大提高了低密度芯片的使用价值和育种效果。
基因型填充技术就是利用已有的分型信息对实际未分型的位点进行基因型预测。目前,已经发展了很多基因型填充方法。根据是否利用家系信息分为两种,一种是利用群体连锁不平衡信息构建单倍型,相应的软件有FAMHAP、fastPHASE、IMPUTE2、Beagle、PLINK等;另一种是利用系谱信息和标记连锁信息构建单倍型,相应的软件有Find-hap、Fimpute、AlphaImpute、PEDIMPUTE等。其中Beagle主要利用隐性马尔科夫链技术,填充准确性高,应用广泛。本试验使用Beagle 4.1软件进行填充。
液相芯片是继凝胶电泳、荧光检测、固相芯片之后的新型分子检测技术,该技术基于靶向测序基因型检测(GBTS)技术,因其能够使目标探针与靶向序列互补结合从而进行定点捕获,且能够在液相中同时快速完成成千上万个探针杂交反应的试剂盒,形象称之为液相芯片。与传统的基因型检测技术和固相芯片相比,液相芯片具有平台广适性、标记灵活性、检测高效性、信息可加性、支撑便捷性和应用广谱性等优点,具有广阔的应用前景。中国农业大学先后开发了猪低密度SNP芯片(专利号:ZL201711190317.6)和猪50K液相芯片(专利申请号:202110359470.7),用于猪性状遗传解析和基因组选择。虽然从低密度SNP填充至高密度的研究很多,但主要以固相芯片为主,目前液相芯片基因型填充的研究并不多见。为此本研究利用中国农业大学开发的猪10K和50K液相芯片,研究液相芯片从10K到50K的基因型填充效果,为其他畜禽相关研究提供借鉴。
1 材料与方法
1.1 芯片数据
本研究中3 761头猪只均来自河北大好河山养猪科技有限公司的健康大白群体,出生日期在2018—2021年间,日龄160 d左右,体重110 kg左右,采全血后,使用由中国农业大学开发的液相50K芯片(包含52 000个SNPs标记)进行基因型测定。
1.2 基因型质量控制
采用 PLINK 软件对所有个体基因型数据进行质量控制,剔除性染色体和位置未知的位点及位点检出率(call rate)<90%的SNP,剔除检出率<90%的个体。质量控制后,保留47 890个标记和全部个体。
1.3 基因型填充
本试验使用Beagle4.1软件进行基因型填充。填充的流程如下:从质控后群体中随机抽取100头大白猪,从50K芯片中抽取标记生成10K芯片,作为填充群体。再从剩余群体中分别随机抽取800、2 000、3 600个个体作为参考群体,对100头填充群体进行基因型填充。相同流程重复10次。
基因型填充准确性是检验填充效率的一个重要指标。本研究用100头填充群体基因型填充后与原始50K基因型的一致性和相关系数衡量填充效果。基因型一致性是指正确填充的基因型占需要进行填充的基因型的比例。基因型相关系数(Cor)是指推断的基因型和原始基因型之间的相关系数。此外,Beagle 4.1软件计算出的理论填充准确性(DR)也可作为参考。
2 结 果
2.1 10K和50K芯片的描述性统计
表1列出了质控后2款液相芯片18条常染色体的SNP标记数、平均间距和连锁不平衡水平统计。质控前液相10K和50K芯片18条常染色体共计9 823和49 886个位点,质控后分别有9 685和47 890个位点,位点的缺失率分别为0.40%和1.58%。如表1所示,液相10K芯片的位点平均间距为226 394 bp,平均连锁不平衡(r)为0.227;液相50K的平均位点间距为44 231 bp,平均连锁不平衡为0.258,说明10K与50K液相芯片相比,标记间距虽然从44 kb扩大到226 kb,但是SNP标记间的连锁不平衡程度却几乎没有下降。虽然大部分染色体50K液相芯片的连锁不平衡程度高于10K芯片,但是8、12、18号染色体10K芯片的连锁不平衡程度高于50K芯片。
表1 10K和50K液相芯片各染色体标记间距和连锁不平衡(r2)统计Table 1 The markers distance and linkage disequilibrium (r2) of 10K and 50K SNP panels on each chromosome
2.2 最小等位基因频率对填充准确性的影响
图1显示了不同参考群体大小下最小等位基因频率(MAF)对基因型填充准确性的影响。从图1a、1b可以看出,用来反映填充准确性的两个指标基因型一致性和相关系数展现了相同趋势。MAF为0.05时是填充准确性的拐点。当质控标准 MAF 小于 0.05 时,填充准确性都很低,随着 MAF 的增加,基因型填充的准确性急速上升;当 MAF 大于 0.05 时,虽然填充准确性依然随着 MAF 的上升有所增加,但增加幅度明显减缓。由于 MAF<0.05 的标记填充准确性不高,因此本研究剔除 MAF<0.05 的位点,用于后续分析。同时,从图1中也可看出,随着参考群规模的增大,相同MAF下的填充准确性也随之升高,参考群体越大,填充准确性越高。
a.MAF对基因型填充一致性的影响;b.MAF对基因型填充相关系数的影响a.Impact of MAF on genotype imputation consistency; b. Impact of MAF on genotype imputation correlation coefficients图1 MAF对基因型填充准确性的影响Fig.1 Impact of minor allele frequency (MAF) on genotype imputation accuracy
2.3 参考群体大小对填充准确性的影响
表2列出了删除10K和50K芯片中MAF<0.05标记前后的基因型填充准确性。结果表明,删除MAF<0.05的标记后,3种参考群体规模下,填充准确性都提高了。当参考群体大小为3 600时,DR、基因型一致性和相关系数分别从0.976、0.941和0.922提高到0.978、0.965和0.948。同样,10次重复的每个填充准确性指标的标准差也变小了。参考群体大小为800和2 000时,也是如此。说明删除MAF<0.05的标记可以进一步提高填充准确性。同图1一样,表2进一步表明了参考群体规模对填充准确性的影响。可以看出,当参考群体规模为800时,基因型一致性和相关系数分别为0.907和0.902;当参考群体规模增加至2 000时,基因型一致性和相关系数分别为0.939和0.924,相较于800群体,其基因型一致性和相关系数分别提升了3.53%和2.44%;继续增加参考群体规模至3 600时,基因型一致性和相关系数分别为0.965和0.948,较2 000规模群体提升了2.77%和2.60%,较800规模群体提升了6.39%和5.10%。填充准确性的上升幅度均比较明显。与基因型一致性和相关系数相比,DR虽然也随着参考群体规模增大而提高,但是变化幅度不大,参考群体规模为2 000和3 600时,DR几乎没有差异。
表2 删除MAF<0.05标记后填充准确性变化Table 2 The comparison of the imputation accuracy before and after removal of SNPs with MAF<0.05
图2a、2b展现了删除MAF<0.05标记后每条常染色体上的基因型一致性(a)和相关系数(b),可以看出,参考群体规模较小时,染色体填充准确性波动较大,随着参考群体规模增大,每条染色体填充准确性相差不大。
a.参考群大小对基因型填充一致性的影响;b.参考群大小对基因型填充相关系数的影响a.Impact of reference population size on genotype imputation consistency; b.Impact of reference population size on genotype imputation correlation coefficients图2 参考群大小对基因型填充准确性的影响Fig.2 Impact of reference population size on genotype imputation accuracy
3 讨 论
已有很多研究表明,参考群大小会对基因型填充的准确性产生较大影响。Lee等使用了3 821头汉伍牛,以889头汉伍牛作为填充群体,以其余500、1 000、1 500、2 000、2 000余头汉伍牛作为参考群体,研究了3个低密度芯片(5K、10K、15K)到高密度(50K)芯片的基因型填充准确性,结果表明在参考群体规模为3 600时,基因型填充的准确性可达0.904~0.967。He等在关于中国荷斯坦奶牛从6K到50K的填充效果研究中,比较了3种不同的填充软件对3种不同参考群下基因型填充准确性的影响,结果表明在fimpute 软件中,所有情况下都表现最好,从公牛到女儿或半同胞之间的相关性由0.921提升至0.978。Weng等也在2 108头中国荷斯坦奶牛3K到7K的填充效果研究中,发现使用3款填充软件无论以何种比例奶牛作参考群,Beagle的表现最稳定,平均填充准确性可达0.90。Badke等用1 800头大白猪作参考群,从10K填充至60K,平均填充准确性可达到0.95。Xiang等研究表明,使用4 263头大白猪作为参考群,从8K填充至60K,填充准确性可达0.94。这与本研究结果相似,当参考群体规模为2 000和3 600时,10K液相芯片填充到50K液相芯片的准确性为0.92、0.95(相关系数)和0.94、0.97(基因型一致性)。本研究用DR、基因型一致性和相关系数作为衡量填充准确性指标,相同情况下,DR的值最高,相关系数最低,通常使用相关系数评价填充准确性较多。
最小等位基因频率对基因型填充准确性的影响也有很多报道。本研究结果表明,对于较低MAF的填充准确性会随着参考群体规模的增大提高,这是因为对于较低的MAF,更大的参考群体可以提供更多的稀有变异的单倍型种类,从而提高填充准确性。Lee等在研究不同水平下低密度芯片到高密度芯片的填充效果时,发现在相同MAF下,提高参考群大小能显著提升基因型填充的准确性,且MAF等于0.015是该试验填充准确性的拐点。曾浩南等研究了3款50K芯片填充至测序数据MAF对基因型填充准确性的影响时,发现MAF等于0.1是该试验填充准确性的拐点。马裴裴在芬兰和瑞典红牛的混合群体中,比较了几种填充软件将标记从3K填充到54K时MAF对填充准确性的影响,发现无论使用哪种软件,MAF等于0.05是该试验基因型填充准确性的拐点。在本试验中,也发现MAF为0.05是填充准确性的拐点,MAF<0.05时,基因型填充的准确性比较低,远小于MAF>0.05时的基因型填充准确性,当MAF>0.05后,基因型填充准确性会趋于平稳,这也与Heidaritabar等和Zheng等的研究结果相似。在大多数基于芯片的全基因组关联分析或基因组选择中,剔除 MAF<0.05 的位点是常用的基因型质量控制标准,本研究也表明,剔除MAF<0.05的位点后,液相芯片10K到50K的填充准确性得到提高。因此,液相芯片可同固相芯片一样,将剔除MAF<0.05的标记作为基因型质量控制标准。
本研究表明,参考群体大小对基因型填充准确性的影响很大,当参考群体由800扩大到3 600时,填充准确性从0.90提高到0.95,10次重复的标准差也从0.006下降到0.002(表2),说明不仅准确性提高了,而且填充效果稳定。进行基因型填充时,构建单倍型的准确性影响填充的效果,而参考群体的大小直接影响单倍型的构建。如果参考群较小,那么构建的单倍型种类可能不完全,填充时目标群体的单倍型就可能无法在参考群内找到。Pausch等在德系西门塔尔牛群体中分别利用50、100、200和400头牛作为参考群,将50K芯片填充至700K,结果也发现基因型填充准确性随着参考群的增加而增加。He等在中国荷斯坦奶牛群体中,以不同参考群的10%、30%、60%、90%作为参考群,将6K芯片填充至50K,3款填充软件的基因型填充准确性都会随参考群的增大而增大。Weng等也以2 108头中国荷斯坦奶牛的20%、40%、80%、95%作参考群,从3K填充至7K,基因型填充准确性逐渐增大。这与本研究的结果一致。此外,Ghoreishifar等也发现,在填充群体一定时,参考群由小规模提升至中等规模,基因型填充的准确性提升很大,而当参考群继续增大至大规模时,填充准确性的提升缓慢。这与本研究的结果相似,在本试验中,随着参考群体的逐渐增大,基因型填充准确性的提升幅度会逐渐减小。
本研究探讨了猪液相芯片从10K到50K的基因型填充效果,结果表明,相同参考群体规模下,液相芯片填充准确性同研究较多的固相芯片一样。随着参考群体规模的扩大,基因型填充的准确性也会随之提升;但当参考群体扩大至一定程度时,继续扩大参考群体对基因型填充准确性的提升幅度会变小,但依旧可以提升基因型填充的准确性。因此,可以适当选取参考群规模,在降低检测成本的同时,保证基因型填充的准确性。另外,同固相芯片一样,MAF<0.05是填充准确性的拐点,可以在基因型质量控制时剔除MAF<0.05位点。
4 结 论
基因芯片的低密度化是有效降低测定成本的育种手段,也是国际动物育种的趋势。将低密度芯片与液相芯片结合可以实现基于检测成本的大幅降低,有助于推动基因组选择的实际应用。本研究结果表明了猪液相芯片从10K填充到50K是可行的,可以大规模用于基因组选择,进行早期选种,降低基因组选择育种成本。