基于高通量靶向测序的大鼠遗传质量检测方案建立
2020-08-27徐园钱强鲍世民肖君华李凯
徐园,钱强,鲍世民,肖君华,李凯*
(1.东华大学化学化工与生物工程学院,上海 2016202;2.中国科学院上海生命科学研究院,上海 200031)
近交系与封闭群大鼠作为重要的动物模型,在临床前药物实验、毒理实验等科研工作中起着愈来愈重要的作用[1]。但是大鼠经过多年繁育,群间遗传分化严重,使试验数据的重复性和可靠性大大降低,急需对大鼠建立遗传学标准,通过遗传监测手段保持其遗传稳定性[2]。商海涛等[3]用6个微卫星标记分析北京和上海两家单位的Wistar和SD大鼠,结果表明各群体的遗传多样性保持良好,但群间遗传差距较大。
目前,国内外对小鼠的遗传质量监测的研究较多,而对大鼠的遗传质量监测研究较少。实验动物遗传检测方法主要是以近交系小鼠和大鼠为基础建立起来的,常用的方法主要包括毛色基因检测法、生化标记基因检测法、免疫标记基因检测法、下颌骨形态测量分析法以及分子标记检测法[4]。传统方法的操作复杂,实验周期长且耗费大量的人力物力,亟待找到一种简便、快速且价格低廉的方法来满足目前对实验动物遗传品质越来越高的要求。
基于多重PCR的单核苷酸多态性(SNP)分型方案,是一种高通量与高特异性的SNP分型方案[5]。本研究在PCR-LDR(连接酶检测反应)技术的SNP分型方案用于小鼠遗传鉴定的基础上[6],将同样的方法运用于大鼠,筛选出大鼠染色体上均匀分布的90个SNP位点,并采用靶向建库测序技术,以期实现大鼠遗传质量检测的高通量SNP分型方案。
1 实验材料与方法
1.1 实验动物
选取来自上海斯莱克实验动物有限公司(SYXK(沪)2007-0005)SHR、WKY、GK、F344共 4个近交系及SD封闭群大鼠,数量分别为9只、7只、4只、8只和7只,共35只。动物实验遵守《中国实验动物管理条例》。收集这些大鼠尾巴1 cm左右,-20 ℃保存备用。
1.2 主要仪器和试剂
A-100 PCR仪,购自杭州朗基科学仪器有限公司;Gene Amp PCR system 9600 PCR仪,购自美国Norwalk公司;JY600+电泳仪,购自北京君意东方电泳设备有限公司;FR-200A全自动紫外与可见分析装置、生物电泳图像分析系统,均购自上海复日科技有限公司。
PCR引物(PAGE纯化)由上海生工生物工程技术服务有限公司合成;dNTP(promega)购自上海有渔生物工程有限公司;Taq酶体系和ddH2O为实验室自制。
1.3 SNP位点选取
如图1所示,挑选的SNP分布于所有的常染色体与X染色体上,每条染色体所含SNP最少为4个,最多为9个。Y染色体因为雄性大鼠独有,且多样性低,故未选择。
1.4 DNA提取
DNA提取采用TianGEN(天根生化科技有限公司)组织基因组抽提试剂盒,操作步骤依说明书进行。吸取1 mL抽提好的DNA,在0.8%琼脂糖凝胶电泳中检测其浓度,然后将所有的DNA样本标化到浓度为30 ng/mL,-20 ℃储存备用。
图1 所选取SNP位点在大鼠基因组上的分布
1.5 引物设计
引物用Primer3在线软件(http://frodo.wi.mit.edu/primer3/)设计[21],并由上海生工生物工程技术服务有限公司合成。PCR反应的产物大小在200~250 bp,引物长度为20~30 bp,熔解温度(Tm)为55~65 ℃,GC含量为20%~80%。为了区分不同的样品,设计了96对含有索引序列和通用序列的条形码引物。最后使用Illumina公司的P5与P7引物,统一建库。大鼠位点使用特异性引物见表1。
1.6 靶向SNP建库和测序
建库策略:第一轮PCR反应以大鼠基因组DNA为模板,在两端加上特异引物和接头序列进行扩增;第二轮PCR扩增使用第一轮扩增产物作为模板,使用与接头匹配的通用引物,同时在引物两端加上后续测序所需要的标签。PCR的测序策略如图2所示。PCR反应条件优化为95 ℃预变性2 min;94 ℃ 30 s,60 ℃ 2 min,72 ℃ 30 s,进行 5 个循环[7]。建库产物送金唯智生物(苏州金唯智生物科技有限公司,中国苏州)进行高通量测序,使用机型为illumina X-10,上机前产物经安捷伦2100质控。
1.7 测序数据的分析和SNP的识别
所有的测序数据用FASTX-Toolkit[8]根据每一条序列的索引序列分配到不同的样本中,再将索引序列和接头序列用Cutadapt[9]软件去除。所得到的干净序列使用bwa[10]软件和参考基因组比对得到sam格式的文件。所得的sam格式文件通过samtools[11]软件得到mpileup文件,然后生成最终报告。对于SNP的检出,过滤小于15×测序深度位点,杂合子判定标准为等位基因的序列读长比例在20%~80%。
表1 大鼠位点使用特异性引物
图2 两步法Hi-SNP建库流程
图3 测序数据分析流程
2 结果与讨论
2.1 扩增子均一性
样本均一性对于靶向重测序是非常重要的性能指标,这将决定在平均测序深度下的SNP测定率。在这批样本中总扩增子数量4 205个,根据SNP鉴定时,有效深度大于等于15×,其中有3 607个扩增子获得有效覆盖度,即有效扩增子的数量为85.8%,深度的平均值为446×,深度的中值为229×。本批样本85.8%的扩增子最后获得SNP数据(图4)。
随后,每个扩增子深度对平均深度进行了归一化,如此则可直接观察到平均测序深度对每个扩增子的影响,即可评价总体均一度。从图5可以看出,大部分的数据分布于平均深度的10倍范围以内,有较高的总体均一度,从而使总体测序量得以降低。
图4 大鼠扩增子测序深度
图5 扩增子相对深度累计曲线
2.2 Hi-SNP特异性
从图6可以明显看出,测序深度的增加,使得杂合子二等位基因比例向1∶1靠拢,而纯合子的非特异等位基因数目比例则下降,即有效测序深度的增加有利于提高SNP的准确性。
图6 SNP位点等位基因比例
如图7所示,从各品系大鼠SNP等位基因所在reads比例来看,该批次F344大鼠、GK大鼠、SHR大鼠和WKY大鼠绝大部分样本为纯合子,为近交系大鼠,符合遗传质量检测的要求。杂合子绝大部分来源于SD大鼠,为封闭群大鼠。
图7 各品系大鼠SNP位点等位基因reads比例
2.3 SNP位点在品系间的差异分析
运用mega软件,采用极大似然法查看各品系大鼠之间的遗传距离。各品系大鼠,除SD大鼠,基本上聚集在一起。同时可以发现SHR大鼠和WKY大鼠与其他品系大鼠有较大的差异。
图8 各大鼠运用极大似然法构建的聚类图
多重PCR靶向二代测序SNP分型方法相比于形态学、免疫学以及生物化学方法有着明显优势,主要体现在通量大、建库方便、测序深度高、性价比高、特异性强、分辨率高和价格低廉等方面。
高通量二代测序技术的发展,也使大规模样本的基因组目标区域及候选基因区域的测序成为可能。由此而建立的基于高通量测序的SNP分型技术,即是利用多重PCR,获得含有目的的SNP位点基因组片段,定量混合后测序。相较于传统的PCR-RFLP(限制性片段长度多态性聚合酶链反应)、PCR-SSCP(聚合酶链反应-单链构象多态性分析),直接测序和基因芯片等SNP分型方法,具有以下优势:(1)针对性强,目标区域测序更有针对性,可以依赖大量的前期研究成果,获得候选染色体区域片段;(2)信息量大,目标区域测序可以完整覆盖整个基因区域,不仅可以获得高频SNP的分型数据,还可以发现低频的和个体特有的变异;(3)费用低,多重PCR是一种高效、高产率的目标DNA富集技术,比起液相杂交,Long PCR扩增等富集技术,能提高富集效率,加速实验进程,结合高通量测序,同时可对数百个样本进行快速测序,大大降低了研究成本。
3 结论
鉴于国内应用SNP标记分析通量相对较低,且尚未建立针对我国常用大鼠进行系统而有效遗传检测的高通量SNP位点组合(SNPpanel)、SNP遗传检测的方法及判定标准上的现状,本研究通过高通量多重PCR技术联合二代测序,优化出一套可用于大鼠品系遗传质量快速检测的高通量SNP鉴定方法,并易于标准化流程,有利于提高我国大鼠遗传质量控制的标准。