APP下载

简化基因组测序技术在植物遗传分析中的应用

2022-04-15董雨青魏雪苹强亭燕张本刚齐耀东刘海涛

中国农学通报 2022年8期
关键词:位点图谱测序

董雨青,魏雪苹,强亭燕,张本刚,齐耀东,刘海涛

(中国医学科学院药用植物研究所,北京 100193)

0 引言

1977年Sanger等[1]提出双脱氧核苷酸末端终止测序法,也称为Sanger测序法,成为了第一代测序技术的代表,同时揭开了基因组学研究的序幕。2005年美国454公司在Nature上发表了基于焦磷酸测序的方法[2],标志着二代测序(Next-generation sequencing,NGS)时代的开启。随后又出现了基于聚合酶合成测序的Solexa和基于连接酶测序的SOLID平台[3]。二代测序技术的开发大幅降低了测序时间,并成功地把DNA测序引入到了高通量测序时代[4]。简化基因组测序(Reduced-representation genome sequencing,RRGS)便是在高通量测序的基础上发展起来的一种利用酶切将基因组进行打断,对部分区域进行测序从而降低基因组复杂程度的测序技术。

分子标记是反映生物不同群体或同一群体不同个体间遗传多样性的内在特征,其在遗传图谱构建、基因定位、分子育种、全基因组关联分析等领域具有广泛的应用。近些年来,分子标记的开发技术迅速发展,从限制性片段长度多态性(RFLP)到简单重复序列(SSR)再到目前应用非常广泛的单核苷酸多态性(SNP)[5-7],分子标记在种类上已经可以基本满足各种研究的需求,而如何更快速地获取大量的分子标记是目前研究者们关注的问题。传统的Sanger测序首先需要对大量的潜在标记进行筛选,然后对不同个体的同源位点设计引物进行PCR扩增来获得分子标记,此种方法耗时久,且成本高。基于序列捕获芯片技术的SNP开发在基因分型方面有一定优势,但是开发过程仍然较为繁琐,且对新群体检测时会出现偏差[8]。而基于简化基因组技术开发分子标记,可以通过一次测序获得成千上万个变异位点,并且对于不同个体的基因分型可以和开发标记的工作同时完成。因此,简化基因组测序无论是在效率上还是成本上都要明显优于传统方法。未来,随着测序成本的不断降低,全基因组测序或许会成为研究植物基因组的普遍方法,但目前,尤其是对群体研究而言,简化基因组仍然是极具优势的技术[9]。

自简化测序概念提出以来,其衍生出了许多不同种类的测序技术,并且已经广泛应用于动植物的单核苷酸多态性位点开发、构建高密度遗传图谱、植物数量性状基因座(QTL)定位、群体遗传学及谱系地理学等领域[10-13]。本研究主要总结了简化基因组测序的发展过程及其主要技术种类和建库测序原理,并聚焦于其在植物,如农作物、经济作物、药用植物等中的研究进展,为简化基因组测序技术在植物遗传分析等方面的应用提供参考和借鉴。

1 简化基因组测序技术的发展及目前主要技术种类

1.1 限制性酶切位点DNA测序RAD-seq

限制性酶切位点DNA测序(Restriction-site Associated DNA Sequence,RAD-seq)技术由Miller等[10]于2007年提出,其第一次应用是Baird等[14]对三刺鱼(Gasterosteus aculeatus)进行了测序,并开发出了13,000多个SNPs用于构建高密度的遗传连锁图谱。RAD-seq的基本流程是:首先通过限制性内切酶将样本基因组DNA酶切成小片段,然后在片段两端加上P1接头,接下来将样本混池并自由剪切,选择300 ~700 bp的片段,加上具有特殊“Y型”结构的P2接头,保证PCR只扩增同时具有两种接头的序列,最终上机测序。

上述RAD-seq技术是基于单酶切的sd-RAD(single digest-RAD),尽管其可以获得较多的标记数,但是建库步骤繁琐,对实验人员的操作水平有很高的要求,且测序的序列分散度较高[15-17]。随着RAD-seq技术的优化,目前基于单酶切技术发展形成了双酶切的RAD(Double digest RAD,ddRAD)技术和应用ⅡB型限制内切酶的RAD(ⅡB digest,2b-RAD)技术[18-23]。

ddRAD首先对基因组DNA的常见酶酶切位点和稀有酶酶切位点进行双酶切,然后通过电泳切胶选择500 bp左右的片段,最后在片段两端加上接头并上机测序。ddRAD-seq对DNA文库的筛选比单酶切严格得多,虽然使测序片段减少,但得到的测序结果会更加准确,并且可以提高建库效率,降低实验成本[24]。

2b-RAD技术对基因组进行酶切所采用的是ⅡB型限制性内切酶,此类酶可以将识别位点的上游和下游分别切断并获得长度一致的片段。该技术首先在拟南芥上进行了验证,结果表明其具有很高的准确度。但由于获得的片段较短,因此不适合重复序列比例高、高杂合或无参考基因组的物种[25]。

1.2 基于测序的基因分型技术GBS

基于测序的基因分型技术(Genotyping by Sequence,GBS)是Elshire等[26]于2011年提出来的,其原理是将基因组进行酶切并测序,然后通过生物信息学分析获得SNPs并进行基因分型。此技术与RAD非常相似,也是通过两种接头来筛选片段,首先将基因组进行酶切,随后将Barcode接头和Common接头连接到片段的两端,这样便产生3种类型的片段:两端分别为不同接头的片段和两端为相同接头的片段,而只有同时具有Barcode接头和Common接头的片段可以进行PCR扩增并测序。该技术的核心是对限制性内切酶的选择,ApeK Ⅰ酶是目前应用频率最高的,用以减少基因组的重复序列[27]。GBS技术建库步骤少,可以对大量样本进行建库,因此具有省时、成本低的优点。但获得的标记数比RAD少。基于GBS发展起来的双酶切GBS(Doubule digest GBS,ddGBS)技术,类似ddRAD,同样采用两种酶对基因组进行酶切,此技术的建库成本低且标记分布均匀,但是对基因组覆盖率相对低,获得的片段数目少[28-30]。

1.3 特异性位点扩增片段测序SLAF-seq

特异性位点扩增片段测序(SLAF-seq)是吸取其他简化基因组优势而形成的一项新技术,由Sun等[31]于2013年提出。其基本流程为:首先通过生物信息学模拟酶切结果,选择合适的限制内切酶,然后对特异长度基因组DNA进行酶切,接着给每个片段加一级接头,混合后再加二级接头,完成文库构建并上机测序。SLAF-seq一次可以开发10万个以上的标签,得到覆盖整个基因组的变异信息。其明显优势是在保证高质量和较多数量分子标记的同时,降低实验成本,适用于样本量较大且基因组较复杂的无参物种[32-36]。

1.4 简化代表库

简化代表库通过选择酶切后的片段来简化基因组,将群体中不同个体保留的具有差异的片段结合在一起,完成对基因组的覆盖。目前,主要包括简化代表库(reduced-representation libraries,RRLs)和简化多态序列复杂度测序(complexity reduction of polymorphic sequences,CRoPS)[37]。

1.4.1 RRLs RRLs是最早的简化基因组技术,其第一次应用是被用于构建人类基因组的SNP图谱[38]。Tassell等[12]于2008年对结合了新一代测序技术的RRLs技术进行了系统的阐述。其基本流程是首先将样本基因组进行酶切处理,接着将所有样本的片段混合在一起并按照长度筛选,然后对筛选出来的片段加上接头,最终完成上机测序。此技术的建库过程通常可以保留长度为基因组1% ~10%的初始酶切片段。对于最简化的RRLs技术而言,可以选择对整个酶切片段或是片段的两端进行测序[39-40]。RRLs技术步骤简单,成本低廉,但是早期的RRLs并不会对不同个体的样本加上barcode,因此只能对整个群体进行估计。

1.4.2 CRoPS CRoPS是Van Orsouw等[41]于2007年提出的将扩增片段长度多态性(AFLP)方法与高通量测序结合起来开发多态性位点的技术。其通过限制性内切酶来打断基因组DNA,接着将片段连接接头并进行AFLP扩增,最终上机测序。该技术适用于含有高重复序列或序列多态性较低的物种[42]。目前此技术已被应用于SNP开发和群体遗传学研究[43-44]。

1.5 近十年各类技术发文统计

从2011—2020年简化基因组不同技术的发文量中可以看出(如图1所示),总发文量呈现不断上升的趋势,说明简化基因组技术越来越受研究人员的欢迎,其中应用最广泛的是RAD及其衍生技术和GBS技术,ddRAD的增长速度最快,已基本赶超单酶切RAD的发文量,SLAF技术也在逐年增加。但是较早出现的RRLs和CRoPS近几年来几乎不再被研究者们使用,这也反映出了新技术在提高SNP开发数量和降低实验成本上的优势。

图1 2011—2020年简化基因组不同技术发文情况

2 简化基因组测序在植物中的应用

SNP为基因组中常见的遗传变异类型,具有分布广,数量多的特点。传统的分子标记开发方法通量较低,成本较高。而简化基因组技术具有不参考基因组便可进行大量SNPs开发的优势[45-47]。基于开发的大量分子标记,可用于构建高密度遗传图谱[48-50]、QTL定位[51-53]、群体遗传学和系统发育学分析等[54-56]。

2.1 在构建遗传图谱上的应用

比起传统的基于分子杂交或PCR等技术获得的分子标记(RFLP、SSR、AFLP),利用简化基因组测序技术开发的分子标记(SNP等),在遗传图谱的构建方面要更具优势,大量的分子标记使遗传图谱的分辨率得以进一步提升(如表1所示)。

表1 简化基因组测序技术在植物中的应用

Bai等[57]利用RAD-seq技术对油棕(Elaeis guineensisJacq.)进行了全基因组水平的SNPs开发,共获得510,251个SNP位点,经过过滤后,构建了包含10,023个标记,覆盖16条染色体的高密度连锁图谱,图谱总长为2,938.2 CM,位点间平均距离为0.29 CM。弥补了前人利用RFLP等标记构建油棕遗传谱图不饱和及包含分子标记少的不足[58],为发现油棕重要性状的QTLs,促进分子标记辅助选择,加速遗传改良提供了基础。Zhao等[59]对130个山楂(CrataeguspinnatifidaBge.)杂交F1个体及2个亲本进行RAD测序并开发SNPs,利用开发的分子标记构建了3个遗传图谱,分别为两个亲本和一个整合的图谱,包含17个连锁群。母本和父本的遗传图谱分别包含2,657和4,088个SNP标记,遗传距离分别为2,689.65和2,558.41 CM,而整合图谱为2,470.02 CM,包含6,384个SNP标记。该遗传图谱包含了迄今为止从山楂中获得的最多的分子标记,为今后山楂经济性状的精细QTL定位和分子辅助选择提供重要参考。Zhang等[60]利用RAD-seq对紫苜蓿(Medicago sativaL.)生成的SNP标记构建了一个高密度连锁图谱,该连锁图包含4,346个SNP标记和119个SSR标记,每个亲本有32个连锁群。父本和母本的遗传距离分别为3,455 CM和4,381 CM,平均标记距离为3.00 CM和1.32 CM。与以往的研究相比,该图谱的标记密度大大提高,并且为紫苜蓿产量相关性状的定位提供了有益的参考。Carrasco等[61]通过GBS对李(Prunus salicinaL.)进行SNP标记,使用桃基因组作为参考,共鉴定出49,826个SNPs。经过严格筛选后,发现了137个杂交后代的1,441个分子标记,并将其映射到8个连锁群。最后使用732个SNPs构建了整合图谱,遗传距离为617 CM,相邻标记间的平均值为0.96 CM。在药用植物方面,Liu等[62]采用SLAF-seq对丹参(Salvia miltiorrhizaBunge)进行分子标记的开发,对2个亲本及其96个F1个体中提取的基因组DNA进行SLAF文库的构建,亲本中每个标记的平均覆盖深度是83.43倍,F1后代为10.36倍。最终得到由5,164个SLAFs组成的连锁图谱,包含8个连锁群,全长1,516.43 CM,位点间平均距离为0.29 CM。该结果不仅为定位数量性状基因座提供了平台,而且为丹参生物技术和比较基因组学提供了重要的新工具,并为中药研究提供了有价值的参考。

2.2 在QTL定位上的应用

QTL定位可追溯到20世纪80年代,但是,早期的研究中确定大量的多态遗传标记,分化亲本基因型,往往受到费用和时间的限制。而高通量测序方法,例如RAD-seq和GBS,可直接用于鉴定多态性标记并进行基因分型,因此,即使在连锁不平衡较低的情况下,也可以以高分辨率对QTL进行定位[63](如表1所示)。

Du等[64]利用SLAF技术构建了芝麻(Sesamum indicumL.)F2种群的高密度连锁图谱,并发现表型效应大于10%的QTL共19个,包括种皮颜色、种子大小、千粒重。揭示了与种子性状相关的特定标记在芝麻中的位置,并为进一步研究种子品质性状提供了基础。Li等[65]通过SLAF测序构建了由20个连锁群组成的大豆[Glycine max(L.)Merr.]遗传图谱,在此基础上,鉴定出了41个影响异黄酮含量的QTL。此外,41个QTL中11个与多种环境中的异黄酮含量相关。其中的qIF20-2,在各种环境中促成了大部分异黄酮的产生,并解释了大量的表型变异(8.7% ~35.3%),代表了不同环境下大豆异黄酮含量的一种新的主要QTL。Xu等[66]采用2b-RAD技术对茶树[Camellia sinensis(L.)O.Ktze.]F1种群进行基因分型,构建了包含15个连锁群的遗传图谱,经过QTL分析后,共有27个与类黄酮或咖啡因含量相关的QTL被定位到8个不同的连锁基团,为茶树中类黄酮含量相关的功能基因发现,标记辅助选择育种提供了有价值的信息。Gangadhara等[67]利用GBS为苦瓜(Momordica charantiaL.)构建了高密度遗传图谱,共有4个性状(雌蕊数、性别比、节数和首次出现雌花的天数)的22个QTL被鉴定并定位到20个连锁群上。在药用植物方面,Lu等[68]采用SLAF对细茎石斛[Dendrobium moniliforme(L.)Sw.]和铁皮石斛(Dendrobium officinaleKimura et Migo)及其杂交F1代进行分子标记开发并构建遗传图谱,最终确定了5个与茎总多糖含量相关的QTL,为多糖代谢相关基因挖掘以及其他药用植物的分子育种提供重要参考。Kang等[69]通过GBS对紫苏[Perilla frutescens(L.)Britt.]进行了高密度遗传图谱的构建,基于该图谱,共鉴定了6个QTL,这些QTL涉及3个与开花时间有关的性状:可见花芽的天数、开花的天数和成熟的天数。利用已知的不同作物花期调控基因进行同源基因分析,推断GI、CO和ELF4为与紫苏花期有关的QTL区域密切相关的同源基因。这些结果为今后利用精细定位技术研究紫苏花期和利用分子标记辅助选择技术开发紫苏新品种提供了依据。

2.3 在群体遗传学及谱系地理学上的应用

简化基因组另一个极具优势的应用是利用开发的分子标记以及基因分型的结果,进行高精度的群体遗传学、系统发育学和谱系地理学的研究。早期基于少量片段进行的群体遗传学研究只能利用少量的基因座进行分析,无法得到准确的结果,而基于全基因组重测序手段进行的群体遗传学研究,结果虽然更加精确,但是成本较高。基于简化基因组测序技术进行的群体遗传学研究克服了上述的问题,因此被广泛应用(如表1所示)。

Ren等[70]对西藏报春(Primula tibeticaWatt)的16个群体共293个个体进行了RAD-seq测序,根据个体基因分型数据,作者进行了群体遗传结构和主成分分析,将报春花分成了4个亚群。此外,结合生态位模拟,推测西藏报春在青藏高原存在若干个冰期避难所,加之本身缺乏长距离扩散能量,进一步加强了这种遗传结构。此种通过将简化基因组信息与生态位模拟相结合的方法,为研究植物可能存在的冰期避难所和生物多样性中心提供了基础。Feng等[71]采用RAD-seq技术对81个甘薯(Ipomoea batatasL.)进行了测序,共发现55,622个限制性位点DNA测序标签,包含97,010个SNPs。根据基因分型构建的系统发育树显示,81个个体聚成5个分支,种群遗传结构分析也显示在K=5时似然值具有最大值。结果表明,基于全基因组的SNPs数据更准确地揭示了不同来源甘薯的遗传关系,这为其分子标记辅助育种等研究提供了重要参考。在药用植物方面,Feng等[72]对横断山区以及毗邻地区的大黄(Rheum palmatumL.)复合体为研究对象,利用SLAF-seq技术,在大黄的46个居群共218个个体中得到5,256个SNPs。通过遗传结构分析、空间变异分析、祖先分布区重建以及群体动态模型检验等揭示大黄复合体的种内多样化机制和起源扩散路线。结果表明,大黄复合体存在东部和西部两个种下谱系,而这两个种下谱系还可进一步细分。大黄复合体的生物多样性中心位于横断山区中部,推测其起源于该地区,随后向东西两面扩散形成如今的地理分布格局。该研究使用以过程为导向的方法为研究其他物种的异域分化和种内多样性的形成与维持机制提供了一个全新的视角。

3 展望

随着测序成本的不断降低、测序准确性的进一步提高,基于简化基因组技术来开发植物的分子标记将被大量应用。尽管对个体进行全基因组测序的成本也在降低,分析结果也更加准确,但是对于基因组较大或者是高杂合度基因组的物种而言,简化基因组显然更具优势。然而简化基因组测序技术在某些分析方面仍然有一定不足和误差:(1)整体覆盖度相较于整个基因组而言还是较低,因此会有大量的变异信息丢失,在群体遗传学的分析中,虽可以较为准确的进行遗传结构、遗传多样性等计算,但对于LD衰减等难以得到准确的判断。(2)测序深度的不足,导致某些SNP位点的准确性不够,难以进行种群历史动态(PSMC、MSMC)的分析。对于上述存在的2个问题,进行高深度的重测序可能是更优的选择。(3)简化基因组在建库测序的过程中仍然会产生一些错误,因此,在后续分析的时候,要有条件的对数据进行检测、修正和过滤。针对不同物种或者不同研究目的时,需开发出适用于各种模型的分析工具,而目前存在的一些分析及可视化软件在细节上还有待进一步改善。

在进一步的研究中,简化基因组还可以同其他技术手段进行结合,如(1)与转录组结合通过全基因组关联分析及表达谱分析对目标基因进行精准定位。(2)与代谢组、蛋白质组等结合分析,探究植物体内代谢物的遗传调控机理。(3)在群体遗传学领域,简化基因组还可以结合生态位模拟,根据地质历史及气候变化等生态因子,探讨物种地理分布格局的成因。总之,简化基因组作为一种高效开发分子标记的技术,将在植物遗传研究中继续发挥重要作用。

猜你喜欢

位点图谱测序
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
多环境下玉米保绿相关性状遗传位点的挖掘
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
新一代高通量二代测序技术诊断耐药结核病的临床意义
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
相信科学!DNA追凶是如何实现的?
基因测序技术研究进展
一种改进的多聚腺苷酸化位点提取方法