叶绿体基因组的比较分析及系统发育研究
2021-12-01冯慧喆
邢 钰 冯慧喆
(1.西南林业大学林学院,云南 昆明 650224;2.枣庄学院,山东 枣庄 277160)
1 传统物种分类学与基因组学系统发育的研究
研究物种的进化关系不仅可以为分类学提供理论依据和发展方向,还可以通过揭示物种之间亲缘关系的远近和进化关系,从而精确地估计物种的进化地位,进而更好地理解和保护生物的多样性。传统物种分类学的研究主要是基于对物种各部分形态的比较分析,如植物的分类学中对根、茎、叶、花、果实、种子等形态的观察判断。现如今,通过分子系统发育分析结果的检验,证明了传统物种分类学的很多结论都是错误的[1]。但是,由于形态学分析在野外采集初期中非常重要,且分子方面的分析研究耗时较长,所以传统物种分类学仍不能被摒弃,并且将其与分子分析相结合,将会极大地提高物种系统发育学研究的准确性。以往对植物系统发育学研究的研究主要集中在核型分类学分析、花粉形态分析、叶柄和果实解剖学分析等,而目前对进化关系的研究,主要是结合形态学特性的分析结果与分子系统发育的关系,且后者的分析仅基于DNA序列的系统发育分析,特别是基于核基因组内核糖体DNA的内部转录间隔(ITS)区域。
2 核基因与质体基因的差异与分析
真核细胞的细胞质基因是存在于一些细胞器中的DNA分子,这些基因只能在细胞器(如叶绿体、线粒体)的内部完成表达并控制某些性状,而且子代细胞的细胞器全部来自母本(受精时,由于精子中的细胞质极少,所以可以认为受精卵中的细胞质全部来自母本)。因此,由细胞质基因控制的性状都由母本传给后代,即母系遗传[2]。细胞质基因组(plasmon)是细胞质中基因的总称,细胞质基因是细胞质中存在的支配遗传性状的基因。在细胞质基因中,存在于色素体中的基因称为质体基因,存在于线粒体中的基因称为线粒体基因。细胞质基因是双螺旋结构,其以半保留的方式进行复制,具有与核基因相同的突变率,但是个别的遗传密码子与核基因不同。
细胞质基因和细胞核基因之间在结构上是没有区别的,并且两者均由编码区和非编码区组成。唯一的区别是两者的载体不同,真核细胞细胞质基因的载体是叶绿体和线粒体,而细胞核基因的载体是染色体。就位置而言,质基因本质上是存在于细胞质中的基因,而核基因是位于真核生物的细胞核中染色体上的基因;在遗传方式上,细胞核遗传时正反交的结果没有区别,即子一代均表现出显性亲本的性状;而细胞质遗传时,则结果相反,即子一代的性状只与母本相同,即母系遗传[3]。在基因组成上,所有与质基因相对应的细胞质基因构成一个细胞质基因组,其中包括线粒体基因组和叶绿体基因组等,而核基因组则只是一个简单的DNA或RNA分子,通常也称它为染色体。细胞核遗传和细胞质遗传都相对独立,但这并不意味着两者没有关联。核基因是主要的遗传物质,但它们必须要在细胞质中才能表达;尽管细胞质控制着一些性状,但它也受到细胞核的影响。因此,细胞质基因和核基因是相互依存、相互制约的。与核基因组构建的系统发育树相比,质体基因组树的大多数分支都具有较高的支持值。因此,基于物种的质体基因组重建系统发育关系至关重要,同时很有必要开发更有效的分子标记,可以更好地解决相关物种的种间关系。
3 叶绿体基因组的测序、组装、注释与结果分析
叶绿体是植物光合作用和其他生化反应的关键细胞器。叶绿体基因组是植物中的三个DNA基因组之一,由于其相对稳定的基因组结构和完整的基因组序列,它已被生物学研究领域广泛接受,为人们了解进化生物学提供了有价值的信息数据源,并已成为解决植物系统发育的有力工具[4]。
将野外现场考察采集的样本通过形态学特征鉴定后,将其记录保存起来。确保每次添加的新鲜叶子都立即用硅胶干燥,以进行进一步的DNA提取。利用试剂盒技术从每个样本中提取总基因组DNA,评估其数量和质量后,将其分为平均大小的片段。通过对比数据库的信息,使用Getorganelle和其他组装软件,不断调整参数,对原始片段进行定性评估和组装,然后进行手动修订,以确认叶绿体基因组序列中模糊的核苷酸IRa、IRb、SSC和LSC四个连接区域。利用Bandange对组装完成的fasta文件执行成环检测,并将拼接出的成环文件在NCBI与公开数据库中执行快速的局域对位排列算法,通过分析比对(blast)的结果来判断目标序列与参考序列的匹配程度,从而得出不同序列相似性的比较说明。再使用PGA软件对blast结果更好的一条序列进行注释,并通过检查注释结果与参考基因组的数目、注释结果中蛋白编码基因的cds长度是不是3的倍数和蛋白编码基因的cds是不是起始密码子开头ATG、是不是以终止密码子结尾等,以避免潜在的注释错误[5]。利用OGDRAW或者Chloroplast对叶绿体基因组进行绘制圈图。最后,统计出叶绿体基因组的各个数据信息,包括叶绿体基因组大小,LSC、SSC、IR区域的大小和各区域的GC含量。通过对叶绿体基因组组装和注释结果的比较和分析,研究得出基因结构、GC含量、序列排列和核酸多样性,目的是识别积极的选择基因和理解进化关系。
4 叶绿体基因组分析与数据统计
被子植物中大多数叶绿体的基因组排列结构、基因组成和基因含量高度保守。叶绿体具有典型的圆形四分体结构,其四分体结构的大小范围为115~165 kb,包括一个大单拷贝区域(LSC)、一个小单拷贝区域(SSC)和两个编码相同但方向相反的倒重复区域(IR)。其中LSC区域和SSC区域被两个IR区域隔开,并且IR区域没有完全丢失。无论系统发育的位置如何,叶绿体基因组都具有保守的性质。GC含量在基因组识别中起着重要作用,通过碱基组成的变化,可以看出不同物种的基因组差异。种子植物叶绿体基因组中GC含量的正常范围是34%~40%,倒重复区域内的GC含量最高,这主要是因为该区域中有4个GC含量高的rRNA基因,而rRNA基因在SSC区域的含量最低[6]。GC含量的不均匀分布可能是LSC和SSC区域相对于倒重复区域的保守性的一个重要因素。倒重复区域边界的收缩和扩张是改变叶绿体基因组长度的主要驱动因素之一。研究发现,蛋白编码基因进化的速度受IRs收缩和扩张的影响,这很可能有助于研究进化模式。由于质体基因组体积紧凑、母系遗传、无重组且进化率较低,所以通常被认为是研究濒危物种保护的理想选择。基因测序技术的发展,降低了质体基因组测序的成本,为基于质体基因组的相关分析提供了便利。学者们已经基于全质体基因开发了许多适用于种群遗传学和系统发育学的分子标记。
在整理数据并对结果进行分析后,发现GC的含量在基因组识别中起着重要作用,通过研究碱基组成的变化,可以看出不同物种的基因组差异[7]。在被子植物中,质体基因组大小的变化归因于倒重复区域和单拷贝(SC)边界区域的扩张和收缩,这在进化中起着至关重要的作用。研究结果表明,质体基因组在基因组组成、顺序和内容上具有高度的相似性,但是倒重复区域(IR)和单拷贝区域(SC)的边界存在着略微不一致的现象。倒重复区域的扩张和收缩可能是质体基因组长度变化的主要机制,这种波动可能有助于确定物种之间的进化关系。