线粒体SSR分子标记在植物中的应用进展
2023-03-11张兰兰李才华方雨竹宋岩康婉琳李志宇张晓张锐
张兰兰,李才华,方雨竹,宋岩,康婉琳,李志宇,张晓 ,张锐
1.长春理工大学生命科学技术学院,长春 130022;2.中国农业科学院生物技术研究所,北京 100081
简单序列重复(simple sequence repeats,SSR),又称微卫星DNA(microsatellite DNA)或短串联重复序列(short tandem repeats,STR),是由1~6 bp短核苷酸为基本重复单位首尾相连而成。SSR 分布于基因组中,某些具有特异性的重复序列可作为物种鉴定的分子依据。SSR 既存在于细胞核基因组中,也存在于叶绿体和线粒体基因组中。其中,线粒体SSR(mtSSR)由Soranzo[1]于1999 年最先提出,并在松科植物中筛选出了第一批mtSSR引物。
SSR 分子标记具有多态性高、分布广泛、共显性等特点,同时,线粒体基因组结构上具有进化速率快、母系遗传等特点。因此,植物mtSSR分子标记在物种鉴定、分子育种、基因流动进化、物种演化、胞质遗传特性、种群分类等方面具有重要应用。
1 植物线粒体基因组的特点
目前,GenBank 共收录了532 种植物线粒体基因组全序列。其中最小的为95 884 bp(Gayralia brasiliensis),最大的为4 008 762 bp(Larix sibirica)。植物线粒体基因组结构复杂,多数为环状或多元环状双链DNA,少数以线性DNA 分子存在[2]。植物线粒体基因组中含有大量的重复序列,其在基因编码序列上进化非常缓慢,但基因间隔区的重排或重组却很活跃,且重复序列的长短与重组频率基本呈正相关[3-4]。同时,植物线粒体基因组中也可含有来自细胞核和叶绿体基因组的序列,即存在DNA 在细胞内的水平基因转移(horizontal gene transfer,HGT)现象[5],例如,拟南芥线粒体基因组中4%的序列来自于细胞核、1%的序列来自于叶绿体[6]。根据剪接机制和二级结构进行区分,植物线粒体基因组中还存在Ⅰ类和Ⅱ类内含子。细胞器内含子的获得和丢失以及内含子的流动性对线粒体DNA 的大小、变异和重排有一定的促进作用,有利于线粒体基因组的进化[7]。此外,植物线粒体基因组中还存在RNA 编辑现象[8]。
2 植物mtSSR研究进展
2.1 植物mtSSR特点
银杏[9]、红皮柳[10]、烟草[11]、雷蒙德氏棉[12]的mtDNA 大小分别是:346 595、598 970、430 597、676 078 bp,从中分别发现了240、404、578、674 个mtSSR。用MISA 软件对这4 种植物的mtSSR 进行分析,当1~6 核苷酸重复基序的重复次数分别设置为8、4、4、3、3、3时,从银杏、红皮柳、烟草、雷蒙德氏棉中分别检测到(159、0、12、60、1、8)、(171、157、17、49、9、1)、(31、392、136、2、3、14)、(300、240、23、97、12、2)个SSR。单核苷酸重复中,A/T占比在红皮柳、烟草、雷蒙德氏棉中分别为90.7%、93.55%、90.67%,但银杏中A/T 只占10.69%。烟草线粒体基因组mtSSR 中,二碱基重复基序出现最多的是AT/TA和AC/TG,分别占二碱基重复基序的41.33%和40.31%;三碱基重复基序以AAT/TTA 最多,占37.5%;四、五、六碱基重复基序的类型多且分散,但出现次数少。SSR 间的平均距离是745 bp。雷蒙德氏棉mtDNA 中含有12 种五核苷酸重复和2种六核苷酸重复,其中只有1 种定位于编码区(matR),2 种定位于内含子区(nad4-内含子3×2),其余均位于基因间隔区。Kuntal等[13]对不同植物类群mtSSR模式的研究结果也进一步证实了上述观点。Ishii 等[14]根据小麦的mtDNA 全序列,鉴定出21 个具有10 个以上单核苷酸重复序列的mtSSR 位点,其中有15 个位点出现多态性带型。比较发现,mtSSR 在等位基因数、多样性值等方面的变异性远小于叶绿体SSR。Nishikawa 等[15]对水稻mtDNA 中的SSR 及其侧翼区域进行分析,发现多处碱基替换和缺失/插入,在单核苷酸SSR 中G(或C)重复序列比A(或T)重复序列更易变异。此外,Jaramillo-Correa 等[16]比较了冷杉属中富含STR 的线粒体位点(nad5-4内含子)与缺乏STR 的线粒体位点(共11 个)的DNA 变异情况,分析了STR 的重复积累与mtDNA 特定区域突变率增加之间的关系,结果表明重复序列在植物mtDNA中具有诱发DNA序列变异的作用。
2.2 植物mtSSR在群落分析中的应用
1999 年,Soranzo 等[1]首次在针叶松mtDNA 的nad3和rps12间的基因间隔区中发现一个微卫星重复序列(G)n,该序列在15种松树属植物中表现出3种不同形态。Tollefsrud 等[17]对挪威云杉线粒体nad1基因的2 个小卫星区域进行了变异评估,结果鉴定出28 个线粒体变体;进一步对挪威云杉北欧谱系的遗传结构进行研究,发现在北欧挪威云杉最古老的地区,微卫星多样性较高,且核微卫星和线粒体微卫星之间具有整体一致性[18]。Sperisen 等[19]发现挪威云杉nad1基因第2 内含子的2 个多态性线粒体串联重复标记,其大小变异表现出明显的种群分化和地理分布。Godbout等[20]利用母系遗传的mtSSR,对自然分布范围内91 个黑松种群的单倍型多样性进行研究,确定了种群结构中冰川生态变化的遗迹特征,表明夏洛特皇后群岛和亚历山大群岛在太平洋西北地区具有为一些物种提供避难所的作用。Semerikov等[21]鉴定出一个线粒体小卫星位点,该位点在欧洲、西伯利亚、蒙古的欧洲赤松中含有41 个等位基因;同时,该团队首次对西伯利亚落叶松4 个线粒体SSR 位点的遗传多样性进行了大范围调查[22],发现大多数西伯利亚西部平原落叶松种群可能起源于萨彦山脉的山麓丘陵。Aizawa等[23]使用6 个微卫星位点和母系遗传的线粒体基因序列,研究了库页云杉在自然环境中的遗传结构,在库叶云杉和条斑云杉中新发现了一些小卫星基序和可变位点。
除了松杉类植物,mtSSR在其他植物群落分析中也有应用。例如,Hosaka 等[24]在马铃薯mtDNA中发现了3个SSR标记,显示40条带型,可区分63种不同的mtDNA。Villarreal等[25]通过富集文库法和454鸟枪测序法进行微卫星开发,共设计9对引物,对89 份阿巴拉契亚南部角苔种质、9 份墨西哥角苔种质和16 份Nothoceros vincentianus种质进行了测试,分别获得了线粒体基因座和6个基因座,其中3 个来自叶绿体,3 个来自细胞核。此外,开发出新的微卫星引物,用于检测大角苔内及其他角苔物种的遗传分化,以及研究阿巴拉契亚山脉南部具有特殊性别异域性的分类群中遗传变异的划分。例如,张先启等[26]利用2 对具有多态性条带的线粒体SSR 引物对76 个板栗品种进行遗传多样性分析,在2个多态性SSR 位点检测到4个等位基因,平均每个位点产生2个等位基因。
2.3 植物mtSSR在鉴定胞质类型中的应用
mtSSR 在鉴定胞质类型中主要用于禾本科植物及烟草、棉花等植物。Rajendrakumar 等[27]发现在水稻线粒体基因组nad5基因上游,存在一段AT重复序列,该序列在CMS系中是(AT)6或(AT)14,而在保持系中是(AT)11。根据该位点开发的分子标记(drrcms)不仅可以用来鉴别野败水稻不育系和保持系,而且可以鉴别另外2 种CMS 系:DMS3A(来源于Oryza nivaraS.D. Sharma and Shastry 胞质)和DMS4A(来源于OryzarufipogonGriff.胞质)。Wang 等[28]利用21 对来自甘蓝型油菜mtDNA 序列的SSR 引物,研究了甘蓝型油菜6 种不同CMS 类型的SSR 图谱,共有4 对mtSSR 引物在6 个甘蓝CMS 系中显示多态性,其中多态性主要包括SSR 数目变异、SNP 和序列插入或缺失。Zhang 等[29]在鉴定陆地棉CMS 系P30A 及其保持系P30B mtDNA 差异时,发现完整atpA基因终止密码子下游160 bp 处存在一个SSR 位点(SSR160),该位点在P30B、P30A、CMS-D2、CMS-D8中的序列分别是(TAA)7(TA)6、(TAA)3(TA)2、(TAA)3(TA)2、(TAA)4(TA)3;进一步在棉属中筛查该位点,发现可将34种棉花分成17种不同的类型[30]。李凤霞等[31]利用mtSSR分子标记成功鉴别烟 草Nta(sua.)S、Nta(gla.)S、Nta(rep.)S 和Nta(rus.)S等4种不同CMS系。
2.4 植物mtSSR数据库
目前,线粒体SSR数据库有ChloroMitoSSRDB、植物线粒体SSR 库(MitoSatPlant)、微卫星查找器(micro satellite identification took,MISA)、多态性微卫星数据库(pSATdb)、蚕豆基因组数据库(vicia faba omics database,VfODB)、菠 萝SSR 数 据 库PineElm_SSRdb、微 卫 星 数 据 库(microSatellite database,MSDB)、SSRome等(表1)。
ChloroMitoSSRDB[32]是一个完整的面向Web的数据库,包含细胞器基因组中的完美重复和不完美重复。数据库包含1 982 个mtDNA 的完美和不完美SSR。这些重复进一步超链接到带注释的基因区域(编码或非编码),并链接到美国国家生物技术信息中心(www.ncbi.nlm.nih.gov/)的相应基因记录,以识别和理解重复区域的位置关系。它提供与重复位置(编码和非编码)、重复大小、基序和长度多态性等相关的有用信息,用于开发分子系统发育的功能性标记,估计物种间的分子变异等。升级版ChloroMitoSSRDB 2.00[33]数据库提供了总共4 454 个细胞器基因组的访问,显示了共40 653 个IMEx 完美SSR(11 802 个叶绿体完美SSR 和28 851 个 线 粒 体 完 美SSR),275 981 个IMEx 不完美SSR(78 972 个叶绿体不完美SSR 和197 009个线粒体不完美SSR),35 250个MISA(微卫星识别工具)完善的SSR 和3 211 个MISA 复合SSR 以及相关信息。此外,ChloroMitoSSRDB 2.00利用门户网站集成并提供了可利用的SSRs分析挖掘工具,用于组装的细胞器基因组和下一代测序读取,允许用户使用2种重复算法执行多个SSR搜索和浏览。
植物线粒体SSR 库(MitoSatPlant[34])包含从92个绿色植物mtDNA 中提取的完美、不完美和复合SSR信息,共发现72 798条SSR,其中PCR引物设计用于72 495条SSR。MitoSatPlant使用SQL 2008服务器开发,可以通过ASP设计的前端进行访问。
MISA 是一种在核苷酸序列中查找微卫星序列的工具,除了检测完整的微卫星序列外,MISA还能够找到由多个简单序列基序组成的完美复合微卫星序列。Beier 等[35]扩展了MISA,并将其重新实现为基于Web 的应用程序,改进了复合微卫星检测,并增加了以GFF3 格式显示和导出MISA结果用于下游分析的可能性。
为了探索属间的种间差异,Kumar 等[36]开发出一种多态性微卫星数据库——pSATdb(https://lms.snu.edu.in/pSATdb/)。pSATdb 包含28 710 个微卫星,对后生动物(metazoa)和绿色植物(viridiplantae)中1 576 个属的5 976 个mtDNA 序列进行了鉴定,其中后生动物和绿色植物分别有1 535个(5 846 个mtDNA)和41 个(130 个mtDNA)属。pSATdb 是唯一一个提供mtSSR 长度变异属信息的数据库。由于微卫星在基因组学研究中的新型作用,储存在pSATdb 中已被识别的常见、多态和独特微卫星将有效地用于各种研究,包括遗传多样性、遗传图谱的绘制、标记辅助选择和比较群体研究。
蚕豆基因组数据库(VfODB)是一种综合了种质信息、表达序列标签(expressed sequence tag,EST)、表达序列标签SSR(EST-SSR)和线粒体SSR、microRNA 目标标记和蚕豆遗传图谱的综合数据库[37]。基于mtDNA 挖掘,VfODB 数据库开发了40 个mtSSR 分子标记。经过数据整理,可以检索到3 461 个标记,代表12 种类型(CAPS、EST、EST-SSR、基因标记、INDEL、同工酶、ISSR、RAPD、SCAR、RGA、SNP 和SSR)。VfODB 还提供2 种用户友好的工具来识别、分类SSR基序,并在计算机分析中扩增其目标。
Chaudhary 等[38]尝试从菠萝基因组、叶绿体、线粒体和EST 序列中鉴定SSR。在菠萝中共鉴定出359 511 个SSR(基因组序列356 385 个,叶绿体序列45个,线粒体序列249个,EST序列2 832个),建立了一个开源数据库PineElm_SSRdb,该数据库将为在菠萝领域工作的育种家以及其他研究标记的跨物种转移性、多样性调查、作图和DNA 指纹的研究人员提供方便。
微卫星数据库(MSDB)提供了37 680 个基因组中超过40 亿个微卫星的集合,用于简化、交互式分析和可视化,是迄今为止访问和分析多物种微卫星数据最全面、最具注释性和最新的数据库[39]。MSDB 使用户能够以表格的形式浏览数据,表格可以过滤和导出,还可以作为交互式图表,同时查看和比较多个物种的数据。
SSRome 数据库是一个基于网络、用户友好、全面和动态的数据库,用于探索6 533种生物中的微卫星[40]。在SSRome 中,除了所有线粒体和叶绿体基因组以及NCBI提供的表达序列标签外,在所有分类群中还发现了1.58亿个微卫星基序。此外,该数据库还开发了4 510 万个微卫星标记,并分类为基因型或非基因型。SSRome 可在基因组或转录组范围内识别、分类和比较基序。
3 展望
植物mtSSR 兼具SSR 多态性高、植物mtDNA母系遗传和结构变化快等优点,目前已在植物群落分析和胞质类型鉴定等方面获得了较为广泛的应用。之前mtSSR 的开发效率较低,但随着DNA测序技术的快速发展,越来越多的植物mtDNA 完成全测序,mtSSR 的特征将更清晰地显示出来。相信mtSSR 在植物指纹数据库构建、分子辅助育种、遗传多样性分析以及品种纯度鉴定等方面也将获得越来越多的应用。