牛亚科物种转座子与串联重复序列之间的进化关系
2022-05-17张瑞张天留范婷婷朱波张路培徐凌洋高会江李俊雅陈燕高雪
张瑞,张天留,范婷婷,朱波,张路培,徐凌洋,高会江,李俊雅,陈燕,高雪
牛亚科物种转座子与串联重复序列之间的进化关系
张瑞,张天留,范婷婷,朱波,张路培,徐凌洋,高会江,李俊雅,陈燕,高雪
中国农业科学院北京畜牧兽医研究所,北京 100193
【】重复序列是真核生物基因组中重要组成部分,对物种进化、基因遗传变异、转录调控等具有重要作用。研究旨在揭示牛亚科物种重复序列特征,研究转座子和串联重复序列间的进化关系,为牛亚科物种重复序列的研究提供理论支撑。以普通牛、瘤牛、牦牛、水牛、野牛以及大额牛6个牛亚科物种的基因组序列为研究对象,利用TRF和RepeatMasker软件对6个牛亚科物种基因组中的串联重复序列(tandem repeats sequence,TRs)和转座子(transposable elements,TEs)进行鉴定,并通过本地BLAST比对,分析两类重复序列间的相似性,单位点(single-locus TRs, slTRs)和多位点串联重复序列(mutiple-locus TRs, mlTRs)以及转座子内部的串联重复特征。(1)6个牛亚科物种中,重复序列在普通牛中的比例最高,为49.13%,其次为水牛46.82%、大额牛46.66%、瘤牛42.70%、野牛42.36%、牦牛42.34%;其中转座子在基因组中的比例为40.57%—45.71%,高于串联重复序列的比例(1.50%—3.42%)。(2)串联重复序列中,mlTRs的比例(76%—99%)显著高于slTRs(1%—24%),表明mlTRs为6个牛亚科物种中串联重复序列的主要组成。(3)TE-derieved的串联重复序列分析表明,TRs中43%—84%的序列来源于转座子,其中多位点串联重复序列可高达94%。(4)TRs-related 转座子及其活性分析表明,与TRs具有相似性的转座子主要来自非长末端重复序列(non-Long Terminal Repeats, non-LTR),包括SINE(Short Interspersed Nuclear Element, SINE)和长末端重复序列(Long Interspersed Nuclear Element, LINE),其中SINE/Core-RTE(主要为BOV-A2)的数量(14 423—24 193)和相对丰度(4.06%—6.77%)最高,被认为是牛亚科物种中最年轻且最具活力的转座子。(5)转座子的串联重复特征分析表明,BovB在0—600 bp,L1_BT在1 500—2 700 bp的序列分别发生了大量的串联重复,与consensus序列的一致性分别达93%和87%以上,且两段区域均为非编码区。重复序列在牛亚科物种中具有相似的分布特征, non-LTR是牛亚科物种TRs-related TEs的重要来源,且SINE/Core-RTE(主要为BOV-A2)为牛亚科物种最年轻且最具活力的转座子;同时串联重复序列又可作为转座子内部结构的组成部分,表明串联重复序列与转座子在基因组的进化过程相互影响、相互作用。
牛亚科;转座子;串联重复序列;进化
0 引言
【研究意义】重复序列是指在整个基因组中以多个拷贝出现的核酸序列,是真核生物的重要组成部分,有些真核生物基因组中重复序列的占比甚至可达50%以上,如人类为66%[1]、玉米为85%[2]。根据重复序列在基因组中的分布形式,可将其分为串联重复序列(tandem repeats sequence,TRs)和散在重复序列(dispersed repeats sequence,DRs)。TRs由多个重复单体以首尾相连的方式串联排列而成,而DRs则主要由能够在基因组上复制和移动的转座子(transposable elements,TEs)组成。TRs和TEs在真核生物基因组中广泛分布,且易在染色质区域积累[3],是基因组中快速进化的组分,对物种进化、基因遗传变异、转录调控等具有重要作用[4]。【前人研究进展】早期人们对TRs和TEs的研究大部分是分别开展的,很少对两类重复序列之间的关系进行研究,但近期有研究表明两类重复序列在许多真核生物中存在联系。AHMED等发现人类基因组中至少有7 276 TRs或23%卫星序列来源于TEs[5],其中小卫星主要来源于家族[6]。WONG等研究表明着丝粒卫星DNA可能通过不等交换,部分或全部来自转座子[7]。TEs不仅通过转座,而且通过产生串联重复来对基因组进行扩张和改变[5]。这些研究表明TRs和TEs两类重复序列之间具有序列相似性,可能在其结构和进化中存在着一定的联系。目前为止,此类研究在植物的家族[8-10],人类的家族[5-6],果蝇中的[11],蛙中的[12],鲸类中的L1[13],美洲牡蛎中MITE-like(Miniature Inverted-repeat Transposable Element(MITE)-like)[14]等研究中均有报道,然而在牛亚科基因组中却鲜有报道。继2009年普通牛基因组测序完成后,其他牛亚科物种的基因组测序工作也陆续展开。已报道的牛亚科基因组有普通牛、欧洲野牛、大额牛、非洲水牛等,重复序列占比分别为48.81%[15]、47.03%[16]、48.13%[17]、37.21%[18]。【本研究切入点】与人类、模式生物及植物等物种相比,牛亚科物种重复序列的报道较少,尤其在TRs和TEs两类重复序列的相似性、结构联系、进化关系等方面还有待研究。【拟解决的关键问题】通过对普通牛、瘤牛、牦牛、水牛、美洲野牛、大额牛等6个牛亚科物种重复序列的鉴定,运用生物信息学方法对TRs和TEs之间的序列相似性进行了关联分析,并研究了转座子的组成及其对串联重复序列的贡献,以及串联重复序列在转座子内的结构组成,为牛亚科重复序列的研究提供理论和数据支撑,也为进一步挖掘重复序列的结构特点、生物学功能及其在物种进化中的作用提供重要依据。
1 材料与方法
1.1 数据收集
利用6个牛亚科的参考基因组,分别为普通牛(ARS-UCD1.2)、瘤牛(Bos_indicus_1.0)、牦牛(BosGru_v2.0)、水牛(UOA_WB_1)、野牛(Bison_ UMD1.0)、大额牛。其中前五个是从NCBI基因组数据库(https://www.ncbi.nlm.nih.gov/genome/)下载,大额牛基因组使用的是本团队组装的版本(https:// ngdc.cncb.ac.cn/gwh/submit/submission)。本研究数据采集及分析于2018—2019年在中国农业科学院北京畜牧兽医研究所完成。
1.2 重复序列的鉴定
通过TRF(Tandem Repeats Finder,V4.09)[19]和RepeatMasker两个软件(V4.09)对重复序列进行鉴定。
(1)TRF:鉴定串联重复序列,参数设置参考Melters等的方法[20],具体为1、1、2、80、10、200、2000,分别表示匹配(match)、错配(mismatch)、插入缺失(indel)、匹配概率(probability of match,PM)、插入缺失的概率(probability of indel,PI),最低得分(minscore),最大周期(maxperiod)。这里我们选取串联重复序列中重复单元≥20bp的序列进行分析。
(2)RepeatMasker:鉴定转座子和短串联重复序列。将各物种的基因组与数据库(RepBase和Dfam_ Consensus)中的序列进行比对查找。运行命令为time RepeatMasker -parallel 2 -species 'name' -gff -dir repeat fasta_sequence,输入文件格式为fasta序列,其中-parallel 2表示并行的线程数为2,-species 'name'表示所对应物种的名字为'name',-gff 表示输出格式为gff,-dir repeat表示将结果输出repeat文件夹中。
(3)数据整合:将TRF 和RepeatMasker两个软件的结果汇总,并去除重复,即将重叠部分的序列只保留一个,形成串联重复序列集和转座子数据集,用作后续的分析。
1.3 单位点、多位点串联重复序列分析
(1)单位点、多位点TRs判断标准:串联重复序列中,相应重复单体在基因组不同位置上出现两次及以上的为多位点串联重复序列(mutiple-locus TRs, mlTRs),仅出现一次的为单位点串联重复序列(single-locus TRs, slTRs)。
(2)重复单体间的序列比对:为了提高序列比对的敏感性,参考Darren等的方法[21],首先根据重复单体的长度,将序列分为两组(20—39 bp、≥40 bp);然后通过本地BLAST对串联重复序列中重复单体进行两两比对。
(3)单位点、多位点串联重复序列的分类:根据(2)中比对结果,两组序列中满足比对长度≥80%,且E值分别≤0.01或10-6的序列被认为是mlTRs,剩下的是slTRs。
1.4 串联重复序列与转座子间的序列相似性分析
(1)选取重复单元长度≥20 bp的串联重复序列,通过本地BLAST与转座子进行两两比对。筛选比对结果中满足相似性≥70%,E值≤10-6的序列,认为该串联重复序列与转座子具有一定的相似性。
(2)统计(1)中筛选出的串联重复序列与转座子,并计算相应比例。
(3)转座子的活性分析,通过转座子的相对丰度来表示:
1.5 转座子的串联重复特征分析
通过串联重复序列与转座子间的序列比对,发现有些转座子内部具有串联重复的特征,因而将转座子进行自我比对,寻找其内部的串联重复序列,通过emboss中dotmatcher程序实现(http://emboss. bioinformatics.nl/cgibin/emboss/dotmatcher/), 并绘制了dotplot图。
2 结果
2.1 重复序列统计分析
本研究利用TRF、RepeatMasker两个软件对普通牛、瘤牛、牦牛、水牛、美洲野牛、大额牛等6个牛亚科物种的重复序列进行了鉴定,并统计了重复序列以及TRs、TEs在基因组中占比,结果见表1。由表1可知,在6个牛亚科物种的基因组中,普通牛重复序列占比最高,为49.13%,然后依次为水牛46.82%、大额牛46.66%、瘤牛42.70%、野牛42.36%、牦牛42.34%,其中转座子的占比(42.97%)明显高于串联重复序列(2.03%),表明重复序列的组成以转座子为主导。转座子在6个物种的比例为40.57%—45.71%,其中各类转座子的比例分别为长散在重复序列(long interspersed nuclear elements,LINE)(25.88%)>短散在重复序列(short interspersed repeated sequence, SINE)(11.28%)>长末端重复(long terminal repeats,LTR)(3.73%)>DNA转座子(2.10%)。串联重复序列在6个物种中的比例为1.50%—3.42%,其中微卫星(0.76%)>小卫星(0.65%)>卫星序列(0.62%)。
2.2 单位点、多位点串联重复序列分析
通过本地BLAST,笔者对重复单体长度≥20 bp的串联重复序列进行两两比对,得到牛亚科6个物种的mlTRs和slTRs结果(表2)。由表2可知,mlTRs为6个牛亚科物种串联重复序列的主要组成,平均占比达85%,在瘤牛中甚至高达99%。尽管在不同物种中,mlTRs和slTRs在基因组中的比例有所差异,但mlTRs的比例(76%—99%)明显高于slTRs(1%— 24%)。该结果与人类基因组中串联重复序列研究结果一致(mlTRs为79%,高于slTRs中的21%)[21]。
表1 牛亚科基因组重复序列的总体分布
表2 单位点、多位点串联重复序列在牛亚科6个物种的分布
2.3 串联重复序列与转座子间进化关系的分析
2.3.1 TE-derieved的串联重复序列分析 串联重复序列与转座子并不是基因组中相互独立的组成部分,它们彼此之间可能具有一定的联系[22]。因此,本研究将每个物种的重复序列单体与其转座子序列进行两两比对,以期寻找彼此具有一定相似性的序列。笔者统计了6个牛亚科物种中,转座子来源的串联重复序列(TE-derieved TRs)数目及其在全部TRs中所占的比例,以及TE-derieved TRs中mlTRs和slTRs所占的比例(表3)。由表3可见,在牛亚科物种中,TE-derieved TRs的数量在19 711—36 696之间,除水牛基因组外(43%),其他物种所占比例均在一半以上(57%—84%),其中普通牛和瘤牛的比例较高,分别为82%和84%。在TE-derieved TRs中,mlTRs的比例>87%,远高于slTRs的含量(≤12%),表明基因组中大部分的TRs来源于转座子。
表3 转座子来源的串联重复序列分布
2.3.2 TRs-related转座子及其活性分析 为了进一步研究转座子与串联重复序列间的关系,我们对TRs进化相关的转座子(TRs- related TEs)分析发现,牛亚科物种的TRs-related TEs主要由非长末端重复(non-long terminal repeats, non-LTR,包括SINE、LINE)组成。由图1可知,SINE/Core-RTE(主要为BOV-A2)和SINE/tRNA-Core-RTE(主要为Bov-tA)的数量在6个物种中均处于较高水平,分别在14 423— 24 193和7 450—12 694之间,LINE/L1和LINE/RTE- BovB的含量次之,LTR和DNA的含量最少(图1)。这一点与植物不同,植物中TRs-related TEs主要由LTR组成[8, 23]。
纵坐标表示转座子,横坐标表示相对丰度。每个柱状右侧数字:百分比数字表示相对丰度,括号中的数字表示相应转座子的实际数量
同时据研究,TRs-related TEs相对丰度越高,其活性也越高[5]。因此,我们利用6个牛亚科物种的TRs-related TEs分析了其相对丰度及活性。由图1可出看出,在6个物种中,SINE/Core-RTE(主要为BOV-A2)的相对丰度均处于最高水平(4.06%— 6.77%),被认为是最年轻且最具活力的转座子;SINE/tRNA-Core-RTE次之。另外,尽管DNA/hAT-Ac在6个物种基因组中的数量很少,但在普通牛、瘤牛和美洲野牛中,它们的相对丰度分别达到1.23%、1.32%和1.47%,高于除SINE/core-RTE之外的其他转座子的丰度,表明该转座子在普通牛、瘤牛和美洲野牛中处于较高的活性。综上,在TRs与转座子的进化过程中,BOV-A2转座子的数量最多,活性最高,对TRs的影响也最大。
2.3.3 BovB和L1_BT转座子的串联重复特征分析 在转座子与串联重复序列比对过程中,我们发现同一个转座子内部存在多处串联重复,表明转座子内部可能具有串联重复序列的特征。因此,我们对牛亚科中的BovB和L1_BT转座子内部的串联重复序列特征进行了分析,并将其结果可视化。如图2所示,BovB在0—600 bp之间的序列发生了大量的串联重复(图2-A),L1_BT主要在1 500—2 700 bp之间(图2-B),两段区域均为非编码区,不直接编码蛋白(由RepeatMasker和核酸数据库中的注释信息得到)。同时,我们通过序列比对发现,BovB在31—397 bp处有5个串联重复序列,与consensus的一致性均在93%以上,L1_BT在1 616—2 227 bp 处有4个串联重复序列,与consensus的一致性均在87%以上(图3)。这表明BovB和L1_BT转座子内部具有串联重复特征,且这些串联重复序列间的一致性较高。
A:BovB;B:L1_BT。每一条短线段表示相应序列可以匹配上。窗口大小为50,阈值为50
3 讨论
3.1 TE-derived串联重复序列与转座子的进化关系
串联重复序列和转座子是基因组中最丰富的重复序列,决定着动物、植物、真菌的基因组构成[24]。人类中约有1/4的小卫星来源于转座子[5],植物中串联重复序列主要来源于LTR转座子[8, 23],尤其是,如水稻中的家族[25],玉米中的家族[26],小麦中的家族[27],黑麦中的家族[28]等,土豆中至少4个着丝粒串联重复序列是由反转座子扩增而来的[29]。本文分析了牛亚科6个物种的TE-derived TRs,平均占全部TRs的67%,其中mlTRs可达87%以上,表明在牛亚科物种基因组多个位置出现了相似的序列,但其本身不具备转座的能力,因而TRs可能是由于转座子进化而来,并在转座酶的作用下,将序列插入到基因组其他位置,然后又通过DNA复制异常、非法重组、基因转换等原因发生了串联排列[9, 30-31]。转座促使串联重复序列不断产生,转座子在同一位点多次插入而形成串联重复序列[32]。
图3 BovB(a)和L1_BT(b)内部的串联重复序列比对
3.2 TRs-derived TEs相对丰度与其转录活性的关系
串联重复序列与转座子之间的序列相似性,说明其可能来源于转座子,尤其是具有活性的转座子。有研究表明DNA转座子附近可能通过其活性诱导的非法重组而产生卫星重复[33],在人类基因组中,TRs-derived TEs的相对丰度与其转录活性之间具有一定的正相关性,是在家族中丰度最高,被认为该家族中活性最高的一种[5]。本研究中,笔者分析了与TRs相关的转座子,统计结果表明BOV-A2和Bov-tA的含量在基因组中处于具有高丰度,其转座子活性也较高,而L2与ERVL的丰度低、活性低。原因可能与L2转座子在进化过程中失去活性[34],而BOV-A2和Bov-tA的活性保留下来有关。有些转座子虽然在基因组进化过程中失去了活性,但长期存在于基因组中,只有受到压力时才会被触发,即在应激条件下,诱变活性开启,在应激结束后,诱变活性关闭。如BOV-A2转座子在受到环境压力或者激活信号等,会优先表达,在基因表达的转录和翻译中具有重要的功能[35]。
3.3 转座子内部串联重复序列特征分析
DINE-1转座子在果蝇基因组中广泛分布,具有与滚环复制的分布机制,属于家族,其内部含有串联重复的中心区域[36-37]。白蚁中发现了terMITE1和terMITE2两种不同的转座子,内部分别含有长度为16和114 bp的串联重复序列[38],拟南芥中 Tnat1和Tnat2转座子中分别含有长度为60和240 bp的串联重复序列[39]。此外,在热带爪蟾中的MITE(miniature inverted-repeat transposable element)[40],果蝇中的Tetris[41],大刍草和玉米中的Ty3[42]等转座子内均含有长度不等的串联重复序列。本研究中,BovB和LI_BT的序列自我比对的结果表明,这两个转座子分别在0 —600 bp和1 500—2 700 bp之间存在着不同长度的串联重复序列。这些研究表明串联重复序列可作为结构成分存在于转座子内部,这也许是卫星DNA的重要来源之一。
4 结论
重复序列在牛亚科物种中具有相似的分布特征,non-LTR是牛亚科物种TRs-derived TEs的重要来源,且SINE/Core-RTE(主要为BOV-A2)为牛亚科物种最年轻且最具活力的转座子,同时串联重复序列又可作为转座子内部结构的组成部分。
[1] DE KONING A P J, GU W J, CASTOE T A, BATZER M A, POLLOCK D D. Repetitive elements may comprise over two-thirds of the human genome. PLoS Genetics, 2011, 7(12): e1002384. doi:10. 1371/journal.pgen.1002384.
[2] SCHNABLE P S, WARE D, FULTON R S, STEIN J C, WEI F S, PASTERNAK S, LIANG C Z, ZHANG J W, FULTON L, GRAVES T A, et al. The B73 maize genome: Complexity, diversity, and dynamics. Science, 2009, 326(5956): 1112-1115. doi:10.1126/science.1178534.
[3] HESLOP-HARRISON J S, SCHWARZACHER T. Organisation of the plant genome in chromosomes. The Plant Journal, 2011, 66(1): 18-33. doi:10.1111/j.1365-313X.2011.04544.x.
[4] 艾对元. 基因组中重复序列的意义. 生命的化学, 2008, 28(3): 343-345. doi:10.3969/j.issn.1000-1336.2008.03.031.
AI D Y. The meaning of repeat sequences. Chemistry of Life, 2008, 28(3): 343-345. doi:10.3969/j.issn.1000-1336.2008.03.031. (in Chinese)
[5] AHMED M, LIANG P. Transposable elements are a significant contributor to tandem repeats in the human genome. Comparative and Functional Genomics, 2012, 2012: 947089. doi:10.1155/2012/947089.
[6] JURKA J, GENTLES A J. Origin and diversification of minisatellites derived from human Alu sequences. Gene, 2006, 365: 21-26. doi:10. 1016/j.gene.2005.09.029.
[7] WONG L H, CHOO K H A. Evolutionary dynamics of transposable elements at the centromere. Trends in Genetics, 2004, 20(12): 611-616. doi:10.1016/j.tig.2004.09.011.
[8] MACAS J, KOBLÍŽKOVÁ A, NAVRÁTILOVÁ A, NEUMANN P. Hypervariable 3' UTR region of plant LTR-retrotransposons as a source of novel satellite repeats. Gene, 2009, 448(2): 198-206. doi:10.1016/j.gene.2009.06.014.
[9] SHARMA A, WOLFGRUBER T K, PRESTING G G. Tandem repeats derived from centromeric retrotransposons. BMC Genomics, 2013, 14: 142. doi:10.1186/1471-2164-14-142.
[10] CHENG Z J, MURATA M. A centromeric tandem repeat family originating from a part of Ty3/Gypsy-retroelement in wheat and its relatives. Genetics, 2003, 164(2): 665-672. doi:10.1093/genetics/164. 2.665.
[11] MILLER W J, NAGEL A, BACHMANN J, BACHMANN L. Evolutionary dynamics of the SGM transposon family in thespecies group. Molecular Biology and Evolution, 2000, 17(11): 1597-1609. doi:10.1093/oxfordjournals.molbev.a026259.
[12] PONTECORVO G, DE FELICE B, CARFAGNA M. A novel repeated sequence DNA originated from a Tc1-like transposon in water green frog. Gene, 2000, 261(2): 205-210. doi:10.1016/ S0378-1119(00)00539-4.
[13] KAPITONOV V V, HOLMQUIST G P, JURKA J. L1 repeat is a basic unit of heterochromatin satellites in cetaceans. Molecular Biology and Evolution, 1998, 15(5): 611-612. doi:10.1093/oxfordjournals.molbev. a025963.
[14] GAFFNEY P M, PIERCE J C, MACKINLEY A G, TITCHEN D A, GLENN W K. Pearl, a novel family of putative transposable elements in bivalve mollusks. Journal of Molecular Evolution, 2003, 56(3): 308-316. doi:10.1007/s00239-002-2402-5.
[15] BOVINE G S, ANALYSIS C, ELSIK C G, GIBBS R A, MUZUNY D M, WEINSTOCK G M, AELSON D L, EICHLER E E, ELNITSKI L, GUIGO R,et al. The genome sequence of taurine cattle: a window to ruminant biology and evolution. Science, 2009, 324(5926): 522-8.
[16] WANG K, WANG L Z, LENSTRA J A, JIAN J B, YANG Y Z, HU Q J, LAI D Y, QIU Q, MA T, DU Z, ABBOTT R, LIU J Q. The genome sequence of the wisent (). GigaScience, 2017, 6(4): gix016. doi:10.1093/gigascience/gix016.
[17] WANG M S, ZENG Y, WANG X, NIE W H, WANG J H, SU W T, OTECKO N O, XIONG Z J, WANG S, QU K X, YAN S Q, YANG M M, WANG W, DONG Y, WU D D, ZHANG Y P. Draft genome of the gayal,. GigaScience, 2017, 6(11): gix094. doi:10.1093/ gigascience/gix094.
[18] GLANZMANN B, MÖLLER M, LE ROEX N, TROMP G, HOAL E G, VAN HELDEN P D. The complete genome sequence of the African buffalo (). BMC Genomics, 2016, 17(1): 1001. doi:10.1186/s12864-016-3364-0.
[19] BENSON G. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Research, 1999, 27(2): 573-580. doi:10. 1093/nar/27.2.573.
[20] MELTERS D P, BRADNAM K R, YOUNG H A, TELIS N, MAY M R, RUBY J G, SEBRA R, PELUSO P, EID J, RANK D, GARCIA J F, DERISI J L, SMITH T, TOBIAS C, ROSS-IBARRA J, KORF I, CHAN S W L. Comparative analysis of tandem repeats from hundreds of species reveals unique insights into centromere evolution. Genome Biology, 2013, 14(1): R10. doi:10.1186/gb-2013-14-1-r10.
[21] AMES D, MURPHY N, HELENTJARIS T, SUN N N, CHANDLER V. Comparative analyses of human single- and multilocus tandem repeats. Genetics, 2008, 179(3): 1693-1704. doi:10.1534/genetics.108. 087882.
[22] MEŠTROVIĆ N, MRAVINAC B, PAVLEK M, VOJVODA-ZELJKO T, ŠATOVIĆ E, PLOHL M. Structural and functional liaisons between transposable elements and satellite DNAs. Chromosome Research, 2015, 23(3): 583-596. doi:10.1007/s10577-015-9483-7.
[23] VONDRAK T, ROBLEDILLO L Á, NOVÁK P, KOBLÍŽKOVÁ A, NEUMANN P, MACAS J. Characterization of repeat arrays in ultra-long nanopore reads reveals frequent origin of satellite DNA from retrotransposon-derived tandem repeats. The Plant Journal: for Cell and Molecular Biology, 2020, 101(2): 484-500. doi:10.1111/tpj. 14546.
[24] LÓPEZ-FLORES I, GARRIDO-RAMOS M A. The repetitive DNA content of eukaryotic genomes. Genome Dynamics, 2012, 7: 1-28. doi:10.1159/000337118.
[25] CHENG Z K, DONG F G, LANGDON T, OUYANG S, BUELL C R, GU M H, BLATTNER F R, JIANG J M. Functional rice centromeres are marked by a satellite repeat and a centromere-specific retrotransposon. The Plant Cell, 2002, 14(8): 1691-1704. doi:10.1105/tpc.003079.
[26] ZHONG C X, MARSHALL J B, TOPP C, MROCZEK R, KATO A, NAGAKI K, BIRCHLER J A, JIANG J M, DAWE R K. Centromeric retroelements and satellites interact with maize kinetochore protein CENH3. The Plant Cell, 2002, 14(11): 2825-2836. doi:10.1105/tpc. 006106.
[27] LIU Z, YUE W, LI D Y, WANG R R C, KONG X Y, LU K, WANG G X, DONG Y S, JIN W W, ZHANG X Y. Structure and dynamics of retrotransposons at wheat centromeres and pericentromeres. Chromosoma, 2008, 117(5): 445-456. doi:10.1007/s00412-008-0161-9.
[28] LANGDON T, SEAGO C, JONES R N, OUGHAM H, THOMAS H, FORSTER J W, JENKINS G. De novo evolution of satellite DNA on the rye B chromosome. Genetics, 2000, 154(2): 869-884. doi:10.1093/ genetics/154.2.869.
[29] GONG Z Y, WU Y F, KOBLÍŽKOVÁ A, TORRES G A, WANG K, IOVENE M, NEUMANN P, ZHANG W L, NOVÁK P, BUELL C R, MACAS J, JIANG J M. Repeatless and repeat-based centromeres in potato: implications for centromere evolution. The Plant Cell, 2012, 24(9): 3559-3574. doi:10.1105/tpc.112.100511.
[30] HIKOSAKA A, KAWAHARA A. Lineage-specific tandem repeats riding on a transposable element of MITE inevolution: a new mechanism for creating simple sequence repeats. Journal of Molecular Evolution, 2004, 59(6): 738-746. doi:10.1007/s00239-004-2664-1.
[31] PLOHL M, Meštrović N, Mravinac B. Satellite DNA evolution. Genome Dynamics, 2012, 7:126-152. doi:10.1159/000337122.
[32] MCGURK M P, BARBASH D A. Double insertion of transposable elements provides a substrate for the evolution of satellite DNA. Genome Research, 2018, 28(5): 714-725. doi:10.1101/gr.231472.117.
[33] KAPITONOV V V, JURKA J. Molecular paleontology of transposable elements from. Genetica, 1999, 107(1/2/3): 27-37.
[34] SMIT A F A, RIGGS A D. MIRs are classic, tRNA-derived SINEs that amplified before the mammalian radiation. Nucleic Acids Research, 1995, 23(1): 98-102. doi:10.1093/nar/23.1.98.
[35] DAMIANI G, FLORIO S, PANELLI S, CAPELLI E, CUCCIA M. The Bov-A2 retroelement played a crucial role in the evolution of ruminants. Rivista Di Biologia, 2008, 101(3): 375-404.
[36] YANG H P, BARBASH D A. Abundant and species-specific DINE-1 transposable elements in 12genomes. Genome Biology, 2008, 9(2): R39. doi:10.1186/gb-2008-9-2-r39.
[37] THOMAS J, VADNAGARA K, PRITHAM E J. DINE-1, the highest copy number repeats inare non-autonomous endonuclease-encoding rolling-circle transposable elements (Helentrons). Mobile DNA, 2014, 5: 18. doi:10.1186/1759-8753-5-18.
[38] LUCHETTI A. terMITEs: miniature inverted-repeat transposable elements (MITEs) in The Termite Genome (Blattodea: Termitoidae). Molecular Genetics and Genomics: MGG, 2015, 290(4): 1499-1509. doi:10.1007/s00438-015-1010-1.
[39] NOMA K. Tnat1 and Tnat2 from: novel transposable elements with tandem repeat sequences. DNA Research, 2000, 7(1): 1-7. doi:10.1093/dnares/7.1.1.
[40] SCALVENZI T, POLLET N. Insights on genome size evolution from a miniature inverted repeat transposon driving a satellite DNA. Molecular Phylogenetics and Evolution, 2014, 81: 1-9. doi:10.1016/ j.ympev.2014.08.014.
[41] DIAS G B, SVARTMAN M, DELPRAT A, RUIZ A, KUHN G C S. Tetris is a foldback transposon that provided the building blocks for an emerging satellite DNA of. Genome Biology and Evolution, 2014, 6(6): 1302-1313. doi:10.1093/gbe/evu108.
[42] MARTÍNEZ-IZQUIERDO J A, GARCÍA-MARTÍNEZ J, VICIENT C M. What makes Grande1 retrotransposon different? Genetica, 1997, 100(1/2/3): 15-28.
Evolutionary Relationship Between Transposable Elements and Tandem Repeats in Bovinae Species
ZHANG Rui, ZHANG TianLiu, FAN TingTing, ZHU Bo, ZHANG LuPei, XU LingYang, GAO HuiJiang, LI JunYa, CHEN Yan, GAO Xue
Institute of Animal Science, Chinese Academy of Agricultural Sciences, Beijing 100193
【】The repetitive sequence is an important part of eukaryotic genomes and plays an important role in species evolution, gene genetic variation, and transcriptional regulation. The purpose of this study was to reveal the characteristics of tandem repeats in bovinae by investigating the evolutionary relationship between transposons and tandem repeats, so as to provide the theoretical support for the study of tandem repeats in bovinae. 【】 In this paper, the six genomes were selected as research object, including,,,,and. The transposable elements and tandem repeats in six genomes was identified through TRF and RepeatMasker software. Meanwhile, the sequence similarity between the two types of tandem repeats was analyzed by BLAST, and single-locus tandem repeats (single-locus TRs, mlTRs), multiple-locus tandem repeats (multiple-locus TRs, mlTRs) and the characteristics of tandem repeat for the transposable elements were investigated too. 【】(1) In the six bovinae genomes, the percent of tandem repeats inwas the highest (49.13%), followed by(46.82%),(46.23%),(42.70%),(42.53%), and(42.36%), in which the content of transposable elements in the genome ranged from 40.57%-45.71%, and was higher than that of tandem repeats (1.50%-3.42%). (2) In the tandem repeats, the proportion of mlTRs (76%-99%) was significantly higher than that of slTRs(1%-24%), indicating that the mlTRs was the main component of tandem repeats in six bovinae species. (3) The proportion of TE-derived tandem repeats was 43% to 84%, among them mutiple-locus tandem repeats could reach up to 94%. (4) The analysis of TRs-related transposable elements and their activity showed that these transposable elements were mainly from non-Long Terminal Repeats (non-LTR, including SINE and LINE) and long interspersed nuclear element (LINE), among which SINE/core-RTE (mainly BOV-A2)had the highest number (14 423-24 193) and relative number (4.06%-6.77%), which was considered to be the youngest and the most dynamic transposable elements. (5) The study on transposable elements of tandem repeats’ characteristics indicated that BovB and L1_BT contained a large number of tandem repeats in 0-600 bp and 1 500 bp-2 700 bp, respectively, which were more than 93% and 87% consistent with the consensus sequence, respectively, and the sequences were located in the non-coding region. 【】 The repetitive sequence had similar distribution characteristics, non-LTR was an important source of TRs-related TEs, and SINE/Core-RTE(mainly BOV-A2) was the youngest and most dynamic transposable elements. At the same time, the tandem repeats could be used as internal structure component of transposable elements, indicating that tandem repeats and transposable elements interacted with each other in the process of genome evolution.
bovinae; transposable elements; tandem repeats; evolution
10.3864/j.issn.0578-1752.2022.09.014
2020-06-09;
2022-03-16
国家自然科学基金面上项目(31572376)
张瑞,E-mail:1245103873@qq.com。通信作者高雪,E-mail:gaoxue76@126.com
(责任编辑 林鉴非)