APP下载

柚子基因组比较分析以及祖先染色体重构

2020-04-23袁嘉庆王金朋王希胤

河北农业大学学报 2020年1期
关键词:共线性同源柚子

袁嘉庆,王金朋,王希胤

(华北理工大学 生命科学学院,河北 唐山 063210)

柚 子(Citrus grandisOsbeck), 是 芸 香 科(Rutaceae)、柑橘属(Citrus)下重要的植物,起源于东南亚,现主要分布在北纬35°以南的亚热带地域[1]。柚子营养物质丰富且具有重要经济价值[2]和一定的药用功效[3]。柚子基因组测序的完成为其乃至柑橘植物基因组结构、物种进化以及重要功能的探索提供重要的基础。

物种多倍化(Polyploidization)对于物种分化以及新功能的产生有着重要的作用[4-5]。研究表明,几乎所有的植物在其进化历史中都经历过全基因组加 倍[6](WGD,Whole genome duplication),影响较大的一次全基因组加倍事件,即真双子叶共有祖先六倍化(ECH, Core eudicots-common hexaploidizaiton)事件[7]。例如,葡萄在经历了ECH事件之后,较双子叶六倍体祖先保留有比较完整的基因组结构[8]。不同于葡萄、可可等基因组,十字花科植物基因组在ECH事件之后,又发生了多次全基因组加倍,如模式植物拟南芥又经历了两次全基因组加倍(即α和β事件),现有的5条染色体结构表明其基因组结构发生了较大的变化[9]。猕猴桃在多次全基因组加倍之后使其维生素C合成基因数量得到扩增[10]。

多个柑橘基因组结构完成了测序,包括甜橙(Citrus sinensiscv.Valencia)[11]、克莱门蒂小柑橘(Citrus clementinecv.Clemenules)[12]、柚子[13]、野生橘(Citrus reticulata'Mangshan')[14]等。其中由华中农业大学测序并组装完成的高质量的柚子基因组,其scaffold统计的N50达到4.21Mb,预测基因总数为30 123个,其中28 043个基因定位到了9条假染色体(Pseudochromosome)上。柚子基因组序列的完成对于研究柚子乃至柑橘植物的基因组结构,功能进化等方面都有着重要的作用。柑橘植物的历史研究过程中,主要是集中于物种的起源分化以及基因组结构的变化中,通过表观遗传特征,分子标记,系统发育关系,以及生物地理学方法进行研究[15-16]。但是,缺少一个全面地全基因组水平的深入分析,特别是缺少参考基因组(如葡萄)来对柚子基因组比较分析,揭示柚子基因组同源进化。同时缺少对于柚子为代表的柑橘植物基因组结构进化过程的研究。

葡萄基因组在经历了ECH事件之后,由原来的21条染色体结构变为现有葡萄染色体中的19条染色体,其中只有3条染色体(4、7和14号)经历了较明显的重组现象。因此,葡萄基因组通常被选为研究真双子叶植物基因组结构及其进化的外类群。本研究借助葡萄作为参考基因组,对已测序并组装质量高的柚子基因组主要包括所研究的柚子基因组中同源基因信息,借助葡萄基因组推测获取的六倍体祖先结构,进而对3个柑橘植物染色体结构变化进行推断,重塑现有柑橘植物中祖先染色体内容及其结构。

1 材料与方法

1.1 基因组数据材料

选取柚子和葡萄(外类群)为研究对象,他们之间的系统发育关系如图1。基因组数据包括基因组注释(GFF)文件、基因蛋白(PEP)文件和基因编码序列(CDS)文件,都来自于公共的数据库。其中,葡萄基因组数据下载于JGI(https://phytozome.jgi.doe.gov/pz/portal.htm)数据库,柚子基因组数据下载于CSAP(http://citrus.hzau.edu.cn/orange/index.php)数据库。

通过编写Perl语言程序对下载的基因组数据进行处理,得到目标格式的文件以供后续分析利用。

图1 葡萄和柚子间的系统发育关系Fig.1 Phylogenetic relationship between grape (V) and pummelo (C)

1.2 研究方法

1.2.1 基因组内、组间同源比对 将处理好的基因组数据,利用蛋白序列比对工具BLASTP 2.7.1+[17]对葡萄和柚子蛋白序列进行基因组内、组间相似性比对,其中,期望(E-value)限定为1e-3。利用编写的Perl语言脚本,结合蛋白比对结果和基因位置文件等信息,绘制比较基因组之间的同源结构点阵图。

将比较基因组之间的蛋白比对结果和基因位置作为输入信息,通过同源基因片段(Block)搜索软件ColinearScan 1.01[18]来提取同源基因片段。根据不同的研究,对运行的ColinearScan1.01中的参数进行设定,将搜索过程中连续同源基因之间的基因gap数量设定为50个,并且限定同源基因片段中基因数量不少于五对。

1.2.2 同源关系判定 在同一物种内,由全基因组加倍形成的同源基因间称为旁系同源关系(Paralogs);而在不同物种间,由分化产生的同源基因之间构成了直系同源关系(Orthologs);在不同物种间,由加倍产生的同源基因之间构成了外旁系同源关系(Outparalogs)。如图1葡萄和柚子的比较分析中,葡萄中的V1,V2和V3是由ECH加倍事件形成的同源基因,其中V1-V2为旁系同源关系(类似地,V1-V3和V2-V3);而葡萄同柚子之间,由于多倍化之后的分化,他们之间的同源基因V1-C1形成了旁系同源关系(类似地,V2-C2和V3-C3);而分化之后由于多倍化形成的同源基因V1-C2,构成了种外旁系同源关系(类似地,V1-C3, V2-C1, V2-C3, V3-C1 和V3-C2)。而这3种同源关系中直系同源基因间的相似度最高,旁系同源间次之,外旁系同源基因间最低。

1.2.3 同源基因共线性列表构建 基于同源点阵图以及同源基因片段之间的相似性关系,获取了比较基因组之间的对应关系(Correspondences),包括直系同源对应关系(Orthologous correspondence)和旁系同源对应关系(Paralogous correspondence)。借助葡萄基因组(参考基因组)的旁系同源对应关系,以及葡萄同柚子之间的直系同源对应关系,构建了一个共线性同源基因列表。共线性列表的构建对于研究柚子同源基因的结构变化,物种演化都可能有着重要的作用。以构建的共线性同源基因列表为基础,利用Python程序,结合绘图包matplotlib将葡萄同柚子之间的同源关系进行展示。

1.2.4 基因组片段化统计 将真双子叶共有六倍体祖先在葡萄基因组中保留的同源基因片段用7种不同的颜色表示。利用葡萄基因组为参考,结合柚子同葡萄之间的同源基因点阵图,提取出比较基因组之间的直系同源基因片段,进而对柚子基因组在ECH事件之后的基因组结构的变化探究。

1.2.5 基因组结构重塑 利用葡萄基因组结构推断真双子叶六倍体祖先基因组内容及结构,结合葡萄同柚子基因组之间的同源关系,对柚子基因组中同源片段定位。结合葡萄同柚子之间的同源点阵图,利用柚子染色体上与ECH祖先同源区域,推断由现有柚子基因组成的祖先染色体结构。

2 结果与分析

2.1 基因组内同源基因点阵图

葡萄基因组内的同源基因点阵图能够清晰地展示出葡萄基因组近期发生过一次全基因组水平上的3倍乘事件,结果如图2所示。葡萄现有19条染色体在下图中可以找到3组对应的同源关系,通过基因组内同源基因片段的对应关系可以分成3组,每组包含7个染色体片段(7种颜色分别代表了真双子叶祖先的7条染色体)。其中葡萄现有染色体中6号同8号、13号是由下图中标注的6号祖先染色体(Eu_chro6)加倍形成的同源染色体。类似地,祖先染色体1号(Eu_chro1),对应葡萄现有染色体的1号、14号(后半部分)和17号;祖先2号染色体(Eu_chro2)对应葡萄的2号、15号和16号染色体;祖先染色体3号(Eu_chro3)对应葡萄的3号、4号(后半部分)、7号(后半部分)和18号染色体;祖先染色体4号(Eu_chro4)对应葡萄的4号(前半部分)、9号和11号染色体;祖先染色体5号(Eu_chro5)对应葡萄现有的5号、7号(前半部分)和14号(前半部分)染色体;祖先染色体7号(Eu_chro7)对应葡萄现有的10号、12号和19号染色体。相比于真双子叶六倍体祖先染色体结构,葡萄现有染色体中只有其中的4号、7号和14号是由祖先染色体的重组形成。

图2 葡萄基因组点阵图Fig.2 Homologous dotplot within the genome of grape

不同于葡萄基因组结构,柚子基因组中只保留了现有的9条染色体,而且其染色体在进化过程中发生过很大的变化。从柚子基因组内结构比对点阵图中(图3),可以找到大量一对二的同源片段,而这种同源关系发生在整个基因组结构中,推断柚子基因组发生过一次近期的全基因组加倍。不同于葡萄基因组,柚子基因组发生了复杂的染色体结构的变化,大量染色体之间发生作用,导致同源基因以多个片段的形式分布在各个染色体上。同时可以发现,柚子基因组中还有大量同源基因片段的丢失。例如,柚子的1号染色体同3号染色体片段以及4号染色体片段形成了共线性同源关系(图3中蓝色矩形框中片段);另一组共线性同源基因集散乱地分布在了2号、4号和8号等染色体之上(图3黑色矩形框中片段),其中存在同源片段的丢失,总体形成了两组旁系同源关系。柚子的2号染色体同样也能找到两组对应的同源基因集,其中一组在2号、5号和6号等染色体上,另一组分散在4号、5号、6号、7号和9号等染色体上。同样地,柚子其他染色体上也能找到对应的两组同源基因集。不同于葡萄染色体结构,柚子基因组内同源结构存在大量片段段,而且发生有大量的丢失,如图3中可以发现3号、5号等染色体对应的同源基因片段发生了丢失,1号、3号、6号等染色体的末端片段发生有丢失的现象。

图3 柚子基因组点阵图Fig.3 Homologous dotplot within the genome of pummelo

2.2 基因组间同源基因点阵图

利用柚子基因组与葡萄基因组间的局部同源基因点阵图能够找到柚子基因组中由ECH事件产生的三组直系同源基因集(图4)。选取葡萄基因组中由真双子叶祖先染色体加倍形成的三组旁系同源基因集(2号、15号和16号染色体对应图4中V2、V15和V16),来研究柚子基因组对应的3组同源基因集。图中蓝色实线框中的基因片段代表了葡萄同柚子间的直系同源基因片段,而虚线框中对应的是两组外旁系同源基因。其中葡萄2号染色体上的基因对应着柚子基因组中的同源基因,主要分布在柚子的3号和5号等染色体上,另外两组种外旁系同源基因集中在5号和9号,后半部分发生严重的丢失。葡萄的15号染色体对应在柚子基因组中的直系同源基因集中分布在甜橙的5号染色体上;而与其对应的两组外旁系同源基因集主要分布在5号和9号染色体。葡萄的16号染色体在柚子中的直系同源基因集,主要集中在的9号染色体以及分散在5号染色体;两组外旁系同源基因集主要都集中在5号染色体上。通过柚子同葡萄基因组之间的同源对应关系,能够确定柚子近期发生的多倍化规模。

图4 葡萄和柑橘基因组局部同源点阵图Fig.4 Local homologous dotplot between the genomes of grape and pummelo

2.3 基因组联合比对

构建葡萄同柚子之间的共线性同源基因列表为基础来进行分析研究。通过选取葡萄基因组构建的3组旁系同源基因集(由ECH事件形成)为参考,利用柚子同葡萄基因组之间的直系同源关系,构建出葡萄同柚子之间的共线性同源基因列表。共线性列表中的3组(6列)分别对应到了联合图谱上的6各圈。图5中由内到外的3组葡萄基因集就是ECH产生的旁系同源基因,其中最内圈表示葡萄基因组中的定位到染色体上的24 283个基因,并且按照染色体和基因在染色体上位置的顺序依次排列。葡萄基因组的19条染色体用代表祖先染色体的7中颜色来表示,例如图中6号、8号和13号染色体共同使用了绿色来代表他们之间属于同源关系,类似地10号、12号和19号染色体用同样的红色代表他们之间的同源关系。紧跟的柚子(第一组中)代表各个柑橘植物基因组中同葡萄的同源基因,且根据同源关系对应地排列在相应的图谱位置中。

第2组和第3组同共线性同源基因列表类似。在共线性列表的每一列中,一个格子中对应一个共线性基因(图中短杠表示)或者是一个“点”(图中用空白代替)来代表此处没用同葡萄匹配的同源基因。共线性列表第一组各个物种之间对应的共线性基因为直系同源基因,而各组之间的同一物种之间对应的基因之间是由物种加倍形成的旁系同源基因,不同物种之间对应的共线性基因之间为外旁系同源基因。

图5 葡萄和柚子之间的圈图Fig.5 Circles of between grape (V) and pummelo (G)

2.4 事件相关联基因统计

由于柚子在ECH事件之后没有全基因组加倍发生,本研究仅对柚子中同ECH事件相关联的同源信息进行统计。其中,选取葡萄基因组进为参考,对柚子基因组中同ECH事件相关联的同源基因、同源基因对以及同源基因片段进行了统计(表1)。发现葡萄基因组中同ECH事件相关联的旁系同源基因对有1 289对,旁系同源基因片段有66个,包括2 364个同源基因;在柚子基因组中,同ECH事件相关联的旁系同源基因对有1 402对,旁系同源基因片段有77个,包括2 604个旁系同源基因。葡萄和柚子间由ECH事件产生的直系同源基因(只统计大于4个基因的片段)如下表,直系同源基因片段有1 018个,直系同源基因对有16 394对,直系同源基因在葡萄和柚子基因组中分别由9 724和9 660个。

表1 ECH事件相关联的重复基因Table 1 Number of duplicated genes within a genome related to the ECH

2.5 染色体结构片段化

基于比较基因组之间的同源基因共线性列表,通过对柑橘植物在同葡萄分化之后发生的片段化规模进行了统计分析。以葡萄基因组内容作为对照,柚子基因组中同样拥有71个同源基因片段,包含有9 086个基因,约占其同源基因的37.50% (图6)。结果表明,在柚子中有着大规模的基因片段化现象。

图6 葡萄和柚子之间同源点图Fig.6 Homologous dotplot between grape and pummelo

2.6 柑橘植物染色体重构

2.6.1 葡萄祖先基因组结构推断 通过对葡萄同源基因结构点阵图(图2)的分析发现,葡萄现有染色体中4号、7号和14号染色体是由真双子叶六倍体祖先中的染色体重组形成。其中真双子叶六倍体祖先染色体(E1-E7),其中每一条祖先染色体经过六倍化事件之后形成了a,b和c 3个同源染色体(例如,E1加倍形成了E1a,E1b和E1c 3条同源染色体)。可以根据葡萄(V)基因组内同源点阵图发现,由于葡萄染色体中4号、7号和14号由祖先染色体重组形成,为了后续表述方便,将染色体片段重新定义为A和B(即,4A和4B;7A和7B;14A和14B)。推断发现,祖先染色体E3b(V14B+V7B),E4a(V4A)同E5a(V5A)三者之间通过染色体之间作用形成了,葡萄中V4和V7染色体。同时,祖先染色体中的E5c(V14A)和E1a(V1)相互作用形成了葡萄的V14染色体。

进而能够将葡萄现有染色体片段对应到真双子叶六倍体祖先染色体当中,即,E1(V1/E1a;V14A/E1b;V17/E1c),E2(V2/E2a;V15/E2b;V16/E2c),E3(V3/E3a;V4B-V7B/E3b;V18/E3c),E4(V4/E4a;V9/E4b;V11/E4c),E5(V5/E5a;V7A/E5b;V14A/E5c),E6(V6/E6a;V8/E6b;V13/E6c),E3(V10/E7a;V12/E7b;V19/E7c)。

2.6.1 柚子祖先基因组结构推断 利用葡萄同柚子之间的直系同源关系,可以得到柚子现有染色体上同葡萄之间的直系同源基因片段(图6),结合构建的葡萄同柑橘之间的共线性同源基因列表,用葡萄染色体中基因表示祖先染色体,将柚子同葡萄对应的直系同源基因对应到祖先染色体位置,从而构建出以柚子基因组表示的真双子叶六倍体祖先结构(如下图7)。其中,柚子现有染色体C1主要对应到E3b和E4b,以及小片段位于E3a染色体上;C2染色体分散在E1、E5a、E5c、E6a、E7a和E7b染色体之上;C3染色体对应E2a、E3c、E5c、E6c、E7b和E7c之上;C4染色体对应E1a、E1c、E3c、E4a、E4c、E6c、E7a和E7c之上,详细结果见图7。可以发现,柚子不同于葡萄染色体结构,其在经过ECH事件之后,基因组内发生了复杂的变化,从祖先的21条到现在保存的9条染色体,其历史进化过程中不仅发生了复杂的片段化,也存在大量染色体片段的丢失,尤其是染色体之间的重组过程中更容易发生。

图7 柚子现有基因重构六倍体祖先染色体Fig.7 Reconstruct ECH using extant pummelo gene contents

3 讨论

研究中选取柚子基因组来对柑橘植物进行分析,源于柚子基因组结构测序和组装较其他柑橘(野生橘、宜昌橘等)质量更高,且基因定位到了染色体水平,同时由于柚子较甜橙和克莱门蒂小柑橘基因组杂交水平更低[20]。通过葡萄与柚子基因组深入比较分析能够为研究柑橘植物乃至芸香科植物基因组结构以及进化提供重要的基础。

在构建共线性列表的过程中,需要对ECH事件加倍产生的3组同源基因集进行分组。将ECH事件产生地3组同源基因集进行准确地分类,对于后续研究物种进化时间推断,基因置换研究以及其他比较基因组学研究有着重要的意义。同时,对于多倍化事件(如ECH)属于同源加倍或者异源加倍这一问题能够更加准确地做出判定。多倍化,特别是三倍化以及更大规模的加倍,异源加倍通常比同源加倍更容易发生[19],通过多种方式可以对多倍化性质进行探索,包括基因组结构的差异分析,子基因组间的表达差异分析[20],子基因组之间的进化速率比较等。但是,子基因组进化不同步竞争导致子基因组间存在较大的差异[21];近缘物种间由于杂交引起大量基因入侵使得子基因组之间出现差异[22];基因丢失发生不平衡导致的差异[23];同时由于缺乏一个近缘的参照物种来探索多倍化的发生性质,这些问题都会对探索多倍化的发生性质造成影响。由于被子植物基部物种基因组测序、组装质量,在ECH事件之前发生的加倍事件更加古老,导致现有物种基因组中保留古老加倍事件的同源基因信息很少,导致深入研究ECH加倍事件变得更加困难。

全基因组加倍后的基因组结构通常很不稳定,染色体间会有大量重组的现象,同时会出现大量基因的丢失来维持其稳定性进化[24-25]。如在豆科、禾本科、棉花等基因组中发现,多倍化之后的基因组同源基因出现大量的丢失[26-27]。推断柚子为代表的柑橘植物祖先基因组过程中,源于多倍化之后物种基因组结构的不稳定,大量的同源基因使得基因之间容易发生作用。柚子基因组中发生的这种大量的片段化(71个同源基因片段相对于葡萄基因组),会导致大量同源基因甚至是同源基因片段的丢失,如葡萄和柚子同源结构点阵图中,出现对应的空白的区域表明存在大的同源基因片段丢失。在对现有柚子基因组结构中祖先染色体片段的推断的过程中,由于基因组结构变化复杂,包括小片段的丢失、倒位等通常将其视为同一个片段,一些小的同源片段发生了跨染色体的转移,当作染色体片段的断裂,染色体末端小片段的丢失可能源于测序质量导致的找不到对应的片段。同时,考虑到柚子基因组的进化过程中存在同其近缘物种杂交的现象,进而导致基因以及基因片段的渗入[23],这样对推断其祖先染色体结构及其变化造成了困难。

猜你喜欢

共线性同源柚子
柚子变变变
基于“乙癸同源”理论辨治股骨头缺血性坏死
“柚子”的起床气
以同源词看《诗经》的训释三则
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
同源宾语的三大类型与七项注意