芝麻MATE基因家族的全基因再分析
2021-12-31王一丹
王一丹
(山西师范大学 生命科学学院,山西 临汾041000)
植物在生长期间会形成各类代谢产物,这些产物可满足植物生长需要,也可促进植物抵抗环境胁迫,一部分代谢产物也对植物产生毒性,为有效提高相关代谢产物的作用,已经鉴定出一系列针对不同底物的转运蛋白。MATE系列是发现的新型蛋白。1998年Morita从副溶血性弧菌中克隆得到第一个MATE蛋白,经过后续研究发现,MATE家族在许多物种中含量都很丰富。
现有研究表明,MATE转运蛋白直接或间接参与植物中各种代谢物的转运及生理过程。植物MATE基因蛋白质功能分化的前提条件为其家族数目的扩展、对比分析结果表明植物MATE基因的数量显著高于细菌,如水稻。
进化过程中植物基因组的多倍化和串联重复是导致MATE基因家族扩增的主要因素。目前很多学者从不同角度研究了拟南芥MATE蛋白,已经确定了10种MATE蛋白的功能。这些蛋白质参与植物器官离子转运、生物碱和类黄酮等代谢产物的转运等各种生理过程,例如抗铝胁迫。由于此蛋白和植物的很多生理活动都密切相关,因而可将其作为育种时的靶基因,以改善许多重要的性状,例如营养元素吸收和次生代谢产物含量等。
芝麻是一种常见的油料作物,其营养价值高,富含抗氧化剂,例如维生素和木脂素,对人体健康非常有益,尤其是黑芝麻,它比白芝麻更强大,总抗氧化剂能力更强[1]。目前,这些次生代谢产物在芝麻中的积累和运输机制作用仍然需要研究。蛋白质序列同源性分析技术在研究多基因家族功能方面被广泛应用,同时也用于对其进行鉴别。对有完整基因组的植物而言,这种方法有很高的适用性。其在应用过程中可以从基因组角度分析多基因家族,所得结果可以为明确其进化机制提供支持,也为相关功能分析起到促进作用。
1 结果与分析
1.1 芝麻基因组MATE基因的鉴定
在进行此项研究时对芝麻基因组进行同源搜索,而确定出特定MATE基因。且根据此基因的位置编码进行命名为SiMATE1-SiMATE67。
通过蛋白质亚细胞定位预测发现,芝麻的此基因蛋白分布范围广,在质膜、细胞核、液泡中都有一定分布[2],且占比例最高的为质膜上的MATE蛋白,占比达到80.9%。内质网上只有一种MATE蛋白。
1.2 SiMATE基因的染色体分布与复制模式
SiMATE基因分布在芝麻的全部13条染色体中,每条染色体的分布数为1至17。其中,第2号染色体包含最多的MATE基因,共17条[2]。
相关研究发现在进化过程中,芝麻基因组经历了全基因组复制事件。而根据共线性研究结果表明,在其中有两个共线性亚基因组。统计分析芝麻全基因组复制区相关的位置信息,而检测到此区域中含有20余个SiMATE基因。
近一半的SiMATE基因(33)以串联复制的形式排列在染色体上,每个成员的蛋白质序列基因簇具有高度相似性,由此可判断出在此基因家族扩增方面,这两种类型的复制发挥了重要作用。
1.3 芝麻MATE基因与拟南芥的共线性分析
针对此方面的共线性分析结果发现,在拟南芥中和此基因同源的有27个,且相应的分布范围广,分布于大部分染色体上。
此外,全部串联重复的SiMATE基因中,串联重复的基因还包括拟南芥中SiMATE49、50的两个共线基因。根据以上结果进行分析可知,SiMATE的串联复制大部分是分化后发生的。
1.4 SiMATE家族系统进化分析
在研究过程中对此基因的系统发育关系进行分析,并建立了系统发育树,进行适当的筛选后,选择18个各物种的67个芝麻MATE蛋白序列和45个MATE蛋白序列进行构件。系统发育分析显示,具有已知功能的10个拟南芥MATE基因中的4个与芝麻MATE基因共线,根据进化树的拓扑结构,可以将67种芝麻MATE蛋白分为四类。第一组包含数量最多的MATE蛋白,共有62种,其次是第四组包含31种MATE蛋白。基于这方面的系统发育关系,可对芝麻MATE蛋白的功能依据已知功能的蛋白来预测。
1.5 SiMATE家族的基因结构和基序
根据基因进化理论分析可知,基因家族的进化主要表现为其中成员的结构以及相应保守基序的变化。在研究过程中对SiMATE基因的外显子-内含子结构依据相关注释信息进行分析,结果发现SiMATE中有1-28个外显子,基本上符合聚类所得结果,而内含子的长度存在明显的差异,统计分析发现第二组中的基因大部分含6-8个外显子,而内含子的长度明显少于上一组。第三组中只有1-3个外显子,而长度显著大于其他组。第四组包括11-28个外显子[2]。
对比以上结果可知,和大豆中MATE蛋白保守基序所得结果很类似,由此可推断出和其他三组相比,第四组蛋白的功能分化更显著。
1.6 SiMATE家族表达模式
此研究应用芝麻转录组数据库各组织的基因数据进行分析,研究了植物根茎叶等不同组织中SiMATE基因表达情况,结果显示,在至少两个组织中检测到所有Si-MATE基因的转录本,在所有组织中有15个基因具有相似的表达水平,在所有组织中有10个基因具有低表达水平。其余的SiMATE基因显示组织表达特异性。在根部一些基因表达水平明显高于其他部位,而气管组织中则低表达。SiMATE44相关的基因大部分在茎和叶中表达,而某些基因,例如SiMATE22和SiMATE20主要在种子中表达,而在其他组织中则较低。
2 讨论
此研究基于同源搜索方法对芝麻基因组进行分析,确定出67种MATE蛋白,且检测发现其长度变化区间为141-1157aa,拟南芥中此蛋白的长度在400-700aa之间,表明与拟南芥相比,芝麻MATE基因家族变异更大。
通过串联重复分析结果发现,SiMATE的串联复制主要出现在芝麻和拟南芥分化后,且这种复制对SiMATE家族扩增有一定促进作用,对比可知此种复制模式和番茄中的类似,可能与基因组的进化有关。在进化期间芝麻出现了全基因组复制事件,且对应的复制区中,有24个此种基因,但是同时只有3对基因。在复制区域中,仅复制区域之一存在18个基因,表明这些基因在复制后经历了进化事件,例如缺失或染色体重排。这些基因编码的蛋白质可能具有相似的功能。
具有不同功能的大多数MATE蛋白聚集在不同的组中,第一组中的蛋白主要涉及各种植物,会影响拟南芥中的类黄酮含量。相关研究发现拟南芥AtTT12和液泡中类黄酮的运输存在相关性,和野生型相比,相应突变体的种皮外观产生一定变化,颜色明显变浅。
第二组中的蛋白质对不同类型毒素的转运起到一定介导作用。如植物抵抗毒素的作用和拟南芥中的AtALF5存在相关性。首个克隆的植物MATE基因为AtDTX1,在拟南芥中很多毒素的外排都和其相关,也和抗生素的代谢有关,此外研究发现Cd2+的解毒也受其调节。如在尼古丁的传输中,烟草Nt-JAT1的作用很重要,生物碱的沉积也和其密切相关。
第三组蛋白质参与许多不同的生理过程,包括抗病性、器官发生、离子迁移等。举例如拟南芥中下胚轴细胞的生长和AtADS1有一定关联,不过其具体关系还不是很明确。
3 材料与方法
3.1 芝麻MATE基因的筛选与鉴定
拟在研究时与此相关的序列数据来源于TAIR数据库。从Sinbase2.0数据库下载芝麻参考基因序列信息。使用57个拟南芥MATE蛋白序列BLASTP来对芝麻蛋白序列进行比对以获得同源MATE蛋白,并从pfam数据库中下载MATE域模型文件,然后利用HMMER v3.0软件通过此文件进行搜索而获得相应的芝麻基因组,进而确定出芝麻MATE候选蛋白,然后使用pfam和SMART(简单的模块化体系结构研究工具),接着针对确定出的候选蛋白序列开展MATE域预测,将其中不存在这种域的蛋白删去。使用ExPASy在线工具可以预测。
芝麻MATE蛋白的理论等电点和分子量,可以使用WoLFPSORT预测MATE蛋白的亚细胞位置,使用TMHMM Server可预测相应的螺旋结构。
3.2 染色体定位、共线性分析
在对SiMATE基因的位置进行分析时,应用了芝麻参考基因组,从而在13条染色体中对其进行定位。且对比分析而将3个同源基因判断为串联复制基因,引述了芝麻全基因组复制区的位置和内部遗传信息[3]。使用软件分析芝麻和拟南芥MATE基因之间的共线性。首先,明确了二者间的全部共线性区域,接着确定出包括SiMATE基因的区域。这种区域内的同源MATE基因表现出一定直系同源关系。对共线性基因位置关系通过TBtools软件[4]工具进行分析而绘图。
3.3 建立芝麻MATE蛋白的系统进化树
ClustalW在MEGA6.0软件中[5],使用系统进化树比较了芝麻MATE蛋白序列和已知功能的植物MATE蛋白序列。相应的物种基因组数据库下载了45种已知的MATE蛋白序列,为其后续分析提供支持。
3.4 基因结构与保守基序分析
从Sinbase2.0库中下载相应的结构信息,工具MEME被用于MATE蛋白保守基序的预测。
3.5 基因表达模式分析
在此分析时从SesameFG库中下载各组织转录组相关的信息,据此分析表达模式差异。
4 结论
在这项研究中,鉴定出芝麻基因组67种MATE蛋白。从蛋白质的长度方面来看,与拟南芥相比,芝麻MATE基因家族变异更大。从基因方面来看,SiMATE的大多数串联复制发生在芝麻和拟南芥分化之后。从MATE蛋白聚集在不同组中来看,第一组中的蛋白主要涉及各种植物,会影响拟南芥中的类黄酮含量。第二组中的蛋白质介导各种复合物和毒素的转运和流出。第三组蛋白质和植物的很多生理过程都密切相关。
本文在理解芝麻MATE基因相关论文的基础上,使用相对通俗易懂的非术语化语言,使没有相关专业背景的受众者能更好地进行阅读。为后续的芝麻MATE领域进一步研究提供经验,也为SiMATE基因家族功能研究提供了重要依据和参考,同时也为无相关学术背景而有志从事该方向的研究者提供纲要似的参考,更为芝麻MATE基因领域的研究扩大了进步的可能。