巨菌草(Cenchrus fungigraminus)全基因组CAMTA家族转录因子的鉴定及进化分析
2023-02-08姜晓梦朱方捷林冬梅林占熺
姜晓梦, 袁 振, 朱方捷,3, 周 晶, 毛 飞,3, 林冬梅, 林占熺
(1.福建农林大学生命科学学院;2.福建农林大学国家菌草工程技术研究中心;3.福建农林大学海峡联合研究院,福建 福州 350002)
巨菌草(CenchrusfungigraminusZ. X. Lin & D.M. Lin & S. R. Lan sp. nov.)是蒺藜草属(CenchrusL.)的C4植物[1],原产于热带地区[2],具有分蘖能力强、根系发达、生物质产量高等特性.巨菌草在干旱[3-4]、盐胁迫[5]、重金属污染[6-7]等方面都有一定的耐受性,是生态环境治理的先锋植物.此外,巨菌草还有一定的经济价值[8-9].巨菌草已经成为适合中国气候、土壤条件的优质草种,但它对低温胁迫敏感[10],对干旱胁迫的耐受性有限[3].提高巨菌草对寒冷和干旱等非生物胁迫的抵抗能力对畜牧业和地球生态具有重要意义.
目前已在多种植物中鉴定出CAMTA基因家族,如拟南芥[11]、小麦[12]、茶叶[13]、亚麻[14]、玉米[15]、水稻[16]、番茄[17]、香蕉[18].研究[19-22]表明CAMTA转录因子对于植物应对非生物胁迫以及生长发育具有重要的调控作用.在低温条件下,拟南芥中CAMTA通过激活下游DREB1的表达以响应温度的快速下降[23].在模式植物拟南芥中CAMTA转录因子家族总共有6个基因(CAMTA1~CAMTA6)[24].拟南芥CAMTA家族的转录因子有几种保守的功能域结构,如CG-1 DNA结合结构域、TIG(transcription factor immunoglobulin)结构域、ANK重复(ankyrin repeats)结构域、Ca2+依赖型CaM结合结构域和串联重复的IQ基序等功能性结构域[25-26].最新研究[27]发现拟南芥CAMTA3 CG-1结构域使CAMTA3 TAD(a newly identified transcriptional activation domain)诱导基因表达的能力具有温度依赖性.
本研究基于巨菌草基因组序列,对CAMTA转录因子家族进行了全基因组范围的系统性鉴定和分析,预测其理化特性、基因结构、保守基序、保守功能结构域、系统发育关系和启动子区域的顺式作用;此外,还进一步研究了在干旱胁迫下巨菌草CAMTA家族成员的表达情况,为巨菌草CAMTA家族转录因子的功能、分子育种及植株抗旱、抗寒性的增强等方面的研究提供依据.
1 材料与方法
1.1 巨菌草CAMTA转录因子家族成员的鉴定与分析
采用BGISEQ-500平台对巨菌草的基因组进行测序,并组装到染色体,得到大小为2 G的基因组文件,并采用Geneious R11.15注释[1].珍珠粟(Cenchrusamericanus)的基因组和注释文件从NCBI(https://www.ncbi.nlm.nih.gov/genome/term=txid4543[Organism:exp])下载,版本号为CenchrusamericanusASM2073953v1.从数据库RGAP[28](http://rice.uga.edu/)下载水稻(Oryzasativa)基因组和注释文件,版本号为IRGSP-1.0.在TAIR(http://www.arabidopsis.org/)下载拟南芥(Arabidopsisthaliana)全基因组序列和注释文件,版本号为TAIR10.在国家基因组科学数据中心(https://ngdc.cncb.ac.cn/)下载紫象草(Cenchruspurpureuspurple)的全基因组序列和注释文件,版本号为GWHAORA00000000.在pfam[29](http://pfam.xfam.org/)下载CAMTA蛋白CG-1 domain(pf03859)、IPT/TIG domain(pf01833)、Ankyrin repeats(pf00023)、IQ calmodulin-binding motif(pf00612)结构域的隐马可夫模型文件.然后通过CG-1结构域和HMMER[30]软件来搜索巨菌草CAMTA蛋白的结构序列(e<10-5);再对从SMART[31](http://smart.embl heidelberg.de/)以及NCBI网站CDD(https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)得到的所有蛋白质序列进行分析;从挑选的含有至少3种结构域的蛋白质序列中得到巨菌草最终的蛋白质和核酸序列.通过R包Peptides的pI函数、mw函数、charge函数、hydrophobicity函数、instaIndex函数分析巨菌草CAMTA蛋白序列的理化性质(等电点、相对分子质量、电荷数、亲水系数和不稳定系数).利用CELLO网站(http://cello.life.nctu.edu.tw/)对所得到的蛋白质进行亚细胞定位预测.
1.2 巨菌草CAMTA转录因子的基因结构、保守基序、保守功能结构域分析
使用GSDS[32]网站(http://gsds.cbi.pku.edu.cn/)可视化CAMTA基因的结构信息和STRME[33](https://meme-suite.org/meme/tools/streme)在线工具分析保守基序,设置默认值参数:最小宽度8,最大宽度15,p-value阈值0.05,motif最多7个.使用NCBI的Batch Web CD-Search Tool(https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)分析巨菌草15个CAMTA蛋白序列的保守结构域,最大命中数为500,期望阈值为0.01,选择CDD数据库进行搜索.
1.3 巨菌草CAMTA转录因子家族的系统发育进化关系
使用MEGA软件对巨菌草15个CAMTA蛋白质序列、珍珠粟8个CAMTA蛋白质序列、水稻5个CAMTA蛋白质序列、拟南芥6个CAMTA蛋白质序列和紫象草16个CAMTA蛋白质序列进行物种间分析,采用的算法为邻接法(neighbour-joining, NJ),设置校验参数bootstrap值为1 000次重复,其他参数为默认值.采用R包ggtree[34](默认参数)对构建的系统进化树进行美化.
1.4 巨菌草CAMTA转录因子启动子顺式作用元件的预测
取CfuCAMTA转录起始位点上游2 000 bp的启动子序列,采用PlantCARE预测顺式作用元件.
1.5 巨菌草CAMTA转录因子在干旱条件下的表达模式分析
在NCBI(https://www.ncbi.nlm.nih.gov/)下载巨菌草在不同干旱条件下的原始转录组数据[35](PRJNA632455). 采用HISAT2[36]将测序序列比对到参考基因组上, 再通过StringTie[37]计算每个基因的表达量(transcripts per million, TPM). 利用R包pheatmap绘制巨菌草CAMTA基因家族(15个基因)的表达热图.
2 结果与分析
2.1 巨菌草CAMTA转录因子的家族成员鉴定
在巨菌草全基因组中总共鉴定出15个CAMTA转录因子家族成员,将其命名为CfuCAMTA1~CfuCAMTA15.巨菌草CAMTA基因家族蛋白质的基本理化特性如表1所示.蛋白质包含857~1 976个氨基酸,CfuCAMTA10氨基酸数量最少,仅857个;CfuCAMTA1氨基酸数量最多,为1 976个.巨菌草CAMTA家族蛋白质的分子质量为95.75~223.57 ku,等电点为5.56~8.65.除了CfuCAMTA10和CfuCAMTA11外,其余13个基因均为不稳定蛋白质(不稳定指数>40).预测结果显示CfuCAMTA11定位于叶绿体,其他14个巨菌草CAMTA转录因子的蛋白质定位于细胞核中.
表1 CfuCAMTA转录因子的家族蛋白质信息Table 1 Information on CfuCAMTA protein family
2.2 巨菌草CAMTA转录因子的基因结构、保守基序、保守功能结构域
巨菌草CAMTA转录因子家族成员的基因结构如图1所示,CfuCAMTA1的转录本最长,还有较长的内含子.除CfuCAMTA1外,其他转录因子之间基因结构的差异不大,内含子数量为10~13个.
图1 巨菌草CAMTA转录因子家族的基因结构Fig.1 Structures of CfuCAMTA gene family
对巨菌草CAMTA转录因子的15个氨基酸序列的保守序列进行分析,结果显示其有7个保守序列(图2A).CfuCAMTA5有6个保守序列,其余的转录因子都有7个保守序列.此外,对15个CfuCAMTAs转录因子的蛋白质序列保守结构域序列进行分析(图2B),发现4种保守的功能结构域,即Ankyrin repeats、CG-1 domain、IPT/TIG domain和IQ calmodulin-binding motif.所有CfuCAMTAs转录因子的肽段上都有CG-1结构域.CfuCAMTA5、CfuCAMTA10、CfuCAMTA13和CfuCAMTA15没有TIG结构域.CfuCAMTA11含有2个IQ motif结构域,CfuCAMTA12不含IQ motif结构域,其他CfuCAMTAs转录因子仅含1个IQ motif结构域.
图2 巨菌草CAMTA蛋白质保守基序(A)和保守结构域(B)的示意图Fig.2 Conserved motif (A) and conserved domain (B) of CfuCAMTA
2.3 巨菌草CAMTA转录因子家族的系统发育进化关系
利用CAMTA全长蛋白序列构建系统发育树.巨菌草CAMTA转录因子的蛋白质序列与拟南芥、水稻、紫象草和珍珠粟的CAMTA蛋白质序列共同构建系统发育树(图3).巨菌草的15个CAMTA可以分为4个亚家族.分别将CfuCAMTA2、CfuCAMTA3、CfuCAMTA7、CfuCAMTA9,CfuCAMTA6、CfuCAMTA8、CfuCAMTA12、CfuCAMTA14,CfuCAMTA1、CfuCAMTA4、CfuCAMTA5,CfuCAMTA10、CfuCAMTA11、CfuCAMTA13、CfuCAMTA15分为1组.大部分巨菌草CAMTA转录因子与紫象草CAMTA转录因子的亲缘关系最近,如Group1中的CfuCAMTA2与CppCAMTA4,CfuCAMTA3与CppCAMTA13;Group2中的CfuCAMTA12与CppCAMTA1;Group4中的CfuCAMTA10与CppCAMTA10,CfuCAMTA15与CppCAMTA11.此外,部分巨菌草CAMTA转录因子与珍珠粟CAMTA转录因子的亲缘关系较近,如:CfuCAMTA11与CamCAMTA6,CfuCAMTA1与CamCAMTA2.
图3 拟南芥、水稻、珍珠粟、紫象草和巨菌草CAMTA转录因子的家族系统发育分析Fig.3 Phylogenetic analysis of CAMTA family of Arabidopsis thaliana, Oryza sativa, C. americanus, C. purpureus purple and C. fungigraminus
通过与模式植物拟南芥系统进化的比较发现,拟南芥与巨菌草的亲缘关系较远,巨菌草CAMTA大多数基因序列与拟南芥同源序列差异较大,但是CfuCAMTA7与AtCAMTA3有更相似的序列特征,都被划分在Group1中,说明它们含有更保守的序列结构,暗示它们可能具有更相似的生物学功能.研究[29]表明AtCAMTA3正向调控拟南芥对冷胁迫的响应.此外,AtCAMTA3可以通过RSRE元件(rapid stress response element, CGCGTT)激活下游报告基因的表达,并且RSRE介导的损伤响应受到AtCAMTA2、AtCAMTA3和AtCAMTA4的协同促进[38].
2.4 巨菌草CAMTA转录因子启动子的顺式作用元件
在CfuCAMTAs基因转录起始位点上游2 000 bp序列中,发现15个巨菌草CAMTA基因家族成员的启动子序列上游含7种功能类别的顺式作用元件(图4),它们分别参与低温响应、脱落酸响应、茉莉酸响应、赤霉素响应、生长素响应、防御和胁迫响应和水杨酸响应.CfuCAMTA6、CfuCAMTA8和CfuCAMTA9的启动子序列含有防御和胁迫响应元件.CfuCAMTA6、CfuCAMTA7、CfuCAMTA8、CfuCAMTA9、CfuCAMTA11、CfuCAMTA12和CfuCAMTA13的启动子序列则含有响应低温的元件.所有CfuCAMTA的启动子序列都含有至少一种参与激素反应的顺式元件.表明CfuCAMTAs基因可能参与巨菌草的生长和发育进程,并受不同调控机制控制以应对各种胁迫.
图4 巨菌草CAMTA启动子的顺式作用元件Fig.4 Cis-elements in the promoter regions of CfuCAMTA gene family
2.5 巨菌草CAMTA转录因子的表达模式
CK:对照;D7:干旱处理7 d;D9:干旱处理14 d;R1:恢复浇水1 d;R5:恢复浇水5 d;R9:恢复浇水9 d.图5 巨菌草CAMTA家族转录因子在6个处理时期的表达模式Fig.5 Expression pattern of CfuCAMTA family members at 6 treatment stages
为了研究巨菌草CAMTA转录因子在非生物胁迫下的功能,分析了在干旱处理和恢复供水情况下巨菌草CAMTA基因家族各成员的表达模式(图5).巨菌草CAMTA家族15个转录因子在6个处理时期的表达结果显示:伴随干旱时间的延长,表达量上升的转录因子是CfuCAMTA2、CfuCAMTA7、CfuCAMTA10、CfuCAMTA12、CfuCAMTA14和CfuCAMTA15,其中CfuCAMTA7、CfuCAMTA12、CfuCAMTA14和CfuCAMTA15四个转录因子的表达量在干旱处理第14天达到最高;CfuCAMTA1和CfuCAMTA9在整个过程的表达水平无任何变化.在恢复浇水后,多数CAMTA转录因子的表达水平下降,表明巨菌草中的CAMTA转录因子可通过其表达量来响应干旱胁迫.
3 讨论
在所有巨菌草CAMTA家族成员中,CfuCAMTA1的蛋白质序列最长,含1 976个氨基酸.本研究鉴定的巨菌草CAMTA转录因子都含有CG-1结构域.在CfuCAMTAs转录起始位点上游2 000 bp序列,鉴定到了7种顺式作用元件,这些元件主要响应激素和胁迫.研究[39-40]表明植物CAMTA转录因子通过调控许多下游基因来响应生物胁迫以及寒冷、干旱等非生物胁迫.通过对巨菌草在干旱胁迫下转录组数据的分析,发现巨菌草部分CAMTA转录因子参与干旱胁迫.CAMTA转录因子还通过其他方式应对干旱胁迫,如拟南芥AtCAMTA1快速调节下游基因,通过产生的ABA反应调节膜的完整性和光合保护机制等,以应对干旱胁迫[41].
在巨菌草CAMTA家族中寻找到15个成员,巨菌草中CAMTA家族转录因子的数量比拟南芥、水稻、珍珠粟等单子叶植物多[42-44],可能与其抗旱性较高有关.系统发育进化分析结果表明,巨菌草CAMTA与紫象草、珍珠粟的亲缘关系最近(图3).序列进化中的亲缘关系反映了基因在结构和功能上的相似性,因此可以推断巨菌草、紫象草与珍珠粟的部分CAMTA转录因子的生物学功能相同.
对拟南芥等植物中CAMTA家族转录因子的研究表明,CAMTA转录因子参与了冷胁迫的正向调控[29].本研究鉴定到7个CfuCAMTA转录因子的启动子上游含有响应低温的顺式作用元件,CfuCAMTA7与模式植物拟南芥中参与正调控低温响应的AtCAMTA3有相似的序列特征.