普通烟草NtCOMT 基因的生物信息学分析
2019-07-03彭宣翔陈夏晔
彭宣翔,陈夏晔
(湖南省烟草公司 郴州市公司,湖南 郴州 423000)
木质素(lignin)是烟草细胞壁物质的主要成分之一,有益于维持烟草植株直立生长、抗病虫等。木质素是复杂的苯丙烷单体聚合物,其3种主要组成单体为香豆醇、松柏醇和芥子醇。因单体不同,木质素可分为3种类型:S-木质素、G-木质素和H-木质素。咖啡酸-O-甲基转移酶(COMT)催化咖啡酸与5-羟基阿魏酸甲基化分别生成阿魏酸与芥子酸,在木质素合成中参与S-木质素单体的合成[1-2]。在许多植物中,多个COMT基因已经被分离和鉴定,并且有多个基因在烟草中进行了功能研究[2-5]。如,绿竹COMT基因反向转化烟草后,转基因植株木质素含量下降28.7%[2];尾叶桉COMT基因转化烟草成功改变了烟草植株的木质素单体组成[4]。但对烟草内源COMT基因的研究较为滞后,对烟草工业的发展不利。
木质素的存在增强了植物体的支撑能力,是植物适应陆生的重要标志之一。但其给植物细胞壁的利用带来了诸多不便,如造纸工业需用化学试剂去除木质素,增加成本且污染环境[6-7]。在烟草中,木质素含量高,烟叶燃吸时产生较重的木质气,降低了卷烟感官质量[8-12]。同时,木质素高温热解会产生较多的有害气体,危害健康[8,12]。因此,通过基因工程手段调控烟草木质素生物合成的研究具有较大的潜在应用前景[13-14]。但目前国内对烟草内源COMT基因的研究尚未见报道。通过序列同源比对,在普通烟草基因组中鉴定了普通烟草的20个NtCOMT基因,并对其进行了序列分析、进化树构建、蛋白性质分析和表达谱分析等,旨在为烟草木质素生物合成的分子调控提供参考,进而为给烟草工业提供低害烟叶奠定基础。
1 材料与方法
1.1 烟草NtCOMT基因家族鉴定及序列分析
从茄科作物基因组网站(https://solgenomics.net/)下载普通烟草基因组序列,从拟南芥基因组网站(http://www.arabidopsis.org/)下载拟南芥AtCOMT1(AT5G54160)基因序列。以AtCOMT1作为查询序列,利用BLAST在烟草基因组数据库中进行比对,参数E值设为0.001。以得到完整编码区的基因序列作为候选NtCOMT基因,并以NtCOMT1、NtCOMT2、NtCOMT3……NtCOMT20依次对烟草NtCOMT基因进行命名。
1.2 NtCOMT基因序列分析
依据序列编号在数据库中下载其相应的基因组序列、编码区序列和蛋白质序列,进一步进行序列结构分析和蛋白结构域预测等。利用序列分析在线工具GSDS 2.0(http://gsds.cbi.pku.edu.cn/)绘制基因结构图;采用软件Protparam(http://web.expasy.org/protparam/)预测烟草NtCOMT编码蛋白的理化特性,如分子量和理论等电点等;利用MEME(http://meme-suite.org/tools/meme)和ProtComp 9.0(http://linux1.softberry.com)预测烟草NtCOMT蛋白的保守结构域和亚细胞定位;利用TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)预测烟草NtCOMT蛋白是否含有跨膜结构域。所用软件均为免费在线工具,在进行分析时,参数多采用默认值。
1.3 系统进化树的构建
将烟草20个NtCOMT蛋白序列导入MEGA 6.0软件,利用ClustalW程序对其进行多序列比对;输出的多序列比对结果采用Neighbor-Joining方法构建系统进化树,Bootstrap设为500。
1.4 烟草NtCOMT基因表达模式分析
从http://www.ncbi.nlm.nih.gov/sra/网址下载编号为SRP029184的普通烟草品种K326的转录组数据。利用TopHat2软件提取与烟草NtCOMT基因相匹配的表达数据;相应的组织选择根、幼苗期叶片、团棵期叶片、旺长期叶片、打顶后3天叶片和打顶后6 d叶片共6个。最后,利用Cluster 3.0和TreeView对表达数据进行可视化分析,绘图。
2 结果与分析
2.1 烟草NtCOMT的蛋白序列
由表1可见,多数NtCOMT蛋白约含360个氨基酸残基,分子量在37~41 kDa,大小相当,其中NtCOMT14最小,仅含有201个氨基酸残基,分子量22.59 kDa。NtCOMT蛋白等电点为5.41~7.77,其中,除NtCOMT8、NtCOMT10、NtCOMT11和NtCOMT14为弱碱性外,其余成员为弱酸性,蛋白表面净电荷为负电荷。
表1 烟草NtCOMT的蛋白序列Table 1 Sequence of NtCOMT proteins in tobacco
2.2 烟草NtCOMT的基因结构
由图1可见,NtCOMT基因含有的外显子数目为2~5个外显子,其中50%的基因含有4个外显子;各个基因内含子的数目和大小均差异较大,如NtCOMT8和NtCOMT17仅1个内含子,而NtCOMT10则含4个内含子;NtCOMT14基因的第1个内含子大小超过3 kbp,而NtCOMT19的第1个内含子仅37 bp。此外,基因结构的相似性与其同源性呈正相关。
图1 烟草NtCOMT家族成员的基因结构Fig.1 Gene structure of the NtCOMT family in tobacco
图2 烟草与拟南芥NtCOMT基因家族的系统进化树Fig.2 Phylogenetic tree for NtCOMT family of tobacco and AtCOMT family of Arabidopsis thaliana
2.3 系统进化性
由图2可见,NtCOMT1和NtCOMT2与AtCOMT1同源性最高,说明其可能具有相似的功能。相比于拟南芥,烟草含有数目较大的COMT基因家族,说明其木质素合成较拟南芥复杂。
2.4 蛋白质亚细胞定位及保守结构域
亚细胞定位预测结果表明(表1),烟草NtCOMT蛋白约有1/2定位于细胞质,1/2定位于胞外。蛋白结构域预测分析发现,烟草NtCOMT蛋白结构高度保守,其中Motif1、Motif3、Motif4和Motif5最为保守(图3)。从图3还可看出,各成员保守结构域的位置排列相似,其中NtCOMT14在进化中丢失了部分结构域,发生了较大变异,可能已经进化成为假基因。
图3 烟草NtCOMT蛋白结构域Fig.3 Protein domains of the NtCOMT proteins in tobacco
2.5 烟草NtCOMT的基因表达
由图4可知,NtCOMT1、NtCOMT2、NtCOMT4、NtCOMT5和NtCOMT19 5个基因在不同生长发育时期的烟叶中均有较高的表达量。部分基因只在某个发育时期高表达,如,NtCOMT3、NtCOMT11和NtCOMT12仅在团棵期叶片中高表达;NtCOMT13在打顶后叶片中高表达。其余11个基因在烟叶中表达量低,说明其在烟草叶片木质素的生物合成中不发挥作用。此外,有10个NtCOMT基因在根中有较高的表达水平。
图4 烟草NtCOMT基因在不同时期K326叶片的表达Fig.4 Expression pattern of NtCOMTs in K326 leaves of different stages in tobacco
3 结论与讨论
烟草木质素是烟气有害成分的主要来源之一。相对于其他植物,对烟草内源COMT基因的功能研究较为滞后。本研究在普通烟草K326基因组中鉴定了20个NtCOMT家族基因,并对其基因结构、进化关系、蛋白保守结构域和基因表达情况等进行分析。蛋白质的结构决定其功能。对蛋白家族保守结构进行预测,有利于分析保守结构域甚至保守氨基酸残基在进化过程中的重要作用。保守结构分析和进化分析表明烟草NtCOMT家族结构较为保守,说明这些保守的序列和高级结构的生物学功能非常重要。一些结构域丢失的基因可能进化成假基因而失去了功能。这有待于进一步对基因功能开展研究。研究认为,植物细胞在胞质中合成木质素单体,然后经过囊泡运输到达细胞壁并进一步聚合堆积成木质素[15-16]。拟南芥AtCOMT1蛋白定位于细胞质。推测定位于细胞质的NtCOMT蛋白可能参与木质素单体的合成,而定位于胞外的NtCOMT蛋白可能参与胞外木质素聚合或其他修饰过程。
烟草是收获和使用烟叶的经济作物。因此,对NtCOMT家族基因在不同发育阶段的烟叶中进行了表达分析发现,有9个基因在幼苗期、团棵期、旺长期烟叶或打顶后烟叶中具有较高的表达量。这些叶片高表达的基因可能参与了烟叶细胞壁中木质素的合成。因此,开展这些基因的功能研究,可为分子水平改良烟叶提供参考。值得注意的是,大部分在烟叶中高表达的NtCOMT基因在根中也具有较高的表达量。因此,通过调控这些基因降低烟叶木质素含量存在一定的风险,因为在降低叶片木质素含量的同时,可能影响烟草植株的正常生长发育。解决方案之一是优先针对只在叶片中高表达的基因如NtCOMT11、NtCOMT12和NtCOMT13进行功能缺失研究。
木质素为烟草生长发育所必须,但对烟叶品质有较大影响。木质素含量高,烟叶燃吸时会产生较重的木质气,降低卷烟感官质量[8-12]。同时,木质素高温热解还会产生较多的有害气体,危害消费者的身体健康[8,12]。因此,通过基因工程手段降低烟草木质素含量具有较大的潜在应用前景[13-14,17]。本研究鉴定了普通烟草的20个NtCOMT家族基因,并对其表达模式进行了初步分析,找到了烟草叶片特异高表达的基因,对烟草木质素含量的分子调控研究具有重要参考价值。