APP下载

黄连WRKY基因家族鉴定及表达分析*

2022-08-26蒋莉萍池玉洁刘义飞陈士林

世界科学技术-中医药现代化 2022年4期
关键词:生物碱黄连结构域

刘 微,蒋莉萍,池玉洁,刘义飞,陈士林,刘 迪**

(1. 湖北中医药大学药学院 武汉 430065;2. 中国中医科学院中药研究所 北京 100700)

药用黄连为毛茛科毛茛属植物黄连Coptis chinensisFranch.、三角叶黄连C.deltoideaC.Y.Cheng et Hsiao 或云连C.teetaWall.的干燥根茎,三者分别习称“川连或味连”“云连”“雅连”[1]。黄连以根茎入药,性寒,味极苦,可清热燥湿,泻火解毒,常用于治疗泄泻痢疾、消渴、痈疮肿毒等。《本草纲目》中记载:“其根连珠而色黄,故名。”[2]。目前从黄连中分离出来的成分已超过100 种,可分为生物碱类与非生物碱类。现代研究表明,黄连体内的主要活性物质为苄基异喹啉类生物碱[3]。2020 年版《中国药典》规定黄连的指标性成分为黄连碱、小檗碱、表小檗碱、巴马汀[1]。丰富的化学成分也赋予了黄连多种药理作用。现代药理研究表明,黄连具有保护心脑血管、降糖、抗炎、抗肿瘤等显著药理作用[4]。湖北恩施作为黄连的道地产区之一,所产黄连形如鸡爪,根茎集聚成簇,黄肥坚实,品质极佳,素有“黄连之乡”的美誉[5-6]。

WRKY 转录因子可通过与目的基因启动子的特异性结合从而实现对植物各个阶段及部位生长发育和抗逆的调控作用[7]。植物在生长发育过程中会产生大量非生长发育所需但在生物与非生物应答中起着重要作用的次生代谢产物[8],当植物受到外界环境作用时,转录因子会介导作用信号转导,开启相关基因的表达,合成相关的酶,从而直接或间接地参与次生代谢产物的生物合成过程[9-10]。研究发现WRKY 转录因子在生物碱类、萜类、黄酮类化合物生物合成过程中起着重要作用。长春花(Catharanthus roseus)中的CrWRKY1 通过调控TDC 和ZCTI(长春花锌指转录因子1)、ZCT2 和ZCT3 从而参与其体内的吲哚类生物碱生物合成途径,产生其主要活性物质萜类吲哚生物碱[11]。CjWRKY1 是从日本黄连(Coptis japonica)鉴定出的第一个参与小檗碱生物合成过程的转录因子,可调控几乎所有小檗碱生物合成途径基因的表达[12]。在黄花蒿(Artemisia annua)体内鉴定出的AaWRKY1可与编码青蒿素合成途径第一个关键酶(ADS)的基因启动子区域的W-box 特异性结合,同时激活ADSpro2 启动子,从而参与青蒿素的生物合成过程,破坏W-box 结合位点则会抑制ADS 的表达[13];从穿心莲中鉴定出的4个WRKY 转录因子可正向调控其体内萜类化合物的生物合成[14]。蒺藜状苜蓿(Medicago truncatula)WRKY转录因子通过参与其体内的异黄酮生物合成过程,从而产生植物抗毒素[15]。水稻(Oryza sativa)中的OsWRKY13可通过调控CHS基因的表达产生植物抗毒素[16]。

1995 年,Rushton 等[17]首次对 WRKY 转录因子结构域进行了准确描述,表明它可能包含一种新的锌指结构。随后的研究也证明了WRKY 转录因子保守结构域包括WRKY 结构域以及锌指结构。WRKY 转录因子结构域由65个氨基酸残基组成,其核心序列是靠近氨基(N)末端的7 个保守氨基酸WRKYGQK[18]。保守结构域有时会变异成WRKYGKK、WRKYGEK 或者只含有WRKYG 蛋白核心序列,这样的变异可能会对DNA 结合活性造成影响[19]。羧基(C)末端的锌指结构在植物的进化中可能起到重要的作用[20]。WRKY转录因子保守结构域可以与目的基因启动子中的W-box(TTGACC/T)结构域特异性结合,从而参与植物体内的各类活动,而这也是WRKY 结构域高度保守的原因之一[21-22]。研究发现,有些WRKY 转录因子含有多个WRKY 结构域,有些则只有一个,锌指结构有Cx4-5Cx22-23HxH 和 Cx7Cx23HxC 两 类[23]。 根 据 WRKY 转录因子中所含有的WRKY 结构域的数量及锌指结构的类型,将其分为3大类:第Ⅰ类WRKY转录因子含有两个及以上WRKY 结构域,第Ⅱ、Ⅲ类WRKY 转录因子只含有一个WRKY 结构域。其中第Ⅰ、Ⅱ类WRKY转录因子锌指结构的氨基酸组成模式为C2H2(Cx4-5Cx22-23HxH,X 为任意的氨基酸),第Ⅲ类WRKY基因锌指结构的氨基酸组成模式为C2HC(Cx7Cx23HxC,X 为任意的氨基酸),基于主要的氨基酸序列差异可将第Ⅱ类WRKY 转录因子进一步划分为Ⅱa、Ⅱb、Ⅱc、Ⅱd 和Ⅱe5 个亚家族[24]。系统进化数据分析表明,在高等植物中WRKY 转录因子家族可更精确地划分为Ⅰ、Ⅱa+Ⅱb、Ⅱc、Ⅱd+Ⅱe和Ⅲ类群[25]。

本研究以黄连基因组数据为基础,采用多种生物信息学方法对黄连WRKY基因家族成员进行基因鉴定、理化性质分析、染色体定位分析、系统发育分析、多序列比对分析、保守基序分析、基因结构分析及表达分析,以期为进一步研究黄连WRKY 转录因子在黄连生物碱生物合成途径的调控机制奠定基础。

1 材料与方法

1.1 黄连WRKY 基因家族成员鉴定与理化性质分析

黄连参考基因组由本实验室自测并已发表[26],使用Pfam(http:// pfam.xfam. org/)在线网站获取WRKY保守结构域序列(PF03106)比对文件,利用HMMER软件构建隐马尔可夫模型,在黄连的蛋白序列中检索,同时以拟南芥WRKY 蛋白序列作为查询序列,使用BLAST 程序在黄连基因组数据库中进行比对,将所得到的序列合并去掉重复,获得候选黄连WRKY 转录因子蛋白序列。利用NCBI 中的Batch CDD search 数据库进一步分析候选黄连WRKY 转录因子是否具有WRKY 结构域,筛除无WRKY 保守结构域的转录因子,最终得到所有的黄连WRKY 转录因子家族。使用ExPASy(https://web.expasy.org/protparam/)在线网站中的ProtParam 工具分析黄连WRKY 蛋白序列的分子质量以及等电点。使用WOLF PSORT(https:// www.genscript. com/wolf-psort.html)在线工具预测黄连WRKY蛋白的亚细胞定位。

1.2 黄连WRKY基因家族染色体定位分析

使用TBtools 软件[27]从黄连基因组gff 文件中提取黄连WRKY基因家族成员的染色体位置信息,并进行绘图可视化。

1.3 黄连WRKY 基因家族的系统发育及序列比对分析

基于黄连和拟南芥WRKY 家族的蛋白全长序列,运用MUSCLE 软件进行多序列比对,运用IQ-Tree 软件基于JTT+F+R6 模型采用最大似然法(ML),bootstrap 重复次数为1000,对黄连和拟南芥WRKY 转录因子家族进行系统进化分析,从而确定黄连WRKY转录因子家族的分类。使用Clustal X 软件对黄连WRKY保守结构域蛋白序列进行比对分析。

1.4 黄连WRKY 家族的基因结构与编码蛋白的保守基序分析

使 用 MEME(http://meme-suite. org/meme/tools/meme)在线工具对黄连WRKY 家族蛋白序列进行保守基序分析,参数设置为:单一基序重复次数为任何,每个基序的宽度为6-50 个氨基酸残基,,设定目标motif数量为15。利用TBtools 软件从黄连基因组gff文件提取黄连WRKY基因家族成员的外显子和内含子等基因结构信息,并进行可视化处理。

1.5 黄连WRKY基因家族的表达模式分析

四年生黄连须根、根茎、叶、叶柄的转录组数据为本实验室所测(NCBI 登录号:SRX10414485-SRX10414496),各组织的生物学重复数为3。使用TBtools 软件绘制41 个已鉴定出的黄连WRKY基因家族成员在四个不同组织中的表达模式热图。

2 结果与分析

2.1 黄连WRKY基因家族成员筛选与鉴定

使用HMMER、BLAST 程序以及TAIR、CDD、Pfam数据库对黄连基因组中的WRKY基因家族成员进行鉴定和筛选,最终得到41 个黄连WRKY基因家族成员(表1)。41 个黄连WRKY基因中序列最长的是CcWRKY3,含有931个编码蛋白质的氨基酸;最短的是CcWRKY33,含有84 个编码蛋白质的氨基酸。41 个黄连WRKY基因的开放阅读框长度为252-2796bp;编码蛋白质的氨基酸数量为84-931 aa,平均编码蛋白质的氨基酸数量为369aa;蛋白分子质量在9649.32-103620.60 Da 之间,平均分子质量为 41017.226 Da,等电点为4.96-10.17,其中酸性蛋白(PI<7)有20个;碱性蛋白(PI>7)有21 个。95%以上的蛋白预测亚细胞定位于细胞核,仅两个蛋白(CcWRKY31、CcWRKY41)预测亚细胞定位于细胞质。

表1 黄连WRKY基因家族信息

2.2 黄连WRKY基因家族成员的染色体定位

染色体定位分析结果为(图1),41 个黄连WRKY基因在9 条染色体上均有分布,且分布不均。Chr9 上分布最多,有9个黄连WRKY基因;Chr1次之,分布有6个黄连WRKY基因,Chr2、Chr3 上各分布有 5 个黄连WRKY基因;Chr7、Chr8 上各分布有 4 个黄连WRKY基因,Chr4、Chr5 上各分布有 3 个黄连WRKY基因,Chr6上分布最少,只有两个黄连WRKY基因。CcWRKY13、CcWRKY8在 Chr2 上紧密相邻,CcWRKY37、CcWRKY9在 Chr5 上紧密相邻,CcWRKY20、CcWRKY35在 Chr7 上紧密相邻,CcWRKY39、CcWRKY3在Chr9上紧密相邻。

图1 黄连WRKY基因的染色体定位

2.3 黄连WRKY基因家族的系统发育树及序列比对

将鉴定出来的41 个黄连WRKY 蛋白序列与拟南芥中已知的72个WRKY蛋白序列进行系统发育分析。结果表明,已鉴定出的41个黄连WRKY转录因子可分为3 大类(图2),与拟南芥WRKY 分类结果一致。属于第Ⅰ类的黄连WRKY 蛋白有6 个(CcWRKY3、CcWRKY29、CcWRKY39、CcWRKY24、CcWRKY16、CcWRKY25);属于第Ⅱ类的黄连WRKY蛋白有31个,分别与拟南芥的 Group Ⅱa、Group Ⅱb、Group Ⅱc、Group Ⅱd、Group Ⅱe 5 个亚类聚于一支。其中 GroupⅡ a 有 2 个 黄 连 WRKY 蛋 白(CcWRKY27、CcWRKY30),Group Ⅱ b 有 4 个 黄 连 WRKY 蛋 白(CcWRKY14、CcWRKY22、CcWRKY36、CcWRKY34),Group Ⅱ c 有 9 个 黄 连 WRKY 蛋 白(CcWRKY7、CcWRKY15、CcWRKY19、CcWRKY11、CcWRKY31、CcWRKY12、CcWRKY23、CcWRKY17、CcWRKY10),Group Ⅱ d 有 8 个 黄 连 WRKY 蛋 白(CcWRKY5、CcWRKY8、CcWRKY13、CcWRKY40、CcWRKY37、CcWRKY1、CcWRKY18、CcWRKY33),Group Ⅱe 有 8个 黄 连 WRKY 蛋 白(CcWRKY38、CcWRKY41、CcWRKY6、 CcWRKY2、 CcWRKY28、 CcWRKY21、CcWRKY26、CcWRKY32)。 属 于 第 Ⅲ 类 的 黄 连WRKY 蛋 白 有 4 个 (CcWRKY4、CcWRKY9、CcWRKY20、CcWRKY35)。

图2 黄连与拟南芥WRKY蛋白序列系统发育树

根据系统发育树的结果将筛选出的黄连WRKY蛋白与拟南芥WRKY 蛋白的核心WRKY 结构域序列进行比对(图3),比对结果表明,41个黄连WRKY转录因子中含有WRKYGQK核心序列的蛋白有35个,含有WRKYGKK 核心序列的蛋白有 1 个(CcWRKY19),含有WRKYGEK 核心序列的蛋白有2 个(CcWRKY18、CcWRKY33)。32个黄连WRKY 蛋白序列中只含有一个WRKY 结构域,6 个黄连WRKY 序列中含有两个及以上WRKY 结构域,其中CcWRKY3 含有三个WRKY结构域;10 个黄连WRKY 蛋白序列核心序列或C 端锌指结构缺失,其中3 个黄连WRKY 转录因子核心序列缺失(CcWRKY30、CcWRKY38、CcWRKY41),7 个黄连WRKY蛋白序列锌指结构不全。

图3 黄连WRKY转录因子结构域比对分析

2.4 黄连WRKY家族基因结构与保守基序

41 个黄连WRKY 家族蛋白序列保守基序分析结果为(图 4),除 CcWRKY31、CcWRKY30、CcWRKY8、CcWRKY38、CcWRKY41 外,其他黄连 WRKY 蛋白都有motif1(含有WRKYGXK 基序),Group I 含有不止一个motif1。motif1、motif2作为保守的基序,在每类黄连WRKY 转录因子中都存在。motif3 仅存在于Group I、Group IIc 中;motif4 存在于 Group I、Group IIc、Group IIe;motif5、motif8 仅存在于 Group IId、GroupIIe;motif7仅存在于 Group IId;motif9 仅存在于 Group IIa、Group IIb;motif12 仅 存 在 于 Group IId;motif13 仅 存 在 于Group IIb和Group IIc的CcWRKY10中;motif14仅存在于Group IIe。Group I、Group Ⅱc中的黄连WRKY蛋白的锌指结构类型为Cx4Cx22-23HxH,Group Ⅱa、Group Ⅱb、Group Ⅱd、Group Ⅱe中的黄连WRKY蛋白的锌指结构类型为 Cx5Cx23HxH,Group ⅡI 中的黄连WRKY蛋白的锌指结构类型为 Cx7Cx23HxC(图 3、图 5)。41 个CcWRKY的基因结构分析结果为(图4),除保守结构域高度缺失的CcWRKY38、CcWRKY41的外显子与内含子数量较多外(CcWRKY38有11 个外显子,10 个内含子;CcWRKY41有 9 个外显子,8 个内含子),大多黄连WRKY基因的外显子的数量从3个到7个不等,内含子的数量从 2 到 6 不等。Group IIc 中的CcWRKY31、CcWRKY19、CcWRKY10,Group IIb 中 的CcWRKY34、CcWRKY36,Group III 中的CcWRKY20,Group IId 中的CcWRKY18、CcWRKY33、CcWRKY8,Group IIe 中 的CcWRKY2、CcWRKY38、CcWRKY41没 有 非 编 码 区 。Group I、GroupIIb的内含子与外显子的数量最多。

图4 黄连WRKY家族的保守基序和基因结构

图5 黄连WRKY家族的15个保守基序

2.5 黄连WRKY家族的表达模式

41 个黄连WRKY基因在黄连不同组织(须根、根茎、叶、叶柄)中的表达模式分析结果为(图6),除CcWRKY38、CcWRKY41在各个组织中的表达量都较低外,其他39 个黄连WRKY基因都至少在一个组织中表达量较高,其中有26 个黄连WRKY基因在仅一个组织中表达量较高。CcWRKY2、CcWRKY29、CcWRKY21在叶中表达量较高,CcWRKY3、CcWRKY4、CcWRKY10在叶柄中的表达量较高。研究发现黄连生物碱主要在根 茎 与 须 根 中 积 累 ,CcWRKY18、CcWRKY25、CcWRKY30、CcWRKY33、CcWRKY32、CcWRKY34、CcWRKY23、CcWRKY12、CcWRKY36、CcWRKY28、CcWRKY37、CcWRKY26、CcWRKY1、CcWRKY6、CcWRKY11、cWRKY8、CcWRKY24、CcWRKY13、CcWRKY40在须根中表达较高,CcWRKY17在根茎中特异 性 表 达 ,CcWRKY15、CcWRKY35、CcWRKY 7、CcWRKY39在根茎中表达量较高,预测这些转录因子参与调控黄连生物碱的生物合成。

图6 41个黄连WRKY基因在不同组织中的表达谱

3 讨论

黄连属于毛茛科植物,是我国传统的大宗药材,药用历史悠久,被誉为湖北的“黄金”。黄连的主要活性成分为黄连碱、小檗碱、表小檗碱、巴马汀等苄基异喹啉类生物碱,苄基异喹啉生物碱以酪氨酸作为前体物质,由酪氨酸衍生物与酚醛类前体聚合形成其骨架结构,再通过多种裂合酶、转移酶和氧化还原酶的催化作用最后形成黄连体内的次生代谢产物,常在黄连的根茎中合成与积累,具有抗菌、降血糖等作用。黄连作为常用药,不仅是临床常用处方药,也是许多中成药的重要原料,其需求量非常大,然而分布在全国范围内的黄连属植物多已濒危。因而,利用合成生物学技术,挖掘参与黄连苄基异喹啉生物碱合成和调控关键基因或者转录因子,通过微生物或细胞体内合成次级代谢产物,以满足小檗碱等苄基异喹啉类生物碱的药用需求,能够从一定程度上解决黄连药用资源短缺的问题[28]。

WRKY 转录因子通过其保守结构域与目的基因启动子上的W-box 结构域特异性结合,不仅参与调控植物体内包括细胞器的构成、植株的开花、结果、休眠、衰老等过程[29],还可调控编码次生代谢产物生物合成过程关键酶的基因的表达,从而直接或间接的参与次生代谢产物的生物合成。目前在WRKY 转录因子对植物次生代谢的调控方面已有较多研究[30]。Ding等通过全基因组数据分析了桂花(Osmanthus fragrans)的WRKY基因家族,并结合转录组与代谢组数据,最终发现桂花中OfWRKY36的表达模式几乎与其体内所有单萜的变化呈正相关,OfWRKY7与罗勒烯及其衍生物呈负相关,OfWRKY19的表达量与β-罗勒烯和(E, Z)-2,6-二甲基-2,4,6-三烯的积累呈正相关[31]。Zhang 等人从红豆杉(Taxus chinensis)转录组数据中鉴定出了61个 WRKY 转 录 因 子[32],后 期 研 究 发 现TcWRKY8、TcWRKY26和TcWRKY47都显著提高了紫杉醇生物合成相关基因的表达水平[33]。近年来,有关WRKY 转录因子对苄基异喹啉生物碱转录调控机制的研究也已有了初步进展[34]。从日本黄连中鉴定出的CjWRKY1属于IIc 类亚家族且响应JA 信号,过表达CjWRKY1能提高日本黄连中几乎所有黄连素生物合成基因的表达[12],Yamada 等 研 究 发 现CjWRKY1在 花 菱 草(Eschscholzia californica)中的异源表达仅导致EcCYP719A3、EcP6H和两个新发现的OMT表达量增加;这样的结果表明WRKY 转录因子在苄基异喹啉生物碱生物合成中的调控功能的多样化[35]。在罂粟(Papaver somniferum)中,创伤诱导的 I 类 WRKY 转录因子PsWRKY 可通过结合W-box 序列,反式激活TYDC基因启动子从而参与苄基异喹啉生物碱的生物合成[36],Apuya 等研究发现同属的 I类 WRKY 转录因子AtWRKY1 的异源表达增强了罂粟与花菱草悬浮细胞中苄基异喹啉类生物碱的积累[37]。

本研究使用在线网站预测黄连WRKY基因家族的亚细胞定位,预测结果表明除CcWRKY31、CcWRKY41外,其他WRKY 蛋白定位于细胞核中。转录因子的转录调控过程正常是在细胞核内进行的,但这并不说明这两个蛋白不是转录因子。如Trofimov等[38]发现在烟草中bHLH039 转录因子定位模式的变化取决于细胞中FIT(Fer-like iron deficiency-induced transcription factor)的存在,在细胞中缺乏FIT 时,bHLH039 主要定位于细胞质,FIT 的存在增强了bHLH039 的移动性,并使该蛋白转向细胞核。Wang等[39]发现调控油菜素甾醇(BR)代谢的转录因子BZR1原本存在于细胞质中,但在BR 通路被激活后,BZR1可以被招募到细胞核中。 因此CcWRKY31、CcWRKY41 蛋白可能存在于细胞质中,当受到某种作用后会向细胞核转移从而行使转录因子的作用。染色体定位分析发现多个WRKY基因在同一染色体上紧密相邻,推测它们在黄连的生长发育过程中行使的功能相似。结构域比对结果表明35 个黄连WRKY 转录因子结构域高度保守,且同属一类的黄连WRKY 蛋白序列相似性较高。3 个黄连WRKY蛋白(CcWRKY19、CcWRKY18、CcWRKY33)序列含有变异结构域,表明黄连WRKY基因家族在进化过程中出现了多样性,相似的结果在拟南芥[40]、番茄[41]等多个物种中也相继被发现。在植物WRKY基因家族进化过程中,第I类转录因子被认为是第II 类和第III 类的起源[42]。本研究的系统发育分析结果表明黄连IIc 亚类与Ⅰ类的WRKY转录因子聚在一个分支上,从进化层面分析,这两类黄连WRKY 转录因子可能有共同的起源,这与枇杷的WRKY系统发育结果一致[43]。

本研究对41个黄连WRKY基因在4个组织(须根、根茎、叶、叶柄)中的表达模式进行分析,结果发现有13个黄连WRKY基因普遍表达,推测这13个基因可调控黄连的整个生长发育过程。26 个黄连WRKY基因仅在一个组织中表达量较高,其中CcWRKY3、CcWRKY10以及CcWRKY4在黄连叶柄中的表达量较高,推测其参与黄连叶柄的生长发育过程;CcWRKY2、CcWRKY29、CcWRKY21在叶中表达量较高,推测其参与黄连叶的生长发育过程。研究发现,参与次生代谢产物形成的酶基因和转录因子,其表达模式与植物体内活性成分的分布显著相关[44.45]。多年生黄连的生物碱主要在根茎中积累,须根次之[46],本课题组前期研究[26]发现黄连小檗碱、黄连碱生物合成途径的CAS、SPS基因(Cch00017825)在根茎中表达量较高,须根也有表达,CcWRKY35、CcWRKY7、CcWRKY39的表达模式与其几乎一致,且CcWRKY39为I 类WRKY 转录因子,与PsWRKY同类型,CcWRKY7为 IIc 类 WRKY 转录因子,推测CcWRKY35、CcWRKY7、CcWRKY39参与调控黄连小檗碱、黄连碱生物合成过程。CcWRKY17、CcWRKY15在须根中几乎没有表达,但在根茎中表达量较高,推测其同样参与调控黄连生物碱的生物合成。CcWRKY18、CcWRKY25等19个黄连WRKY基因在须根中表达量较高,其表达模式与Chen 等[47]从黄连基因组中筛选出的参与黄连生物碱生物合成途径部分候选基因几乎一致,推测其可能会参与调控黄连生物碱生物合成过程。

对黄连WRKY基因家族的全基因组和表达谱分析将有助于理解苄基异喹啉生物碱生物合成、积累和易位的调控机制。特别是,不同的黄连WRKY 蛋白可能调控苄基异喹啉生物碱生物合成相关基因的时空表达模式。为了阐明黄连中苄基异喹啉生物碱的生产和积累的调控机制,需要对黄连WRKY 转录因子进行进一步的研究。这些信息将有助于开发有效生产有价值生物碱的代谢和运输工程方法。

猜你喜欢

生物碱黄连结构域
细菌四类胞外感觉结构域的概述
拟南芥START 结构域亚家族生物信息学分析及功能
氰基硼氢化钠还原胺化京尼平合成拟生物碱与活性
UBR5突变与淋巴瘤B细胞成熟
不一样的“双黄连”
生物碱的提取方法分析
“小矮子”黄连
黄连最清胃火,但体寒者慎用
“华中药库”抢收黄连
正交试验法优化苦豆子总生物碱的超声提取工艺