棉花CHS家族基因的鉴定及表达分析
2022-11-28董烨平张世鹏宋正鑫刘致浩
陈 云,董烨平,张世鹏,吴 苏,谭 敏,宋正鑫,刘致浩
(湖北师范大学 生命科学学院,湖北 黄石 435002)
0 引言
棉花(Gossypiumhirsutum)是世界上最主要的经济作物,具有产量大、成本低、利用价值高等优点。研究表明,非生物逆境胁迫是影响棉花生长的主要因素之一,严重时会使棉花生长受到抑制,进而导致棉株死亡[1]。随着全球温室效应的加剧,在夏秋时节,我国新疆及长江流域会经常出现短暂或持续高温天气,对棉花生长造成严重的负面影响,导致棉花生长异常甚至不育。因此,针对干旱和高温等非生物胁迫带来的不利影响,筛选出具有优异抗逆性棉花种质,加强对棉花抗逆胁迫下生理响应机制的认识,鉴定抗逆境相关基因是当前棉花育种的主要研究内容[2,3]。
类黄酮是植物体内广泛存在的一类次生代谢物质,在植物生长发育过程中均发挥多种生理功能。此外,类黄酮在植物抗生物胁迫方面也发挥着重要作用[4]。目前,植物界中从种子植物到苔藓植物均发现了类黄酮的合成和分布[5]。常见的类黄酮有查尔酮、黄酮醇、黄酮、黄烷醇、黄烷酮、花青素等[6]。类黄酮具有很强的抗氧化活性,参与植物的抗逆反应,表现形式主要有植株的颜色发生改变,以此来清除逆境胁迫下产生和积累的活性氧[7]。类黄酮生物合成途径在许多植物中进行了研究。目前已经在拟南芥(Arabidopsisthaliana)、大豆(Glycine)、葡萄(VitisviniferaL.)等多种植物中分析了催化类黄酮生物合成的酶。目前在植物中已经鉴定出26种类黄酮生物合成相关基因,主要包括查尔酮合成酶(CHS),查尔酮异构酶(CHI),黄酮醇合成酶(FLS),异黄酮还原酶(IFR),黄烷酮3-氢化酶(F3H),花青素合成酶(ANS),异黄酮合酶(IFS),二氢黄酮醇4-还原酶(DFR),花色素双加氧酶(LDOX),花色素还原酶(LAR)等[8]。这些酶在类黄酮生物合成途径中分别催化不同的反应。
查尔酮合成酶(CHALCOME SYNTHASE,CHS)是植物类黄酮生物合成途径中的第一个关键酶,它催化丙二酰辅酶A的3个乙酸单元与对羟苯丙烯酰辅酶A的一个乙酸基缩合生成四羟基查尔酮,该产物进一步衍生转化构成了各类黄酮类化合物[9]。前人的研究表明,查尔酮合成酶不仅催化黄酮类化合物的合成,而且在花青素生物合成,植物根瘤形成,抗生物胁迫和防止紫外线损伤方面均发挥重要作用[10]。CHS基因因其重要功能而得到广泛研究。目前,已经在多种植物中对CHS基因家族的调控和功能进行了研究,包括葡萄、非洲菊(GerberajamesoniiBolus)、苹果(Malusdomestica)、文心兰(Oncidiumhybridum)、兰花(Cymbidiumssp.)、金丝桃属植物(Triadenum)、拟南芥、矮牵牛(PetuniahybridaVilm)和豆等[11]。查尔酮合成酶基因是一个比较大的多基因家族,并且在基因结构上非常保守[12]。目前,在玉米中已经鉴定了14个完整的CHS基因[13],在矮牵牛中鉴定了6个CHS基因[14],在大豆中发现了8个CHS基因[15],水稻中也已经鉴定出27个CHS基因[16]。
目前关于CHS基因在植物(尤其是棉花)抗逆方面的研究较少,在陆地棉中该基因家族信息也不清楚。因此,鉴定出陆地棉中的CHS基因对研究该基因家族在参与棉花抗逆中的功能角色具有重要的理论意义。
1 材料与方法
1.1 棉花CHS基因家族的鉴定
使用hmmsearch在陆地棉全基因组(https://cottonfgd.org/)范围内鉴定同时包含PF00195 (Clal_sti_synt_C)与PF02797(Clal_sti_synt_N)结构域且E-value小于10-3的蛋白序列,再使用使用NCBI-CDD工具进行进一步的筛选,完成棉花CHS家族基因的鉴定。利用expasy对其编码的蛋白质大小、分子量、理论等电点及亲水性等理化性质进行分析。
1.2 系统进化树的构建
使用MEGA7.0软件对棉花CHS的蛋白序列进行系统进化分析,Bootstrap设置为1 000,使用工具TBtools对进化树进行可视化。
1.3 染色体定位
根据棉花全基因组数据获得棉花CHS基因家族的染色体信息,包括基因起始位点信息以及基因所在染色体长度,然后使用TBtools软件进行染色体定位。
1.4 基因结构及序列保守性分析
将鉴定的棉花CHS蛋白序列提交到在线MEME工具进行保守基序分析。参考其他文献中有关CHS基因家族的保守结构域分析结果,我们将Motif sites设置为2~500 sites,Width在6~100 wide;接着利用TBtools对所得结果进行展示。
1.5 表达模式分析
在棉花基因组数据库中(https://www.cottongen.org/)下载棉花不同生长时期的组织中以及在不同胁迫处理条件下的棉花 RNA-Seq数据,使用perl脚本筛选出CHS基因的表达量,利用TBtools软件绘制棉花CHS基因家族表达热图。
2 结果与分析
2.1 棉花CHS基因家族的鉴定
通过hmmsearch在陆地棉全基因组(https://cottonfgd.org/)范围内鉴定同时包含PF00195 (Clal_sti_synt_C)与PF02797 (Clal_sti_synt_N)结构域的蛋白序列,从四倍体棉花基因组数据库中鉴定出35个GhCHS基因,并按照每个基因在染色体上的位置顺序重新命名(GhCHS01-35)。同时通过EsPAsy在线网站查询GhCHS基因家族的基本信息。结果显示,这些编码CHS蛋白的氨基酸长度范围在329 aa (GhCHS10)~597 aa (GhCHS23),氨基酸平均长度约为448.3 aa;分子量在 35.96 kD (GhCHS10)到66.43 kD (GhCHS23),平均分子量为49.9 kD;等电点在5.28 (GhCHS15)~9.42 (GhCHS03),除GhCHS15、GhCHS31、GhCHS33、GhCHS02、GhCHS17、GhCHS09、GhCHS13、GhCHS14、GhCHS24、GhCHS29、GhCHS10、GhCHS26、GhCHS27、GhCHS07外,其余蛋白理论等电点均大于7;除了GhCHS01,GhCHS04,GhCHS07,GhCHS11,GhCHS16,GhCHS19,GhCHS34这7个蛋白为疏水性蛋白,其他的蛋白均为亲水性的蛋白(表1)。
表1 棉花CHS家族基因信息
2.2 棉花CHS基因家族系统进化分析
单独使用35个棉花CHS蛋白序列进行进化分析,同时对它们的基因结构与保守结构域进行了分析(图1)。结果表明这些CHS蛋白可聚类为7个支(图1)。第1支包含10个CHS蛋白,第2支包含5个,第3支包含4个,第4支只有1个CHS蛋白,第5支和第6支都只包含2个CHS蛋白,第7支包含的蛋白数最多,有11个。基因结构分析结果显示CHS基因的外显子数量在1~5个之间,其中有12个基因只有一个外显子,没有内含子;有一个基因有5个外显子(GhCHS23);有14个基因有两个外显子一个内含子。保守结构域分析结果显示,35个蛋白中均包含1号和2号,除了GhCHS23外,其余蛋白均包含10号Motif,7号和14号Motif只存在于第4~7进化支中的CHS蛋白,处于相同进化支的蛋白基本上具有相同的保守结构域。
图1 棉花CHS蛋白进化树、基因结构及保守结构域分析
2.3 棉花CHS基因家族染色体定位分析
为了了解CHS基因在棉花染色体上的分布情况,我们对鉴定出的35个GhCHS基因进行了染色体定位分析(图2)。结果显示,32个基因分别定位在棉花的16条染色体上,GhCHS33、GhCHS34和GhCHS35这3个基因分别定位于未能组装到染色体的scaffold6253、scaffold27_A01和scaffold738_A03片段上。其中,A05号、D02号和D05号染色体上分布最多,分别有4个CHS基因,其余染色体上均含有1~3个CHS基因。
图2 棉花CHS 基因在染色体上的定位
2.4 棉花CHS基因组织表达模式分析
为了研究棉花CHS基因在棉花不同组织中的表达模式,我们从棉花转录组数据库中筛选出了35个CHS的组织表达数据。分析了这些GhCHS基因在根、茎、叶、花瓣、花药以及不同天数(开花前3d; 开花当天0d; 开花后1 d; 3 d; 5d; 10d; 15 d; 20 d)的胚珠和不同天数(开花后 10d; 15 d; 20 d)的纤维中的表达情况。依据组织表达情况这35个CHS基因可以分为8支(图3):第一支的基因(GhCHS9~GhCHS31)在胚珠发育起始阶段优势表达;第二支的基因(GhCHS18~GhCHS20)在根中优势表达;第三支的基因(GhCHS12~GhCHS32)在开花后3 d 和5 d的胚珠中优势表达;第四支的基因(GhCHS23~GhCHS8)在叶片中优势表达;第五支的基因(GhCHS02~GhCHS29)在花瓣中优势表达;第六支的基因(GhCHS04~GhCHS27)在纤维中优势表达;第七支的基因(GhCHS05和GhCHS21)在根、茎、胚珠和纤维中均有较高的表达;第八支的基因(GhCHS06,GhCHS11和GhCHS24)在开花后10 d和15 d的胚珠中优势表达;这些结果表明这些CHS基因在棉花的不同组织中发挥着不同的生物学功能。
图3 棉花CHS基因在不同组织中的表达情况
2.5 棉花CHS基因在不同胁迫处理条件下的表达模式
研究报道,CHS基因在不同植物中的表达是由许多生物和非生物胁迫反应诱导的[17]。为了研究CHS基因在棉花逆境胁迫中的应答情况,利用已报道的不同胁迫处理条件下的棉花RNA-Seq数据分别对GhCHS基因在干旱、热、冷及盐处理下的表达模式进行了分析(图4)。在干旱处理条件下(图4A),这些基因的表达情况分为3类,第一类是基因的表达量随着处理时间的增加而降低(GhCHS05~GhCHS10);第二类是基因的表达量随着处理时间的增加而逐渐增加,在干旱处理12 h达到最大,然后表达量逐渐下降(GhCHS03~GhCHS13);第三类是基因的表达量在干旱处理前期(6 h之前)不断的增加,而在干旱处理6 h后开始下降(GhCHS25~GhCHS19,GhCHS26);此外,GhCHS11的表达几乎不受干旱胁迫的影响。以上结果表明这些基因可能在植物抗逆的不同阶段发挥功能,分工协作参与棉花对不同胁迫的响应。
在热胁迫处理条件下,这些基因的表达模式与干旱胁迫下的表达模式很相似,大致可以分为3类(图4B):第一类随着热胁迫处理时间的增加基因的表达量显著下降(GhCHS05~GhCHS10);第二类在热处理12 h时基因高量表达(GhCHS23~GhCHS19);第三类基因在热处理的早期表达量较高,而随着处理时间的增加表达量降低(GhCHS20~GhCHS24)。
在盐胁迫处理条件下,一些CHS基因的表达在盐处理的早期(1 h, 3 h)时升高,随着处理时间的增加表达量下降,比如GhCHS12~GhCHS09(图4C);一些基因在处理中期高量表达,比如GhCHS29~GhCHS32;另外一些基因在盐胁迫处理条件下下调表达(GhCHS21~GhCHS28)。
在冷胁迫处理条件下,一些CHS基因在处理的早期(1 h)高量表达(GhCHS18~GhCHS16);一些基因在处理中后期高量表达,比如GhCHS28~GhCHS23;另外一些基因在处理条件下下调表达(GhCHS12~GhCHS17) (图4D)。
图4 GhCHS家族基因在不同胁迫处理条件下的表达分析
3 讨论
由于全球气候变化和土壤盐渍化,使得非生物胁迫成为限制棉花生长和产量的主要环境因素,挖掘一些重要的抗逆基因显得十分重要。CHS基因是植物中特有的一类基因家族,在植物生长发育的各个时期都发挥着重要作用,参与类黄酮生物合成途径。棉花全基因组测序的完成使得CHS基因家族的鉴定成为可能。目前,已经有很多物种的CHS基因家族成员被鉴定出来。
本研究从基因组水平上初步鉴定并分析了35个棉花CHS基因家族成员。系统进化和序列分析结果显示这35个CHS蛋白可以分为7类,蛋白序列高度保守,并且它们的保守结构域与系统进化树分类基本一致,同一类内的GhCHS蛋白通常表现出相似的基因序列组成。此外,大多数GhCHS基因包括两个外显子和一个内含子,与前人的研究一致。植物通常受到环境压力的威胁,包括生物胁迫和非生物胁迫。为了研究棉花CHS基因在植物抗逆中的功能,我们对棉花CHS基因在不同生长时期的组织中以及在干旱、盐、高温、低温等处理下的表达情况进行了分析,结果显示不同的GhCHS基因在不同的胁迫条件下表达具有较大的差异性,暗示了这些CHS基因在棉花对胁迫条件的应答中具有不同的功能。
CHS基因家族调节植物的类黄酮代谢,在植物的生长发育过程中起着至关重要的作用。在本研究中,我们对棉花CHS基因家族进行了多项分析,包括蛋白序列分析,系统进化分析,染色体定位,基因结构及保守结构域分析等,揭示了棉花CHS基因家族的多样性和保守性。此外,我们还研究了GhCHS基因在不同生长时期的组织中及逆境胁迫下的表达模式,这些结果为进一步研究CHS家族基因在植物抗逆方面的功能提供了科学依据。
Genome-wide identification and expression analysisofCHSgene family inGossypiumhirsutum
CHEN Yun,DONG Ye-ping,ZHANG Shi-peng,WU Su,TAN Ming,SONG Zheng-xin,LIU Zhi-hao