杜仲CONSTANS-like全基因组鉴定、系统进化及表达模式分析
2022-06-28陈玉龙吴耀松任闪闪
刘 俊,李 龙,陈玉龙,刘 燕,吴耀松,任闪闪
(1. 河南中医药大学 中医药科学院 河南省中医方证信号传导重点实验室,河南 郑州 450046;2. 国际竹藤中心国家林业和草原局竹藤科学与技术重点开放实验室,北京 100102;3. 国际竹藤中心 安徽太平试验中心,安徽黄山 245700;4. 西北农林科技大学 林学院,陕西 杨凌 712100)
CONSTANS-like是植物中保守的一类锌指蛋白转录因子,N端含有1个或2个由2个半胱氨酸组成C-X2-C-X16-C-X2-C(C为半胱氨酸,X为可变氨基酸)介导蛋白互作的B-box结构域[1],C端包含1个由43个氨基酸组成参与蛋白核定位的CCT(CONSTANS、CONSTANS-like、TOC1)结构域[2-3]。CO/CO-like(COL)基因家族已在多个物种中进行了报道,拟南芥Arabidopsis thaliana中鉴定到17个CONSTANS-like成员[2],水稻Oryza sativa中有17个[4],甜菜Beta vulgaris中有13个[5],大麦Hordeum vulgare中有9个[4],甘蓝型油菜Brassica napus中有4个[6],小麦Triticum aestivum中有3个[7],挪威云杉Picea abies中含有2个COL成员[8]。
研究表明:COL基因具有功能多样性,特别是在光响应介导的开花和生长调控方面[2,4-5,9]。CO基因的表达和蛋白稳定受生物钟和光周期调节;长日照条件下,CO与FLOWERING LOCUS T (FT)启动子结合,诱导FT基因表达,促进拟南芥提前开花[10-11],CO通过调节TERMINAL FLOWER 1 (TFL1)的表达,抑制FT诱导开花[12]。AtCOL9通过抑制CO基因表达,减缓FT转录,延迟开花[13]。在水稻中,超表达 OsCOL15 通过上调开花抑制因子 Ghd7 (grain number, plant height and heading date 7),下调激活因子RID1 (rice indeterminate 1)、 Ehd1 (early heading date 1)、 Hd3a (heading date 3a)、 FLT1 (FLOWERING LOCUS T1),导致开花延迟[14]。在长日照条件下,过表达甘菊Chrysanthemum lavandulifolium 的 ClCOL5诱导转基因拟南芥提前开花[15]。大部分PheCOLs在毛竹Phyllostachys edulis叶片中表达量最高,具有显著的光周期响应模式[16];在早竹Ph. violascens中,PvCO1和PvCO2主要在叶片中表达[17]。毛果杨Populus trichocarpa的PtCOLs优先在叶片中表达[18];银杏Ginkgo biloba中GbCO基因主要在叶片和茎尖表达[19]。超表达PhCOL16提高转基因矮牵牛Petunia corollas叶绿素含量,正调控叶绿素生物合成[20]。COL不仅参与开花调控,在植物发育和逆境胁迫中也发挥重要作用。AtCOL4提高转基因植株盐和脱落酸 (abscisic acid, ABA)耐受性[21],AtCOL7促进拟南芥侧枝形成和下胚轴伸长[22]。
杜仲Eucommia ulmoides是单科、单属、单种植物,雌雄异株,广泛分布于陕西、河南、四川、贵州、云南等地,是中国特有的经济树种。因杜仲树皮、根、叶、花和果实中均含有大量的白色丝状杜仲橡胶,被誉为优质的天然橡胶树种[23]。COL蛋白在植物生长发育的多个方面发挥重要作用,具有重要的药用价值和橡胶用价值。杜仲COL基因家族系统进化及其在杜仲叶片生长发育和杜仲胶形成中的表达模式尚未报道。本研究以杜仲基因组数据为基础,利用生物信息学分析方法,对杜仲CONSTANS-like基因家族进行全基因组鉴定、理化性质和系统进化分析,初步鉴定EuCOLs基因在杜仲叶片生长发育及杜仲胶生物合成中的功能,为进一步探索EuCOLs基因的功能提供理论依据。
1 材料与方法
1.1 材料
杜仲种植于西北农林科技大学苗圃(陕西杨凌)。取生长正常,长势一致的2年生‘秦仲1号’‘Qinzhong 1’杜仲幼苗的叶芽(茎尖)、生长叶(3 cm长叶片)、幼叶(完全展开的新叶)、老叶(完全展开60 d叶片);取同一生长条件,与‘秦仲1号’相同发育时期的‘紫叶’杜仲E. ulmoides ‘Ziye’叶片,经液氮处理后冻存于-80 ℃冰箱,用于RNA提取。
1.2 方法
1.2.1 杜仲 COL 基因家族鉴定及理化性质分析 从杜仲基因组数据库 Genome Warehouse (https://bigd.big.ac./gwh/Assembly/13/show)中下载COL蛋白候选序列,利用美国国家生物信息中心(NCBI)保守结构域搜索服务(CD Search)分析蛋白结构域,保留含有完整B-box和CCT结构域序列。通过在线软件ProtParam(http://web.expasy.org/protparam/)分析蛋白理化性质,使用Plant-mPLoc (http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)预测EuCOLs蛋白亚细胞定位,利用在线工具ExPASY (https://www.expasy.org/tools)分析EuCOLs氨基酸数量、分子量、理论等电点,通过Expasy (https://web.expasy.org/protscale/)软件分析蛋白的亲疏水性,利用SOPMA (https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.plpage=npsa_sopma.html)软件预测蛋白的二级结构。
1.2.2 杜仲 COLs 基因 scaffold 定位及系统进化分析 通过杜仲基因组数据库,查找 EuCOLs 基因在scaffolds上的位置以及scaffolds长度,使用DNAMAN软件进行EuCOLs蛋白序列比对,通过Clustal X1.83软件对杜仲、水稻、拟南芥、毛果杨和玉米Zea mays的COLs蛋白进行多序列比对,利用MEGA 6.0的邻接法(neighbor-joining),重复次数设置为1 000次[24],构建系统发育树。
1.2.3 杜仲 COLs 基因结构、基序及启动子分析 利用 GSDS (http://gsds.gao-lab.org/index.php)软件分析EuCOLs基因结构,通过 MEME (http://meme-suite.org/)对 EuCOLs进行基序分析 (参数是:any number of Repetitions (anr),maximum number of Motifs= 20,minimum width≥6,and maximum width≤50)。通过Clustal X 1.83比对和DNAsp5软件分析EuCOLs同源基因对,并计算非同义替换率(non-synonymous substitution rate, Ka) 和同义替换率 (synonymous substitution rate, Ks)。杜仲同源基因复制和分离的时间(t)由公式 t=Ks/1.3×10-8计算[16]。利用 Plant CARE (http://bioinformatics.psb.ugent.be/webtools/plantcare/htmL/)软件对EuCOLs基因启动子(ATG)上游2 000 bp序列进行查找分离,进行启动子顺式作用元件分析。
1.2.4 杜仲 EuCOL 基因家族表达模式分析 从 NCBI的 Short Read Arshive (SRA)数据库中下载‘秦仲1号’不同发育时期叶片(叶芽、初生叶、幼叶、老叶,版本号:SRP218063)[25]及不同胶含量杜仲品种(高产胶杜仲品种‘秦仲2号’‘Qinzhong 2’、低产胶杜仲品种‘小叶’‘Xiaoye’含量,版本号:SRP158357)[26]的转录组数据,利用1百万个映射上的碱基中映射到外显子的1千个碱基上的碱基个数(fragments per kilobase million,FPKM)值表示 EuCOLs基因相对表达丰度 (A),对该数值取对数 (Log2A)进行统计分析,通过TBtools工具绘制基因表达图谱[27]。
利用Trizol (天根DP424)试剂提取‘紫叶’杜仲的叶芽(茎尖)、生长叶(3 cm长叶片)、嫩叶(完全展开的新叶)总 RNA,反转录合成 cDNA,利用 Quant Studio 6 (Life Technologies公司,新加坡),All-in-One SYBR Premix EX TaqTM kit (Gene Copoeia 公司,美国)进行实时荧光定量 PCR (qRT-PCR)反应,10.0 μL 反应体系: 2×mix 5.0 μL、正向引物/反向引物各 0.25 μL、cDNA 2.0 μL、ddH2O 2.5 μL。反应程序:95 ℃ 预变性 5 min,95 ℃ 变性 10 s,60 ℃ 退火 10 s,72 ℃ 延伸 20 s,45 个循环。内参基因为UBC E2[28],使用法对3次生物学重复的数据进行分析。
1.2.5 杜仲 COL7 蛋白互作分析 利用 STRING 软件 (https://string-db.org/),选择拟南芥数据库进行序列比对,根据已知拟南芥COLs蛋白互作关系,预测EuCOL7互作蛋白,通过Cytoscape 3.7.0软件进行评估和预测[16]。
2 结果与分析
2.1 杜仲COL基因家族鉴定及理化性质分析
通过Genome Warehouse数据库,从杜仲基因组中共查找到8个EuCOLs基因,利用Pfam和NCBI的Conserved Domain Search软件,验证EuCOLs蛋白保守结构域。结果显示:8个EuCOLs蛋白均含有B-box和CCT结构域,分别命名为EuCOL1~EuCOL8。通过ExPASy工具,对EuCOL家族成员进行理化性质分析,EuCOL3蛋白序列最长,编码469个氨基酸,EuCOL7序列最短,编码315个氨基酸,分子量分布区域为 35.21~52.65 kDa,等电点范围是 5.10 (EuCOL1)~6.47 (EuCOL6),亚细胞定位预测结果显示:EuCOLs均定位在细胞核中(表1),属于疏水性蛋白,8个EuCOLs分布于8条scaffolds。
表1 杜仲 CO-like 蛋白序列特征及亚细胞定位预测Table 1 Sequence characteristics and predicted subcellular location of E. ulmoides CO-like proteins
2.2 杜仲 COLs 蛋白系统进化分析
为了分析杜仲EuCOL基因家族的进化关系,将8个EuCOLs蛋白与17个拟南芥AtCOLs、水稻OsCOLs、ZmCOLs和14个毛果杨PtCOLs[18]导入MEGA 6.0软件,通过邻接法构建系统发育树,73个COLs蛋白分为3个亚家族(分别是群组 Ⅰ、群组 Ⅱ和群组 Ⅲ)(图1)。群组Ⅰ亚家族包含2个B-box和1个CCT结构域,由28个COLs蛋白组成,包含2个EuCOLs蛋白(EuCOL6和EuCOL7);群组Ⅱ亚家族含有1个B-box、1个CCT和1个分化的锌指结构域,所含COLs蛋白数量最少,有15个COLs蛋白,分别含有4个AtCOLs,3个PtCOLs蛋白和OsCOLs蛋白,5个ZmCOLs蛋白,不含EuCOLs蛋白;群组Ⅲ亚家族由1个B-box和1个CCT结构域组成,所含蛋白数量最多,包含30个COLs蛋白,有6个EuCOLs蛋白,进化关系显示杜仲与毛果杨亲缘关系最近。
图1 杜仲、水稻、拟南芥、毛果杨和玉米CO-likes蛋白系统进化树Figure 1 Phylogenetic tree of CO-like proteins from E. ulmoides, O. sativa, A. thaliana, P. trichocarpa and Z. mays
2.3 杜仲 COLs基因结构与基序分析
为了进一步分析EuCOLs基因的保守性和多样性,对EuCOLs基因结构及蛋白基序进行了分析,结果显示:EuCOLs基因结构较为简单(图2),EuCOL1和EuCOL6分别含有2个和3个外显子,4个EuCOLs基因含有4个外显子,EuCOL2和EuCOL3外显子数目最多,含有6个外显子。
图2 杜仲 COLs 基因结构分析Figure 2 Structural analysis of COLs in E. ulmoides
利用MEME在线软件,对EuCOLs家族进行保守基序分析,基序鉴定个数设置为20,分别命名为motif 1~motif 20。结果如图 3 所示:motif 1 和 motif 2 为 EuCOLs 蛋白的特征性结构域,存在于所有EuCOLs蛋白中。只有EuCOL7含有1个B-box结构域,其余EuCOLs蛋白均由2个B-box组成,这与图2蛋白序列比对结果一致。同一亚家族EuCOLs基序具有高度相似性,其中motif 1包含1个典型的由C-X2-C-X16-C-X2-C编码的GATA锌指结构域。不同亚家族基序存在显著差异,例如:motif 7和motif 14只存在于群组Ⅲ亚家族,motif 12只在群组Ⅱ亚家族中存在。EuCOLs蛋白之间基序也有差异,只有EuCOL1和 EuCOL4 含有 motif 5、motif 7 和 motif 9,motif 10 仅存在于 EuCOL2,推测基因功能差异可能与基序有关。
图3 EuCOLs 蛋白保守基序分析Figure 3 Conservative motif analysis of EuCOL proteins
2.4 杜仲 COLs启动子顺式作用元件分析
利用Plant CARE软件对EuCOLs起始密码子(ATG)上游2 000 bp序列进行顺式作用元件分析(图4)。EuCOLs启动子中不仅包含基本顺式作用元件,还存在3种类型元件。①胁迫响应元件,如干旱胁迫响应元件MBS;低温响应元件LTR;厌氧胁迫相关元件ARE等。②光响应元件,如Box 4、G-box、GBox、GT1-motif、I-box、GATA-motif、TCCC-motif等。③激素响应元件,如赤霉素响应元件ABRE;生长素响应元件AuxRR-core;水杨酸响应元件CGTCA-motif等。推测EuCOLs可能参与杜仲生长发育、胁迫响应以及光周期调控。EuCOLs基因中光响应元件数量最多,共79个,包含18个Box 4,G-box和GT1-motif均有12个,暗示EuCOLs基因的转录可能受光周期调控。EuCOLs启动子区域含有16个ABRE和14个ARE元件(图4B),推测EuCOLs可能参与ABA调节和厌氧调控。
图4 EuCOLs 启动子顺式作用元件分布Figure 4 Cis-elements distributed in the promoters of EuCOLs
2.5 杜仲 COLs基因表达模式分析
为了探索EuCOLs基因在杜仲叶片发育中的功能,利用杜仲叶片不同发育时期的转录组数据,进行表达模式分析。图5显示:EuCOLs在杜仲叶片发育中转录水平较低,大部分基因FPKM值小于1,EuCOL6在杜仲叶片中不表达,暗示EuCOLs在杜仲叶片中发挥作用较小,EuCOL5在叶片中的转录水平相对较高,并且随着叶片发育,转录水平逐渐升高,推测EuCOL5在杜仲叶片中可能发挥正调控作用。
图5 EuCOLs 基因在杜仲叶片不同发育时期表达模式Figure 5 Expression patterns of EuCOLs genes at different development stages of E. ulmoides leaves
利用高产胶杜仲品种‘秦仲2号’和低产胶杜仲品种‘小叶’成熟叶片转录组数据,检测EuCOLs基因的表达水平,结果如图6所示。大部分EuCOLs转录水平较低,只有EuCOL5和EuCOL7的表达量较高,EuCOL7在各样品中的FPKM值大于150,并且高胶含量叶片中的转录水平高于低胶含量叶片,推测EuCOL7在杜仲胶形成过程中发挥正调控作用,相反EuCOL5在‘小叶’中的转录水平高于‘秦仲2号’,暗示EuCOL5在杜仲胶形成中可能发挥负调控作用。
图6 EuCOLs 基因在杜仲胶形成中的表达模式Figure 6 Expression pattern of EuCOL genes in the formation of eurubber
为了验证EuCOLs基因在杜仲叶片发育中的表达模式 ,以‘紫叶’杜仲不同发育阶段的叶片为材料,通过qRT-PCR检测EuCOLs基因的表达水平。结果显示:EuCOLs在杜仲叶片中差异表达(图7),EuCOL1和EuCOL4在叶芽中表达量最高,随着叶片发育,表达水平逐渐降低,嫩叶中降为最低,暗示EuCOL1和EuCOL4在杜仲叶片发育的起始阶段发挥重要作用;相反EuCOL7随着叶片发育转录水平逐渐升高,嫩叶中的表达量是叶芽中的5.8倍,推测EuCOL7在杜仲成熟叶片中扮演重要角色。5个EuCOLs基因(EuCOL2、EuCOL3、EuCOL5、EuCOL6和EuCOL8)在幼叶中表达量最高,在叶片发育中,呈现先升高后降低的表达趋势。
图7 杜仲 COL 家族基因在叶片发育中的表达模式Figure 7 Expression patterns of E. ulmoides COL family genes during leaf development
2.6 杜仲 COL7 蛋白互作网络预测
表达模式分析显示:EuCOL7在杜仲叶片发育和杜仲胶形成中均具有较高表达量,暗示EuCOL7在叶片发育和杜仲胶形成中发挥重要作用。利用STRING软件,预测EuCOL7与其他蛋白质的互作关系。结果显示:EuCOL7可以与10个蛋白质发生相互作用(图8),其中3个属于BBX蛋白质家族,LHY、CCA和JAC家族各有1个,7个蛋白质(LNK2、LHY、CCA、RVE、COL、BBX25和BBX19)参与光周期响应。
图8 EuCOL7 蛋白互作网络预测Figure 8 Prediction of interaction network between EuCOL7
3 讨论
杜仲具有重要的经济价值、药用价值和生态价值,广泛分布于中国27个省(市、自治区)[29]。COL(CONSTANS-like)基因是植物光周期途径重要的调控基因。在营养生长阶段,COL基因在叶片中表达;光周期途径中,COL可将光信号和生物钟信号转变为开花信号,诱导成花基因FT、LFY表达,促进植株开花[30-31]。本研究以杜仲基因组数据为基础,通过生物信息学方法,搜索杜仲CONSTANS-Like基因家族,共鉴定到8个EuCOLs基因,根据基因组注释位置,8个EuCOLs基因分别映射到8条特定的染色体上,表明EuCOLs基因在染色体上均匀分布。
系统进化结果显示:EuCOLs分为2个亚家族(群组Ⅰ和群组Ⅲ),分别包含2和6个EuCOLs蛋白。在拟南芥中,AtCO、AtCOL1~AtCOL5属于群组Ⅰ亚家族,含有2个B-box和1个CCT结构域,超表达AtCOL3延长转基因拟南芥开花时间[32],在短日照条件下,超表达AtCOL5可以促进FT和SOC1基因表达,诱导拟南芥提前开花[33]。大麦HvCO1和Hd1基因与CO亲缘关系最近,可以通过激活HvFT1诱导大麦开花[4],拟南芥co突变体过表达牵牛花Pharbitis nil的PnCO基因可促进植物开花[34]。黑麦草Lolium perenne的LpCO可以互补拟南芥co突变体晚花表型[35],毛果杨PtCO促使植株提前开花,也可调控植株的生长和芽的分化[36]。群组Ⅲ亚家族含有1个B-box和1个CCT结构域。在拟南芥中,AtCOL6~AtCOL8和AtCOL16属于群组Ⅲ亚家族,AtCOL7和AtCOL8在开花调控中是转录抑制因子,超表达AtCOL7和AtCOL8导致转基因拟南芥开花延迟[22,37-38],推测EuCOLs可能也参与杜仲开花调控。
蛋白序列比对结果显示:EuCOLs与拟南芥、毛果杨COLs蛋白结构域具有高度的相似性,N末端含有1~2个典型的B-box结构域,C端包含1个CCT结构域。B-box1和B-box2结构域保守氨基酸残基分布相似,B-box1结构域中的5个Cys残基和2个His残基比其他氨基酸残基更保守,B-box2结构域中的第1个组氨酸(His)残基被苏氨酸(Thr)取代或者丢失(EuCOL2和EuCOL7)。在葡萄Vitis vinifera中,VviBBX9和VviBBX10蛋白B-box2结构域中的第1个His残基被天冬酰胺(Asn)取代[39],暗示EuCOL2和EuCOL7可能具有特异的功能。
外显子-内含子结构与基因系统进化存在密切关系,外显子-内含子的增加或减少有助于基因家族的扩展和多样化[40]。结构分析显示:EuCOLs基因含有2~6个外显子,EuCOL2含有6个外显子,其同源基因EuCOL8含有4个外显子,EuCOL3和EuCOL6分别含有6和3个外显子,而EuCOL5和EuCOL7分别含有4和2个外显子,推测EuCOLs在进化过程中可能存在外显子丢失现象,这与葡萄VviBBXs蛋白情况类似[39]。基序分析发现:motif 1和motif 2分别编码B-box和CCT结构域,存在于所有EuCOLs转录因子,同一亚家族EuCOLs蛋白motifs分布较为相似,不同亚族之间有差异。
EuCOLs启动子中含有多个胁迫、激素和光周期响应元件,其中光响应元件数量最多,共有79个,暗示EuCOLs可能参与杜仲光周期调节。研究表明:COLs基因参与多种植物光周期开花调控,在矮牵牛中,PnCO和PnCOL1具有显著的昼夜振荡节律,PnCO可以恢复拟南芥co突变体晚开花表型[41-42];大部分香蕉Musa acuminate的MaCOLs基因表达量在白天达到峰值,夜晚降为最低[43]。杨树PttCO1和PttCO2黄昏时表达水平开始增加,黎明时达到峰值[44]。短日照条件下,OsCOL3通过抑制Hd3a和RFT基因表达,导致水稻延迟开花[45],OsCOL13和OsCOL10在开花中发挥负调控作用[46-47];超表达HvCO1和ClCOL3促进开花[15,48]。EuCOLs在杜仲雄花芽苞叶原基分化中期和雄蕊原基分化初期差异表达,EuCOL7在雄蕊原基分化初期上调表达,EuCOL1下调表达[49],表明EuCOLs参与杜仲开花调控。
大量研究表明:COLs不仅调控植物开花,还参与非生物胁迫以及生长发育等生物学过程[22,50]。拟南芥STO与CONSTNS结构相似,超表达STO提高转基因植株的耐盐性[51]。在菊花Chrysanthemum morifolium中,Cm-BBX24-RNAi转基因株系开花提前,冷冻和干旱胁迫耐受性降低,光周期和赤霉素生物合成相关基因上调表达,表明Cm-BBX24在菊花开花时间和非生物胁迫中发挥多重作用[52]。低温诱导葡萄叶片、茎和花中VvZFPL基因上调表达,超表达VvZFPL导致转基因拟南芥下胚轴伸长,莲座叶变小,叶绿素含量降低[53],提高转基因拟南芥低温、干旱和盐胁迫耐受性[54]。AtCOL4基因表达受ABA、高盐和渗透胁迫的诱导,在种子萌发和子叶绿化过程中,atcol4突变体增加ABA和盐胁迫的敏感性[21]。表达模式分析显示:大部分EuCOLs在杜仲叶片发育中表达水平较低,各发育阶段转录水平无显著差异。EuCOL5转录水平相对较高,尤其在老叶中;EuCOL7在幼叶中表达量最高。在杜仲胶形成中,EuCOL5在‘小叶’中高量表达,EuCOL7在‘秦仲2号’中表达水平最高。qRT-PCR结果显示:EuCOL1和EuCOL4在叶片发育起始阶段表达量最高,EuCOL7随着叶片发育,转录水平逐渐增加,EuCOL2、EuCOL3、EuCOL5、EuCOL6和EuCOL8在叶片发育中,呈现先升高后降低的表达趋势,表明EuCOLs在杜仲叶片发育中具有功能差异性。
蛋白互作网络结果显示:EuCOL7可以与10个蛋白质互作,10个蛋白质中有7个(LNK2、LHY、CCA、RVE、COL、BBX25和BBX19)参与光周期调控,推测EuCOL7参与杜仲光周期响应,具体互作蛋白还需实验验证。在毛竹中,PheCOLs具有显著的昼夜振荡表达模式,光照抑制大部分PheCOLs基因表达,黑暗诱导。酵母单杂交结果显示:PheCOL14可以与PheCOL3启动子结合[16]。在拟南芥中,LHY属于同源域蛋白超家族,参与昼夜调控,与APRR1/TOC1和TCP21/CHE的启动子结合,抑制其转录,并抑制CCA1基因表达[55-56]。AtCOL5在维管组织中表达,超表达AtCOL5导致开花提前,然而AtCOL5缺失突变体并不影响开花时间,暗示AtCOL5可能与其他开花调控因子存在功能冗余现象[33]。