陆地棉Dof 基因家族的全基因组鉴定及分析
2020-07-23琚龙贞赵汀方磊胡艳张天真
琚龙贞,赵汀,方磊,,胡艳,*,张天真,
(1.南京农业大学作物遗传与种质创新国家重点实验室,南京210095;2.浙江大学农业与生物技术学院农学系,杭州310058)
单锌指DNA 结合蛋白 (DNA binding with one finger,Dof) 是植物中特有的转录因子。 Dof蛋白通常由200 ~400 个氨基酸残基(Amino acid,aa) 组成, 包括N 端保守DNA 结合域和C端转录调控域2 个主要结构域,N 末端含有1 个由50~52 个氨基酸残基组成的高度保守的Dof结构域。 Dof 结构域包含C2-C2 型锌指结构,能够特异性识别具有AAAG 核心序列的顺式调控元件[1-3]。 相较于N 端结构域的保守,C 端蛋白序列较为多变,这也是植物中Dof 转录因子家族表现为功能多样的原因之一[4]。
植物中首次鉴定报道的Dof 基因是玉米的ZmDof1 基因[5],随后在植物基因组中鉴定出大量的Dof 基因。 不同植物全基因组鉴定出的Dof 基因数目存在差异:拟南芥基因组中有36 个Dof 家族基因[1],水稻中有30 个Dof 基因[6],玉米中有46个Dof 基因[7],小麦中有96 个Dof 基因[8]。
目前研究表明,Dof 转录因子在植物生长发育和抗逆过程中发挥重要功能,广泛参与植物种子萌发、开花调控、防御反应、次生代谢和植物激素应答等过程。 拟南芥中DAG1 (Dof affecting germination 1)和DAG2(Dof affecting germination 2)2 个Dof 基因参与种子的萌发过程[9-10],CDF3(Cycling Dof factor 3 gene) 控制光周期开花和抗逆反应[11],OBP1(OBF binding protein 1 gene)参与细胞周期调控[12]等。水稻OsDof3 参与赤霉素调控表达[13],而OsDof12 调控长日照条件下开花[14]。玉米ZmDof3 调控玉米胚乳发育[15],ZmDOF36 则正向调控转基因玉米的淀粉合成[16]。小麦TaDof1与碳代谢有关[17],而TaDof2、TaDof3 和TaDof6参与了小麦缺水反应[18]。
棉花是世界上重要的经济和油料作物,为棉纺织业提供最常用的天然纤维材料。 陆地棉(Gossypium hirsutum L.) 是主要的棉花栽培种,产量高、适应性广,占棉花总产的95%以上。 尽管人们在拟南芥、水稻和玉米等植物中相继开展了关于Dof 转录因子全基因组鉴定和功能研究,但棉花中Dof 基因家族的研究却鲜有报道。 本研究基于最新发布的陆地棉遗传标准系TM-1 基因组[19],利用生物信息学手段鉴定Dof 基因家族成员,并对陆地棉Dof 家族基因的理化性质、染色体分布、基因结构、系统进化关系、基因复制以及在不同组织和发育时期表达谱进行全面分析, 为后续棉花中Dof 基因功能的深入研究奠定基础。
1 材料与方法
1.1 陆地棉Dof 基因家族的鉴定
最新公布的陆地棉TM-1 基因组数据来自于http://ibi.zju.edu.cn/cotton/ 网 站, 从Cottongen(https://www.cottongen.org/) 下载二倍体亚洲棉(G. arboreum, A2, A2_WHU) 和雷蒙德氏棉(G.raimondii,D5,JGI_v2.1) 基因组数据。 利用Pfam在线数据库(http://pfam.xfam.org/)下载Dof 基因种子文件PF02701。 采用HMMER 3.0 软件的hmmsearch 搜索程序鉴定含有Dof 保守结构域的蛋白序列。 最后将所有Dof 蛋白序列提交到NCBI CDD(Conserved Domain Database,保守结构域数据库) 和Pfam 在线数据库进行保守结构域验证,最终得到陆地棉所有的Dof 基因家族成员,并根据它们在染色体上的不同位置顺序进行命名。 拟南芥Dof 家族成员蛋白序列下载于拟南芥基因组数据库TAIR 网站(https://www.arabidopsis.org/),并修改蛋白序列名称[1]。
1.2 蛋白序列和保守结构域分析
利 用 ExPASy (https://web.expasy.org/protparam/)在线工具对鉴定出的陆地棉Dof 进行蛋白序列和理化性质分析。 利用ProtComp 9.0 在线工具(http://www.softberry.com/berry.phtml?topic =protcomppl&group=programs&subgroup=proloc)预测陆地棉Dof 的亚细胞定位。 使用ClustalX 2.1(http://www.clustal.org/clustal2/)软 件 进 行 蛋白序列多重比对,利用GeneDoc 2.7(https://github.com/karlnicholas/GeneDoc)软件抽取保守结构域序列,最后利用WebLogo 在线软件[20]展示陆地棉Dof 保守区域氨基酸序列的保守情况。
1.3 系统进化树构建和基因结构分析
将陆地棉Dof 蛋白序列和已经分类的拟南芥Dof 蛋白序列进行Clustal X 多序列比对,利用MEGA 5.0 软 件[21]基 于 邻 近 法(Neighbor-Joining Method) 对比对结果构建系统进化树,Bootstrap设为1 000 次。 利用在线软件工具GSDS 2.0(http://gsds.cbi.pku.edu.cn/)对Dof 基因家族的基因结构进行可视化。 利用MEME[22]在线软件分析陆地棉Dof 保守基序,参数设置为基序最大发现数目为10, 基序最长长度为100 nt(Nucleotide,核苷酸)。
1.4 陆地棉Dof 基因顺式作用元件分析
提取Dof 基因转录起始位点ATG 上游1 500 bp 的序列, 在Plant CARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)在线数据库中检索,鉴定启动子区的顺式作用元件。
1.5 染色体定位和基因复制分析
利用陆地棉基因组注释文件信息提取陆地棉Dof 基因家族染色体物理位置信息, 利用MapChart 2.2 软件进行Dof 基因染色体定位。 利用软件MCScanX[23]检测陆地棉、亚洲棉和雷蒙德氏棉基因组复制基因对,检测标准:蛋白比对E值小于1e-10;至少50%序列相似度;共线性区段内至少有5 个复制基因。 利用ParaAT 和KaKs_Calculator 2.0[24]软件计算陆地棉复制基因对的非同义突变率(Ka)和同义突变率(Ks)。
1.6 陆地棉Dof 基因家族表达谱分析
从NCBI SRA 数据库下载最新的陆地棉根、茎、叶片、花瓣、花托、萼片、不同时期的胚珠和纤维以及低温、高温、盐和PEG6000 模拟干旱逆境胁迫处理下的不同时期的转录组数据,项目数据登录号为PRJNA490626。利用TopHat 2[25]软件进行有参比对,Cufflinks[25]软件计算表达量FPKM值(Fragments per kilobase of exon model per million mapped reads, 每百万片段中来自某基因每千碱基长度的片段数)。 利用lg(FPKM)计算表达量,并将结果导入R 包pheatmap 绘制表达量热图。
2 结果与分析
2.1 陆地棉Dof 基因家族全基因组鉴定
基于最新的陆地棉TM-1 蛋白序列, 利用HMMER 3.0 软件比对搜索种子文件, 得到候选蛋白序列, 经过NCBI CDD 和Pfam 软件数据库验证保守结构域, 最终在陆地棉TM-1 基因组中鉴定出118 个Dof 基因,占陆地棉预测基因总数的0.16%。 根据Dof 基因在不同染色体上的位置顺序, 将它们分别命名为GHDofA1~GHDofA59、GHDofD1~GHDofD59(附表1,可在本刊网站查看)。 通过对陆地棉Dof 基因家族的理化性质分析发现,Dof 蛋白长度为164~510 aa;外显子数目分别为1(58 个基因)、2(53 个基因)和3(7 个基因),可见陆地棉Dof 基因主要以单个和2 个外显子形式存在; 对应的蛋白质相对分子质量为18.32~55.39 kDa;GHDofA19 的等电点最小,为4.82,GHDofD40 的等电点最大,为9.8,均值8.06, 表明大部分陆地棉Dof 蛋白呈弱碱性(附表1),与小麦中的分析结果[8]相一致。 亚细胞定位预测发现,大部分Dof 定位于细胞核,其余Dof 定位到细胞外。 这些结果表明Dof 蛋白序列多样性可能与适应不同的功能要求和理化特性有关。
2.2 陆地棉Dof 蛋白多重序列比对和保守结构域特征
利用ClustalX 软件对陆地棉Dof 蛋白进行多重序列比对,分析其保守结构域,发现陆地棉Dof 蛋白N 端Dof 结构域有典型的52 个氨基酸残基的C2-C2 型锌指结构(图1)。
图1 陆地棉Dof 蛋白保守结构域分析Fig. 1 The conservation domain analysis of Dof proteins in G. hirsutum
图1 (续)Fig. 1 (Continued)
2.3 陆地棉Dof 基因家族成员染色体分布
根据陆地棉Dof 家族成员的基因组位置信息, 利用MapChart 展示该家族成员染色体分布(图2)。 A 亚组和D 亚组中,分别分布59 个Dof基因。 陆地棉Dof 基因家族成员在染色体上分布是不均匀的, 表现为A05 和D05 染色体上分布最多, 分别有10 个Dof 基因紧密排列在染色体末端;A01、D01 和D13 染色体上Dof 基因分布最少,各有1 个;染色体两端Dof 基因分布最多,中间着丝粒附近区域Dof 基因分布很少。 同时在118 个Dof 基因中鉴定出57 对A 和D 亚组部分同源基因对, 而GHDofA32、GHDofD33、GHDofA37 和GHDofA59 这4 个Dof 基因未能找到部分同源基因(图2 和图3),推测在进化中其同源基因可能丢失。
图2 陆地棉Dof 基因在染色体上的分布Fig. 2 Chromosomal distribution of Dof genes in G. hirsutum
2.4 陆地棉Dof 基因系统进化分析
为了解陆地棉Dof 基因家族内部的进化关系, 利用分别来自于陆地棉和拟南芥的118 个和36 个Dof 蛋白序列, 采用邻接法构建系统进化树, 并根据拟南芥Dof 蛋白家族的分类关系对陆地棉Dof 蛋白进行分类(图3)。 聚类结果表明,陆地棉Dof 蛋白可以分为9 个亚家族, 分别为A、B1、B2、C1、C2.1、C2.2、C3、D1 和D2 亚家族,此外陆地棉Dof 蛋白进化树的分组情况也与该结果较一致。 其中B2 和D1 亚家族的成员最多,分别有20 个Dof 蛋白;C3 亚家族成员最少,只有4 个。
图3 陆地棉与拟南芥Dof 蛋白的系统进化树Fig. 3 Phylogenetic tree of Dof protein sequences in G. hirsutum and Arabidopsis thaliana
2.5 陆地棉Dof 家族成员基因及编码产物的结构分析
为了解陆地棉Dof 基因结构, 根据系统进化关系, 比较了Dof 基因的内含子/外显子和编码产物的保守基序。研究发现,陆地棉Dof 基因家族成员不含或仅有1 个内含子,与拟南芥[6]、水稻[6]和小麦[8]中报道的该族基因结构一致。在同一亚家族中,Dof 基因具有相似的外显子/ 内含子分布模式(图4)。
利用MEME 在线软件对棉花Dof 氨基酸序列进行保守性分析,发现10 个保守基序(图4)。Motif 1 基序为Dof 蛋白保守结构域,分布在所有的Dof 中,数量最多,其次是基序7。 基序6 仅分布于D1 亚家族成员中,基序10 仅分布于D2 亚家族成员中,而基序2、基序3 和基序5 和基序7主要分布在B1 亚家族成员中, 这可能与各亚家族所具有的特定功能有关。同一亚家族中,Dof 具有相似的基序数目、类型和空间分布,暗示同一亚家族Dof 基因的功能具有相似性。
图4 陆地棉Dof 蛋白序列的系统进化树、保守基序和基因结构分析Fig. 4 Phylogenetic tree,conserved motifs and gene structures of Dof protein sequences in G. hirsutum
2.6 顺式作用元件分析
利用Plant CARE 在线软件对陆地棉Dof 基因转录起始位点上游1 500 bp 的启动子区域序列进行顺式作用元件分析。 发现所有的Dof 基因都含有CAAT 盒保守元件,116 个Dof 基因成员含有TATA 盒顺式作用元件。除了这些保守元件外,陆地棉Dof 基因启动子区域还普遍存在4 类顺式作用元件:(1) 光调控元件, 包括Box 4、G-Box、TCCC-motif 和AE-box 等;(2) 植物生长发育调控元件, 包括CAT-box、CCGTCC-box 和circadian 等,主要参与分生组织发育调控;(3)植物激素响应元件,主要包括茉莉酸甲酯响应元件TGACG-motif 和CGTCA-motif,脱落酸响应元件(Abscisic acid responsive element,ABRE), 赤霉素响应元件P-box, 以及乙烯响应元件(Ethylene responsive element,ERE)等;(4)逆境胁迫响应元件,包括低温响应元件(Low-temperature responsive element,LTR)、干旱响应元件(MYB binding site involved in drought-inducibility,MBS)、 厌氧反应元件(Anaerobic responsive element,ARE)和机械损伤响应元件W-box 等。这些分析结果表明陆地棉Dof 基因家族成员在植物生长发育、植物激素响应和不同的逆境胁迫下发挥重要作用。
2.7 陆地棉Dof 基因的染色体复制分析
为研究陆地棉Dof 基因在染色体区段上的进化复制关系, 利用MCScanX 软件检测复制基因。 在陆地棉A 亚组、D 亚组和AD 亚组间分别检测到了35 对、36 对和97 对全基因组复制基因(图5 和附表2,附表2 可在本刊网站查看)。采用KaKs_Calculator 对陆地棉复制基因对进行Ka/Ks分析。 研究发现所有基因对的Ka/Ks均小于1,表明了陆地棉Dof 基因在进化过程中可能经历了严格的纯化选择作用,暗示了复制基因在进化上的保守,结构稳定,可能具有一致性功能。
2.8 陆地棉Dof 基因在不同组织和发育时期表达分析
为研究陆地棉Dof 基因在不同组织和发育时期中的表达特征,利用陆地棉RNA-seq 数据分析Dof 基因在根、茎、叶、花瓣、花托、萼片、开花当天(0 d)和开花后1 d、3 d、5 d、10 d、20 d 的胚珠以及开花后10 d、20 d 和25 d 的纤维中的表达量。 聚类分析发现,根据Dof 基因在不同组织器官与发育时期的表达特征, 可将其分成3 组,同组内成员有相似表达谱(图6)。 第1 组基因在大部分组织和发育时期中表达量较高;第2 组基因主要在营养器官和花器官中表达,而在胚珠和纤维中表达量较低; 第3 组基因总体表达量较低,但一些基因在某些或某个特定组织中优势表达。一般来说,同源基因有相似的表达模式,例如部分同源基因GHDofA11 和GHDofD11 在所有组织中高表达,GHDofA33 和GHDofD34 在所有组织中低表达,GHDofA20 和GHDofD20 在开花后20、25 d 纤维中优势表达。此外,112 个(95%)Dof基因至少在1 个组织和发育时期表达(lg(FPKM)>0);23 个(19%)Dof 基因在所有检测的样本中表达,表明这些陆地棉Dof 基因在多个发育阶段起作用;而6 个(5%)Dof 基因在所有检测的样本中都低表达,可能在其他组织和发育时期特异表达。
2.9 陆地棉Dof 基因在不同逆境胁迫条件下表达分析
为研究陆地棉Dof 基因在不同逆境下的表达模式,分析陆地棉低温、高温、盐和PEG6000模拟干旱胁迫条件下的转录组数据中Dof 基因的表达谱。 经表达聚类分析可将所有的Dof 基因分成具有不同表达模式的3 组(图7)。 第1 组基因在所有逆境胁迫下均低表达;第2 组大部分基因在逆境胁迫下表达量较低,而其中一些基因几乎在所有逆境条件下持续低表达;第3 组基因除在个别处理条件下低表达外,在其余逆境胁迫下表达量均较高,并且其中一个分支上的基因持续高表达,这个分支上大部分基因属于D1 亚家族。此外,同源基因有相似表达谱,例如部分同源基因GHDofA53 和GHDofD54 在所有逆境胁迫下高表达。而GHDofA38 和GHDofD39 展现了不同表达模式,前者在所有逆境下高表达,而后者均低表达,表明进化过程中同源基因的功能分化。
3 讨论
在陆地棉基因组中共鉴定出118 个Dof 基因,是目前发现的最大Dof 基因家族,可能是由于进化过程中陆地棉基因组加倍导致的基因扩增。与拟南芥和水稻的聚类分析结果[6]一样,陆地棉Dof 基因家族可分为9 个亚家族。 基因结构和基序分布可作为物种或基因间进化关系的辅助证据[26-27],一般来说同一亚家族成员有相似的外显子/内含子结构和基序分布模式, 暗示了功能上的相似性。 与此同时,棉花Dof 基因的保守结构与拟南芥、水稻[6]、高粱[28]和小麦[8]等植物相似,暗示Dof 基因结构在不同物种中高度保守,具有功能的相似性。 串联复制和全基因组复制是基因家族扩增的主要方式[29],本研究在亚洲棉和雷蒙德氏棉基因组中分别检测到43 对和53 对全基因组复制基因(附图1,可在本刊网站查看),在陆地棉、亚洲棉和雷蒙德氏棉中均未检测到串联复制基因,表明全基因组复制可能是陆地棉Dof 基因家族扩增的主要方式, 同时复制基因对的Ka/Ks均小于1,表明Dof 基因在进化过程中高度保守并具有相似的功能。 顺式作用元件分析发现陆地棉Dof 基因启动子区域存在光调控、植物生长发育、植物激素和逆境胁迫响应元件,以适应生长发育过程中环境变化。
系统发育和表达分析可作为陆地棉Dof 基因潜在功能发现的线索。 正如其他植物中报道的那样,陆地棉Dof 基因在不同器官和发育时期特异表达, 且不同表达聚类分组有不同表达模式,表明了陆地棉Dof 基因表达的多样性,参与各项生命活动过程的调控。 系统进化分析发现拟南芥中与开花调控有关的3 个基因CDF1(AtDof5.5)、CDF2(AtDof5.2)和CDF3(AtDof3.3)聚 类 到D1亚家族,暗示这个亚家族的Dof 基因可能参与光周期控制开花 (图3)。 目前在棉花中只报道了GhDof1 基因, 过表达该基因能提高耐盐耐寒能力和种子油分含量[30]。GhDof1 陆地棉同源基因为GHDofA24(GH_A07G0659)和GHDofD25(GH_D07G0655),它们在不同的组织器官、发育时期和逆境胁迫下均高表达,并聚类到A 亚家族的相同分支上,表明了同源基因功能的相似性,并展现了其功能多样性。
图6 Dof 基因在陆地棉不同组织器官和发育时期聚类表达分析Fig. 6 Expression cluster of Dof genes in different tissues and organs and different stages of G. hirsutum
图7 Dof 基因在陆地棉不同逆境胁迫下聚类表达分析Fig. 7 Expression cluster of Dof genes under different stresses in G. hirsutum
4 结论
在最新的陆地棉基因组中鉴定出118 个陆地棉Dof 基因。 陆地棉Dof 为少内含子基因家族,而且其编码产物都有1 个保守的Dof 蛋白结构域。 这些Dof 基因可分为9 个亚家族,相同的亚家族有相似的内含子/外显子和保守基序分布模式。 表达分析展示陆地棉Dof 基因表达模式多样,在不同组织器官、发育时期和逆境胁迫下特异表达,表明了它们功能调控的多样性。 这些研究结果可为深入了解陆地棉Dof 基因家族的分子进化机制和潜在功能提供参考。