转录组荔枝Dof 基因家族的鉴定及其表达
2021-04-15魏永赞郑雪文李伟才
董 晨,魏永赞,王 弋,郑雪文,李伟才
(中国热带农业科学院 南亚热带作物研究所/农业部热带果树生物学重点实验室,广东 湛江 524091)
单锌指DNA 结合蛋白(DNA binding with one finger,Dof)是一类植物特异性转录因子,由多基因家族编码。Dof 蛋白大约由200~400 个氨基酸残基(Amino acid, aa)组成,Dof 蛋白含有2 个主要的保守结构域:即N 末端具有高度保守DNA 结合域和位于C 末端的转录调控域[1]。Dof 蛋白N−末端的DNA 结合域由52 个保守的氨基酸残基组成的CX2CX21CX2C 单锌指结构,基序中的4 个Cys 残基和1 个Zn2+共价结合,Dof 蛋白的DNA 结合域与不同植物的启动子DNA 结合具有特异性,识别AAAG 或互补序列CTTT 基序作为核心序列元件[2],但是南瓜Dof 蛋白AOBP 为例外,AOBP 蛋白特异识别AGTA 序列[3]。位于C−末端的转录调控结构域的氨基酸序列不具有保守性,导致Dof 蛋白在植物生长发育过程中的功能的多样性。自从第一个Dof(ZmDof1)基因在玉米中克隆以来[4],迄今为止从单细胞藻类到高等植物,越来越多的Dof 基因被克隆鉴定或从基因组数据库中被预测出来。基于植物Gene bank 数据库已被鉴定的Dof 基因家族数目为拟南芥36 个[5]、水稻30 个[5]、玉米46 个[6]、小麦31 个[7]、大豆28 个[8]、高粱28 个[9]、马铃薯35 个[10−11]、番茄34 个[12]、菊花20 个[13]、大白菜76 个[14]、香蕉74 个[15]、榴莲24 个[16]、木薯45 个[17]、辣椒33 个[18]、葡萄25 个[19]等,但目前关于荔枝Dof 基因家族的系统分析尚未见报道。本研究利用课题组妃子笑荔枝果肉不同发育时期的转录组测序数据,采用生物信息学方法在转录组水平上对Dof 基因家族进行系统鉴定,通过对Dof 基因家族基本理化性质、保守结构域、系统进化和基因表达等进行分析,为进一步了解荔枝Dof 基因家族(LcDof)的功能提供理论参考。
1 材料与方法
1.1 材料妃子笑荔枝果肉材料取自中国热带农业科学院南亚热带作物研究所荔枝种植园。分别取妃子笑果肉发育的3 个时期(花后35 ,56,70 d)的样品,3 个生物学重复,迅速置于液氮中,用于后续实验。
1.2 LcDof 鉴定与分析转录组测序委托广州基迪奥生物公司,利用Illumina HiSeqTM4000 平台进行测序,对原始测序数据进行过滤、去接头和低质量值数据后,用reads 组装软件Trinity 软件进行序列组装并获得Unigene 序列,共拼接组装获得61 648 个Unigenes。从植物转录因子数据库下载Dof 转录因子序列作为探针,对本地妃子笑荔枝果肉转录组数据进行搜索,筛选出LcDof 并利用SMART 和Pfam 验证,删除不完整的基因。
1.3 LcDof 生物信息学分析分别采用ProtParam、Plant-mPlc Sever、MEME 和SMART 在线软件对Dof 基因家族的相应基本理化性质、亚细胞定位、保守基序、基序功能注释进行生物信息学分析。MEME 参数设置:基序最大值设为15,基序长度范围为6~100 个氨基酸,其他参数为默认值。将荔枝、拟南芥和水稻中的Dof 氨基酸序列通过Clustal X 1.83 进行多重序列比对,进一步通过MEGA6.0 邻接法(neighbor joining,NJ)将比对结果构建系统发育树。进化树参数设置:P-距离(P-distance)模型,成对删除(pairwise deletion)空位选项,Bootstrap method 取值1 000。
1.4 LcDof 基因家族在不同处理花穗发育过程中的表达特征分析Dof 基因家族的表达数据基于课题组前期构建的“妃子笑”果肉发育RNA-seq 数据库中的表达数据的rpkm 值,利用Heml 热图软件将Dof 基因家族的表达数据均一化处理后制作热图。
2 结果与分析
2.1 LcDof 的鉴定以拟南芥和水稻的Dof 基因家族序列为探针,采用本地blast 方法对荔枝果实发育RNA-seq 数据库进行比对检索,同时利用Dof 为关键词在RNA-seq 数据库直接搜索;将得到的数据结果进一步进行整合分析,去除冗余序列,得到20 个Dof 蛋白序列。随后采用SMART 和Pfam 在线软件对Dof 蛋白序列进行保守结构域分析,最终获得19 个Dof 蛋白序列(表1)。Dof 基因家族成员编号按照Dof 序列在RNA-seq 数据库中的Unigene ID 号出现顺序编号(表1)。LcDof 蛋白序列长度范围为157~497 aa,平均长度为330.68 aa,LcDof18 蛋白序列最短,LcDof15 蛋白序列最长;LcDof 蛋白序列的分子量(MW)为17.70~54.35 kDa,平均分子量为35.95 kDa。LcDof 等电点(pI)在4.49~9.42,19 个Dof 蛋白中有6 个等电点小于7 显酸性;13 个等电点大于7 显碱性;LcDof 蛋白平均等电点大于7,表明LcDof 为弱碱性,在碱性的亚细胞环境中发挥作用。分析LcDof 家族不稳定指数发现,LcDof4/9/11/14 蛋白不稳定指数<40,为稳定蛋白,其余均为不稳定蛋白。分析LcDof 家族脂肪族氨基酸指数发现,Dof 家族的脂肪族氨基酸指数分布在46.2~66.32 范围,脂肪族氨基酸指数与蛋白的热稳定性相关,表明Dof 家族蛋白质间的热稳定性存在差异。LcDof 家族蛋白质疏水性指数(Grand average of hydropathicity,GRAVY)均<0,表明LcDof 家族蛋白均为亲水性蛋白。亚细胞定位预测结果表明,LcDof 蛋白均定位于细胞核,这与转录因子定位于细胞核结果相符。
2.2 LcDof 蛋白的保守基序为了进一步了解 LcDof 蛋白结构特征,利用MEME 在线软件分析19 个LcDof 蛋白的保守基序,不同保守结构域在LcDof 的位置如图1 所示。LcDof 基因家族中含有15 个保守基序,并将得到的15 个保守基序进一步进行功能注释(表2)的结果表明:15 个基序中基序1 出现在所有的蛋白质中,为N−末端高度保守的锌指结构域(zinc-finger Dof domain,zf-Dof),基序8、15 为低密度复杂区,其余的12 个基序没有对应的注释,功能未知。虽然荔枝Dof 基因家族成员均含有基序1,但是LcDof 基因家族成员之间包含的保守基序数目及种类存在一定的差异,其中LcDof2、LcDof15 和LcDof16 含有的基序数目最多,均含有11 个保守基序;LcDof13 含有8 个基序;LcDof3、LcDof6 和LcDof11 均含2 个基序(motif 1 和motif12);LcDof8、LcDof9 和LcDof17 均含2 个基序(motif 1 和motif14)。LcDof4 仅含有1 个基序。在进化树中关系较近的LcDof 成员间有类似的保守基序,如GroupIV 中的LcDof2、LcDof15 和LcDof16。LcDof 中保守结构域组成相似的成员可能具有相近的基因功能。
表1 荔枝Dof 基因家族信息Tab.1 Litchi Dof gene family information
图1 LcDof 基因家族成员保守基序分析不同颜色方块代表不同的保守基序Fig.1 Distribution of conserved motifs in the LcDof gene family members Different color squares represent different conservative motifs
表2 LcDof 蛋白保守基序及功能注释Tab.2 LcDof protein conserved motifs and functional annotations
图2 LcDof 基因家族成员保守结构域Fig.2 Conserved domain of LcDof gene family members
图3 荔枝Dof、拟南芥Dof 和水稻Dof 的邻接法系统发生树不同的形状表示不同的物种,圆形代表来自荔枝的Dof 蛋白(LcDof);正方形形代表来自水稻的Dof 蛋白(OsDof);三角形代表来自拟南芥的Dof 蛋白(AtDof),不同颜色分支代表不同的亚家族。Fig.3 Neighbor-joining phylogenetic tree of Dof in litchi, Arabidopsis and riceDifferent shapes represent different species.The circle represents the Dof protein from litchi; the square represents the Dof protein from rice; the triangle represents the Dof protein from Arabidopsis thaliana; different color branches represent different subfamilies.
2.3 Dof 蛋白的多重序列比对及其进化关系通过对荔枝Dof 基因家族19 个家族成员进行多重序列比对,抽取保守结构域进行观察分析(图2),发现19 个LcDof 蛋白结构域高度保守,均包含CX2CX21CX2C 保守基序,构成了C2-C2 型单锌指结构(Zinc-finger)。为进一步了解Dof 基因家族在荔枝中的进化关系和生物学功能,分别以荔枝19 个Dof(LcDof)、拟南芥中36 个Dof(AtDof)和水稻中的30 个Dof(OsDof)蛋白序列构建系统进化树 (图3)。聚类结果表明:19 个荔枝Dof 家族成员分别聚为4 个亚家族(Group I-Group IV)个,其中GroupIV 中含有LcDof 基因家族成员数最多,有7 个LcDof,分别为LcDof2、LcDof4、LcDof9、LcDof13、LcDof15、LcDof16、LcDof18,占基因家族总数的36.84%。其次为Group I,含有LcDof 基因家族成员数最多,有6 个LcDof,分别为LcDof1、LcDof3、LcDof7、LcDof11、LcDof12 和LcDof15,占基因家族总数的31.58%。第三为Group II,含有5 个LcDof 基因家族成员,占基因家族总数的26.32%,分别为LcDof6、LcDof10、LcDof14、LcDof17、LcDof19。Group III 含有LcDof 基因家族成员最少,仅有1 个LcDof8,占基因家族总数的5.26%。荔枝Dof 家族成员与拟南芥Dof 家族成员在进化上亲缘关系较近,而与水稻Dof 家族成员关系较远,其中AtDof2.1 和LcDof7,AtDof1.4 和LcDof1,AtDof5.4 和LcDof6,AtDof1.2 和LcDof3 为直系同源基因,推测以上荔枝中Dof 与拟南芥的Dof 在生物学功能上相似。LcDof5 和LcDof12,LcDof10 和LcDof19,LcDof4 和LcDof9,LcDof2 和LcDof15 为旁系同源基因,推测荔枝Dof 转录因子经历了基因复制事件,有可能存在功能的冗余。
2.4 荔枝Dof 家族基因的表达为研究荔枝Dof 基因家族在荔枝果实不同发育时期的表达情况,利用妃子笑荔枝(果肉不同发育时期)的RNA-Seq 转录组数据库,找到候选的19 个Dof基因对应转录本的RPKM 值,然后用Heml 热图软件对LcDofs的RPKM 值取对数值转换制作聚类热图(图4)。图4 显示,在果肉发育的不同时期均检测到19 个LcDof基因的表达,但表达丰度不同;其中LcDof7、LcDof9、LcDof12、LcDof15在果肉不同发育时期表达量均较强,而LcDof3、LcDof10、LcDof16、LcDof17、LcDof19表达量较低。Group Ⅰ中LcDof3、LcDof5、LcDof12表达规律相似,Group Ⅱ中LcDof6、LcDof10、LcDof17表达规律相似,Group Ⅳ中LcDo2、LcDof9、LcDof13和LcDof15表达规律相似,推测以上基因存在相近的基因功能。
图4 荔枝果肉不同发育阶段Dof 家族基因的表达热图Fig.4 Heat map for expression of LcDof genes in the pulp of litchi fruit at different fruit development stages
3 讨 论
植物转录因子以多基因家族的形式存在,在植物生长发育及其基因表达调控过程中发挥重要的作用。随着高通量测序技术的发展,目前越来越多的物种基因组公布,在组学水平上对基因家族进行鉴定和生物信息学分析,已成为基因组学的研究热点。Dof 转录因子作为植物中特有的一类转录因子,在植物生长发育和调控基因表达过程中发挥着重要的作用。目前关于植物Dof 基因家族在包括模式植物拟南芥和水稻在内的多个物种中进行了鉴定和分析[5−19]。本研究参考拟南芥和水稻Dof 家族基因的信息,基于荔枝果实发育转录组数据库,利用生物信息学方法,共鉴定了19 个Dof 基因家族成员。通过对LcDof 基因家族中各蛋白的基本理化性质、保守基序、保守结构域、系统进化、基因表达进行了生物学分析。分析表明,LcDof 转录因子编码的蛋白质为亲水性蛋白,定位于细胞核,这与马铃薯[11]、甜瓜[20]中的报道一致。通过系统进化分析,对荔枝Dof 基因家族进行了详细的分类和命名。多重序列比对后利用Dof 序列全长构建系统发育树,将LcDof 分为4 个不同的亚家族,该结果与在拟南芥、水稻、马铃薯、香蕉等物种上面的研究结果一致[5,11,15],拟南芥中Dof 基因家族的37 个成员、水稻的30 个成员、马铃薯35 个成员、香蕉中74 个成员分为4 个亚家族。进化树中聚类在1 个亚家族的Dof 含有的基序数目大致相似,比如亚家族4 中的LcDof2、LcDof15和LcDof16,含有相同的基序,推测以上3 个Dof 具有相近的生物学功能。进化树中聚类在1 个亚家族的Dof 在荔枝果实发育中基因表达规律大致相似,例如亚家族1 中LcDof3、LcDof5和LcDof12,推测以上3 个Dof 具有相近的基因功能。通过对荔枝Dof 基因家族蛋白保守结构域分析可以看出,荔枝Dof 蛋白的N−末端的DNA 结合域具有高度的保守性,包含典型的保守结构域C2-C2 的C2-C2 型单锌指结构(Zinc-finger),且C−末端转录调控结构域复杂多变,这与前人的研究结果一致[5]。本研究同时对荔枝果实发育转录组中Dof 蛋白的基因表达特征进行了全面的分析,其中进化关系近的LcDof成员表达规律相似,这与香蕉中的MaDof的研究结果类似[15]。