高粱基因组DCL 家族的系统进化与表达分析
2019-06-19尹梦娇郭红媛姜晓东贾举庆王艳胜梁月秀赵立松赵威军吕晋慧李艳锋张春来
张 腾,尹梦娇,郭红媛,姜晓东,贾举庆,王艳胜,温 贺,梁月秀,赵立松,赵威军,吕晋慧,李艳锋,张春来,
(1.山西农业大学农学院,国家功能杂粮技术创新中心,山西省旱作栽培与作物生态重点实验室,山西省黄土高原特色作物高效生产协同创新中心,山西太谷030801;2.山西省农业科学院高粱研究所,山西晋中030600;3.山西农业大学林学院,山西太谷030801)
高粱(Sorghum bicolor)是世界上第五大禾谷类作物,大多数品种具有抗旱、耐贫瘠和耐盐碱等多重抗性[1-2]。其是我国非常重要的旱地粮食作物,在多个省份均有种植,且栽培面积较广,其中以东北地区为最多。部分高粱基因组的测序工作已经在2009 年前后顺利完成,如高粱品种BTx623,这使得从基因组水平来揭示高粱重要基因家族的功能成为现实与可能[2-3]。
Dicer-like(DCL)基因在植物体内表达的蛋白最终产物是一种核糖核酸内切酶,该基因群是RNase III 家族中能够特异识别双链RNA 的一类基因[4]。由于DCL 基因的功能涉及到了多种起调控作用的小RNA 分子的产生,所以DCL 基因对大多数植物的生长发育、抗性效应和非生物胁迫等响应过程起到了非常重要的作用[5]。
目前,DCL 基因在拟南芥(Arabidopsis thaliana)上研究比较透彻,拟南芥共有4 个DCL:AtDCL1,AtDCL2,AtDCL3 和AtDCL4。其中,AtDCL1 的primiRNA 被剪切2 次产生21 nt 双链miRNA,并从核内释放,分别与双链RNA 结合蛋白HYL1 和锌蛋白SERRATE(SE)结合[6-8];当植物被感染时,AtDCL2负责22 nt 病毒衍生的siRNA[9];AtDCL3 产生24 nt ra-siRNA;AtDCL4 产 生21 nt ta-siRNA 和 一 些miRNA[10-12]。miRNA 和siRNA 的产生还需要ssRNA结合蛋白DAWDLE 和TOUGH[13-14]。
许多植物体DCL 基因的功能研究主要集中于siRNA 的产生及其功能方面,而在miRNA 的产生及功能研究却相对较少[15],比如植物无融合生殖与miRNA 以及基因沉默的关系如何,所以DCL 基因的功能及作用机制研究还有很大的空间。
本研究对高粱DCL(SbDCLs)基因结构、蛋白质理化性质与亚细胞定位、蛋白质二三级结构、系统进化与基因差异表达进行了分析,旨在为SbDCLs基因调控提供一定的试验依据与理论基础。
1 材料和方法
1.1 植物组织取样、RNA 提取和转录组测序
供试高粱品系为2457B,R111,1383-2,5-27sugarB和SSA-1。叶、根、茎取自生长中期材料,胚珠、花药取自抽穗但未散粉的穗子。幼嫩种子分别取自授粉后10,30 d 种子。用Trizol 试剂提取高质量RNA,采用Hiseq4000 平台进行测序,各样品产生Clean Data(去除污染、载体后序列)6~9 Gb,能完好地覆盖高粱转录组。
1.2 生物信息学分析
1.2.1 基因检索 以拟南芥(Arabidopsis thaliana)和水稻(Oryza sativa)的DCL 蛋白质序列作为参考,将转录组测序检测到SbDCLs 序列,在Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html)和NCBI(https://www.ncbi.nlm.nih.gov/)数据库中进行Blast搜寻和比对,最终确定转录组测序检测到的DCL,并获得SbDCLs 家族的基因序列、CDS 序列、蛋白序列;玉米(Zea mays)、谷子(Setaria italica)、大豆(Glycine max)、藜麦(Chenopodium quinoa Willd)的DCL 蛋白质序列来自Phytozome 数据库;甜菜(Beta vulgaris)和小麦(Triticum aestivum)的DCL 蛋白质序列来自NCBI。
1.2.2 生物信息学分析方法 采用Gene Structure Display Sever(http://gsds.cbi.pku.edu.cn/)分 析 基 因的结构;采用ExPASY-ProtParam tool(https://web.expasy.org/protparam/)对蛋白质的基本理化性质进行分析;采用SignalP 4.1 Server(http://www.cbs.dtu.dk/services/SignalP)预测蛋白质是否含有信号肽;采用MultiLoc(https://abi-services.informatik.uni-tuebingen.de/multiloc2/webloc.cgi)对蛋白质进行亚细胞定位预测。
采用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)对蛋白质二级结构进行预测;在Pfam(http://pfam.xfam.org/)数据库预测SbDCLs 蛋白的功能结构域;采用Raptor X(http://raptorx.uchicago.edu/)对蛋白质的三级结构进行预测,采用Ramachandran Plot Analysis(http://mordred.bioc.cam.ac.uk/)检验蛋白质三级结构预测的准确性。
利用MEGA7 软件,对序列进行Clustal W 比对,然后再使用NJ 邻接法(Neighbor Joining)构建系统进化树。利用已发表的高粱表达Atalas 数据[16-17],获取目的基因在高粱各个生育期不同部位的FPKM值,再利用HemI 软件作出表达量的热图。利用MEGA7 软件对CDS 序列进行比对,再利用DnaSP v5软件计算出编码基因的进化选择压力。
2 结果与分析
2.1 SbDCLs 基因家族基本信息
查找高粱的转录组测序数据,并利用数据库筛选到SbDCLs 基因6 个(表1)。SbDCLs 基因长度为6 533~25 401 bp,分布在第SBI-01,SBI-03 和SBI-06 共3 条染色体上;其中,SbDCL2a,SbDCL2b,SbDCL3b 和SbDCL1 集中在SBI-01 上,而且SbDCL2a 和SbDCL2b 在SBI-01 上串联重复排列。每个SbDCLs 基因都有1 个或多个转录本,本研究选用的为初级转录本蛋白,具体蛋白质的编号如表1所示。
表1 SbDCLs 家族基因信息
2.2 SbDCLs 基因结构分析
SbDCLs 基因结构分析显示(图1),所有SbDCL 均存在上下游非编码区,但其长度相对于基因长度均较短;SbDCL2a 基因CDS 数量最少,为10个,其他5 个SbDCLs 基因的CDS 数量为19~26 个;SbDCL4 基因的内含子较长,由于外显子与内含子接头区存在一段高度保守的一致序列,SbDCL4 相对于其他SbDCLs 存在更多的高度保守序列数量。
2.3 SbDCLs 蛋白理化性质
由表2 可知,SbDCLs 蛋白氨基酸数目为787~1 929 个,分子量大小在87 491.22~215 272.04 u,平均分子量大小为171 154.23 u;理论等电点为6.17~6.84,所有高粱DCL 蛋白等电点均小于7;不稳定性系数分析表明,SbDCL2a 蛋白的稳定系数为36.38,为稳定蛋白,其余DCL 蛋白均为不稳定蛋白(不稳定系数>40);亲水疏水性分析表明,SbDCLs蛋白均为两性蛋白[18]。
表2 SbDCLs 蛋白理化性质
2.4 SbDCLs 蛋白质信号肽及亚细胞定位分析
表3 SbDCLs 蛋白亚细胞定位预测
SbDCsL 蛋白质的信号肽预测最大,C,Y,S 值均偏低,均<0.5,表明蛋白都不含信号肽,不是分泌型蛋白。蛋白质亚细胞定位预测显示(表3),SbDCLs 蛋白均定位在细胞核上,可能性为61.76%~99.99%,可能性都比较高;SbDCL1 置信度值为0.98,说明其可靠性非常高,但是其他SbDCLs 置信区间值都较低,并不可靠。
2.5 SbDCLs 蛋白二级结构及功能结构域分析
SbDCLs 蛋白家族的二级结构主要由α- 螺旋、无规则卷曲构成(二者在蛋白质中所占氨基酸数量的比例大于70%),而延伸链(延伸链是β- 折叠的组成结构)、β- 转角比例较低(表4)。由此可推测,α- 螺旋和无规则卷曲是SbDCLs 蛋白的大量结构元件,而延伸链和β- 转角则散布于整个蛋白质中。
表4 SbDCLs 蛋白二级结构分析 %
由图2 可知,SbDCLs 蛋白均含有2 个RNase III 基本结构域;除了SbDCL2a 之外,其他SbDCLs均含有Helicase C,Dicer dimer 和PAZ 保守结构域;SbDCL2a,SbDCL1 和SbDCL4 含有dsrm 模体;Sb-DCL2b,SbDCL3b 和SbDCL3a 都含有DEAD helicase;SbDCL1 和SbDCL4 都 含 有ResIII 和DND1 DSRM结构域。
2.6 SbDCLs 蛋白三级结构模型
采用Raptor X 软件预测高粱DCL 蛋白的三级结构显示(图3),DCL 蛋白三级结构主要由α- 螺旋、无规则卷曲构成,与二级结构预测结果一致。采用MPAGE 中的Ramachandran plot analysis 软件评估建模模型,结果显示(表5),氨基酸残基所处的最佳区域比率为86.90%~88.20%,可接受区域比率为7.80%~9.20%,高粱DCL 蛋白三级结构建模的可信度均大于95.50%。
表5 SbDCLs 蛋白质三级结构模型评估 %
2.7 DCL 系统进化树分析
SbDCLs 蛋白的系统进化树(图4-A)分析,Sb-DCL2a 与SbDCL2b,SbDCL3b 与SbDCL3a 为旁系同源序列。DCL 蛋白系统进化树(图4-B)分析可知,DCL 分为4 个分枝,分别是DCL1,DCL2,DCL3和 DCL4;SbDCL1 与 ZmDCL1/101,SbDCL2a 与ZmDCL2b,SbDCL2b 与ZmDCL2a/105,SbDCL3a 与ZmDCL3a/104,SbDCL3b 与ZmDCL3b/102,SbDCL4与ZmDCL4/103 互为直系同源基因,说明高粱与玉米的DCL 基因在进化上同源关系更近;进化树中的单子叶植物(高粱、水稻、谷子、玉米和小麦)与双子叶植物(拟南芥、大豆、甜菜和藜麦)不能聚到同一分枝下,说了DCL 基因在进化过程中出现单双子叶的分化。
2.8 SbDCLs 表达分析
在叶片、根、茎、不同生育时期的种子、花药和胚珠转录组中,检测到6 个SbDCLs 的转录活性(图5),SbDCLs 表达水平分析发现,除了SbDCL3b 几乎不表达外,其他SbDCLs 均有相对较高的表达水平;同时发现,SbDCLs 在种子、花药和胚珠等生殖器官或组织的表达水平普遍高于叶、根、茎和芽等营养器官。
高粱R111 和SSA-1 不同时期的种子及SSA-1 花药SbDCLs 表达水平分析结果显示(图5-A),SbDCL2a,SbDCL1 和SbDCL4 表达水平相对于SbDCL2b 更高,但是在胚珠和花粉中SbDCL2b和这些基因一样有较高的表达水平;随着种子的成熟,SbDCL2a,SbDCL2b 和SbDCL1 表达水平有上升的趋势,但是SbDCL3a 和SbDCL4 表达水平却随着种子成熟出现下降的趋势;SbDCL2a,SbDCL2b,Sb-DCL3b 和SbDCL1 在花粉中的表达水平明显高于胚珠,而SbDCL3a 和SbDCL4 却是在胚珠的表达水平明显高于花粉。
高粱品种1383-2,2457B 和5-27sugerB 的叶片以及高粱5-27sugerB 的根、茎和高粱R111 茎、叶SbDCLs 表达分析结果表明(图5-B),SbDCL2b和SbDCL4 在不同品种的高粱叶片表达水平有显著差异,在1383-2 叶片中表达水平远高于高粱2457B,R111 和5-27sugerB;除了SbDCL3a 在高粱5-27sugerB 茎中表达水平低于高粱R111 茎外,其余SbDCLs 在高粱5-27sugerB 茎中表达水平远高于高粱R111 茎。
利用高粱表达Atalas 数据构建高粱表达量热图(图6),由图6 可知,SbDCL2b,SbDCL3b 在整个高粱生育期几乎不表达,而SbDCL4 在整个生育期都只有低水平表达;但是SbDCL2a,SbDCL1 和Sb-DCL3a 在生育期某个阶段具有较高的表达水平。其中,SbDCL3a 和SbDCL1 在花蕾期的穗部表达水平较高;而SbDCL2a 在成熟期的茎中部节间、花期的茎中部节间、花期的旗叶1 节间和成熟期的旗叶1节间表达水平较高;SbDCL3a 花期的穗上部和花蕾期的花梗表达水平较高。表达水平由高到低依次为花蕾期的穗部、茎中部节间和花期的茎中部节间、花蕾期的花梗、花期的旗叶1 节间、成熟期的旗叶1节间、花期的穗上部。
2.9 SbDCLs 进化选择分析
遗传学中常用非同义突变率(Ka)与同义突变率(Ks)的比值(Ka/Ks)来判断是否有选择压力作用于这个蛋白质编码基因:如果Ka/Ks 远大于1,则认为有正选择效应;如果Ka/Ks=1,则认为存在中性选择;如果Ka/Ks 远小于1,则认为有纯化选择作用。SbDCLs 编码区基因的Ka/Ks 远小于1,说明SbDCLs蛋白的编码基因受纯化选择作用(表6)。
表6 SbDCLs 进化选择参数
3 结论与讨论
本研究结果表明,高粱全基因组范围内鉴定出SbDCLs 基因共有6 个,分布在第SBI-01,SBI-03和SBI-06 共3 条染色体上;其中,SbDCL2a,SbDCL2b,SbDCL3b 和SbDCL1 集中在SBI-01 上,而且SbDCL2a 和SbDCL2b 在SBI-01 上串联重复排列。SbDCL2a 与SbDCL2b 进化树上虽然是同源序列,但是SbDCL2a 功能结构域上只有2 个RNase III 结构域和1 个dsrm 模体,相比SbDCL2b 简单许多,同时二者染色体位置上属于串联重复,基因结构相似,推测SbDCL2a 很可能是由SbDCL2b 小范围复制所致。
SbDCLs 蛋白质主要是两性蛋白,且理论等电点小于7;除SbDCL2a 蛋白之外,其他SbDCLs 蛋白质均不稳定;所有SbDCLs 蛋白不存在信号肽,不是分泌型蛋白,这与SbDCLs 蛋白亚细胞定位均在细胞核上的结果表现一致。SbDCLs 蛋白质的二级结构主要是α- 螺旋、无规则卷曲;RNase III 结构域是DCL 基本功能结构;DCL 蛋白质的三级结构比较复杂,但模型可信度大于95.50%。
系统进化树分析结果表明,SbDCLs 分为4 个亚家族,分别是DCL1,DCL2,DCL3 和DCL4,高粱与玉米的DCL 蛋白质在进化上同源关系更近。SbDCL2a,SbDCL1 和SbDCL3a 是高度表达基因,而且在生殖器官或组织中相对于营养器官具有更高的表达水平,说明SbDCLs 基因对高粱营养生长和生殖发育具有调控作用。SbDCL2b 在高粱的整个生育期表达水平均较低,但是在胚珠和花粉中拥有较高的表达水平,这与OHNISHI 等[19]在水稻中OsDCL2 优先在卵细胞中表达研究结论一致,说明Sb-DCL2b 在生殖发育过程中可能起调控作用。
目前,高粱等植物体的DCL 基因功能的研究主要是集中在小干扰RNA 的产生及其功能方面,而在微小RNA(miRNA)的产生及其功能方面的研究相对较少,就目前的研究与分析结果可以推测,这可能是因为高粱等植物中微小RNA 的靶基因的表型不够明显[20]。DCL 基因的表达主要是通过RNA干扰机制来实现对高粱等植物的基因表达调控。通过目前的研究结果分析得知,DCL 基因具有将双链RNA 切割成多个小干扰RNA 的功能,但是小干扰RNA 是通过什么途径或方式来引起目的mRNA 的沉默,则还需进一步研究;另外,DCL 基因表达过程中所涉及的相关酶和一些蛋白质的确定也需要进一步研究与分析。