APP下载

基于EST和GSS序列的巨桉miRNA研究

2014-04-29李崇奇等

热带作物学报 2014年6期

李崇奇等

摘 要 应用miRtour在线分析工具对巨桉的EST序列和GSS序列进行分析,预测巨桉的miRNA序列,应用psrobot预测 miRNA的靶基因。结果发现205条miRNA前体序列和属于62个不同家族的170条成熟的miRNA序列,最大的miRNA家族为miR399家族,有17个成员;miRNA 5′ 段碱基存在明显的碱基偏倚,尿嘧啶出现频率高达40.6%;147个miRNA预测到了靶基因,共计预测到巨桉蛋白基因中有967个受到miRNA的调节,同时发现1个miRNA可以调控多个靶基因,同一蛋白质受多个miRNA调控的现象。

关键词 巨桉;miRNA;EST;GSS

中图分类号 Q74 文献标识码 A

Identification of microRNA in Eucalyptus grandis

LI Chongqi1,2,3, SHEN Wentao2, YAN Pu2, LI Xiaoying2, ZHOU Peng1,2 *

1 College of Agronomy, Hainan University, Haikou, Hainan 570228, China

2 Analysis & Testing Center, Institute of Tropical Bioscience and Biotechnology, Chinese Academy of Tropical

Agricultural Sciences, Haikou, Hainan 571101, China

3 Department of Biochemistry and Molecular Biology, Hainan Medical College, Haikou, Hainan 571199, China

Abstract MicroRNA of Eucalyptus grandis was predicted using EST and GSS by miRtour, whereas miRNA-targeted mRNAs was predicted by Psrobot. 205 precursor sequences and 170 miRNAs belonging to 62 different miRNA familes were found. The largest miRNA family of 17 members is miR399. The uracil nucleotide is dominant in the first position of 5′ mature miRNAs, which is up to 40.6%. 147 miRNA has potential miRNA targets meanwhile 967 protein genes may be regulated by miRNA. In addition, it found that miRNA can regulate multiple target genes while one protein can be regulated by some miRNAs.

Key Words Eucalyptus grandis; miRNA; EST; GSS

doi 10.3969/j.issn.1000-2561.2014.06.012

巨桉(Eucalyptus grandis)为桃金娘科(Myrtaceae)桉属(Eucalyptus)高大乔木,原产于澳大利亚。目前被广泛用于热带和亚热带地区的人工造林,已成为桉属树种中栽培面积最广的物种[1]。我国从20世纪60年代开始引种巨桉, 主要栽培于长江以南的四川、福建、湖南、云南、江西、贵州等地[2],广泛用于房屋建筑、人造板、造纸等领域。

巨桉是世界上生长最快的物种之一,每年一公顷人工林收获的木材可高达100 m3。如何识别影响巨桉生长速率和其他品质相关的基因,对未来巨桉甚至其他林木树种的遗传品质改良具有重要的意义。而物种内部很多基因尤其是一些转录因子都受到miRNA的调控,对人类的研究发现30%的基因都受到miRNA的调控[3]。成熟的microRNA是一类大约22碱基左右小RNA分子,与靶基因通过碱基互补配对的方式将mRNA分子剪切或抑制蛋白质的翻译[4]。植物的microRNA分子研究起步相对较晚[5-6],到目前为止在mirbase数据库(www.mirbase.org)中超过200条成熟microRNA序列的植物仅有13种。但由于植物microRNA分子与靶基因可以精确匹配等特点,可以应用生物信息学方法预测,所以其发展非常迅速。表达序列标签(expressed sequence tag,EST)是从一个随机选择的cDNA克隆进行5′端和3′端单一次测序获得的短的cDNA部分序列。而基因组勘测序列(genome survey sequences,GSS)是基因组DNA克隆的一次性部分测序序列,包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped 获得基因组序列、通过Alu PCR获得的序列以及转座子标记(transposon-tagged)序列等[7]。目前EST序列和GSS序列都被广泛应用于许多植物miRNA的预测分析[8-11]。本研究拟应用miRtour在线分析工具(http://bio2server.bioinfo.uni-plovdiv.bg/ miRTour/)[12]对巨桉的EST序列和GSS序列进行分析,然后预测巨桉的miRNA序列和miRNA的靶基因,识别与巨桉品质相关或疾病相关的miRNA和其调控的靶基因,为未来巨桉以及其他林木分子遗传育种奠定理论基础。

1 材料与方法

1.1 材料

从美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的网站(www.ncbi.nlm.nih.gov)上分别在EST数据库和GSS数据库中搜索巨桉的序列,然后选择fasta格式下载,共计获得巨桉EST序列42 576条,GSS序列284 604条。

1.2 方法

将巨桉EST序列和GSS序列分批递交到miRtour在线界面上传后参数设置如下,最少能够跟1个已知的miRNA序列比对上(Minimum number of known miRNAs to be aligned),miRNA序列与其互补序列的不配对数(Maximum unpaired nt in miR/miR*)不超过6对,其他参数默认。然后下载分析结果可以得到miRNA序列、前体序列、最小自由能、最小自由能指数等相关参数,同时该在线工具在分析的过程中去除了蛋白质序列。为了使分析结果更加可靠,本研究分别从rfam(http://rfam.sanger.ac.uk/)网站和pfam(http://pfam.sanger.ac.uk/)网站下载非编码RNA数据库[13]和蛋白质数据库[14],然后应用blast-2.2.27+软件中的blastn程序将预测到的miRNA前体序列与rfam数据库进行比对,去除除miRNA之外的非编码RNA;用blastx程序与pfam数据库进行比对去除蛋白质序列即可得到巨桉的miRNA前体序列和相应的成熟miRNA序列,将evalue参数设置为1e-6,其他参数默认。将预测到的成熟miRNA序列以fasta格式上传到psrobot网站(http://omicslab.genetics.ac.cn/psRobot/index.php)[15],应用靶基因预测在线工具进行预测,参数选择严格模式。

1.3 数据分析

应用bioedit[16]统计miRNA及其前体的序列长度,然后统计miRNA序列每个位点的碱基组成,对其碱基偏倚进行分析。

2 结果与分析

2.1 巨桉miRNA预测

42 576条巨桉EST序列经过分析得到14条可能的miRNA前体序列,28 4604条GSS序列得到214条可能的miRNA前体序列,将二者比对去除重复序列后得到207条序列。然后将207条序列与rfam数据库进行比对没有发现其他非编码RNA序列,与pfam数据库比对后发现2条蛋白质序列,最后得到205条miRNA前体序列。所有前体序列的二级结构都具有典型的茎环结构,miRNA序列位于茎环结构的一侧,最小自由能指数为0.7~1.25,GC含量为16.37%~71.18%。所有前体序列的最小自由能都为负值,最高的为egr-miR5185d,其自由能为-14.67 kcal/mol。将205条前体序列对应的miRNA序列进行比对去除重复序列后得到属于62个不同家族的170条成熟的miRNA序列(表1)。其中发现miRNA家族成员最多的是miR399家族,有17个成员;其次为miR169家族,有16个成员。

2.2 巨桉miRNA和前体的碱基组成特征

预测的巨桉的miRNA长度为18~24 bp(图1),miRNA序列中嘌呤与嘧啶的比值为0.98,没有明显差异,但碱基组成A:G:C:U为1:1.0:1.2:0.85,胞嘧啶的含量明显高于尿嘧啶。同时分析miRNA 5′端碱基组成发现:第一和第二个碱基为尿嘧啶的比列分别高达40.6%和39.4%;而A则在第11位碱基出现的频率最高达36.5%,G则在第9位碱基出现频率最高达39.4%,C则在第19位碱基出现频率最高为34.7%。miRNA前体长度为90~224 bp,多为150~200 bp左右(图2),平均长度为174 bp,嘌呤与嘧啶的比值为1.0,碱基组成A:G:C:U为1:1.2:1.4:0.9,与miRNA成熟序列类似胞嘧啶的比例明显偏高。同时分析前体序列5′端碱基组成发现嘌呤与嘧啶的比值为1.85,而3′端仅为0.85。

2.3 巨桉miRNA靶基因预测

170个miRNA中有147个预测到了靶基因,去除同一miRNA重复预测的蛋白和不能够被注释的蛋白后预测到的靶基因总数达到1 505个,总计预测到巨桉表达蛋白中有967个受到miRNA的调节。29个miRNA仅预测到单个靶基因,24个发现两个靶基因,其余均发现多个靶基因,超过100个靶基因的有egr-miR4993、egr-miR414和egr-miR477,分别为317、157和136个。同时发现128种蛋白受2个以上miRNA调控,而PHO2蛋白受调节的miRNA最多达到8个。同时发现miRNA477和miR414与巨桉纤维素形成密切相关,其靶基因分别为纤维素合成酶A4和A9。本研究中列出了预测到的分值≤1.5的靶基因(表2)。

3 讨论与结论

本研究应用EST和GSS序列预测了巨桉的205条miRNA前体序列和170条miRNA成熟序列,而另一种林业生产的主要物种目前已经发现352条前体序列和401条成熟miRNA序列。而Bartel等[4]认为每个物种的miRNA数量应该达到其基因数量的1%,而巨桉蛋白编码序列目前发现36 376个(http://www.phytozome.net/eucalyptus.php)。因此预计巨桉的miRNA数量应该达到364个,而且事实上这一数目可能更高,因为目前mirbase数据库中人类(Homo sapiens)和小鼠(Mus musculus)的miRNA序列目前已经分别发现2 578条和1 908条。因而未来巨桉的miRNA序列还有待于进一步的生物信息学挖掘,或通过小RNA测序等相关实验技术进行识别。

miRtour是一种基于网页从EST和GSS数据中识别植物miRNA的研究工具,其最大特点是可以自动识别符合miRNA前体特征的茎环结构序列[12]。该方法设置的最小自由能指数为0.7,但本研究中通过blastx去除了含有茎环结构的蛋白质序列,因而结果是可靠的。而Zhang等[17]基于对tRNA、rRNA、mRNA和miRNA前体研究后发现90%的miRNA前体序列最小自由能指数都高于0.85,从而建议以0.85为临界值区分miRNA前体序列与其他RNA序列。但这毫无疑问会低估miRNA的数量,甚至丢失掉其他10%的miRNA序列。因而本研究认为通过与rfam和pfam数据进行blast分析是分别miRNA前体序列与其他RNA序列的可靠方法。

本研究发现巨桉miRNA序列的5′端第一个碱基尿嘧啶比例最高,C则在第19位碱基出现频率最高,这与多项研究一致。拟南芥和水稻的研究发现其5′端首个碱基中尿嘧啶比例高达83.6%[11],而在大豆中为70%[18],亚麻中为75%[19]。同时在大豆中发现19位为胞嘧啶的高达60%,而在亚麻中达80%。目前认为miRNA 5′端碱基对于其与选择不同Argonaute蛋白结合形成RISC复合物是至关重要的[20]。

本研究中86.5%的巨桉miRNA都预测到了靶基因,同时发现miRNA477和miR414与巨桉纤维素形成密切相关,其靶基因分别为纤维素合成酶A4和A9。同时发现许多转录因子都受到miRNA的调控。其中发现SPL转录因子(squamosa promoter binding protein-like,SPL)家族的多个成员都受到巨桉miRNA156家族的调控,而SPL参与了植物叶、花、果实的发育过程及植物结构、孢子形成、信号转导和抗逆反应等一系列重要的生物学过程。而GRAS转录因子(GRAS family transcription factor)则同时受到巨桉miRNA171和miRNA477家族的调控,GRAS被认为参与植物侧生分生组织发育、茎尖分生组织的形成、根辐射形态形成、赤霉素的信号转导、光敏色素信号传导、雄配子发育、解毒功能和抗逆反应等过程。参与了细胞分化、细胞周期的调节,激素和环境因子应答的Myb转录因子则受到巨桉egr-miR828b的调控。此外本研究还发现在林产工业上广泛应用的漆酶(laccase)在巨桉中受miRNA397家族所调控。

参考文献

[1] 胡天宇, 李臣坤. 巨桉种源引种选择研究[J]. 四川农业大学学报, 1999, 17(1): 44-49.

[2] 王燕高, 胡庭兴. 我国引种巨桉及其研究进展[J]. 森林工程, 2005, 21(4): 1-4.

[3] Lewis B P, Burge C B, Bartel D P. Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets[J]. 2005, Cell, 120(1): 15-20.

[4] Bartel D P. MicroRNAs: Genomics, biogenesis, mechanism, and function[J]. Cell, 2004, 116(2): 281-297.

[5] Llave C, Kasschau K D, Rector M A, et al. Endogenous and silencing-associated small RNAs in plants[J]. Plant Cell, 2002, 14(7): 1 605-1 619.

[6] Reinhart B J, Weinstein E G., Rhoades M W, et al. MicroRNAs in plants[J]. Genes Dev, 2002, 16: 1 616-1 626.

[7] 罗晓燕, 侍 婷, 蔡 斌, 等. 核果类果树中microRNAs的生物信息学预测及验证[J]. 林业科学, 2012, 48(2): 75-81.

[8] Din M, Barozai M Y. Profiling microRNAs and their targets in an important fleshy fruit: Tomato(Solanum lycopersicum)[J]. Gene, 2014 , 535(2): 198-203.

[9] Panda D, Dehury B, Sahu J, et al. Computational identification and characterization of conserved miRNAs and their target genes in garlic(Allium sativum L.)expressed sequence tags[J]. Gene, 2014, 537(2): 333-342.

[10] Zhang B H, Pan X P, Wang Q L, et al. Identification and characterization of new plant microRNAs using EST analysis[J]. Cell Res, 2005, 15(5): 336-360.

[11] Zhang B, Pan X, Cannon C, et al. Conservation and divergence of plant microRNA genes[J]. Plant J, 2006, 46(2): 243-259.

[12] Milev I, Yahubyan G, Minkov I, et al. miRTour: Plant miRNA and target prediction tool[J]. Bioinformation, 2011, 6(6): 248-249.

[13] Burge S W, Daub J, Eberhardt R, et al. Rfam 11.0: 10 years of RNA families[J]. Nucleic Acids Res, 2012, 41(D1): D226-232.

[14] Punta M, Coggill P C, Eberhardt R Y, et al. The Pfam protein families database[J]. Nucleic Acids Research, 2012, 40(D1): D290-D301.

[15] Wu H J, Ma Y K, Chen T, et al. PsRobot: a web-based plant small RNA meta-analysis toolbox[J]. Nucleic Acids Res, 2012, 40(W1): W22-28.

[16] Hall T A. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J]. Nucl. Acids. Symp. Ser, 1999, 41: 95-98.

[17] Zhang B H, Pan X P, Cox S B, et al. Evidence that miRNAs are different from other RNAs[J]. Cell Mol Life Sci, 2006, 63(2): 246-254.

[18] Zhang B, Pan X, Stellwag E J. Identification of soybean microRNAs and their targets[J]. Planta, 2008, 229(1): 161-182.

[19] Neutelings G, Fénart S, Lucau-Danila A, et al. Identification and characterization of miRNAs and their potential targets in flax[J]. J Plant Physiol, 2012, 169(17): 1 754-1 766.

[20] Thieme C J, Schudoma C, May P, et al. Give It AGO: The search for miRNA-argonaute sorting signals in arabidopsis thaliana Indicates a relevance of sequence positions other than the 5'-position alone[J]. Front Plant Sci., 2012, 3: 272.

责任编辑:沈德发