植物长链非编码RNA研究进展
2018-03-31谭玉荣王丹高璇刘进平
谭玉荣 王丹 高璇 刘进平
(海南省热带生物资源可持续利用重点实验室 海南大学热带农林学院,海口 570228)
非编码RNA(Noncoding RNA,ncRNA)指含有1个少于100个氨基酸开放阅读框(Open reading frame,ORF)的RNA[1]。转录本(主要是非编码)估计覆盖人类基因组的62%-75%[2],占到具有潜在功能序列的 80%[3]。
一些ncRNA为所有细胞中组成型表达的管家ncRNA(Housekeeping ncRNA),如转运 RNA(Transfer RNA,tRNA)、 核 糖 体 RNA(Ribosomal,rRNA)、小核 RNA(Small nuclear RNA,snRNA)、小核仁RNA(Small nucleolar RNA,snoRNA)等。除管家ncRNA之外的其他ncRNA大体上可分为小ncRNA(Small ncRNA)和长链ncRNA(Long noncoding RNA,lncRNA)。前者的序列长度短于100核苷酸,而后者指大于200个核苷酸长度的ncRNA[1]。小ncRNA包括微RNA(microRNA,miRNA)、内源小干扰RNA(Endogenous small interfering RNA,endosiRNA)和PIWI-相关(或互作)小RNA(PIWI-associated small RNA或 PIWI-interacting RNA,piRNA)等[4-6]。关于lncRNA研究,国外有少量综述发表,主要针对lncRNA机制进行论述[7-11]。本文对植物lncRNA的分类、鉴定和研究、分子作用机制及其功能进行全面综述,并详细论述其在植物中的功能,旨在为给研究者提供参考。
1 lncRNAs的分类
lncRNAs可以按照多种方法进行分类,如按照转录本长度、与已注释编码蛋白质基因相关性、与其他已知功能DNA因子的相关性、基于与编码蛋白质的RNA的相似性、与重复序列相关性、与生化途径或稳定性相关性、基于序列或结构的保守性、基于在不同生物学状态的表达、基于与亚细胞结构的相关性、基于功能等分为多种类型[12]。Ulitsky[13]从进化保守性角度将lncRNAs分为3类:第一类为保守lncRNAs(其外显子-内含子结构和多个序列在物种间是保守);第二类lncRNAs则在转录行为和某些RNA成分(倾向于RNA的5′端)是保守的,但绝大多数位点在外显子-内含子结构和长度经历急剧变化;第三类lncRNAs则在启动子序列和特定区域的转录行为保守外,其他区域没有可识别的序列相似性和基因结构的保守性。由于lncRNAs具有较低的序列同源性,是非保守的,难以用传统的搜索算法如BLAST找到序列同源性RNA,但其二级结构具有一定的保守性。因此,Sanbonmatsu[14]探讨了使用二级结构对lncRNAs进行结构分类的可能性。
本文主要根据lncRNAs相对于邻近蛋白质编码基因的位置进行粗略分类。其中长链非编码自然反义转录本(Long noncoding natural antisense transcripts,lincNATs)从邻近蛋白质编码基因的内部或3′起始,向其反方向转录,至少与其中一个外显子相重叠。而内含子lncRNAs(Intronic lncRNAs)从邻近蛋白质编码基因的内含子起始向任意方向转录,但并不与外显子相重叠就转录终止。启动子lncRNAs(Promoter lncRNAs)为邻近蛋白质编码基因的启动子区转录本。长链基因间ncRNAs(Long intergenic ncRNAs,lincRNAs)为蛋白质编码基因之间的独立转录单位,与蛋白质编码基因至少间隔1 kb[8]。
需要说明的是,lncRNAs种类其实依赖于使用的检测方法。最近在模式植物拟南芥和水稻的检测到没有多聚腺苷酸化的ncRNA,长度在50-300 nt,具有较低的蛋白编码潜能,与已知的RNA序列没有任何的相似性[15-16]。因此,可根据是否含有3′多聚腺苷酸[poly(A)]尾巴而将植物中的lncRNAs而分为多聚腺苷酸化lncRNAs(Polyadenylated lncRNAs)和非多聚腺苷酸lncRNAs(Nonpolyadenylated lncRNAs)两种[8]。
2 lncRNAs的鉴定和研究
鉴定和发现lncRNAs的传统方法有cDNA文库(cDNA library)法和平铺阵列(Tiling arrays)法,但随着下一代测序(Next generation sequencing,NGS)技术的到来,上述方法由于没有成本和技术优势而被淘汰[17]。目前鉴定和发现lncRNAs常用的方法有基因表达的高通量测序系列分析(High throughput sequencing serial analysis of gene expression,SAGE)、RNA 测 序(RNA sequencing,RNA-seq)、基因表达的帽子分析(Cap analysis of gene expression,CAGE)、低丰度转录本检测/单细胞测序(Detection of low-abundance transcripts/single-cell sequencing)、RNA末端平行分析/未加帽转录本全基因组作图/降解组测序(Parallel analysis of RNA-ends(PARE)/Genome-wide mapping of uncapped transcripts(GMUCT)/degradome-seq)、转录本亚型测序(Transcript isoform sequencing,TIF-seq)、全基因组连续测序(Global run-on sequencing,Gro-seq)、5′-溴尿嘧啶免疫共沉淀捕获-深度测序分析(5′-bromouridine immunoprecipitation chase-deep sequencing analysis,bric-seq)等[17-18]。由于 RNA 测序法使用最为普遍也最为基础,对该法大致程序简述如下:在对某一物种的某一组织或样本RNA测序后,如果该物种已经对基因组测序,就将所得reads映射到基因组中,然后装配成转录本。这种方法为基因组指导装配(Genome-guided assembly),一般采用软件Cufflinks;如果该物种尚未对基因组测序,就采用从头装配(de novoassembly)法,如采用软件Trinity先装配成转录本,然后再映射到基因组。之后将所有样本的转录本进行合并,经多重过滤步骤移去低保真转录本和蛋白质编码基因,然后剩余的转录本就可进行分类分析[17-18]。
典型的lncRNA与mRNA的生化结构是相同的,都有一个5′帽子和3′ poly(A)尾巴,因而容易使用标准RNA-seq方法进行测序[19]。以寡(dT)为基础的富测序方法虽然可鉴定到大部分具有功能的lncRNAs,但是,由于非多聚腺苷酸化的ncRNA的发现,目前只需去除rRNA,包括非多聚腺苷酸化的转录本在内的“总RNA”进行测序[20]。
鉴定lncRNAs生理功能最常用的方法有超表达(Overexpression)和基因敲低(Knockdown)[21],以此来确定该lncRNA对植物表型、其他基因表达和代谢途径的影响。此外,进行定位研究的方法有荧光原位杂交(Fluorescence in situ hybridization,FISH);研究RNA和蛋白质互作的方法有RNA免疫共沉淀(RNA immunoprecipitation,RIP)、高通量测序交联免疫沉淀(High-throughput sequencing cross-linking immunoprecipitation,HITSCLIP)、光活化的核苷酸增强交联和免疫共沉淀(Photoactivatable ribonucleotide-enhanced cross-linking and immunoprecipitation,PAR-CLIP);研究RNA和DNA互作的方法有RNA纯化染色质分离(Chromatin isolation by RNA purification,ChIRP)、RNA反义纯化(RNA antisense purification,RAP)和RNA靶标捕获杂交分析(Capture hybridization analysis of RNA targets,CHART);研究RNA和RNA互作的方法有RNA-RAP、杂交分子的交联、连接和测序(Crosslinking,ligation and sequencing of hybrids,CLASH);研究lncRNA二级结构的方法有引物延伸选择性2′羟基酰化反应(Selective 2′ -hydroxyl acylation by primer extension,SHAPE)、片段化测序(Fragmentation sequencing,frag-seq)和RNA结构平行分析(Parallel analysis of RNA structure,PARS)。此外,核糖体分型(Ribosome profiling)能对转录本与核糖体直接结合进行可视化,因而可进行翻译全局分析。这种方法可以检查某些lncRNAs是否进行翻译[17-18,22]。显然,由于实验方法并不一定是高通量的方法,为了提高研究的速度和精确度,有必要在实验验证之前,对lncRNAs的鉴定、结构、保守性、相互作用(与其他RNA、蛋白质或DNA)、共表达和细胞定位进行生物信息学分析。关于lncRNAs研究的生物信息学工具和数据库可参看相关综述[18,23-24]。
3 lncRNAs的分子作用机制
lncRNAs的分子作用机制主要来自于对人和动物的研究。lncRNAs可作为与其互作分子的招募者、系结者、引导者、诱捕者和信号分子,通过表观遗传调控、转录调控、转录后调控和翻译调控而发挥其功能[24-25]。
在转录调控方面,lncRNAs可以与转录因子相结合,从而激活靶基因并稳定转录因子与DNA序列的结合,也可以通过改变转录因子的定位来影响下游基因的表达,或者结构与DNA类似,具有与DNA结合形成双链的位点,从而诱捕转录因子来调节他们的亚细胞定位和基因表达。但一些转录因子能通过影响lncRNAs启动子区反过来调控lncRNAs的转录[24-25]。
LncRNAs能够对mRNA剪接与稳定性发挥作用。例如,反义lncRNAs可与正义RNA结合,隐藏其剪接位点,从而改变剪接变异体之间的平衡[25]。LncRNAs可作为miRNA的前体,也可调控miRNA的功能,通过掩盖靶mRNA的miRNA结合位点来抑制miRNA的功能,或者lncRNAs上有与miRNA反应元件(miRNA response elements,MREs),因而可作为其竞争性内源RNA(Competing endogenous RNA,ceRNA),直接诱捕miRNA,防止其与靶mRNA结合。但靶miRNA也能调控lncRNAs的表达丰度并降低 lncRNAs的稳定性[24]。LncRNAs作为潜在的内源性靶模拟体(Potential endogenous target mimics,eTMs)在拟南芥和水稻的研究中也有报道[26]。
lncRNA还可能具有与增强子RNAs(Enhancer RNAs,eRNAs)——一种自DNA序列的增强子区域双向转录的新型的ncRNAs——类似的转录激活调控功能[24]。
RNA结合蛋白(RNA-binding proteins,RBPs)是指能与细胞内单、双链RNA结合,形成核糖核蛋白(Ribonucleoprotein,RNP)复合体。而大多数的lncRNA的调控活性需要lncRNA-RBP的相互作用。lncRNAs可释放由RBPs与其他蛋白形成的复合体,也可介导RBPs降解或增加,lncRNA-RBP互作可诱导RBP介导的组蛋白修饰或者通过影响RBPs活性来激活或阻遏启动子[24-25,27]。此外,lncRNA转录后RNA修饰会影响到lncRNA二级结构及其能否装配入 RNP 复合体[28-29]。
lncRNA还可介导染色质相关蛋白招募,增强或抑制染色质相关蛋白向靶DNA位点加载,从而影响表观遗传和基因表达。此外,通过碱基互补配对的RNA-DNA三链结构可使lncRNA-DNA直接互作[24]。lncRNA也可影响DNA甲基化(DNA methylation)和染色质重塑复合体(Chromatin remodeling complex)来实现其调控功能[30]。
4 lncRNAs在植物中的功能
lncRNAs的生物学功能最早来自于20世纪80年代对果蝇双胸复合体(Bithorax complex)的遗传分析[31]和1991年对哺乳动物和果蝇X失活与性染色体剂量补偿遗传机制的研究[32-33]。植物中虽然鉴定出大量 lncRNAs,如拟南芥[34-40]、水稻[41-42]、小麦[43-44]、玉米[45-46]、谷子[47]、棉花[48-49]、蒺藜苜蓿[50]、桃树[51]、杨树[52-54]、猕猴桃[55]、白菜[56]、黄瓜[57]、向日葵[58]、江南卷柏(Selaginella moellendorffii)[59]、沙棘(Hippophae rhamnoides)[60]及芒草(Miscanthus lutarioriparius)[61]等,但其确定的生物学功能的报道相对较少。
4.1 参与春化作用诱导开花
拟南芥FLOWERING LOCUS C(FLC)为开花阻抑蛋白,而冬季低温和春化作用可诱导表观遗传开关,引发Polycomb Repressive Complex 2(PRC2)在FLC位点富集组蛋白三甲基化,使FLC表达沉默,从而使某些植物经冬季低温后在春天开花。一个称为COLD ASSISTED INTRONIC NONCODING RNA(COLDAIR)的lincRNA(1.1 kb)可在春化介导的表观遗传控制下招募PRC2到FLC,并沉默FLC表达。COLDAIR从FLC第一内含子转录,其表达受低温诱导,20 d低温处理后表达水平达到最大值,然后返回基础水平。RNA免疫沉淀技术表明,在冷处理过程中COLDAIR和PRC2复合体一个组分之间能直接互作。当利用RNA干扰敲低COLDAIR后,即使春化作用后植物仍表现晚开花表型[62]。
此外,由抑制FLC启动子产生的另外一个称为COLDWRAP的lncRNA,可与Polycomb结合,也是通过春化作用使FLC处于稳定的阻遏状态所必需的。COLDAIR和COLDWRAP都是春化作用在FLC位点形成阻遏作用的基因内染色质环所必需[63]。
COOLAIR是FLC基因反义链转录产生的lncRNAs,也受长时间的低温诱导产生[64-65]。低温诱导时COOLAIR在Polycomb沉默的特征性组蛋白 3赖氨酸 27的三甲基化(H3K27me3)大量积累之前产生,而冷处理过程中去除COOLAIR则会破坏基因间FLC成核位置H3K27me3对H3K36甲基化的同步化取代。COOLAIR与FLC位点直接结合并能在冷处理中促进FLC关闭转录[64]。COLDAIR和COOLAIR都能与PRC2直接互作,以调节春化介导的在FLC位点的表观遗传阻遏和FLC表达抑制[62,64]。
4.2 参与固氮豆科植物根瘤的形成
在豆科模式植物蒺藜苜蓿(Medicago truncatula)中,ENOD40是一种具有蛋白编码潜力的高度结构化lncRNA[66-67]。虽然它能编码12个氨基酸长度的短肽,但其结构化RNA区才为其生物学功能即固氮豆科植物根瘤的形成所必需[68]。转基因苜蓿植株中ENOD40过量表达或沉默分别表现出加速结瘤或只形成少数结节样结构[69-70]。
组成型表达的RNA结合蛋白MtRBP1定位在核斑(Nuclear speckle)(贮藏剪接体复合体并在mRNA加工中发挥作用,还可为mRNA一起运动的组分通过核孔到达细胞质提供中转站和调控检查点),利用酵母三杂交系统发现它能与ENOD40RNA的互作[71]。而ENOD40RNA为结瘤过程中MtRBP1从核斑向细胞质颗粒的再定位所需。
4.3 参与花粉发育和雄性不育
一种称为长日特异性雄性不育相关RNA(Longday-specific male-fertility-associated RNA,LDMAR)的lncRNA调控花粉发育和光敏感雄性不育(Photoperiod-sensitive male sterility,PSMS)。足量的LDMAR转录本为正常花粉发育所必需。野生型的一个SNP自发突变可引起LDMAR二级结构改变,从而提高LDMAR上游DNA甲基化,特别在长日条件下会减少LDMAR启动子的活性,使正在发育的花药过早细胞程序性死亡,从而引起光敏感雄性不育[72]。进一步的研究表明,LDMAR基因启动子区转录产生的一个siRNA(Psi LDMAR),它可诱导LDMAR基因启动子区RNA指导的DNA甲基化,从而阻遏LDMAR的表达[73]。
4.4 参与光形态建成
光信号是调节植物发育的重要环境信号之一。Phytochrome Interacting Factor 3(PIF) 基 因 编 码的bHLH转录因子,抑制光形态建成。而HIDDEN TREASURE 1(HID1)对PIF起负调控作用。有一个包含潜在开放读码框(Open reading frame,ORF)并编码44个氨基酸肽的lincRNAs(236 nt)可挽救hid1的T-DNA突变体。而破坏这个潜在的开放阅读框,但保留RNA结构的突变体HID1能挽救hid1表型植物。计算模拟预测表明HID1能形成4个茎环结构,而这对HID1能挽救hid1表型是必不可少。实验表明,HID1作为lincRNA通过与对PIF3直接转录调控来控制光形态建成[74]。
4.5 调控Pi吸收
Pi吸收的一个突变体phosphate2(pho2)是由于Ubiquitin-Conjugating Enzyme 24(UBC24)突变所致,由于它使Pi吸收增加而在茎芽中累积过量的Pi。而Pi饥饿能诱导miR399累积并降低PHO2/UBC24的表达,而miR399过量表达则阻抑PHO2/UBC24转录本的累积并增加Pi吸收,这显示miR399通过调控PHO2/UBC24表达而控制Pi的动态平衡[75]。但是一个称为INDUCED BY PHOSPHATE STARVATION 1(IPS1)的的lincRNA(542 nt)与miR399有一个23-nt长的互补基序。IPS1过量表达能使野生型植株中PHO2mRNA累积,但却在miR399过量表达系植株中使PHO2mRNA和Pi累积减弱,这显示IPS1与miR399具有拮抗作用[76]。进一步研究表明,IPS1通过靶标模仿(Target mimicry)机制而和miR399直接结合,并使miR399与PHO2mRNA隔绝。
水稻中PHOSPHATE1;2(PHO1;2)编码负责将磷酸装载到木质部的蛋白。PHO1;2互补链编码一个相关cis-lncNAT。两者都受维管组织中有活性的启动子控制,但磷饥饿只有cis-lncNAT启动子得到诱导。磷胁迫条件下,PHO1;2蛋白和cislncNAT累积增加,但PHO1;2mRNA水平保持稳定。通过RNA干涉下调cis-lncNAT表达会导致PHO1;2蛋白水平降低,破坏磷由根向茎中运输,并使种子减产,而cis-lncNAT组成型过表达则会使PHO1;2强劲增加,即便在磷缺乏的条件下也如此。cislncNAT表达会与正义-反义对向多核糖体运输有关,这表明cis-lncNAT对PHO1;2的翻译具有促进作用并影响磷的动态平衡[77]。
4.6 参与侧根发育调控
两个拟南芥核斑RNA结合蛋白(Arabidopsisnuclear speckle RNA-binding proteins,AtNSRs)NSRa和NSRb为选择性和/或组成性剪接所必需[78]。一个称为选择性剪接竞争者长链非编码RNA(Alternative Splicing Competitor long noncoding RNA,ASCO-lncRNA,原称为Npc351)的lncRNA可与AtNSRs的前体mRNAs竞争性地与AtNSR相结合,而在ASCO-lncRNA过量表达系中特定选择性剪接的亚型累积。生长素处理可诱导NSRb并使野生型实生苗侧根形成增加,但NSRa和NSRb的双突变体产生很少的侧根,而且即使生长素处理后也不能诱导侧根形成。因此,ASCO-lncRNA在接收生长素信号后通过与AtNSRs结合调控发育过程中的选择性剪接[79]。
4.7 参与生长素运输和发育信号输出调控
此外,在生长素运输和发育信号输出方面,lncRNA也发挥调控作用。生长素极性运输关键调控基因PID的上游可由RNA Pols II和V转录产生一个5 kb的称为生长素调控的启动子环(Auxin-regulated promoter loop,APOLO)的lncRNA。APOLO双重转录能调控染色质环的形成,将邻近基因PID启动子包围起来。外源生长素处理后,会在APOLO位点产生活跃的DNA去甲基化作用,并迅速打开染色质环,露出基因间隔区,便于转录因子与之结合。改变APOLO表达会影响染色质环的形成,而RNA依赖的DNA甲基化、活性DNA去甲基化和Polycomb复合体控制染色质环的动态变化。这种动态染色质拓扑结构决定了PID表达模式[80]。
4.8 参与作物抗病性
对两个不同的棉花品种分析表明,lncRNAs在对大丽轮枝菌(Verticillium dahliae)引起的棉花黄萎病防御反应中发挥作用。其中两个核心lncRNAs,GhlncNAT-ANX2和GhlncNAT-RLP7沉默的棉花实生苗对大丽轮枝菌和灰葡萄孢菌或贵腐霉菌(Botrytis cinerea)的抗性增加,这可能是通过提高Lipoxygenase 1(LOX1)和lipoxygenase 2(LOX2)的表达实现的[81]。
Cui等[82]对晚疫病菌或致病疫霉(Phytophthora infestans)抗性和敏感的番茄之间进行比较转录学分析,鉴定出1 037个差异表达基因(Differentially expressed genes,DEGs)和688个差异表达lncRNAs(Differentially expressed lncRNAs,DELs), 并 进 行了包括128个DEGs和127个DELs共定位网络(colocalization networks)分析,其中lncRNA16397能作为基因SlGRX22反义转录本并调控slgrx22表达。过表达分析表明,番茄lncRNA16397诱导SlGRX22表达,减少活性氧累积,减轻细胞膜损伤,从而增强对晚疫病菌的抗病性。
Zhu等[83]鉴定出20个拟南芥对尖孢镰刀菌(Fusarium oxysporum)侵染响应的转录活跃区(Transcriptionally active regions,TARs),其中 10个长链非编码 TARs(long noncoding TARs,lncTARs)经T-DNA插入或RNA干扰敲低被证明与尖孢镰刀菌病抗性有关。启动子分析表明一些尖孢镰刀菌响应的lncTARs是转录因子响应于病原体的攻击的直接靶标。
4.9 参与植物对非生物胁迫反应的调控
Qin等[84]鉴定到一个拟南芥干旱和盐胁迫响应的正向调节lncRNA,称为干旱诱导的长链非编码 RNA(Drought induced lncRNA,DRIR)。DRIR在无胁迫条件下低水平表达,但干旱和盐胁迫以及脱落酸(ABA)处理后表达水平显著上升。在拟南芥中过量表达DRIR也可增加转基因植株对干旱和盐胁迫的耐性。过量表达DRIR植株转录组分析表明,包括ABA信号传导、水分运输和其他缓解胁迫过程的大量基因表达得到改变。DRIR可能通过调节一系列参与应激反应的基因表达来调控植物对非生物胁迫的反应。
4.10 其他功能
一些lncRNAs或mRNAs可以与天然反义转录本形成双链RNA,并产生siRNAs执行其非编码的功能。天然反义转录本(Natural antisense transcripts,NATs)为其他转录本(正义转录本)序列互补的编码或非编码RNA。这些RNA可能在转录或转录后水平上调节与它们互补的正义转录本的表达[85]。NAT产生的siRNAs称为NAT-siRNA[86]。在拟南芥中,一个热激转录因子HSFB2a的表达可由一个称为asHSFB2a的lncNAT的作用所抵消,这会影响到植物的营养体和配子体发育[87]。矮牵牛SHO基因编码一种细胞分裂素合成相关的酶,而一个SHOcis-lncNAT转录可以组织特异性的方式降解SHOdsRNA,从而控制局部细胞分裂素的合成[88]。此外,NAT 产生的 siRNA 在盐胁迫[86]、双受精[89]、细胞壁合成[90]和小种特异性抗病性[91]调控方面发挥作用。
5 结语
随着对植物lncRNAs研究的进一步深入,会揭示出更多的功能。如最近的一项研究表明,在不同发育阶段的不同水稻和玉米器官转录组中鉴定出22 334个lincRNAs和6 673对正义和自然反义转录本(NAT),整合全基因组关联研究(Genome-wide association studies,GWAS),发现数百个 lincRNAs包含性状相关的单核苷酸多态性(Single nucleotide polymorphisms,SNPs),显示它们与这些作物的发育性状和农业性状有关[92]。因此,有人提出包括lncRNAs在内的ncRNAs可作为作物品种改良的潜在工具[93]。