转录组中LncRNA在猪上的研究进展
2020-03-27马海明
龚 龑,马海明
(湖南农业大学动物科学技术学院,湖南 长沙 410128)
人们对转录组学前期的研究主要集中在mRNA表达上,进而分析基因在生物机体中调控作用。20世纪50年代发现了非编码RNA中的重要RNA,如rRNA,tRNA。在随后的30年,具有调节功能的非编码RNA在细菌中首先被发现,而后才在大多数的真核生物中被发现[1]。后来发现很多物种的基因组在转录过程中也有许多非编码RNA(ncRNA),但其功能仍存争议。但是伴随越来越多的ncRNA被鉴定,并被证明其在机体发育和病理等过程中发挥了作用[2],是真核细胞中新的调控层。H19作为第一个
长链非编码RNA在1990年被发现,其转录物缺少长的开放阅读框和与翻译关联,表明RNA本身是功能性的,而不是编码的蛋白质产物[3]。同样,对X染色体失活至关重要的Xist也在1991年被发现,并被报道也同样缺乏编码蛋白能力[4]。而此时研究水平也仅仅是停留在不具有编码蛋白能力的RNA。当人类基因组的序列在2001年发表时,其后续的研究结果表明只有大约1.1%的编码蛋白序列,而其他的均视为非编码序列,其大约24%和75%的分别属于内含子和基因间非编码序列[5]。在2002年,日本科学家在对小鼠的全长cDNA进行人工注释,在这个过程当中确定了其大部分为核酸序列较长的非编码RNA,由此拉开了长链非编码RNA(lncRNA)的序幕[6]。尤其是在基因组测序技术的飞速发展的带动下,整个转录组学的研究进展也得到了快速发展。利用高通量测序技术,使得大量的lncRNA被陆续发现。
1 LncRNA定义与分类
LncRNA通常被定义为长度超过200个核苷酸连接的内源性细胞RNA分子,具有顺式或反式调节功能[7]。与mRNA相比,lncRNAs在其大小、特异性、组织和亚细胞定位方面呈现出不同的特征。但它们也具有与mRNA(生物发生和形式)的许多相似性,其结构上也类似于mRNA。与已知蛋白编码功能和具有翻译潜力的mRNA不同的是lncRNA缺乏具有显著长度和质量的开放阅读框(ORF),而被视为不具备编码蛋白能力。与mRNA相比而言,lncRNA长度较短,表达量也很低[8]。这些较低的表达水平也使得lncRNA最初被人们认为其仅仅是转录“垃圾”和翻译“噪声”的主要原因。在机体绝大多数的组织中的表达均比mRNAs低,但在睾丸组织中却表现为组织特异性的高表达水平。哺乳动物表达的lncRNA在组织特异性方面表现出非常强的保守性,并且lncRNA在启动子和外显子中表现出更高的初级序列保守性,与因组织特异性功能而丰富的蛋白质编码基因更接近,重复元件较少,单外显子转录频率更高[9]。与蛋白质编码基因相比,许多lncRNAs的表达方式更具有组织特异性,组织间差异更大[10]。蛋白编码基因的外显子和内含子的鸟嘌呤-胞嘧啶(GC)含量显著高于lncRNAs,且lncRNAs的单核苷酸多态性(SNP)密度显著高于蛋白编码基因。保守性分析表明,大多数lncRNAs在猪、人和小鼠中具有进化保守性,如CUFF.253988.1,与人的lncRNA -MALAT1具有同源性[11]。同时在骨骼肌中还发现的lncRNAs启动子甲基化可以负调控lncRNAs的表达,然后正调控靶基因的表达[12]。
一些保守非编码序列参与哺乳动物近端蛋白编码基因的调节,但也有研究认为保守非编码序列与蛋白编码基因的接近可能对调节作用并不重要。比如在绵羊中,20%~30%的lncRNAs位于蛋白编码基因附近,与其强共表达,这与增强子序列中某些非编码RNAs的进化起源相一致。而大多数的lncRNA并不与邻近的蛋白编码基因共同表达[13]。非编码序列与其最近的蛋白质编码基因之间的物理距离在人类基因组和小鼠基因组之间都有很好的保守性,其邻近基因常出现在进化保守的基因组附近。一些新的数据提示保守的非编码序列更可能是调控元件,而这与基因间lncRNAs不同。这也预示lncRNA与其他非编码序列在功能上存在差异[14]。
深度测序技术的进步使得大量的新转录本不断出现,使得lncRNA的分类需要一个统一的规范的标准。LncRNAs主要根据其长度、生物发生途径、特定生物学过程、与已知编码蛋白基因的位置、调控元件及位点、亚细胞定位及起源、功能来分类。遗憾的是目前分类尚不规范,最常用的分类方式是依据与编码蛋白基因的位置而划分,可以高度概括地将lncRNA分为3类(见图1),由基因间转录得到的长链非编码RNA为 基因间lncRNA(intergenic lncRNA);由编码蛋白质的基因中的内含子转录得到的长链非编码RNA为内含子lncRNA(intronic lncRNA);由编码蛋白基因的反义链转录得到的长链非编码RNA为反义lncRNA(antisense lncRNA)。
2 LncRNA的作用机理
非编码RNA曾经被人们认为是翻译“噪声”的一部分,随着现代分子生物学的发展,非编码RNA在转录和转录后基因调控中成为了一个新的研究的调控因素。在基因调控的各个方面,包括表观遗传调控、X染色体失活、基因组印迹、转录和mRNA剪接等,都能体现非编码RNA的调控功能。在对哺乳动物细胞和组织的转录学研究中发现超过三分之二的哺乳动物基因组被转录编码成大量的不同类别的长度不同的非编码RNAs。其中lncRNAs是非编码RNA中最大的一类,在转录本的数量上甚至超过了编码蛋白质的mRNAs。在细胞增殖、细胞周期、代谢、凋亡、分化等广泛的生物学过程中,lncRNAs成为关键的调节因子。其不仅表现出对基因的调控,而且还通过不同的机制来发挥它们的作用。
2.1 LncRNA对染色质转录调控
LncRNAs已成为调控染色质转录的关键分子。lncRNAs在不同的功能阶段调控染色质结构,包括组蛋白修饰、DNA甲基化和染色质重塑。LncRNA具有较小的进化保守性、较少的丰度和更多的组织特异性,说明它们的转录前调节不同于mRNA的转录和转录后调节。相比于mRNA而言,lncRNA启动子缺乏转录因子(TF)结合位点,却富集了如GATA和FOS等特定的因子。lncRNAs和mRNAs之间的区别还在于剪接。LncRNAs的剪接效率较低,主要原因可能是u2af65结合度较低,剪接相关结构较弱[15]。
LncRNAs可以与组蛋白修饰复合物相互作用,lncRNA-Xist是一种从雌性染色体中不活跃的X染色体中高表达的lncRNA,在X染色体在失活前表达,其长度在17 kb左右,可以与两个多梳抑制复合物PRC1和PRC2相互作用,尤其是PRC2可以介导组蛋白H3(H3K27ME)上的27位赖氨酸的甲基化,沉默基因的表达,进而导致哺乳动物的X染色体失活(见图2)。lncRNAHOTAIR是在HoxC基因簇中转录产物,靶向PCR2复合物和组蛋白H3K4me1/2脱甲基酶LSD1,反式调控转录基因沉默,作用机制与lncRNA-Xist类似[16]。通过与PRC2复合物作用调控基因表达的lncRNA还有很多,如Pint[17],Bvht[18],Fendrr[19],SRA[20]等。而lncRNAFAL1[21]和lncRNA-ANRIL[22]则通过与PRC1复合物作用,调节相邻的靶基因的表达。
除了与组蛋白修饰酶和共价修饰染色质相互作用外,lncRNAs还可以与染色质重塑复合物有关联,以调节基因表达[24]。LncRNASChLAP1与染色体重塑复合物SWI/SNF对人体的前列腺癌细胞就有调控作用。lncRNA-SChLAP1基因敲除后可以抑制癌细胞的侵袭和增殖,而SMARCB 1(SWI/SNF复合物的组分)的敲除则促进了肿瘤的发育,说明在对前列腺癌细胞的调控作用中两者的相反作用。此外,SChLAP1与SWI/SNF复合物的SNF5亚基相互作用并且对SWI/SNF复合物的全基因组定位和调节功能产生抑制作用,从而导致基因活性在全基因组的抑制[25]。通过与染色体重塑复合物SWI/SNF的相互作用来调控基因的lncRNA有诸如Evf2[26],Mhrt[25]等。LncRNAS和SWI/SNF复合物在基因的调控中既有相互颉颃的作用又有介导基因激活的功能。lncRNA-TCF7通过激活Wnt信号来促进人类肝脏癌症干细胞的自行更新,招募SWI/SNF复合物并与之相互作用来调控TCF7启动子,以此激活TCF7的表达和Wnt信号[27]。
2.2 LncRNA在基因印记中的调控
基因印记是指在二倍体哺乳动物的等位基因中,分别来自于父本和母本,但是在遗传过程中只有一个遗传亲本的基因具有活性,而另一个来自亲本的等位基因则维持在非活性当中。遗传的亲本等位基因的这种差异表达取决于起源的母体;在某些情况下,基因的等位基因可能是永远印记的,而在其他情况下,它将是母性印记的。印迹通常通过特定基因座的组蛋白或DNA修饰来实现,最近研究表明lncRNAs在这一现象中起调控作用。
LncRNA-Airn长度为108 kb,属于核局部转录本是从胰岛素样生长因子2型受体(Igf2r)基因的内含子2的3.7 kb印迹控制元件(ICE)反义方向转录而来,控制着Slc22a2,Slc22a3和Igf2r这3个基因的亲本特异性表达。ICE在父本等位基因的缺失使得3个双等位基因的表达,正好与母本等位基因相反。通过在转录起始位点下游插入一个3 kb的多腺苷酸化信号可以阻断ICE的反向转录从而表现出与父本等位基因相类似的表型[28]。LncRNAXist可以与父本染色体上的顺式DNA位点的编码RNA相互作用,通过一个抑制性组蛋白标记h3k9me3的富集使得scl22a3基因沉默[29]。LncRNA-Kcnq1ot1长度为91 kb,是由7号染色体上的1MBKCNQ1/CDKN1基因座编码转录。同时,在7号染色体富含蛋白编码基因。Kcnq1ot1在父本染色体上表达,而在母本染色体上Kcnq1ot1由于CPG甲基化使得表达受到了抑制。它在父本染色体上的表达与8~10个相邻蛋白编码基因的抑制有关[30]。
LncRNA-IPW是在人染色体15和小鼠染色体7上的PWS/AS印记结构域中表达的基因。PWS/AS区域的破坏与人类中的3个神经源性疾病有关。通过确定IPW基因的牛同源性,显示了在脑、心脏、肾脏、肝脏、肺、脾脏和骨骼肌中IPW的复合物和组织特异性表达模式。通过基因组DNA测序,确定了长外显子h区的单核苷酸多态性,通过对杂合子个体的cDNA序列分析,证实了IPW的单等位基因表达,表明IPW可能在牛体内有印迹作用[31]。通过位于牛21号染色体dlk1-dio3印迹簇中的牛me8基因的cDNA序列,并发现了3个新的lncRNAs,分别命名为Meg8-IT1、me8-IT2和me8-IT3,在成年牛8个组织中均有表达,类似于Mg 8的表达模式。在这3个lncRNAs中发现了3个单核苷酸多态性位点,在被分析的组织中表现出单等位基因表达,说明它们可能是在牛体内印迹[32]。
2.3 LncRNA对转录后的调控
一些lncRNA的序列与miRNA的序列为互补序列,当lncRNA与miRNA相互结合时,便可以阻止miRNA与目标mRNA的结合,起到了颉颃作用,由于lncRNA像海绵一样吸住mRNA,所以将此作用被称之为“海绵”效应(见图3)。LncRNA还参与了骨骼肌卫星细胞的增殖和分化调控。新的lncRNA -lnc133b,它由完全成熟的mir-133 b所补充,这表明lnc133b可能通过对mir-133 b“海绵”作用来调控mir-133 b的表达。lnc133 b与miR-133b在miR-133b互补的区域中相互作用,过度表达或抑制lnc133b可促进卫星细胞的增殖或抑制分化。lnc133b对mir-133 b的表达具有负调控作用,对IGF1R基因表达具有正调控作用,说明lnc133b/mir-133b/IGF1R轴是一种通过内源竞争RNA(ceRNA)机制促进卫星细胞增殖和抑制其分化的潜在途径[33]。同样在人类成骨细胞分化过程中lncRNA-h19也有miRNA-141和miRNA-22的结合位点,其作用机理与lncRNA -lnc133b相似[34]。Lnc-H19在各个年龄段的骨骼肌中均高度表达。H19的高表达对于牛卫星细胞的分化是必需的。H19的敲除引起成肌细胞抑制基因SIRT1/FOXO1的表达显著增加,这表明H19在肌生成过程中抑制SIRT1/FOXO1基因表达。用SIRT1或FOXO1与含有H19的pcDNA载体共转染,在SIRT1/FOXO1过表达后发现抵消了成肌细胞的促分化作用,说明H19通过抑制SIRT 1/Foxo 1促进牛骨骼肌卫星细胞的分化[35]。
而lncRNA在对miRNA作用时,对miRNA的靶向mRNA起到的保护作用的同时,lncRNA还可以直接对mRNA的衰减有调控作用。mRNA 3’UTR中的顺式调节元件也可以影响mRNA的稳定性,其中lncRNA可以通过STAU介导mRNA衰减。STAU1是一种蛋白质效应器通过分子间或分子内碱基配对与双链RNA结合。而lncRNAs在其碱基对序列中含有ALU元件,通过与目标mRNAs的3’UTRs部分序列互补,从而激活STAU介导的mRNAs衰减(见图4)[36]。
3 LncRNA在猪上的研究进展
长链非编码RNA通过对基因印记、染色质重塑、剪接调控、细胞分化调控、mRNA降解和翻译的调控来发挥其生物学功能。它们从转录“噪声”到人们认识成为新的基因表达调控因子,在基因调控的各个方面,包括表观遗传调控、X染色体失活、基因组印迹、细胞核和细胞质贩运、转录和mRNA剪接等方面都发挥了调控作用。尤其近来,关于lncRNA的研究成为热点,主要集中在人和小鼠上,关于lncRNA对神经性疾病、肿瘤[37]、胚胎发育、细胞分化等方面的影响[38]。而在家畜上的研究相对滞后。目前,LncRNA在家畜上的研究主要集中在细胞分化、脂肪合成、胚胎及肌肉发育方面的调控[39]。尽管它们缺乏编码能力,但许多lncRNAs在各种生物过程中都发挥着功能作用,这为基因组复杂的结构组织和功能增加了一个新的调控网络[40]。
3.1 与繁殖相关的lncRNA研究
Wang Z等鉴定了约克夏和梅山猪的猪卵巢组织中表达的lncRNAs,其中有510个是卵巢特异性的,192个存在约克郡和梅山猪的差异表达,38个是卵巢特异性和差异表达的。通过分析它们最近的蛋白编码基因可以预测它们的功能,以此研究梅山猪的高繁殖力[41]。而松果体可以调节神经分泌和生殖功能,具有很强的生物节律性,尤其是对生殖激素分泌的调节尤为重要。通过在仔猪、青年猪和成年猪3个阶段采集松果体样本进行分析发现了8 166个新的lncRNAs。其中851个lncRNAs在成熟过程中表现出显著的动态调节功能,而同源核基因的表达没有显示出显著差异。GO分析表明差异表达的基因在离子传递和突触传递中明显富集,强调了钙信号在松果体发育过程中起着关键作用。证明lncRNA动态调节发育进而影响松果体生理学功能[42]。
3.2 与疾病相关的lncRNA研究
PDCoV(猪德尔塔冠状病毒)是一种新型的猪冠状病毒,具有高度传染性,可引起仔猪肠道坏死、肠壁变薄和小肠严重绒毛萎缩。临床表现为腹泻、脱水和呕吐。而lncRNA对病毒的复制和毒力的增强或降低有显著的影响。从哺乳仔猪水样腹泻粪便中分离和保存的病毒株,感染ST细胞,然后利用高通量测序筛选PDCoV感染期间差异表达的lncRNA,在感染的早、中、晚三个时期分别鉴定了99、41和33个差异表达的lncRNAs,参与糖酵解/糖异生、组氨酸代谢以及戊糖、氯烷烃和氯烷烃降解途径。通过获得了PDCoV感染过程中miRNAs、lnc RNAs和mRNAs的表达数据,构建了一个互作网络[43]。
给仔猪添加喹赛多时,发现在仔猪肝脏中差异表达新的lncRNACRNG,位于11号染色体中,含有953个核苷酸,主要分布于细胞质中。CRNG显著增加了KITLG、FOXP3和miR-451,并降低ANPEP和STAT5amRNA的表达,表明CRNG直接调节炎症反应,可能是炎症、病原体感染和抗病毒免疫的重要调节因子[44]。
在猪不同发育过程中,大多数lncRNAs和mRNA具有相似的时间表达模式,这表明它们之间的表达相关性和功能相关性。大多数基因在哺乳期有低水平表达,但在发育后期阶段处于较高水平。在哺乳期,发现几个与T细胞相关基因的表达连续增加,表明这些基因对于在这一阶段的仔猪中建立适应性免疫系统至关重要的。值得注意的是,LncRNATCONS-00086451可通过上调激活T细胞胞浆2(NFATC2)表达的核因子来促进基于血液的免疫系统发育[45]。
通过对180日龄和8岁的母猪的大脑皮层进行全转录组分析,鉴定了714个mRNA、38个lncRNA、41个miRNA和148个circRNA与年龄相关的基因。由于非编码RNA的表达水平变化,导致lncRNAS、miRNA和circRNA对不同年龄阶段的猪脑有影响。上调基因对应激反应、生殖调控过程、免疫应答和代谢过程均有显著的富集作用,下调基因与神经功能、应激反应和信号传导途径有关。突触传递通路可能在猪脑老化过程中起关键作用,对于差异表达的mRNAs和lncRNAs都是共富集的。此外,在脑老化过程中,一些lncRNAs及其靶基因也有差异表达[46]。
3.3 与生产性能相关的lncRNA研究
肌肉生长和脂肪沉积是猪生长发育中两个重要的生物学过程,与猪的生产性能密切相关。中国地方品种与外来品种也有许多差异,地方品种中脂肪型猪种较多,而外来品种中以杜洛克、长白和大白种为瘦肉型猪的主要代表。
大白猪肌肉生长速度高于马身猪。比较了这两个猪品种在1、90、180日龄骨骼肌中lncRNA的表达谱,鉴定了5 153个新的lncRNAs,发现1 407个差异表达lncRNAs在 两个品种之间有一致的表达模式[47]。Chen G等采用白杜洛克和二花脸猪杂交的全同胞雌性个体240日龄的肝脏、腹部脂肪和背最长肌,鉴定出与猪肌肉生长和脂肪沉积相关的581个lncRNAs,与其他哺乳动物lncRNA共同特征,GO分析lncRNA的靶基因参与猪肌肉生长和脂肪沉积相关的过程,包括肌肉细胞增殖、脂代谢和脂肪酸降解。其中MRPL12与肌肉生长相关,GCGR和SLC25A10H与脂肪沉积相关,PPP3CA、DPYD和FGGYA不仅与肌肉生长有关,而且与脂肪沉积有关[48]。松辽黑猪和长白猪在生产和肉质性状上表现出重要的差异,包括脂肪沉积和肌肉发育。通过RNA测序技术鉴定脂肪组织中差异表达的基因。共鉴定出1 071个lncRNAs,其中85个lncRNAs差异表达,其中53个上调,32个下调,涉及胰高血糖素信号转导途径、糖酵解/糖异生作用、胰岛素信号传导途径、MAPK信号传导途径等。发现提示IncRNA mstrg.2479.1可能调节极低密度脂蛋白受体基因的表达水平,进而影响猪脂肪代谢[49]。
杜洛克猪相比陆川猪背脂厚度有显著差异。鉴定了4 868个lncRNA转录本(包括3 235份新转录本),确定lncRNAs和mRNAs的差异表达模式具有很强的组织特异性。在脂肪组织中差异表达的lncRNAs有794个潜在的靶基因,涉及脂肪细胞因子信号通路、PI3K-AKT信号通路和钙信号通路。此外,差异表达的lncRNA定位于13个脂肪相关的数量性状位点,其中包括65个QTL_ID。进而探寻了两个品种间脂肪代谢差异背后的机制[50]。对去势和未去势的淮南雄性猪的皮下脂肪组织进行RNA测序,鉴定了皮下脂肪组织中的lncRNAs。同时,从皮下脂肪组织中鉴别出343个lncRNAs,包括223个基因间lncrnas(lincrnas)、68个反义lncrnas和52个内含子lncrnas。其中13个促进脂肪生成miRNA和5个抑制脂肪生成miRNA靶向lncRNAS。功能分析表明,这18个lncRNAs及其靶基因参与了脂肪酸、胰岛素和脂肪细胞因子信号通路。lncRNAs及其靶基因可能参与了去势诱导的脂肪沉积,为对抗睾酮缺乏症相关肥胖提供了新的治疗靶点[51]。
3.4 与胚胎发育和细胞分化相关的lncRNA研究
成肌细胞可转化成脂肪细胞或脂肪样细胞,具有产生和储存细胞内脂质的能力。C2C12成肌细胞诱导分化为肌细胞和成脂细胞,分析不同细胞内lncRNAs的表达谱进行比对,从836差异表达lncRNAs中鉴定出114个核心lncRNAs,其靶基因显著地富集在与葡萄糖、脂质代谢和肌肉生长有关的各种信号途径。其中LncRNA-GM43652是在肌肉细胞中形成脂肪潜在的调节因子,而在成脂细胞中的表达水平最高,当在分化的成肌细胞中敲除LncRNA-GM 43652可以抑制脂肪沉积。这也说明了LncRNA-GM43652对脂肪沉积的调控作用[52]。在研究猪胎儿时期骨骼肌中的lncRNAs的过程中,鉴定570个多外显子的lncRNAs。这些推测的猪lncrnas与哺乳动物的lncrnas有许多共同的特征,例如相对较短的长度、少量的外显子和低水平的序列保护。发现猪lncRNAs优先位于介导转录调控的基因附近,而不是那些具有发育功能的基因[53]。
通过对胎儿和新生仔猪肺组织中进行了转录分析,发现了3 248个 mRNAs差异表达,主要集中在与细胞增殖、免疫应答、缺氧反应和线粒体激活有关的类别中。同时还发现了452个差异表达的lncRNAs,它们可能在细胞增殖、线粒体激活和免疫反应中发挥作用。这表明差异表达的mRNAs和lncRNAs可能共同调节早期生后猪肺的发育。其中lncRNA-tu64359 可能通过上调肝素结合表皮生长样因子(HB-EGF)的表达来促进早期肺的发育[54]。而在牙齿发育过程中,细胞外基质(ECM)支持细胞可以维持牙胚的完整性。用RNA测序法对微型猪的乳牙胚ECM组分进行lncRNA和mRNA表达谱分析,发现关键的lnc RNAs的相互作用可以改变ECM的发育过程[55]。
4 小结与展望
目前,尽管lncRNA在家畜上的研究还处于起步阶段,但是近年来相关研究开展迅速,尤其在猪的生产性能、繁殖、细胞分化、疾病、育种等方面进行了大量的研究。但是,lncRNA的物种数据库相关的数据还是不够,对于lncRNA的研究深度远远不如mRNA和micRNA,这也是当前的重要研究内容。