APP下载

小鼠精子发生中环形RNA生成和功能分析

2020-05-16宋逸钒

生物信息学 2020年1期
关键词:精子发生内含子外显子

宋逸钒,倪 挺,魏 刚

(复旦大学 生命科学学院,上海 200438)

不孕不育日渐成为现代社会生殖健康面临的严重问题,其中男性不育约占50%。从生物学的角度来看,男性生殖问题的关键是如何产生正常的生殖细胞,而精子发生又是生殖细胞产生的核心环节。深入研究并认知精子发生的分子机制,对人类的生殖健康、男性的生育调节、男性不育的诊治均有十分重要的理论和实践意义。临床样品上发现的与精子发生障碍相关的遗传突变通常需要在小鼠等重要模式动物中进行功能验证和机制探索,因此对于小鼠精子发生不同时期细胞的基因表达调控研究可为人类精子发生调节机制的阐明提供重要线索。除了信使RNA,新近研究还发现了不少lncRNA(long non-coding RNA,长非编码RNA)在生殖细胞增殖、分化过程中起到重要作用[1]。环状RNA(circular RNA,circRNA)作为lncRNA家族的一个新成员,其是否在精子发生过程中发挥特定的生物学功能也引起了广泛的关注。

circRNA和过去研究的许多种类RNA不同,其序列并不以基因组外显子正常的顺序排列组成,而是RNA的5’末端和3’末端头尾相连,形成一个像质粒一样共价闭合的单链环状分子[2]。按形成circRNA的序列在原始母基因中的类别,circRNA可分为外显子、内含子和基因间区域来源,其中,目前发现的circRNA绝大多数来源于外显子[2]。研究表明外显子侧翼的内含子中的反向重复序列(比如人中的Alu序列)可促进两个线性外显子的反向成环而形成circRNA[3]。

近年来的研究也不断发现:circRNA具有多种基因调控功能,如高丰度的circRNA可以竞争所在母基因正常的剪接或可变剪接,从而使得正常剪接的RNA水平下降,引起下游的一系列反应[4];circRNA可作为microRNA(miRNA)海绵吸附特定miRNA,继而影响该miRNA对其下游靶基因的调控[5]。此外,circRNA上的m6A(腺嘌呤6位甲基化)修饰可以促进翻译[6]。circRNA还可以通过结合RNA结合蛋白(RBP)[7]后与Pol II互作调控宿主基因的表达[8]等方式体现其功能。但是在精子发生过程中,circRNA的生成机制和下游功能尚不清楚。

精子发生是一个高度有序的过程,它的每一个阶段都被精细调控。目前已知有一些RNA结合蛋白如ELAVL1/HuR、hnRNP G-T、NANOS2等在精子发生过程中起着重要调控作用[7,9-10]。同时,多种miRNA如miR-21[11]、miR-17-92簇[12]、mir-184[13]等也被证实在精子发生过程中起重要调节作用。有研究发现circRNA在睾丸中高度富集[14],与合作者的研究也发现小鼠精子发生过程中lncRNA和circRNA均表现出了显著的表达变化[15],提示circRNA在精子发生过程中也可能起着重要作用,其上游的形成机制值得深入研究。利用之前发表的数据,系统分析了小鼠精子发生五个时期(小鼠精原干细胞、原始精原细胞、前细线期精母细胞,粗线期精母细胞及圆形精子细胞)中的circRNA及其可能成环机制,并分析探讨了随精子发生不同时期表达显著变化的circRNA行使功能的可能机制。

1 材料和方法

1.1 数据获取

所用数据来自于本实验室之前发表的数据[15],其生物学样本均来自于DBA/2和C57BL6两种品系的老鼠产生的杂交后代,样本获取、RNA提取及RNA文库构建流程参见文献[15]。原始数据也可从NCBI SRA数据库下载(SRP067167)。每个时期样品(处理)均有两份生物学重复,各样本及它们对应的原始reads数据见表1。为了让后续分析更加精准,利用NGSQCToolkit[16]去除了原始测序数据中的低质量reads,并用fastuniq对质量过滤后的reads进行去冗余。

表1 参试样本信息及测序reads数Table 1 Reference sample information and sequencing reads

1.2 小鼠精子发生过程中差异表达circRNA分析

CIRI[17]是一款常用的从RNA-seq测序数据中预测鉴定circRNA的软件,使用CIRI的默认参数,预测各参试样本中的circRNA,并将得到的circRNA和CIRCpedia数据库[18]中的circRNA进行比对分析。采用sailfish-cir软件[19](默认参数)对circRNA在各时期的表达进行定量分析。同时,借助sailfish_cir计算出的circRNA read数目,分析获得到各个时期的环形-线性比。最后,为了确保circRNA差异表达分析的可靠性,仅对Ribozero文库来源的circRNA使用Next maSigPro[20]分析五个时期中差异表达的circRNA,并采用R中的clusterProfiler包[21]对差异表达circRNA的来源基因进行了Gene Ontoloty(GO)功能类分析。

1.3 小鼠精子发生过程中circRNA上游生成机制分析

为了分析在小鼠精子发生过程中哪些因素可能影响了外显子型circRNA的生成,首先分析了circRNA侧翼内含子的长度,并将它和随机抽取的内含子的长度进行比较。借助RepeatMasker[22]分析获得基因组上重复序列,并归类到几种常见的反向重复序列类型;从它们在基因组中的位置信息判定哪些circRNA的侧翼内含子含有反向重复序列,并计算每种重复序列在circRNA侧翼内含子中的反向互补配对情况。

1.4 小鼠精子发生过程中circRNA功能机制预测

使用CIRI-FULL[23]和CIRI-AS[24]从基因组信息中获取circRNA的序列信息。随后用miRanda-3.3a预测circRNA中miRNA的结合位点(设置miRanda的参数为-sc 170 -en 25,相比较miRanda的默认参数-sc 140和-en 1,提升了score和energy阈值,减少了预测结果的假阳性)。结合circRNA序列信息和m6A基序(RRm5ACH),利用IRESfinder[25]和自己编写的程序搜索circRNA上的m6A潜在位点预测circRNA作为翻译模板的可能性。结合POSTAR2数据库[26]收集的RBP结合基序,搜索circRNA中潜在的RBP结合位点。

2 结果分析

2.1 小鼠精子发生5个时期中的环形RNA

利用CIRI2系统分析了小鼠精子发生各参试样本的RNA-seq数据,共发现30 960个circRNA,其中有14 920个(48.2%)circRNA可被CIRCpedia数据库中的circRNA交互验证(见图1a)。由于CIRCpedia数据库中只收集了小鼠睾丸的circRNA,并未收集完整小鼠精子发生各个时期的所有数据[18],因此推测余下的 circRNA(约50%)可能是小鼠精子发生特有的circRNA。RNaseR处理可以大量去除线性RNA从而富集circRNA,分析结果显示,ribozero文库来源的RNA-seq数据鉴定出的circRNA的数量在5个不同细胞类型中变化幅度不大;而在精原干细胞中,RNaseR处理文库中发现的circRNA数要大大多于从ribozero文库中发现的circRNA数目(见图1b),这也提示了CIRI发现circRNA的可靠性。

对精子发生各个时期的circRNA进行序列来源分析发现,它们绝大多数主要来源于外显子区域,即外显型circRNA(见图1c)。由于circRNA可能通过竞争性剪接影响所在母基因的正常线性mRNA的生成,计算了各时期环形-线性比,发现十个样本的环形线性比均小于3%(见图1d)。但有趣的是,圆形精子细胞中环形线性比要明显高于其他精子发生时期(见图1d)。因为circRNA不易降解,所以推测圆形精子细胞中的circRNA增多更可能是circRNA上游生成机制的改变引起的。

2.2 精子发生过程中差异表达的circRNA及其所在基因的功能富集分析

分析小鼠精子发生不同时期circRNA本身的丰度差异和所属母基因的功能情况可为circRNA在精子发生中的功能推测提供重要线索。判别差异表达的基础是对circRNA丰度的定量,之前circRNA定量都是直接计算circRNA反向剪切连接处的读长(Junction reads)数目,Li等开发了sailfish-cir软件[19],该软件应用改进过的EM(Expectation-Maximization)算法对circRNA进行定量,能校正多种已知的系统性偏差,也克服了之前定量方法存在依赖测序深度、数据离散的缺陷,提高了circRNA定量的准确度。采用sailfish-cir算法对小鼠精子发生不同时期circRNA的稳态表达量进行了定量,随后我们使用maSigPro基于线性回归的方法分析了在不同时期样本中表达量显著不同(P≤0.001,软件默认差异判断标准)的circRNA,共得到409个差异表达circRNA。从这409个差异circRNA的热图中可以看出,circRNA表达量上升和下降的趋势表现出了极高的一致性,并且组间差异较小(见图2a)。为了探索这些差异表达的circRNA与小鼠精子发生过程的联系,对这些circRNA来源的母基因做了基因本体(GO)富集分析,结果发现它们富集的生物学过程包括精子发生、纤毛运动和形态、微管束的形成和运动以及染色质修饰和组蛋白修饰等(见图2b),暗示相应circRNA可能在精子发生中起作用。上述结果暗示circRNA在精子发生过程中呈动态变化且所在基因与精子发生功能具有相关性。

图1 小鼠精子发生各时期细胞中circRNA的数目、类型及环形线性比
Fig.1 Number,type,and circular-linear ratio of circRNA in mouse spermatogenesis

注:(b)中1和2指同一细胞类型的两个生物学重复。RNaseR指对SSC细胞进行RNaseR酶处理去除线性RNA的样品。(c)中外显子来源即exon、内含子来源即intron、基因间区域即intergenic。

图2 小鼠精子发生不同时期circRNA的差异表达及所在基因功能富集分析Fig.2 Differential expression of circRNA and functional enrichment analysis of the gene in mouse spermatogenesis at different stages

2.3 小鼠精子发生中circRNA的上游生成机制分析

已有研究表明,在人细胞中侧翼内含子中反向重复序列的配对可促进外显子来源的circRNA的生成,外显子型circRNA的两个侧翼内含子中Alu重复序列的反向配对(Inverted repeated across,即IRacross)数目与同一内含子内部的Alu序列的配对(Inverted repeated within,即IRwithin)数目之间的竞争是circRNA形成的重要因素(见图3),IRacross配对数目越大,越能促进circRNA的生成[3]。

图3 circRNA形成及侧翼内含子中重复序列反向互补配对示意图Fig.3 CircRNA formation and reverse complementary repeated sequences in flanking introns

注:一个circRNA由绿色和蓝色两个exon组成,位于两个侧翼内含子中的重复序列反向互补配对(IRacross)可以促进circRNA的生成,而位于同一内含子中的重复序列反向互补配对(IRwithin)则会抑制circRNA的生成。

小鼠中除了SINE/Alu序列,还有SINE序列(SINE/B2和SINE/B4)、LINE/L1、ERVL-MaLR和ERVK等内源逆转录病毒来源的重复序列。那么小鼠精子发生过程中这些不同类型的重复序列间的互补配对是否也对circRNA的形成有贡献呢?为了回答这个问题,对小鼠精子发生中外显子来源的circRNA的侧翼内含子进行了系统分析。首先将circRNA侧翼内含子的长度和随机抽取的内含子进行了比较,结果发现,小鼠精子发生相关细胞中所存在的circRNA的侧翼内含子的长度明显比随机抽取的内含子更长(见图4a)(Wilcoxon Signed Rank Test,P<0.001)。接着评估外显子来源的circRNA两个侧翼的内含子之间所形成的反向互补配对的数目,结果显示,小鼠精子发生过程中circRNA侧翼内含子中各种类型的IRacross数目均显著多于随机获取的内含子中的IRacross数目(见图4b),提示小鼠精子细胞中多种重复序列对circRNA的形成均有潜在贡献。比较了circRNA的侧翼内含子和随机抽取的内含子中IRacross-IRwithin差值,发现成环的外显子中该值也显著大于对照(见图4c),进一步提示侧翼内含子中反向重复序列的配对可能是小鼠精子发生过程中细胞内circRNA生成的重要促进因素。

2.4 circRNA下游功能预测

在小鼠精子发生过程中发现了许多circRNA,这些circRNA在精子发生进程中的潜在生物学功能是值得探讨的问题。circRNA可以通过多种方式来发挥其生物学功能,如促进所在基因的转录、竞争所在基因成熟mRNA的产生、作为microRNA(miRNA)的分子海绵、作为多个蛋白质结合的分子海绵、作为翻译模板等[5-6]。主要从两个层面来分析这些circRNA潜在的功能,即作为miRNA分子海绵的circRNA和具有翻译潜能的circRNA,同时对circRNA和RBP的互作进行了初步分析。

2.4.1 circRNA与miRNA结合作为miRNA“海绵”的功能预测

精子发生中miRNA可通过转录后调控调节其靶基因的表达进而影响精子发生进程,如miR-19a、miR-19b通过调节PTEN的表达来影响原始生殖细胞的增殖[27-28], miR-122a通过结合TNP2对精子生成的后期阶段发挥调控作用[29]等。那么研究发现的409个精子发生中差异表达的circRNA中有多少可能通过miRNA分子海绵的方式起作用呢?利用miRanda-3.3a[30]对这409个差异表达的circRNA进行了miRNA结合位点预测,结果发现137个circRNA具有miRNA结合位点,涉及124个miRNA。值得提及的是,研究发现具有miRNA结合位点的circRNA中都只有一个miRNA结合位点(见图5a)。虽然早期的研究曾报导circRNA可结合很多的miRNA,但研究表明,只有一个miRNA结合位点的circRNA也可调控相应miRNA的效应浓度并对表型产生影响[31]。发现MMU_CIRCpedia_39694(chr4:45987462|45990230)这个circRNA来源于精子发生相关基因TDRD7,预测分析发现它可以结合mmu-miR-7042-5p,从而有可能减少该miRNA对有功能的TDRD7线性mRNA的影响。精子发生过程中这些潜在的circRNA-miRNA互作在小鼠精子发生中的调控作用有待后续实验进一步验证。

图4 circRNA侧翼内含子长度及其中的反向互补配对的重复序列分析Fig.4 Length of circRNA flanking introns and repeated sequence analysis of their reverse complemen tary pairs

2.4.2 circRNA上的m6A基序促进翻译的功能预测

有研究表明,一些circRNA可作为翻译模板产生蛋白质,这些可被翻译的circRNA具有m6A修饰和特定的基序(RRm5ACH),这一特征可招募翻译起始复合物并促进核糖体组装,使circRNA最终可以翻译出蛋白质[6]。为了考察精子发生过程中是否存在具有潜在翻译功能的circRNA,以普通的mRNA序列作为对照组,对全体circRNA、差异表达的circRNA和来自精子发生相关基因的差异表达circRNA分别进行m6A基序预测分析,发现全体circRNA中有85%的序列含有RRm5ACH基序,而作为对照的全部mRNA的序列中该基序的比例仅为69%,两者间存在显著差异(见图5b左,p值 < 0.001,Wilcoxon Signed Rank Test)。而使用IRESfinder[25]发现所有circRNA中有46%的序列含有IRES(Internal ribosome entry site,内部核糖体进入位点)位点,而作为对照的全部mRNA的序列中仅有32%,两者间亦存在显著差异(见图5b右,p值 < 0.001,Wilcoxon Signed Rank Test)。这一结果暗示精子发生过程中的部分circRNA有潜在的蛋白编码功能。对相应circRNA进行更为深入的实验和功能验证或许有可能为深入理解精子发生的分子调控机制开辟新的视角。

2.4.3 circRNA与RNA结合蛋白(RBP)的互作分析

circRNA可与RBP结合从而影响特定的生物过程。Du等发现circ-FOXO3与CDK2蛋白结合可抑制细胞周期进程[32],Abdelmohsen等发现circ-PABPN1可竞争性结合HuR并进而抑制HuR与PABPN1的mRNA结合,从而降低PABPN1翻译效率[33]。NF90/NF110能和成熟的circRNA直接结合形成circRNA-蛋白复合体(circRNP),并在抗病毒过程中发挥重要的免疫功能[34]。小鼠精子发生过程中的circRNA是否也有结合RBP的潜力?为了回答这个问题,利用公共数据库中的RBP数据库POSTAR2对精子发生过程中的circRNA进行了系统分析。结果发现,共有10 517个circRNA具有RBP结合位点,其中除了约3 547个circRNA只有1个RBP结合位点外,其余circRNA都有2个以上的潜在RBP结合位点(见图5c),甚至部分circRNA有10个以上的潜在RBP结合位点(见图5c),如chr19:5800494|5800738含有31个,chr17:39845133|39845215含有30个。另外,除了一个circRNA可以结合多个RBP,一个RBP也可能被多个circRNA所吸附。比如我们发现总共有558个circRNA含有MSI2蛋白结合位点,而MSI2蛋白被报导在精子发生过程中起重要作用[35]。上述结果强烈暗示,circRNA可能通过“RBP海绵”的作用来调节细胞中相应RBP的效应浓度。circRNA-RBP互作在精子发生中的作用很值得后续深入研究。

图5 小鼠精子发生相关细胞中circRNA的m6A基序及miRNA、RBP结合位点分析Fig.5 Analysis of m6

3 讨 论

circRNA是一种特殊形式的内源性RNA,其闭环结构使之可能逃脱细胞内核酸外切酶的作用,并可能通过多种方式发挥其生物学功能。circRNA的上游生成机制虽已在人类细胞中进行了分析和部分功能证明,但小鼠精子发生过程中大量产生的circRNA是否通过类似的机制生成仍不清楚。通过系统的生物信息学分析发现各种类型的反向重复序列(SINE/L1、SINE/B2、SINE/B4、ERVL-MaLR和ERVK)在小鼠精子发生过程中产生的circRNA侧翼内含子中均有富集(见图4b、4c),提示它们也可能具有类似人circRNA侧翼内含子中Alu序列促进circRNA生成的功能。本研究结果拓展了外显子型circRNA生成机制的顺式作用元件类别,为理解circRNA生成的分子调控机制提供了新的线索,但具体的作用机制还需进一步的实验验证(如在circRNA表达载体中引入这些不同类别的重复序列)。

目前尚未有circRNA在小鼠精子发生中起作用的报道。虽然我们发现了精子发生过程中有大量的circRNA产生,并初步推测了其形成机制,但它们中哪些circRNA对精子发生有调控作用,以何种方式起作用仍不清楚。功能验证需要寻找有潜能的候选circRNA,而本研究预测分析发现的部分circRNA的miRNA海绵功能、翻译模板潜能预测和RBP分子海绵等可为筛选功能性circRNA提供有价值的参考线索。虽然生信分析不能直接证明这些circRNA在精子发生中的作用,但其分析结果暗示部分circRNA有可能通过多种方式来参与精子发生的调节,后续的研究可在此基础上筛选候选circRNA,通过设计反向引物并结合定量PCR(qRT-PCR)验证相应circRNA的存在,继而构建circRNA过表达载体并注射小鼠睾丸,使得相应细胞中过表达该circRNA;或者在小鼠中通过基因编辑删除配对的反向重复序列来下调circRNA的产生,从而验证其是否具有调控精子发生表型的功能。

猜你喜欢

精子发生内含子外显子
外显子跳跃模式中组蛋白修饰的组合模式分析
精浆外泌体在精子发生与功能调控中的研究进展
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
人工驯养树鼩精子发生过程中MCM7蛋白的表达
外显子组测序助力产前诊断胎儿骨骼发育不良
“SPT”智慧课堂模式下“体内受精”教学设计
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
更 正
外显子组测序助力产前诊断胎儿骨骼发育不良
陆地棉GhDHN1基因结构及内含子生物信息学分析