星形胶质细胞外显子组中A-to-I RNA 编辑位点的高通量测序鉴定
2020-11-19王海涛周海红闵建平王涛王兰郭欢张永东苏海翔
王海涛 周海红 闵建平 王涛 王兰 郭欢 张永东 苏海翔
甘肃省医学科学研究院,甘肃 兰州730050
RNA 编辑是一种重要的转录后修饰机制,通过碱基的替换、插入或缺失,改变核苷酸序列,进而导致氨基酸序列的改变,影响基因表达、可变剪接、RNA 稳定性等[1]。RNA 编辑增大了转录多样性,进而增加了蛋白质的种类,使生物体能够更好地适应生存环境[2]。同时,RNA 编辑也进一步扩充了中心法则,增进人类对生物遗传规律的认知[3]。A-to-I RNA 编辑是最普遍的一种RNA 编辑,是在双链RNA 腺苷脱氨酶(adenosine deaminases acting on RNA,ADARs)作用下,腺苷A 的C6 位氨基水解脱氨形成次黄苷I 的过程,而后者在逆转录和翻译过程中被识别为鸟苷G[4]。A-to-I RNA 编辑广泛存在于哺乳动物中枢神经系统中,研究表明,其对于维持中枢神经系统的稳态和机体正常的生理功能必不可少,是神经发育、神经系统功能以及神经系统疾病发生的重要因素[5-7]。
随着分子生物学技术的不断发展,对生命、疾病的研究已不再局限于某个基因位点。高通量测序技术的出现和发展,为研究RNA 编辑提供了新的技术平台,为全基因组或全外显组范围内的RNA 编辑位点的研究提供了可能[8]。RNA-Seq 技术的发展为RNA 编辑提供了更便利的条件[9]。本研究以星形胶质细胞作为研究对象,运用高通量测序技术对其外显组和转录组进行深度测序,通过对二者测序结果的精确比对,鉴定出神经系统外显子组中的A-to-I RNA 编辑靶点。
1 材料与方法
1.1 材料及试剂 1800-P 人星形胶质细胞系(中国医学科学院基础医学研究所细胞中心);RPMI 1640 培养基、胎牛血清(FBS)、星形细胞生长因子(美国Gibco 公司);无水乙醇、氯仿、异戊酸和冰乙酸(北京化学试剂公司);Trizol(美国Thermo 公司);DNase I、Prime Script TM RT Reagent Kit(日本Takara 公司);2×Taq PCR Mastermix(北京天根公司);胰蛋白酶、蛋白酶K、琼脂糖(美国progema 公司);DNAStoolMiniKit(德国QIAamp公司);TruSeq Library Construction Kit(美国Illumina 公司);NEBNext○RUltraTMDirectional RNA Library Prep Kit for Illumina○R(美国NEB 公司);Agilent SureSelect Human AllExomeV6 试剂盒(加拿大AgilentTechnologies 公司)。
1.2 仪器 CO2组织细胞培养箱(美国Thermo 公司),超净台(北京HDL),-80℃冰箱(美国Thermo 公司),高压灭菌锅(北京HDL),Nanodrop 2000 超微量分光光度计(美国Thermo 公司),Qubit 2.0 荧光计(美国Thermo公司),凝胶电泳仪(美国Thermo 公司),凝胶成像系统(美国Bio-Rad 公司),高速冷冻离心机(德国Eppendorf),小型高速离心机(德国Eppendorf)。
1.3 方法
1.3.1 1800-P 星形胶质细胞培养。将1800-P 星形胶质细胞在含有10%FBS 的RPMI 1640 培养基中培养(含有100μ/mL 青霉素和100μ/mL 链霉素),并置于37℃、20%O2、5%CO2、75%N2的孵箱中,每2~3 天更换培养基。
1.3.2 星形胶质细胞基因组DNA 和总RNA 的提取。采用DNA Stool Mini Kit 试剂盒提取1800-P 星形胶质细胞基因组DNA;利用Trizol 试剂提取星形胶质细胞总RNA,并用DNase I 去除基因组DNA。采用Nanodrop 2000 超微量分光光度计测定所得DNA 和RNA的浓度和纯度;采用琼脂糖凝胶电泳对DNA 和RNA样本进行完整性分析,检测合格的基因组DNA 和总RNA保存在-80℃冰箱中。
1.3.3 转录组测序。①转录组文库构建。对鉴定合格的样品进行文库构建,主要流程为:用带有Oligo(dT)的磁珠富集mRNA;加入Fragmentation Buffer 随机打断mRNA;用六碱基随机引物合成第一条cDNA 链;加入DNA polymerase I、dNTPs、缓冲液和RNase H 合成第二条cDNA 链;纯化cDNA 并进行末端修复、加A 尾并连接测序接头,然后用AMPure XP beads 进行片段大小选择;通过PCR 富集得到cDNA 文库。为保证质量,文库构建完成后,使用qPCR 方法对文库的有效浓度(文库有效浓度>2nM)进行准确定量。②上机测序。库检合格后,对不同文库进行pooling,测序平台为Illumina HiSeq,全转录组测序由北京百迈克公司完成。
1.3.4 外显组测序。①外显组文库构建。采用Agilent外显子捕获试剂盒,构建插入片段180~280bp 的文库,主要流程为:将检测合格的DNA 样品利用超声波破碎仪打断至180~280bp 左右,并进行末端修复加接头,构建DNA 文库;对文库进行连接介导PCR(LMPCR)扩增,测定每个样品浓度;将扩增后的样品与生物素标记探针进行杂交,形成外显子区域和探针复合体;利用链霉亲和素修饰的纳米磁珠吸附复合体,清洗磁珠,去除未结合序列,然后将捕获的外显子序列洗脱下来;对捕获后的样品再次进行LM-PCR 扩增;利用qPCR 技术评估目标区域的相对富集倍数,以确保样品达到质控要求。②上机测序。库检合格后,对样本进行双端测序,所用平台为Illumina HiSeq,全外显组测序由北京百迈克公司完成。
1.3.5 测序数据质控。为了保证后续分析准确可靠,需对原始测序数据进行质控和过滤,去除含有接头序列和polyN(N 代表无法确定的碱基信息)的reads,N的比例超过10%的reads 和低质量碱基(Qphred≤20)比例大于50%的reads 也需要去除。原始数据经过滤后得到clean data,使用FastQC 软件检测raw data 和clean data 的质量,并统计clean data 的Q30 和GC 含量。
1.3.6 RNA 编辑位点鉴定。使用RES-Scanner 对获得的高通量测序数据进行RNA 编辑位点的鉴定分析,流程主要包括三步:①构建参考基因组索引,预处理fastq 文件;②读长回贴;③RNA 编辑位点鉴定。检测出的RNA 编辑位点均满足以下条件:支持该位点发生RNA 编辑的RNA 测序reads 至少有3 条;RNA 编辑水平不小于0.05,且至少位于1 条支持编辑发生的RNA测序reads 的中间位置;不位于长度大于等于5bp 的同聚物序列;不落在reads 末端6bp 范围内;二项分布检验的FDR 小于0.05。
2 结果
2.1 测序数据产出统计
2.1.1 转录组测序数据。完成4 个样本的转录组分析,共计获得Clean Data 29.79Gb,各样本Clean Data 均达到6.81Gb,Q30 碱基百分比在93%以上。分别将各样本的Clean Reads 与指定的参考基因组进行序列比对,比对效率从95.65%到97.45%不等。见表1。
表1 转录组测序数据统计表
2.1.2 外显组测序数据。4 个样本的平均Clean Bases为9.99Gbp,Q30 达到93.75%,样本与参考基因组平均比对效率均为99.96%,目标区域平均深度约为88.63X。见表2。
表2 外显组测序数据统计表
2.2 RNA 编辑位点的鉴定 本研究以hg38 作为参考基因组版本进行序列比对及后续分析。使用RESScanner 软件鉴定RNA 编辑位点,该软件需同时提供匹配的转录组测序和外显组测序数据以剔除外显组单核苷酸变异的影响,同时能够自动将转录组测序数据按来源划分成正链和负链reads,从而准确判定RNA 编辑类型。本研究中所检测的4 个转录组样本T1、T2、T3、T4 和4 个外显组转录样本E1、E2、E3、E4 是一一对应关系,即T1 与E1 对应同一样本,T2 与E2 对应同一样本,T3 与E3 对应同一样本,T4 与E4 对应同一样本。本研究主要针对最常见的一种RNA 编辑类型:Ato-I RNA 编辑,利用RES-Scanner 软件对测序数据进行深度分析,共计检测出A-to-IRNA 编辑位点1751 个。
2.3 RNA 编辑位点在染色体上的分布 本研究在星形胶质细胞的外显组中检测到的RNA 编辑位点广泛存在于各条染色体上,但在染色体间呈现不均匀分布。其中A-to-I RNA 编辑位点在1 号染色体上分布明显多于其他染色体,而在20、21 号染色体和X 染色体上分布较少。这一结果可能与染色体长度,及其所含基因的数量、总长度和活性等因素有关。见表3。
2.4 RNA 编辑位点在外显组上的分布 RNA 编辑的功能与其发生位置密切相关,发生在5’UTR 和3’UTR中的RNA 编辑可能影响mRNA 的稳定性,进而调控基因表达;发生在CDS 区的RNA 编辑可能影响氨基酸的编码,增加蛋白质的多样性;发生在非编码区或者内含子上的RNA 编辑可能会影响选择性剪接、Circular RNA 成环、miRNA 和lncRNA 与靶标的结合等。本研究统计了外显组中不同基因功能区域的RNA 编辑位点,根据ANNOVAR 软件中定义的优先级,统计位于CDS、5’UTR 和3’UTR 中的A-to-I RNA 编辑位点,见表4。
表3 RNA 编辑位点在染色体上的分布
表4 RNA 编辑位点在外显组的分布
2.5 CDS 中的RNA 编辑位点 在星形胶质细胞的外显组中检测到了大量A-to-I RNA 编辑位点,仅有251个位点位于CDS 中,其中118 个位点为错义RNA 编辑位点,133 个为同义编辑位点。所有错义RNA 编辑位点分布在102 个基因上,共导致25 种类型的氨基酸替换,分别为Arg/Gly、Asn/Asp、Asn/Ser、Asp/Gly、Cys/Arg、Gln/Arg、Glu/Gly、His/Arg、Ile/Met、Ile/Thr、Ile/Val、Leu/Pro、Leu/Ser、Lys/Arg、Lys/Glu、Met/Thr、Met/Val、Phe/Leu、Phe/Ser、Ser/Gly、Ser/Pro、Thr/Ala、Trp/Arg、Tyr/Cyc、Val/Ala,其中Thr/Ala 最多,Val/Ala 次之,Cys/Arg、Leu/Ser 和Tyr/Cyc 最少,前3 种氨基酸替换类型(Thr/Ala、Val/Ala 和Ser/Gly)占全部氨基酸替换类型的23.73%。高达95.76%的错义RNA 编辑位点位于密码子第1 位或者第2 位碱基上。
2.6 5’UTR 和3’UTR 中的RNA 编辑位点 一段成熟的mRNA 是由CDS 及其前后的5’UTR 和3’UTR组成的。本研究中,对外显组进行高通量测序的结果中得到了大量UTR 区的编辑信息。我们在5’UTR 中共计检测出110 个A-to-I 编辑位点,在3’UTR 中共计检测出1390 个A-to-I 编辑位点。这些位点的RNA 编辑可以改变RNA 的稳定性、亚细胞定位、翻译效率等。
表5 CDS 中的RNA 编辑位点
3 讨论
RNA 编辑广泛存在于哺乳动物转录组中,内含子和基因间隔区最为丰富[10];在灵长类动物中,A-to-I编辑更占到全部编辑的90%以上[11]。发生在编码区的RNA 编辑可能会导致蛋白重编码,产生异于基因组编码的蛋白质,在生物体蛋白质多样性的形成中发挥重要作用[12]。在正常生理状态下,GluR-B 上的Q/R 位点几乎完全发生A-to-I RNA 编辑,导致谷氨酰胺(Q)转变为精氨酸(R),使得AMAP 受体钙离子通透性显著下降,从而实现对细胞钙平衡的调节[13-15],该Q/R 位点的异常编辑可导致小鼠癫痫发作及死亡[16]。发生在GLI1 第2179 位核苷酸的A-to-I RNA 编辑改变了该基因的转录效率,进而对细胞的增殖造成影响[17]。DNA修复酶NEIL1 上的A-to-I RNA 编辑导致精氨酸转变成赖氨酸,影响了NEIL1 的特异性[18]。
因技术有限,早期研究对于RNA 编辑的广泛性理解有限。高通量测序技术可以帮助研究人员大规模鉴定RNA 编辑位点,也促进了人们对RNA 编辑产生机理、调控机制及分布特征等的认识[8]。即便如此,RNA编辑位点的鉴定仍是一项复杂的工作,需要综合考虑多种因素,对变异位点进行重重过滤。为了准确鉴定出RNA 编辑位点,本研究进行了优化设计:①采用读长150bp 的双末端测序策略,提高读长回贴的准确性并促进超编辑reads 的鉴定;②采用链特异性转录组测序,仅对第一链cDNA 进行测序,以使生成的读长保留其来源信息,确保准确判定RNA 编辑类型;③对同一样本来源的外显组和转录组进行测序,以充分剔除单核苷酸变异的影响;④使用RES-Scanner 鉴定RNA 编辑位点,进一步提高RNA 编辑位点鉴定的准确性和可靠性。
从现有文献中已经鉴定出的RNA 编辑位点分布情况来看,绝大多数的RNA 编辑位点发生在基因的内含子区及基因间隔区,发生在外显子区的RNA 编辑,只占总体RNA 编辑位点中极少比例的一部分。本研究通过对星形胶质细胞转录组和外显组高通量测序数据进行深度分析,共计检测出外显组中A-to-I RNA 编辑位点1751 个。
编码区的RNA 编辑可能会导致氨基酸的改变,对机体生命活动产生影响,目前已明确生物学意义的RNA编辑位点大多位于基因编码区。本项目旨在鉴定外显组上A-to-I RNA 编辑位点,通过分析RNA 编辑位点在外显组上的分布,统计发生在CDS 和UTR 区的编辑位点。在所鉴定出的1751 个A-to-I RNA 编辑位点中,位于CDS 的位点只是很小的一部分,仅占14.33%,而大多数位点位于UTR 区,其中位于5’UTR 的位点占6.28%,位于3’UTR 的位点所占比例最高,达79.38%。
本研究在CDS 中共检测到251 个A-to-I RNA 编辑位点,其中133 个编辑位点为同义编辑位点,这些编辑位点绝大多数位于密码子的第3 位碱基上。由于同义突变不改变所编码的氨基酸,所以通常认为其在进化上是“中性”的,对表型没有影响。然而,最近的一些研究发现,同义突变并不完全“沉默”,一些同义突变可以通过改变密码子的使用偏性、翻译效率、mRNA 二级结构稳定性、选择性剪接以及miRNA 靶标识别等过程影响基因的表达。需要进一步的研究来确定外显组中的同义A-to-I RNA 编辑位点的生物学作用。
另外,我们对其中118 个错义A-to-I RNA 编辑位点进行了系统分析。结果显示这些错义编辑位点分布在102 个基因上,其中MUC4 基因上有6 个位点,RPEL1基因上有4 个位点,SETSIP 基因上有3 个位点,AC011 005.1、CD52、DHDDS、HNRNPA1P48、PKD1 和UVSSA基因各有2 个位点,其余基因各有1 个位点。这些错义A-to-I RNA 编辑位点多位于密码子第1 位或者第2位碱基上,共导致25 种类型的氨基酸替换,其中替换较多的为Thr/Ala、Val/Ala 和Ser/Gly 三种类型,Cys/Arg、Leu/Ser 和Tyr/Cyc 最少。本研究发现,1 号染色体和X 染色体上各有1 个腺苷酸经A-to-I RNA 编辑后,其所在的终止密码子均突变为氨基酸编码密码子。我们推测这2 个位点的编辑对于合成具有正常功能的蛋白质是至关重要的,假如不编辑或发生编辑异常,会使蛋白质合成提前终止,进而对机体正常生命活动造成影响。
真核生物5’UTR 含有二级和三级结构以及其他序列元件,可以调节帽依赖翻译起始和非帽依赖翻译起始,前者通过解旋酶介导的RNA 结构重塑和高阶RNA(higher-order RNA)相互作用来调节翻译起始,后者可通过IRES、mRNA 修饰和其他特殊的翻译途径来调节。位于终止密码子与poly(A)尾之间的3’UTR 在基因表达调控中发挥重要作用:通过富AU 元件(rich AU element)来调节mRNA 的稳定性;调控mRNA 的定位表达和翻译;结合多个RNA 结合蛋白来行使调控功能;调控蛋白-蛋白相互作用。本研究在5’UTR 和3’UTR 鉴定了大量的A-to-I RNA 编辑位点,这些位点的编辑可能对基因的正常表达,机体生命活动的正常进行具有重要意义。
本研究运用高通量测序技术对星形胶质细胞外显组和转录组进行了深度测序,初步鉴定了星形胶质细胞外显组中的A-to-I RNA 编辑位点,但是,这些位点在神经发育、神经系统功能以及神经系统疾病发生的机制层面的分析仍待进一步的探索。