APP下载

K562细胞中N-乙酰基转移酶10的RNA结合图谱分析

2023-05-04李高原王妍然

基础医学与临床 2023年5期
关键词:磁珠测序软件

李高原,王妍然,王 芳,余 佳

中国医学科学院基础医学研究所 北京协和医学院基础学院 医学分子生物学国家重点实验室,北京 100005

表观转录组在细胞、发育和疾病过程中起到重要作用[1]。在古细菌、原核生物和真核生物中,被发现的核糖核苷修饰已有约170种[2]。RNA分子上多样的修饰意味着充分的调控潜力,可能调节信使RNA(messenger RNA,mRNA)命运。

N4-乙酰胞嘧啶修饰(N4-acetylcytidine,ac4C)是mRNA的一种修饰,有助于调节mRNA稳定性,提高翻译效率,在核糖体生物发生及癌等发生过程中扮演着重要角色[3-4]。N-乙酰基转移酶10(N-acety-ltransferase 10,NAT10)是目前唯一已知的ac4C “writer”蛋白,同时具有乙酰转移酶活性和RNA结合活性[5]。NAT10调节DNA损伤,癌细胞的脂肪酸代谢,促进胃癌转移,成骨分化,雄性精子发生等多种功能被揭示[6-10]。在造血发生、谱系分化及血液系统疾病发生发展过程中的作用仍有待研究。

运用紫外交联免疫沉淀测序技术(enhanced UV crosslinking, immunoprecipitation, and high-throughput sequencing,eCLIP-seq),得到人慢性髓蛋白血病细胞系K562中NAT10结合的转录本集合,并通过生物信息学分析进行图谱描绘,旨在为进一步揭示NAT10在造血细胞中的功能和调控机制提供线索。

1 材料与方法

1.1 材料

1.1.1 细胞:人慢性髓原白血病细胞系K562(中国医学科学院基础医学研究所细胞资源中心)。

1.1.2 主要试剂:胎牛血清FBS和PBS(Hyclone公司);RPMI 1640 培养基、TURBOTMDNase、SuperScript Ⅲ、磁珠(Thermo Fisher Scientific公司);4%~12% Bis-Tris, 10-well, 1.0 mm小型蛋白质凝胶、protein A beads(Invitrogen公司);特异性抗体(Abcam公司);裂解缓冲液(50 mmol/L Tris-HCl pH 7.4, 100 mmol/L NaCl, 1% NP-40, 0.1% SDS, 0.5% sodium deoxycholate and 1×protease inhibitor cocktail, Roche公司);Wash buffer(Tris-HCl, MgCl2, NaCl, ddH20);ExoSAP-IT(Affymetrix公司);测序(Novogene公司)

1.2 方法

1.2.1 K562细胞的培养:将K562细胞培养于含10%胎牛血清FBS的RPMI 1640培养基中,控制汇合度在30%左右,置于37 ℃、含5% CO2的细胞箱中。每隔2~3 d对其传代。传代时收集细胞悬液,轻轻吹打,混悬成单细胞悬液,离心后弃去培养基,用含FBS的新鲜1640培养重悬,以1∶3~1∶4的比例传代。保证K562细胞处于良好的增殖状态。

1.2.2 紫外交联免疫沉淀的检测:首先收取新鲜的K562细胞,进行离心,用3 mL冷PBS重悬,铺于10 cm平皿中,在150 mJ和254 nm波长下进行紫外照射交联,稳定蛋白与RNA的结合。然后将细胞制成单细胞沉淀,在液氮中快速冷冻,并在80 ℃保存。用裂解缓冲液裂解细胞沉淀,然后进一步进行核糖核酸酶A(ribonuclease A,RNase A)和脱氧核糖核酸酶Ⅰ(deoxyribonuclease Ⅰ,DNase Ⅰ)酶解处理,酶解产物与特异性抗体在4 ℃下孵育过夜,用于免疫沉淀,向制备好的抗原抗体混合物中投入40 μL protein A磁珠并孵育2 h后,用洗脱缓冲液洗涤抗原-抗体-磁珠复合物3次,用磁力架去除磁珠,在获得的上清液中加入末端修复试剂和3′接头进行连接反应,使用4%~12% Bis-Tris蛋白凝胶进行目的片段筛选,然后转印到硝化纤维素膜上[11]。

1.2.3 建库与测序:切割目的条带区域(约200~300 nt),用溶胶缓冲液溶解释放胶内核酸,并使用蛋白酶K(NEB)处理去除与目的核酸交联的蛋白质。对提取的RNA样品,使用SuperScript Ⅲ反转录,并用ExoSAP-IT处理以去除多余的寡核苷酸。然后将第二个DNA接头(在5′末端包含5个(N5)或10个(N10)随机碱基聚体(random-mer))连接到cDNA片段3′末端(T4 RNA连接酶,NEB),用磁珠纯化连接产物后,进去实时荧光定量核酸扩增检测系统(real-time quantitative PCR detecting system,qPCR)扩增,通过琼脂糖凝胶电泳筛选特异性扩增的目的片段进行测序[11]。对于上述cDNA文库,使用Illumina NovaSeq PE150平台进行测序,其链特异性配对末端读取长度为150 bp,每个样品下机原始数据raw data数据量均≥12 G。有两个生物学重复。

1.2.4 测序数据下载与完整性检验:通过诺禾公司数据释放平台官方软件下载数据,并使用MD5值算法计算检验数据完整性,经检验,数据完整。

1.2.5 数据质量控制:使用FastQC软件对下机的原始测序数据raw data进行质量检验。结果显示,每个碱基的测序质量合格,每条序列的质量合格,数据GC含量在53%~54%,存在接头序列及过表达序列的污染,在后续的处理流程中去除接头序列和PCR 扩增重复序列。

1.2.6 原始数据过滤:使用自定义脚本对库中不同的内嵌barcode进行分割,通过python脚本将random-mer截取,放在序列名称中以供后续处理使用。使用cutadapt软件(v1.14)去除低质量序列和接头序列,丢弃小于18 bp的序列。再次使用FastQC软件对过滤后的干净数据clean data进行质量检验。

1.2.7序列比对:首先使用STAR(v2.7.3)将重复序列比对到人类基因组重复原件序列数据库RepBase (https://www.girinst.org/)并分离去除。使用Bowtie2(v2.2.9) 将clean data比对到43 kb人类核糖体DNA完整重复单元(GenBank U13369.1),使用IGV(v2.8.2)软件将bam文件峰的覆盖度可视化和标准化,根据已有研究结果对数据质量做进一步评估。使用STAR (v2.7.3)将clean data比对到人类参考基因组(GENCODE Release 36(GRCh38.p13)),得到唯一比对的序列。

1.2.8 样本重复性检验与重复样本合并:使用 deeptools(v3.5.1)软件检验两重复样本相关性,将比对到参考基因组的bam文件结果以每1 000个碱基为一个窗口进行区域划分,计算Pearson相关系数。计算结果显示,对应重复的相关性很高。因而使用SAMtools (v1.3.1)‘merge’命令合并两个生物学重复。基于共享相同的随机序列,将PCR重复序列使用自定义python脚本去除,使用random-mer识别并留下可用数据。

1.2.9 峰的识别:峰的识别使用CLIPper软件。峰的标准化通过Perl语言脚本实现,参考(https://github.com/YeoLab/eclip)。特异峰的筛选采用的阈值为log10(P-value)< -3且log2(fold change)> 3。

1.2.10 峰的注释及下游分析:对NAT10在人类基因组的结合转录本的注释由R包ChIPseeker实现。NAT10结合位点的motif使用bedtools(v2.17.0)和MEME软件进行处理和分析。NAT10结合在mRNA上的位置由R包Guitar进行计算。NAT10结合基因的基因本体论(gene ontology,GO)功能富集分析通过Metascape软件实现。

2 结果

2.1 测序数据质量控制

两个重复中对应样本Pearson相关系数均大于0.9。对于IP组和input组数据,两者相关性水平较低(图1A)。Reads在18S核糖体RNA(ribosomal RNA, rRNA)区域有明显的富集峰,在28S rRNA区域几乎没有观察到IP的富集(图1B)。

A.heatmap of data repeatability and correlation of sequencing read from eCLIP-seq experiments, all samples compared, values were depth normalized and variance stabilized, pearson correlation coefficient (r) inset; B.browser views of peak-calling result of eCLIP-seq read mapping to ribosome DNA

2.2 NAT10结合的RNA图谱描述

NAT10结合位点分布在不同类型的基因,绝大多数为蛋白质编码基因(protein coding gene)(占比73.7%),部分为长链非编码RNA(long non-coding RNA,lncRNA)(占比23.44%),少量是假基因(pseudogene)(占比2.62%),也有极少量结合在其他类型的基因上(图2A)。对其中激活转录因子 2基因(activating transcription factor 2,ATF2)、叉头盒 N3基因(forkhead box N3,FOXN3)两个蛋白质编码基因上的结合位点进行可视化展示(图2B)。NAT10 peaks识别到的“TCT” motif具有相对最高的显著性水平(图2C)。

A.NAT10 binding sites distribution on different gene types revealed by eCLIP-seq; B.the NAT10 peaks bound sites in ATF2, FOXN3; C.motif identified within NAT10 peaks

2.3 NAT10主要在蛋白质编码基因的mRNA 3′UTR区域结合,可能与DNA损伤修复功能相关

NAT10主要结合在mRNA的3′非翻译区域(3′untranslated region,3′UTR) (图3A)。转录本3′UTR区域被结合的916个基因在染色质结合、细胞对DNA损伤刺激的反应、DNA代谢过程的调节、染色体区域等条目有显著富集,包含肌动蛋白样 6A基因(actin like 6A,ACTL6A)、丝氨酸/苏氨酸激酶基因(ATM serine/threonine kinase,ATM)、DNA损伤修复相关乳腺癌易感基因(BRCA1 DNA repair associated,BRCA1)、脆性 X 信使核糖核蛋白 1基因(fragile X messenger ribonucleoprotein 1,FMR1)、增殖细胞核抗原基因(proliferating cell nuclear antigen,PCNA)、赖氨酸乙酰转移酶 2B(lysine acetyltransferase 2B,KAT2B)、含溴结构域4基因(bromodomain containing 4,BRD4)等重要基因(图3B)。

NAT10结合在mRNA 5′非翻译区域(5′ untranslated region,5′UTR)的61个基因富集到涉及转录调节复合物、细胞质核糖核蛋白颗粒、核输出、连接酶活性、剪接体复合物等功能条目;结合到编码区域(coding sequences,CDS)的321个基因富集到氧化磷酸化、细胞内蛋白转运、染色体区域、mRNA代谢过程、RNA剪接调控等相关功能条目(图3C)。

A.distribution of NAT10 binding sites across protein coding mRNA segments; B.functions prediction of protein coding genes on mRNA 3′UTR regions; C.functions prediction of protein coding genes on mRNA 5′UTR/CDS regions

3 讨论

随着表观遗传学的发展和多组学研究方法的应用,新的测序技术不断被开发并广泛投入到生命科学领域研究工作中,人体各个系统中的生命过程和运作方式不断被揭示,生理或病理条件下的不同细胞中各种分子调控机制也不断展现。紫外交联免疫沉淀测序技术(eCLIP-seq)也为研究细胞内RNA内何时何地以何种速率被加工、转运和翻译等调节作用提供了更多的可行性。这些调节作用的发现对于正常的人体生理学的完善以及疾病的治疗至关重要[11]。

对人慢性髓原白血病细胞系K562中NAT10的eCLIP-seq建库测序及数据的生物信息学分析,完成了NAT10在人造血细胞中结合RNA图谱的初步描绘。

两重复相关性较高,IP样本相对input有较强特异性,NAT10在核糖体RNA 18S区域发生有效的特异性结合,与之前的研究中ac4C修饰的区域特征相符[12]。质量控制软件评估结果及上游处理过程中数据量变化统计显示,数据质量良好。NAT10识别的motif与之前报道的HIV病毒中NAT10 的PAR-CLIP数据分析结果一致[13]。

NAT10主要结合于蛋白质编码基因,可能是通过与DNA损伤修复相关基因的mRNA 3′UTR区域结合,实现基因表达调控作用。

通过NAT10结合的RNA图谱,有望进一步研究其结合发挥调控作用的机制,找到早期红系发育的关键调控因素,揭示NAT10的结合及可能介导的乙酰化修饰在正常和恶性造血中的贡献。利用其失调寻找血液系统恶性肿瘤的治疗靶点,开辟新的病理生理学方向和提出治疗方案,将会对进一步认识人类造血发育及优化红系相关疾病的诊断与治疗方案具有十分重要的意义。

猜你喜欢

磁珠测序软件
杰 Sir 带你认识宏基因二代测序(mNGS)
禅宗软件
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
软件对对碰
磁珠固定化凝血酶的制备及其在槐米中活性化合物筛选中的应用
鸢尾黄斑病毒免疫磁珠RT-PCR检测方法的建立及应用
应用磁珠法检测并提取尿液游离甲基化DNA
基因捕获测序诊断血癌
单细胞测序技术研究进展
谈软件的破解与保护