利用转录组学数据研究健康人骨髓红系细胞基因表达的差异
2022-02-13黄秀娜邝振展张志英
黄秀娜,邝振展,张 蓉,张志英,程 琰
转录组学研究可以从整体水平了解研究对象的基因结构和基因功能,揭示特定生物学过程及疾病发生过程中的分子机制[1-5]。转录组高通量测序技术目前已经成功应用于多种细胞的研究,如人原发性骨髓间充质干细胞和人原发性真皮成纤维细胞经转录组高通量测序分析,得到二者间不同的分子特征和差异表达的关键转录因子,为骨髓间充质干细胞和真皮成纤维细胞的鉴别提供依据[6];弓形虫感染的肿瘤细胞经转录组测序技术发现,与结直肠癌、非小细胞肺癌及乳腺癌信号通路相关基因均发生了变化,提示这种变化与肿瘤的发生发展密切相关[7]。骨髓红系细胞成熟分化是一个持续的多阶段过程,包括造血干细胞依次定向分化为红系祖细胞、原红细胞、早幼红细胞、中幼红细胞和晚幼红细胞等多个过程,在某些致病因素作用下,红系造血细胞有可能失去分化为成熟红细胞的能力,造成细胞发育停滞从而引发疾病[8-9]。目前,深入研究骨髓红系细胞成熟分化过程已成为国内外研究热点。本研究利用转录组学技术分析骨髓红系细胞分化成熟过程中基因表达情况,探讨其变化规律,丰富骨髓红系细胞转录组数据库信息,为后续功能基因验证及分子标志物筛选提供依据,也为骨髓红系细胞分化成熟时基因表达调控机制研究建立一定基础。
1 资料与方法
1.1一般资料 健康人骨髓红系细胞转录组测序原始数据来自于TCGA数据库,数据由MAIGA等[10]上传。本研究共导出14个样本的转录组测序原始数据,将7个原红细胞样本(CD34+CD71+GlyA-)设置为对照组,编号为NC 1~7;7个幼红细胞样本(CD34-CD71-GlyA+)设置为实验组,编号为Mature 1~7。
1.2测序数据的质量控制 从TCGA得到的原始数据,去除含有接头的读长(Reads)、低质量的Reads(包括去除N比例>10%的Reads及去除质量值Q≤10的碱基数占整条Reads 50%以上的Reads)后获得高质量的Reads(Clean Reads),将Clean Reads与参考基因组进行比对,获得在参考基因组或基因上位置信息和测序样品特有序列特征信息。
1.3基因结构优化分析 使用GATK软件识别潜在的SNP位点和InDel;采用ASprofile软件获取每个样品存在的可变剪接类型及相应表达量;利用转录组数据对注释不精确的参考基因组进行基因结构优化分析;基于所选参考基因组序列,使用StringTie软件对Mapped Reads进行de novo拼接,并与原有的基因组注释信息进行比较,寻找原来未被注释的转录区,发掘该物种的新转录本和新基因,从而补充和完善原有的基因组注释信息。
1.4统计学方法 应用SPSS软件分析数据。使用相关性分析中的皮尔逊相关系数r作为生物学重复相关性的评估指标,当r越接近1,表明重复样本相关性越强;使用FPKM作为衡量基因表达水平的指标,FPKM=cDNA片段数量/比对片段总数(106)×转录本长度(kb);使用分层聚类检验分析实验组和对照组间基因表达模式的相似程度;使用Benjamini-Hochberg检验筛选差异表达基因,把差异倍数≥2且检验统计值FDR<0.01作为差异表达基因筛选标准。使用R语言的GOseq 软件包对差异表达基因进行GO富集层次分析,使用KS检验作为GO富集Term统计方法,KS值越小说明富集越显著。使用COG Pipeline软件对差异表达基因进行COG功能富集分析。使用KOBAS软件对差异表达基因进行KEGG通路富集分析,采用富集因子表示差异表达基因在KEGG通路中的富集水平,富集因子越大说明富集水平越显著。
2 结果
2.1骨髓红系细胞转录组测序数据统计 经过质量控制,共得到65.12 Gb的高质量测序数据(Clean data),其中Clean Reads与参考基因组的比对效率为78.98%~82.48%,高质量碱基总数均>3 400 000 000,GC含量为40%~50%,Q30>89.86%,质量控制结果表明本研究14个样本的转录组测序数据能够满足生物信息分析的需求。见表1。
表1 14个样本转录组测序数据统计
2.2样本重复相关性评估 不同个体的基因表达存在生物学可变性,而转录组测序技术不能消除这种可变性,为了检测转录组测序数据的可靠性,可行相关性评估。图1显示样本间的相关性结果和分层聚类分析结果,图中方框颜色从紫色到绿色代表样本间相关性r值从低到强,树枝代表聚类支,聚在一起的为相似样本。结果显示,2组间r值均>0.9,并且层次聚类分析显示2组间具有相似的表达模式,表明重复样本具有很强的相关性。
图1 各样本之间的表达量相关热图
2.3差异表达基因的COG分析 COG数据库功能是对基因产物进行直系同源分类。本研究中有1993个差异表达基因具有详细的COG分类功能注释,总共涉及细胞结构、细胞增殖、细胞代谢及生物合成等23个COG功能分类。一般功能注释是最大的功能分类,含有797个差异表达基因,所占比例为28.33%;其次复制、重组、修复分类含有298个差异表达基因,所占比例为10.59%(图2)。此外,骨髓红系细胞成熟过程中的差异表达基因还涉及了信号传导机制,转录,翻译,核糖体结构与生物合成,次生代谢产物的生物合成、运输和分解代谢等功能分类。
图2 差异表达基因的COG功能分类
2.4差异表达基因的GO分析 有5161个差异表达基因具有功能注释,在生物学过程、细胞组成和分子功能这3个大的功能类别方面均发挥作用,包含了11 696个功能亚类。对富集程度最为显著的GO功能进行分析,发现在生物学过程方面,差异表达基因主要参与信号传导调控,同时与转录过程、物质代谢途径和蛋白质合成均有关联;在细胞组成方面,差异表达基因主要参与组成细胞核、细胞膜、细胞器及细胞骨架;在分子功能方面,差异表达基因主要发挥蛋白间结合、蛋白酶活性及催化作用,这与差异表达基因参与转录和调控信号通路等生物学过程有关。见表2。
表2 差异表达基因的GO功能注释
2.5差异表达基因KEGG功能注释 基因间的相互作用对于生物体行使生物学功能有着非常重要的作用,为了鉴定在代谢或信号通路中显著富集的基因,将差异表达基因映射到KEGG数据库,结果显示总共有2001个差异表达基因被注释到286条KEGG Pathway中,其中差异表达基因注释序列富集最显著的10个基因分别是DNA复制、丙氨酸代谢、造血细胞谱系、凋亡、T细胞受体信号通路、FoxO信号通路、TNF信号通路、溶酶体、NF-κB信号通路、细胞因子受体相互作用。见表3。
表3 差异表达基因KEGG功能注释
2.6骨髓红系细胞成熟相关差异表达基因分析 对转录组测序数据进行差异表达基因分析,共筛选出5280个差异表达基因,其中上调基因2953个、下调基因2327个;有5273个基因注释到Swiss-Pro数据库上,|log2FC|>10的基因有58个,其中上调的有57个、下调的有1个,上调较大的基因包括SDC2、LGALS2、MAFB、HMOX1等,下调较大的基因包括ST6GAL2、CD34、FREM1、PKLR等。见表4。
表4 骨髓红系细胞成熟相关差异表达基因
3 讨论
伴随着转录组测序技术的不断发展,科学家获得了多种细胞和组织的转录组数据,如线粒体功能缺陷患者组织[11]及帕金森病患者的血液细胞[12],对许多疾病研究提供了丰富的分子理论依据。本文为获得完整的骨髓红系细胞的转录组数据,查阅了TCGA数据库,发现MAIGA博士等上传的健康人骨髓细胞转录组测序数据可能对本研究有所帮助。MAIGA博士对急性髓系白血病细胞、健康人骨髓细胞和源于脐血的CD34阳性细胞的转录组数据进行比对分析,发现一些在急性髓系白血病细胞中差异表达的G耦联受体蛋白相关基因,譬如CCR1、CD97、P2RY2、LPHN1、F2R等[10],但对健康人骨髓细胞间的转录组数据缺乏进一步分析。基于此,本研究把骨髓细胞中原红细胞和幼红细胞样本的原始转录组测序数据进行了重新整理和分析,共获得65.12 Gb的Clean data,各样本Clean data均达到3.45 Gb,Q30均≥89%,2组间r值均>0.9,表明本次测序数据量大,针对性高,重复样本相关性强,保证了后续差异表达基因筛选结果的可靠性。
COG、GO及KEGG多种数据库注释结果显示,差异表达基因主要功能有信号传导机制调控、DNA复制、RNA转录、核糖体及蛋白质合成、物质代谢等,共同参与了骨髓红系细胞的增殖、分化、成熟等生理过程。例如差异表达基因富集的FoxO信号通路参与了红系细胞凋亡、细胞周期调控、抗氧化应激和葡萄糖代谢等多种生理活动,与红系细胞的分化成熟具有密切联系。
本文筛选的差异表达基因主要有MAFB、HMOX1、PKLR、CD34等。MAFB主要参与骨髓多能成体祖细胞向红系细胞分化的负性调控,其在骨髓原红细胞中表达下调可以增强原红细胞的分化成熟能力[13],但具体调控机制仍需进一步研究。HMOX1是血红素代谢的限速酶基因,可分解血红素生成胆绿素、运输一氧化碳和铁,具有抗炎、抗氧化、抗凋亡和抗增生功能,在大部分组织中低表达,当细胞受到伤害性刺激时会过表达,该基因缺失会导致贫血、组织性铁沉积、白血病等多种血液系统疾病[14]。骨髓幼红细胞中HMOX1表达上调可能是红细胞逐渐成熟、功能逐渐完善的标志。PKLR是红细胞糖酵解的关键调节酶,其缺乏会使得红细胞能量缺乏而过早地从循环中清除,导致遗传性非球形细胞溶血性贫血[15-16],也有报道指出PKLR过度活跃可导致红细胞代谢异常[17],骨髓幼红细胞PKLR表达降低推测与维持红细胞正常代谢相关。骨髓幼红细胞中CD34基因表达降低,该基因可作为骨髓红细胞成熟的标志物,且与CCR1相互作用共同参与细胞免疫炎症反应[18]。另外,本文筛选的差异表达基因还有IGLL5、CCR1、CCL20、MYCT1、CALN1等,它们参与了红细胞能量代谢、免疫黏附及细胞形态维持等多种生理活动[19-21],在红细胞正常生理活动中发挥着重要的作用,然而这些筛选的差异表达基因具体的生理功能和胞内调控机制还有待进一步探索和研究。
综上,本研究通过转录组学分析,发现了一些与骨髓红系细胞成熟分化相关的基因,如MAFB、HMOX1、PKLR、CD34等,它们参与了体内红细胞能量代谢、免疫黏附、体内物质运输、糖酵解及细胞形态维持等多种生理活动,可作为骨髓红系细胞成熟分化的标志物。通过发现骨髓红系细胞分化成熟功能基因及对其在细胞中具体调控机制进行研究,有望为巨幼红细胞性贫血等红细胞疾病的治疗与诊断提供帮助。