关于GSEA在全基因组表达谱芯片数据分析中的应用探讨
2020-05-08方燕郑晓雪
方燕 郑晓雪
【摘要】近年来,对多组学层进行综合分析的要求日益突出,从而产生了一些多组学富集工具。每种方法在通用性方面都有缺点和局限性。在此,基于GSEA程序包以帮助在多个组学层上计算基于基因集富集分析的组合途径富集,该软件包查询8个不同的路径数据库,并依赖基因集富集分析算法进行单组学富集分析。最后,将这些分数相结合,以创建可靠的复合多组学途径富集措施。
【关键词】基因集富集分析;数据分析;全基因组表达谱芯片
1基因集富集分析(GSEA)的相关概述
某种治疗的分子反应或深入了解临床表型时,基因集或途径富集技术是从高维分子组学数据推断机械生物学信息的首选工具。通过不同的统计技术,如过度代表性分析(ORA)或GSEA,能够识别特定的基因集或特定治疗或疾病引发的分子反应/信号途径。这些集合可能代表特定的分子功能,如基因本體论(GO)、生物学过程或实验衍生的基因集所定义。这些基因集可在数据库或分子特征数据库(MSigDB)中公开。目前,已经开发了100种算法来丰富基因集分析,每一个都有自身的优点和缺点。原则上,这些方法可以分为两类:一是纯基因集富集,其中算法只关注一个简单的特征列表;二是基于拓扑的富集,其中算法包括来自路径或网络数据库的附加信息,例如,哪些基因或蛋白质是直接连接以及它们是如何连接的相互影响。在其最新版本中,GSEA适用于11种不同生物体(包括人、小鼠或大鼠)的转录组、蛋白质组和代谢组数据的组合[1]。
2工作流—收集路径定义、特征提取和映射
在过去的几十年里,已经建立了几个路径数据库。其中一些是同行评审和人工策划的,另一些则遵循基于社区的方法来开发和确定路径。然而,这些数据库通常包含自己的格式,提供了路径定义,这使得一个分析工作流中包含多个数据库变得很麻烦。“graphite”和“R”软件包旨在弥合这一差距,因为其能够从8个公开可用的数据库中提供路径定义——数量为2。这些数据库中目前可用的人类路径定义列于括号中:KEGG(311)、Biocarta(247)、Reactome(2208)、NCI/自然路径交互数据库(212)、HumanCyc(48682)、Panther、smpdb(48668)和PharmGKB(66)。在GSEA工作流程的第一步中,应用Graphite软件包从多达8个公众中检索路径定义数据库。在数据库中,路径特征(节点)用不同的ID编码格式。例如,KEGG数据库使用Entrez基因ID作为转录物和蛋白质,而KEGG化合物则使用IDs用于代谢产物。相反,Reactome数据库通过Uniprot标识符存储转录和蛋白质,而ChEBI ID则用于代谢产物。进一步的代谢物ID格式是CAS编号和Pubchem ID。为了解决这个问题,特别是在一次分析中使用多个路径数据库时,为所有三个支持的omics层实现了一个ID映射。为了提高可用性,将这个全面的代谢物映射数据集封装在一个独立的AnnotationHub包中,称为代谢物idmapping(Canzler,2020)。在其当前版本中,该软件包包含超过110万种化合物,并从四个不同的数据库中收集和集成:Comptox仪表盘12、HMDB3和ChEBI4。
3基因集富集分析的应用
测定的的组学数据是计算基因集富集分数所必需的,为上一步从外部数据库中提取特定路径特征中定义的每个omics层加载这些数据。在计算富集分数之前,必须进行差异表达分析,以便所有的组学特征都具有相关的倍数变化和P值。预处理步骤必须在外部完成,不属于多个SEA的一部分包装[2]。第二步,GSEA通过在每个omics层上分别应用fgsea Rpackage来计算富集分数。最初形式的GSEA算法首次被描述为阐明2型糖尿病的机理基础,更新和最常用的版本是由Subramanian等人提出的。测量的组学特征用于差异表达测试,以得出褶皱变化和相关P值。这两个值都用于计算所谓的局部统计,即基于折叠变化方向和对数转换P值的排序基因列表。在接下来的步骤中,GSEA算法测试基因集是聚集在这些有序基因载体的顶部还是底部。这里使用的fgsea版本是一个高效但精确的实现了突出的GSEA算法。它的性能是通过实施累积的GSEA统计计算来实现的,允许在不同基因集大小之间重用样本。在多GSEA工作流程的第二部分之后,每个下载的路径都被分配了基于SEA的富集分数、P值和调整后的P值分开。
参考文献:
[1]刘虎,吴思浛,包楚阳,等.基因集富集分析探讨HER2基因对胃癌代谢的影响[J].安徽医科大学学报,2020,5(9):1339-1342.
[2]廖存,廖锡文,韦瑞丽,等.基于全基因组RNA测序数据和基因集富集分析方法对直肠癌发病机制的初步探讨[J].结直肠肛门外科,2019,25(4):422-426.