APP下载

基于PPI网络预测和验证结直肠癌相关Hub基因

2019-10-14

中华医学图书情报杂志 2019年6期
关键词:子网术语关联

结直肠癌(Colorectal Cancer,CRC)是最常见的消化系统癌症及全球第三大诊断癌症,也是癌症死亡的第二大原因,占全球癌症发病率和死亡率的10%[1]。无转移的CRC患者可以通过手术治愈,但由于早期CRC没有明显症状,导致超过20%的病例在诊断时已出现转移,且有一半以上患者即使在完全切除原发性肿瘤后也会出现复发和转移[2-3]。基于CRC的诊断和治疗现状,越来越多的研究开始寻求CRC的遗传改变,通过发现CRC的内在基因改变,实现CRC的早期诊断及靶向治疗,从而有效降低其死亡率[4]。

众所周知,CRC是一种异质性疾病,其Hub基因的异常表达与adw 发生、进展和转移密切相关[5]。然而,仅使用传统的生物标志物检测方法只能发现很小部分的CRC相关Hub基因,且耗费大量人力、物力和财力。此外,不同实验方法的结果并不统一且只有极少数量的重叠,因此极有必要寻求一种能有效和准确筛选Hub基因的新方法。

随着计算机科学和生物信息学的发展,基于网络的方法已经成为研究致病机制的有效工具[6],其中以PPI网络应用最为广泛。PPI网络被许多研究证明其与包括基因表达、细胞生长、增殖和凋亡在内的很多重要的生物学过程密切相关[7]。PPI异常是多种复杂疾病的基础,特别是与癌症的发生和发展有关[8-9]。PPI网络在癌症生物学中具有重要作用,已成为筛选癌症相关Hub基因的有效方法。目前已经有研究指出,基于PPI网络的方法可成功预测乳腺癌[10]、肝癌[11]以及胃癌[12]的Hub基因。

鉴于PPI网络在预测Hub基因中的重要性,目前许多研究利用其预测CRC相关基因。Yongfu Xiong[13]等使用TCGA中的CRC数据,运用PPI网络及基因表达数据,通过寻找差异表达基因(Differentially Expressed Genes,DEGs)及富集分析等方法预测CRC的Hub基因;Shasha Wu[14]等从GEO(Gene Expression Omnibus)数据库获得CRC相关基因及miRNA表达谱,采用GEO2R确定DEGs及差异表达的miRNA,通过PPI网络和miRNA网络预测CRC相关Hub基因及关键的miRNAs;Makondi[15]等从GEO数据库获得贝伐单抗抗性CRC数据,通过寻找DEGs、富集分析及PPI网络分析,确定贝伐单抗抗性CRC的靶向基因及通路。由此可见,当前研究存在着共同的局限性:数据来源多为TCGA和GEO数据库,选取的数据来自不同平台、小样本量,且前期使用的数据预处理方法均不一致,导致后期作为PPI网络分析基本数据的DEGs在不同的研究中具有高度的不一致性,造成研究结果差异较大。

综合考虑上述因素,本文为充分发挥 PPI 网络在预测癌症Hub基因中的优势,同时尽可能规避当前研究的局限性,在数据方面引入OpenTargets数据库,通过权威的基因敲除动物模型、遗传关联、种系突变、RNA 表达、体细胞突变等变量将基因-疾病连接起来,可以快速准确地获得CRC的所有相关基因。通过富集分析、PPI网络构建及网络分析,得到CRC相关Hub基因,并对得到的Hub基因进行验证,旨在为临床和实验研究提供一定的参考,以进一步验证其临床病理学相关性及预后价值。

1 研究框架

1.1 获取CRC相关基因

1.1.1 OpenTargets数据库

OpenTargets数据库[16]是公私合作开发的一个创新型、大规模的基因-疾病相关关系数据库,整合药物、蛋白质、通路等数10个公共数据库的信息,并与 GSK、EMBL-EBI、Sanger、Biogen、Takeda、Celgene等国际知名的生物医学公司建立长期的合作关系,为基因-疾病之间的相关关系提供通路(affected_pathway)、遗传关联(genetic _ association)、动物模型(animal_model)、体细胞突变(somatic_mutation)、药物(known_drug)、文献(literature)等多种人类遗传学和基因组学方面的变量。每个变量均来源于1个或多个数据库,OpenTargets根据其来源和特定算法为所有变量提供一个介于0与1之间的相关分数,表示基因-疾病之间相关性的大小。该数据库旨在通过目前已知的基因-疾病关系找到引发疾病的致病基因,从而发现疾病治疗的最佳靶标,并将其作为药物研发前期药物靶点确定的关键证据。

1.1.2 获取CRC相关基因

从OpenTargets数据库下载基因—疾病关联的 JSON 文件(2018 Apr version),共获得2 336 807条基因-疾病关联。OpenTargets中基因-疾病关联分为直接关联和间接关联两种,为保证关联的准确性,删除所有间接的基因-疾病关联[17],剩余的直接基因-疾病关联为941 939对.在直接关联中筛选出所有的基因-结直肠癌相关关系,其中包括CRC及mCRC(Metastatic colorectal cancer),共获得1 396个与其相关基因.将其作为本研究的基因集,以进行下一步研究(数据处理均由Python编码实现)。

1.2 富集分析

使用MetaScape[18]对从OpenTargets获取的1396个基因进行富集分析。分别在KEGG通路(KEGG Pathway)、GO术语(GO Terms)、Reactome基因集(Reactome Gene Sets)、Canonical 通路(Canonical Pathways )和 CORUM 5个本体中对输入的基因集进行基因途径和生物过程的富集分析。将p value<0.01、Count≥3、富集分数> 1.5作为纳入标准(富集分数是观察计数与偶然预期计数之间的比率),共得到包含上述5个方面的术语2 000个,其中Top20如表1及图1所示。

表1 Top20 通路、生物过程及其分布

注:Count——用户提供的基因列表中在当前本体术语中的基因数;百分比/%——用户提供的基因列表中在该术语中出现的基因数占该术语全部基因数的百分比;Log10(P)——以基数10为底的p值的对数;Log10(q)——以基数10为底的q值的对数,其中q为多次测试得到的校正后p值

图1 Top20 通路、生物过程p值分布

1.3 富集术语网络分析

为进一步确定富集术语之间的关系,计算Kappa分数作为术语之间相似性的度量,构建了富集术语相似性网络,如图2所示。通过术语之间相似性(Kappa>0.3)将节点相连构成网络,每个节点代表一个富集术语。其中图2(a)节点的颜色表示节点所属集群,可见同属于相同集群的术语彼此之间距离较近,关系更紧密;图2(b)节点颜色由深到浅表示其显著程度(P值),可知包含基因数量越多的术语其P值越显著。

图2富集术语相似性网络

为探究本研究数据集中基因最为聚集的富集术语,引入Cytoscape中的MCODE(Molecular Complex Detection)插件。该方法基于通过局部邻域密度的顶点加权和局部密集种子蛋白的向外遍历,根据给定参数隔离密集区域,具有优于其他图聚类方法的定向模式。该定向模式允许对感兴趣的聚类进行微调而不考虑网络其余部分的连接情况[19]。本文采用MCODE检测网络中的密集连接区域(子网),其中node score cut-off=0.3,K-core=4,共得到9个子网(图3),并给出每个子网的种子节点,即最具代表性的富集术语(表2)。

由表2可知,目前得到的9个种子富集术语都与癌症的发生和发展有一定的关联。如PI3K通路[20]通常在人类癌症中失调,并通过促进异常细胞生长和转化来驱动肿瘤发生。调节PIK3激酶信号(regulation of phosphatidylinositol 3-kinase signaling)对于肿瘤的治疗有至关重要的作用。最新研究[21]提出了一种新的与突变无关的癌症治疗方法,即通过靶向生物发生来抑制致癌基因RAS和MYC,达到治疗乳腺癌的目的,表明复合物生物发生(Complex I biogenesis)将有可能成为一种新的癌症治疗手段。Filippova Maria等[22]证明,细胞对氧化应激的反应(cellular response to oxidative stress)可以显著影响宫颈癌细胞对于化疗制剂的敏感程度,从而影响化疗效果。凋亡信号通路是众所周知的与癌症发生和发展有关的信号通路,其中BCL-2拮抗剂可以作用于内源性凋亡信号通路,从而阻止癌症细胞的转化,但外源性凋亡信号通路(extrinsic apoptotic signaling pathway)[23]一直没有找到合适的药物,促凋亡受体激动剂在临床试验中效果并不理想,因此,外源性凋亡信号通路可能会成为未来癌症治疗的一个突破点。

图3 富集术语相似性网络子网

1.4 PPI网络构建及Hub基因挖掘

由术语富集网络子网分析可知,本文获取的基因集在癌症相关通路上富集较多,与癌症的发生和发展有一定的关系。为进一步获得CRC的Hub基因,将全部基因输入STRING数据库[24],获得基因间相互作用的PPI网络。将置信分数(confidence)设为0.9,得到包含302个节点、2 143条边的PPI网络。

有研究表明,PPI网络具有高度连通区域(子网)的一小部分有更高的概率参与到生物调节中,而那些轻度连接的节点不会在整个网络的完整性中发挥关键作用[25]。此外,基因沉默实验进一步证实,模块内Hub与疾病状态显著相关[26]。因此,从PPI子网获得的Hub基因比没有网络信息筛选的单个基因更有意义[27]。基于此研究的前提,本文使用MCODE对上述PPI网络进行模块划分(node score cut-off=0.2,K-core=2),共得到3个子网,如图4所示,其中节点颜色由浅到深表示MCODE分数由低到高。从3个子网分别选取MCODE分数最高的基因,分别为CXCL8、ERBB2和CYCS,将此作为该模块的Hub基因。

Hub基因相关的网络信息见表3。

图4 MCODE功能模块(子网)

基因名称(Genes)MCODE分数(MCODE_Score)节点度(Degree)中介中心性(BetweennessCentrality)接近中心性(ClosenessCentrality)CXCL814.4073710.038055510.49401709ERBB213.6579540.021769330.49317406CYCS10.8590310.01545710.45727848

2 结果与分析

本文选取两种方法对获得的3个Hub基因进行验证。文献法:在PubMed数据库查找该基因与结直肠癌相关的文献研究;GEPIA数据[28]:该数据库以TCGA数据库中的数据为基础,采用R、Perl等多种语言对数据进行分析,提供肿瘤差异表达谱分析、病例分型及生存分析等,结果如下。

白细胞介素-8(IL-8)又称为趋化因子CXCL8,是巨噬细胞和上皮细胞等分泌的细胞因子,具有很强的促血管生成作用。研究表明,CXCL8与CRC血管生成和进展有关[29]。当CRC患者CXCL8高表达时,可以增强CRC细胞对失巢凋亡的抗性,可能是CRC的潜在治疗靶标。在TCGA数据库中已有的CRC研究显示,CXCL8在肿瘤和正常组织中的表达存在差异,当CXCL8高表达时CRC患者的生存时间较长(图5)。

图5 CRC中CXCL8差异表达谱及生存曲线

ERBB2基因能编码受体酪氨酸激酶表皮生长因子(EGF),但由于该基因没有配体结合结构域,不能直接与EGF结合,而是与其他配体一起与EGF受体家族成员结合,形成紧密结合的异二聚体,稳定配体结合并增强激酶介导的下游信号传导通路的激活。目前已经报道了该基因在乳腺癌和卵巢癌中的扩增或过表达。ERBB2扩增是结肠癌中新兴的生物标志物,与抗HER2联合治疗的敏感性密切相关,预测ERBB2拷贝数的变化对转移性结直肠癌中HER2靶向治疗至关重要[30]。另外,ERBB2在CRC和正常组织中存在差异表达且与CRC患者的生存率相关(图6)。

图6 CRC中ERBB2差异表达谱及生存曲线

CYCS基因编码小的血红素蛋白,作为线粒体中电子传递链的中心组分,编码的蛋白质与线粒体的内膜结合,接受来自细胞色素b的电子并将它们转移到细胞色素氧化酶复合物中,参与细胞凋亡的启动,并且可以介导细胞凋亡,以在体外和体内抑制癌细胞的生长[31],CYCS在肿瘤细胞中高表达能提高肿瘤患者的生存率(图7)。

综上,CXCL8、ERBB2及CYCS均与癌症的发生和发展有一定的联系,在癌症组织和正常组织中存在差异表达且与CRC患者的生存情况有关;采用PPI网络可预测CRC相关Hub基因的可行性,同时可节省大量的人力、物力及财力,为实验验证提供参考。

图7 CRC中CYCS差异表达谱及生存曲线

3 讨论

本文引入了OpenTargets数据库。该数据库通过整合数十种权威数据库的信息,从通路、动物实验模型、体细胞突变等众多在癌症中起到至关重要的因素计算基因-疾病之间的关系。由于其很多变量为癌症相关基因所特有,故可在一定程度上保证结果的准确性。此外,从该数据库获取本文的数据集能解决当前研究选取的数据来自于不同平台、小样本量,且前期使用的数据预处理方法不一致等问题,不会出现DEGs在不同的研究中高度不一致性的现象。在找到Hub基因后,则可进一步验证其表达差异。

此外,本文在进行富集分析时选用MetaScape软件,可以解决解释复杂化的问题。在当前大多数富集分析中,描述符和本体的冗余通常会使输出的解释复杂化。Metascape分析通过计算所有富集项对中的Kappa相似性,将术语首先分层地聚类到树中,然后将子树转换为类似术语的聚类,将大多数冗余术语吸收到代表性集群中,从而可以消除富集分析引起的混杂数据解释问题。

本文单独采取了OpenTargets数据库作为基因集来源,目前看来结果良好。为进一步提高算法的准确性,后续研究可能会考虑加入当前权威研究中的DEGs,进一步与本文数据集取交集运算,从而更好地实现Hub基因的预测。

4 结语

本文从OpenTargets数据库获得CRC相关基因集,采用富集分析、PPI网络构建、PPI子网分析、差异表达分析及功能分析一系列手段,预测CRC相关Hub基因,验证结果表明本文得到的3个Hub基因(CXCL8、ERBB2、CYCS)均与CRC有一定的关联,且在CRC组织和正常组织中差异表达,并与CRC患者的总体生存时间相关,表明采用PPI网络能预测CRC相关Hub基因的可行性和准确性,可以为Hub基因的验证提供一种新的方法,为实验和临床研究前期提供一定的参考。

猜你喜欢

子网术语关联
考虑荷电状态的交直流微电网多模式协调控制策略
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
子网划分问题研究及应用
航天器多子网时间同步系统设计与验证
奇趣搭配
智趣
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
VLSM技术应用——以贺州学院行政办公楼网络为例