通过生物信息学筛选与结直肠癌转移相关的基因及在结直肠癌转移研究中的应用
2020-06-17高振远张甜甜王俊斌
吴 骁,高振远,苏 方,张甜甜,王俊斌
(蚌埠医学院第一附属医院肿瘤科,安徽 蚌埠 233000)
结直肠癌在我国的发病率仅次于肝癌和肺癌,并且超过50%的结直肠癌患者会出现复发和转移[1-2]。在临床上,治疗转移性结直肠癌存在一定的困难,以往采用氟尿嘧啶及其衍生物为基础的化疗药物对结直肠癌进行治疗。近些年来,随着肿瘤分子靶向治疗的不断发展,越来越多的肿瘤患者从靶向药物中获益。靶向药物的不良反应发生率低,在控制肿瘤方面有广阔前景。靶向药物的使用能够延长结直肠癌患者的生存期,提高患者的生活质量[3-4]。因此,发现与结直肠癌转移相关的基因,为今后寻找转移性结直肠治疗的新靶点提供理论依据。GEO数据库是美国生物技术信息中心(NCBI)的基因表达综合库,是全球最大的基因芯片数据库之一[5-6]。其中存储了科研机构提交的芯片数据,二代测序数据和高通量功能基因组等数据。随着分子生物学的不断发展,积累了大量的蛋白质互作网络(Protein-protein interaction network,PPIN)数据,且这些数据构建出了肿瘤等疾病的基因调控网络[7-8]。本研究旨在通过GEO数据库及PPI互作网络筛选与结直肠转移相关的核心基因,并评估其作为生物标志物的预测价值。
1 资料与方法
1.1资料来源从GEO数据库(http://www.ncbi.nlm. nih.gov/geo)下载GSE68468和 GSE81558数据集。两个数据集均符合以下两个条件:(1)均为全基因组RNA表达谱数据。(2)实验使用人类结直肠癌患者转移灶组织与原发灶组织。
1.2方法通过GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)分别对GSE68468和 GSE81558数据集进行分析,DEGs筛选的条件为P<0.05,|logFC|>1。 从两个数据集中选择相同的DEGs进行进一步分析。利用The Search Tool for the Retrieval of Interacting Genes database (STRING)在线分析及 Cytoscape 软件(3.6.0版本)对DEGs所编码的蛋白构建蛋白互作网络图,并通过Molecular Complex Detection (MCODE)筛选出核心基因。通过Cbioportal(http:// www.cbioportal.org)在线分析核心基因与总生存时间(overall survival, OS)之间的关系。
2 结 果
2.1芯片数据及差异基因的筛选GSE68468包含人结直肠癌原发灶组织278例,结直肠癌转移灶组织60例,转移部位为肺(17例)和肝(43例)。GSE81558包含人结直肠癌原发灶组织128例,结直肠癌转移灶组织54例。通过在线工具GEO2R对GSE68468和GSE81558进行芯片预处理,并筛选DEGs。从GSE68468数据集中筛选出304个DEGs,从GSE81558数据集中筛选出396个DEGs (图1A 和 图1B)。取交集后的DEGs为95个,其中上调基因76个,下调基因19个(图1C和图1D),DEGs如表 1所示。使用R-heatmap软件绘制上调和下调基因热图(图1E)。
图1 mRNA表达谱数据集中DEGs的火山图和维恩图
(A)GSE68468和(B)GSE81558数据集中DEGs在原发性结肠癌和转移性结肠癌样本中的火山图。通过P<0.05和|log2|>0.5筛选DEGs。x轴代表了原发性结肠癌和转移性结肠癌样品之间基因表达的倍数变化,y轴显示了差异的统计意义。颜色代表不同的基因:红色代表无明显差异表达的基因,绿色代表显着差异表达的基因。维恩图(C)和(D)分别说明两个数据集中下调和上调的基因数量。深红色的交点表示两个数据集之间共有的DEG。(E)红色表示基因表达相对上调,绿色表示基因表达相对下调,而白色表示基因表达无明显变化。 DEG,差异表达基因。
表1 通过数据集筛查转移性结肠癌中的差异基因
2.2编码蛋白相互作用网络分析使用STRING及 Cytoscape 软件对DEGs所编码的蛋白构建PPI网络图,如图2所示。进一步通过 MCODE筛选出相关度最高的26个蛋白,这些蛋白对应的基因即为核心基因。26个相互作用最重要基因是:KNG1,HRG,APOH,SERPINA3,ITIH3,ORM1,PLG,ALB,AHSG,AMBP,HPX,CP,GC,TTR,APOC3,CRP,SERPINA1,FGA,FGB,FGG,HP,APOB,TF,APOA1,F2和SERPINC1。 结果如图3所示。26个核心基因的P值和LogFC值如表 2 所示。
图2 PPI网络
图3 26个核心基因蛋白互作网络图
表2 26个核心基因的LogFC和P值
2.3使用cBioPortal对核心基因进行生存分析cBioPortal结果显示,在这些核心基因中,APOC3,APOH,PLG和TTR的高表达与OS呈负相关(P=0.024、0.025、0.001、0.001)。如图4所示。
图4 通过cBioPortal在线绘制核心基因的生存分析图
高表达APOC3,APOH,PLG,TTR的患者的OS明显短于低表达的患者(P= 0.024、0.025、0.001、0.001)。
3 讨 论
结直肠癌是一种复杂的疾病,在生物学行为和临床上由不同的亚型组成,并且具有很高的转移率[9-10]。目前缺乏与结直肠癌转移相关的分子机制的研究[11-13]。 因此,研究结直肠癌转移的分子机制,寻找新的肿瘤标志物对结直肠癌早期转移及预后评估有很重要的临床及科研研究价值。本研究分析了GSE68468和GSE81558的基因表达谱,筛选原发性肿瘤与转移性肿瘤之间存在95个DEGs。随后构建了DEGs的蛋白质-蛋白质相互作用网络,并对PPI网络的核心基因进行分析,筛选出26个与结直肠癌转移密切相关的基因。通过cBioPortal进一步验证APOC3,APOH,PLG和TTR的高表达与OS呈负相关。
载脂蛋白H(APOH)具有亲脂性,也被称为B2GPI。近年来,许多有关APOH的研究主要集中在抗凝和自身免疫性疾病方面[14]。先前的研究表明,脂多糖(LPS)是一种与APOH特异性相互作用的蛋白质。 APOH和LPS结合在一起并依赖TLR4信号通路激活巨噬细胞中的NF-κB[15]。NF-κB在转移性和耐药性结直肠癌细胞的侵袭活性中扮演重要作用[16-17]。另外,APOH可能在促进肝癌的发展中发挥作用[18]。该项生物信息学分析表明,APOH在转移性结直肠癌组织中呈高表达,表明其在结直肠癌的转移中扮演重要作用。 此外,APOH的高表达与OS呈负相关。因此,APOH可能是结直肠癌转移及预后的重要分子标志物。
载脂蛋白C-Ⅲ(APOC3)是一种糖蛋白(包含79个氨基酸),主要在肝脏中合成,并与包含脂蛋白B的脂蛋白相关[19]。高表达的APOC3与多种疾病(如代谢疾病)相关。例如糖尿病综合征、冠状动脉疾病和胰岛素抵抗等[20-21]。既往研究表明,APOC3刺激了NF-κb途径[22]。该研究表明,高表达的APOC3与结直肠癌的转移有关。APOC3可能是转移性结直肠癌的生物标志物。这一结论与先前的研究报道一致,APOC3是膀胱癌和大肠肝转移的生物标志物[23]。
在最近的研究中,运甲状腺素蛋白(TTR)通过调节肿瘤细胞、免疫细胞和内皮细胞来刺激肿瘤生长[24]。TTR在肝组织中高度表达。因此,TTR可能成为肝癌的治疗靶标[25]。此外,TTR与卵巢癌、膀胱癌和胰腺癌有紧密的关系[26-28]。本研究通过GEO数据库和cBioProtal发现TTR可能在结直肠癌的转移中起重要作用。
纤溶酶原(PLG)参与上皮-间充质转化途径中的增殖、凋亡、粘附,迁移和激活[29]。 肿瘤中PLG的表达要比非肿瘤组织中的高得多[30-31]。研究表明,PLG的过表达与患者的不良预后密切相关,但目前并无统计学意义[32-33]。本项生物信息学研究发现在转移性结直肠癌组织中,APOH呈高表达状态。PLG可能是转移性结直肠癌的生物标志物。但是,目前的结论尚需要体内和进一步的实验验证。
综上所述,我们的研究为转移性结直肠癌中的差异基因的表达提供了全面的生物信息学分析。通过数据整合,发现了与转移性结直肠癌患者临床生存密切相关的四种基因(APOH,APOC3,TTR,PLG)。后续工作中,我们将在结直肠癌患者样本中进行验证,并且通过细胞、分子和动物实验探究APOH,APOC3,TTR,PLG在结直肠癌远处转移过程中的功能和分子机制。