APP下载

结直肠癌差异表达基因筛选及其与患者预后关系生物信息学分析

2022-05-21郭勇亮天津市北辰医院天津300400

首都食品与医药 2022年10期
关键词:差异基因直肠癌聚类

郭勇亮(天津市北辰医院,天津 300400)

2020年全球范围内的肿瘤流行病学研究显示,2018年全世界新增结直肠癌(CRC)病例超过180万例,死亡病例为88.1万[1]。目前,大多数研究证实,CRC是由结直肠腺瘤逐步发展演化而来,但其进展为癌的分子机制并未完全清晰。随着分子生物学和高通量技术的进步,更多的证据指向多基因集的时空表达失调在CRC发生中发挥重要机制[2]。本研究采用生物信息分析技术,探讨结直肠癌差异表达基因筛选及其与患者预后关系。

1 材料和方法

1.1 试验设计 本研究的设计思路为首先在结直肠癌与正常肠上皮差异表达的多个数据集中筛选出差异表达基因谱系,并对共差异表达基因进行鉴定;然后对共差异表达基因进行拓扑网络分析、GO+KEGG分析富集和hub基因筛选;对筛选出的hub基因分析其与CRC生存的关系,具体设计和实施见图1。

图1 研究分析的流程图

1.2 数据及材料 基因综合表达数据库(Gene Expression Omnibus,GEO)、京都基因与基因组百科全书(KEGG)、蛋白互相作用拓扑网络数据库(STRING)、肿瘤生存分析数据库(Kaplan-Meier),作为本次研究的主要数据来源。

1.3 方法 GEO数据库中检索CRC基因表达数据集,检索词为“colorectal cancer/colon cancer/rectal cancer”,种属为“homo”。进一步对检索到的结果进行筛选,选取了GSE32323[3]、GSE21510[4]和GSE9348[5]数据为研究对象三个数据集进行分析。根据数据集中CRC患者结直肠癌组织与正常肠上皮组织中基因表达谱情况进行筛选,筛选条件为CRC组和正常组中上调或下调超过2个拷贝的基因,且P<0.05;分别对上述数据集中筛查出的差异表达基因进行分析,鉴定出共差异基因,并绘制Venn图。在STRING数据库中对筛选出的共差异表达基因进行蛋白相互作用拓扑网络构建,构建条件为:数据来源Textmining,co-expression,gene function 和co-occurrence;相互作用关系系数≥0.4;相互作用蛋白不高于20个。在KEGG数据库中对筛选出的差异表达基因相关信号通路进行富集分析。采用Cytoscapev3.7.2软件对拓扑网络中的hub基因筛选关键hub基因,筛选依据为node-score。

1.4 统计学处理 本研究涉及的数据采用R软件及对应的统计包进行分析,计量资料应用±s表示,应用t检验;计数采用率表示,应用卡方检验,P<0.05表示有统计意义。

2 结果

2.1 CRC差异表达基因筛选 选取了GSE32323、GSE21510和GSE9348数据为研究对象,3个数据集基本特征见表1。3个数据集中共差异表达的基因为23个(见图2)。

表1 纳入分析的4个数据基本特征

图2 CRC差异表达基因筛选火山图和Venn图(A:GSE32323数据集;B:GSE9348数据集;C:GSE21510数据集;D:3个数据集Venn图)

2.2 差异表达基因GO及KEGG分析 23个差异表达基因GO分析主要富集于DNA聚合酶活性的正向调节、核苷酸切除修复;DNA缺口填充、染色体复制叉;DNA酶活性和ATP结合等(见表2);KEGG信号通路主要富集于消化系统肿瘤、JAK-STAT信号通路和趋化因子信号通路等(见表3)。

表2 差异表达基因GO富集

表3 KEGG信号通路富集

2.3 差异表达基因聚类热图分析 根据CRC与正常肝组织23个差异基因表达水平绘制聚类热图,CRC肿瘤组织与正常组织间聚类明显,见图3。

图3 CRC差异表达的23个基因聚类热图

2.4 PPI拓扑网络及hub基因 23个CRC与正常肠上皮组织差异表达基因绘制PPI拓扑网络,网络中有43个蛋白节点,75个作用关系,平均作用度为3.49,区域聚类指数为0.417。Cytoscapev3.7.2软件对拓扑网络中的hub基因进行筛选,RFC5为23个差异基因中的关键hub基因,见图4。

图4 37个差异表达基因PPI拓扑网络及hub基因

2.5 hub基因与CRC预后分析 RFC5(HR=0.60,P=0.019)和RFC1(HR=0.58,P=0.017)高表达组OS显著高于低表达组,其有统计学差异(P<0.05);而RFC5和RFC1高表达组PFS与低表达组比较,无统计学差异(P>0.05),见图5。

图5 三个hub基因差别与CRC预后关系的生存曲线

3 讨论

2015年中国新增结直肠癌患者约37.6万例,结直肠癌死亡患者约19.1万例,占恶性肿瘤发病率和死亡率的五分之一[6]。近年来虽然CRC的诊断方面取得了重大进展,但在CRC确诊时大多数患者已发展为中晚期,预后较差。目前,大多数研究证实,结直肠癌是由结直肠腺瘤逐步发展演化而来,但其进展为癌的分子机制并未完全清晰。随着分子生物学和高通量技术的进步,更多的证据指向多基因集的时空表达失调在CRC发生中发挥重要机制。高通量测序(如微阵列和RNA测序)的转录组分析被认为是癌症研究中很有前途的工具,可以识别候选预后和诊断生物标志物的通路和基因[7]。此外,这些生物标志物可能为改善CRC的预防和治疗带来突破性进展。近年来,对基因表达数据的生物信息学分析探索了CRC潜在的基因生物标志物,但有时生物信息学结果并不完全一致[8-9]。在此背景下,将多个分子生物检测结果进行汇总分析有望提高结论的可靠性。此外,在CRC中已经从微阵列数据集中识别出大量的DEG。然而,尚未完全了解DEGs在CRC进展相关的分子机制和信号网络中的作用。

在本研究中,对3个CRC数据集进行了综合分析,筛选出了共差异表达基因,并对共差异基因进行了功能富集、信号通路及与患者预后相关性研究。结果显示,GSE32323、GSE21510和GSE9348数据中共差异表达的基因为23个,RFC5为23个差异基因中的关键hub基因;RFC5(HR=0.60,P=0.019)和RFC1(HR=0.58,P=0.017)高表达组OS显著高于低表达组,其有统计学差异(P<0.05);而RFC5和RFC1高表达组PFS与低表达组比较,无统计学差异(P>0.05)。研究认为,RFC5和RFC1可能与CRC的发生有关,并可作为CRC预后良好的分子标志物。

RFC1和RFC5为RFC家族成员,RFC是一个五亚基的蛋白复合物,是DNA复制所必需的。这个异五聚体的亚基被命名为RFC1、RFC2、RFC3、RFC4和RFC5[10]。RFC与DNA的3'端结合同时利用ATP打开PCNA的环并包围DNA,为后续DNA复制提供条件。据报道,RFC在多种恶性肿瘤中具有生物学活性,可能在肿瘤的增殖、进展、侵袭和转移中发挥重要作用[10]。根据肿瘤的细胞和组织学特征,它可以作为癌基因或抑癌基因[11-14]。笔者发现,RFC1和RFC5高表达的CRC患者,OS存在明显优势,但DFS无差异。结果提示,RFC1和RFC5有可能成为CRC潜在的预后生物学标志物,同时也为CRC的靶向治疗提供的新的潜在靶点。

猜你喜欢

差异基因直肠癌聚类
一种傅里叶域海量数据高速谱聚类方法
MRI在直肠癌诊断中的价值及预后的应用研究
多晒太阳或可降低结直肠癌发病率
早期结直肠癌患者凝血指标异常及其临床意义
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于U-net的直肠癌肿瘤的智能分割
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
紫檀芪处理对酿酒酵母基因组表达变化的影响