基于加权基因共表达网络分析筛选结肠癌关键长链非编码RNA及其竞争性内源RNA网络构建△
2023-03-05李倩卢金磊王会新崔馨桐王建乔侯晓雯冯旭
李倩,卢金磊,王会新,崔馨桐,王建乔,侯晓雯,冯旭
沈阳医学院公共卫生学院,沈阳 110034
结肠癌是西欧、北美等发达国家最常见的恶性肿瘤,也是中国最常见的恶性肿瘤之一[1]。由于缺乏早期症状,且临床常用的肿瘤标志物缺乏对早期结肠癌的诊断效能,大部分患者确诊时已处于中晚期,预后较差[2]。近些年研究发现,长链非编码RNA(long non-coding RNA,lncRNA)在肿瘤的发生、发展、预后及转归中发挥着重要作用,与结肠癌发生发展相关的lncRNA报道也逐渐增多[3]。加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)被广泛用于生物基因研究中,通过聚类的方式更加快捷地找到关键基因,同时发现关键基因可能的功能,极大提高了研究速度及准确性[4-6]。本研究通过来自癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库和GEO数据库的数据,构建结肠癌lncRNA的共表达网络,筛选得到的lncRNA能够为进一步研究结肠癌的潜在发病机制提供参考,现报道如下。
1 材料与方法
1.1 数据下载及处理
从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE126092芯片中的数据,包括10对结肠癌组织及癌旁组织。从TCGA数据库(https//portal.gdc.cancer.gov/)下载结肠癌转录组数据,其中包括结肠癌组织482例和正常结肠组织42例。分析工具主要为R软件(R×64 4.02版本)及各类R包、Cytoscape(3.8.0版本)以及各类在线数据分析网站。
1.2 结肠癌相关lncRNA的筛选
通过R软件中的limma程序包,对GEO数据进行背景校正、标准化处理以及差异表达分析,筛选标准为:|logFC|≥1.5,校正后P<0.05。差异分析的结果用R软件中pheatmap程序包绘制的火山图进行可视化分析。
对TCGA数据库下载的结肠癌组织和正常结肠组织表达谱数据进行WGCNA分析,首先进行离群值的筛选,随后进行软阈值的确定,使用R软件自带的层次聚类函数hclust进行聚类分析,使用不同的颜色标记聚类分析中的模块。模块与样本信息进行相关性分析,从中选择与结肠癌相关性最高的模块,获取该模块基因进行后续分析。
对GEO数据中的差异表达lncRNA和WGCNA性状相关模块中的lncRNA取交集,获取关键lncRNA,进行后续分析。
1.3 竞争性内源RNA(competing endogenous RNA,ceRNA)调控网络的构建
对上述获得的lncRNA进行ceRNA网络的构建,使用Starbase(http://starbase.sysu.edu.cn/)预测lncRNA的靶向miRNA,使用miRDB数据库(http://mirdb.org/)和Targetscan数据库(http://www.targetscan.org/)预测miRNA的靶基因mRNA。基于上述筛选出的lncRNA、miRNA、mRNA,采用Cytoscape(3.8.0版本)构建并绘制ceRNA调控网络。
1.4 构建蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络
使用String数据库构建PPI网络。输入基因集为 mRNA;种属选择为 Homo sapiens;combined score≥0.7。使用Cytoscape(3.8.0版本)软件可视化PPI数据。
1.5 基因功能分析
使用DAVID在线数据库(https://david.ncifcrf.gov/)进行mRNA的基因本位(Gene Ontology,GO)功能分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。
2 结果
2.1 结肠癌相关lncRNA的筛选
2.1.1 GEO 中差异表达lncRNA的筛选GEO数据库GSE126092芯片中共筛选出322个差异表达的lncRNA,包含113个上调基因和209个下调基因。(图1)
图1 GEO数据库GSE126092芯片中差异表达的lncRNA火山图
2.1.2 WGCNA 分析结果 经样本聚类分析后删除15个离群样本。为使得邻接函数满足无尺度网络的条件,选取β=3进行后续分析,此时共表达网络接近为无尺度网络。根据β=3进行切割设置得到基因聚类树,每个模块最少基因数目设置为30,得到7个lncRNA模块(图2A)。对模块与样本特征进行相关性分析,最终确定绿色模块(cor=0.85,P<0.05)为与结肠癌相关性最高的模块(图2B)。对GEO中差异表达的lncRNA和绿色模块中的lncRNA取交集,最终获得6个结肠癌的关键lncRNA,分别为锌指NFX1结构1反义RNA1(zinc finger NFX1-type containing 1 antisense RNA 1,ZFAS1),β1,3-半乳糖基转移酶5反义RNA1(beta-1,3-galactosyltransferase5antisenseRNA 1,B3GALT5-AS1),细胞色素P450家族1亚家族B成员1反义RNA1(cytochrome P450 family 1 subfamily B member 1 antisense RNA 1,CYP1B1-AS1),二肽基肽酶样10反义RNA1(dipeptidyl peptidase like 10 antisense RNA 1,DPP10-AS1),VPS9包含域1反义RNA1(VPS9 domain containing 1 antisense RNA 1,VPS9D1-AS1)和细胞周期蛋白依赖性激酶抑制因子2B反义RNA1(cyclin dependent kinase inhibitor 2B antisense RNA 1,CDKN2B-AS1)。
图2 WGCNA 分析结果
2.2 构建ceRNA调控网络
预测出与6个关键lncRNA可能相互作用的24个miRNA,以及24个miRNA可能的靶基因mRNA共346个,构建了lncRNA介导的ceRNA网络图。(图3)
图3 构建结肠癌的lncRNA-miRNA-mRNAceRNA网络图
2.3 PPI网络构建
构建PPI网络图鉴定ceRNA网络中mRNA蛋白质间的相互作用关系,发现一些联合评分比较高的mRNA,分别为:雌激素受体1(estrogen receptor 1,ESR1)、小窝蛋白1(caveolin1,CAV1)、间质-上皮细胞转化因子(mesenchymal-epithelial transition factor,MET)、钙黏蛋白相关蛋白β1(cadherinassociated protein beta 1,CTNNB1)、磷脂酰肌醇转移蛋白 3(phosphatidylinositol transfer protein 3,PITPNM3)和趋化因子 18(chemokine ligand 18,CCL18)。(图4)
图4 PPI网络图
2.4 基因功能分析
对346个mRNA进行GO功能分析和KEGG富集分析。GO功能分析结果显示,生物功能主要集中在DNA模板转录调控、RNA聚合酶Ⅱ基因启动子的转录调控和RNA聚合酶Ⅱ启动子转录负向调控等;细胞功能主要集中在细胞核、突触、神经细胞体、突触后密集区和微管相关复合体;分子功能主要集中在核酸结合、金属离子结合、DNA结合等。KEGG富集分析结果显示,基因主要富集在癌症蛋白聚糖、磷脂酰肌醇-3-羟激酶(phosphatidylinositol 3-hydroxy kinase,PI3K)-蛋白激酶 B(protein kinase B,PKB,又称AKT)信号通路、Rap1信号通路和局部粘连等。(图5、图6)
图5 GO功能分析
图6 KEGG富集分析
3 讨论
结肠癌发生与社会环境、高脂肪饮食、遗传等密切相关,具有发病率高、转移率高、治愈率低等特点[7]。因此,非常有必要在分子水平上开发新的生物标志物和潜在靶点以预防和治疗结肠癌。WGCNA可以通过系统绘制个体生物网络互作图精准找出与研究相关的核心基因,极大提高了研究速度及准确性[4,8]。因此,本研究通过构建结肠癌WGCNA共表达网络,寻找与结肠癌具有密切关联性的lncRNA。
本研究从GEO数据库中共筛选出322个差异基因,从TCGA数据库中共获得1688个lncRNA的表达矩阵,进行WGCNA构建后,绿色模块为与结肠癌相关性最高的模块,对GEO数据中差异表达的lncRNA和TCGA绿色模块中的lncRNA取交集后最终获得6个结肠癌的关键lncRNA。构建的ceRNA网络提示其在结肠癌中的可能作用机制,但仍需进一步实验验证。
已有研究表明这6种lncRNA在肿瘤的发生发展中发挥重要作用。ZFAS1定位于人类染色体20q13,研究发现ZFAS1与结肠癌的分化程度、T分期及N分期有关,高表达ZFAS1是结肠癌预后不良的危险因素[9-10]。冯伟[11]发现,胃癌患者血清B3GALT5-AS1表达上调,可能作为潜在的胃癌辅助诊断及预后监测的生物标志物。另有研究发现,DPP10-AS1、VPS9D1-AS1和CDKN2B-AS1均具有促进肺癌细胞增殖的作用,可促进肺癌恶性进展[12-14]。虽然现有研究表明B3GALT5-AS1、CYP1B1-AS1、DPP10-AS1、VPS9D1-AS1和 CDKN2B-AS1与肿瘤的发生发展有关,但并未有研究表明它们与结肠癌相关,因此如将其作为一种诊断指标,仍需进一步研究以提供更可靠的依据。
综上所述,本研究利用GEO数据库和TCGA数据库以及WGCNA方法筛选出与结肠癌可能相关的6个lncRNA,分别为ZFAS1、B3GALT5-AS1、CYP1B1-AS1、DPP10-AS1、VPS9D1-AS1和 CDKN2B-AS1,并且构建了相关的ceRNA调控网络,为进一步探索结肠癌的机制研究提供了依据。