APP下载

三阴性乳腺癌关键基因FOS和SPP1的生物信息学分析①

2021-08-23谭玉靓湖南中医药大学医学院长沙410208

中国免疫学杂志 2021年12期
关键词:关键芯片通路

谭玉靓 唐 标 (湖南中医药大学医学院,长沙410208)

乳腺癌是全球女性发病率最高的恶性肿瘤,对女性健康具有极大的威胁,我国每年死于乳腺癌的人数超过120 万,占全球乳腺癌死亡病例的9.6%,对国民经济造成了严重的负担[1-2]。三阴性乳腺癌(triple negative breast cancer,TNBC)是一种特殊的乳腺癌亚型,占浸润性乳腺癌的10%~20%,以雌激素受体(estrogen receptor,ER)、孕激素受体(proges‑tin receptor,PR)和人表皮生长因子受体(human epidermal growth factor 2,HER-2)表达均为阴性为特点[3]。相比其他类型的乳腺癌,TNBC 的侵袭性更高,易早期复发,预后较差[4]。TNBC 的病理过程非常复杂,且其对现有分子靶向治疗反应较差,因此探讨TNBC 的分子机制,寻找新的生物标志对于疾病的早期诊断和治疗非常重要[5-6]。目前,利用生物信息学对疾病进行分析成为探讨疾病机制的重要手段[7]。基于生物信息学理论,能从基因、通路以及蛋白质等多种层面全面了解疾病的发病机制,为疾病的诊断和治疗提供方向[8]。本研究通过GEO数据库获得与TNBC 相关的差异表达基因(differentially expressed genes,DEGs),对 DEGs 进行富集分析和网络分析,得到TNBC 的致病关键基因,并进一步对关键基因进行生存分析。旨在通过生物信息学方法,分析TNBC 发病的分子机制,寻找TNBC 的关键基因,为TNBC的诊治与评估提供参考信息。

1 材料与方法

1.1 材料 GEO 数据库(https:/ /www. ncbi. nlm.nih. gov/gds/)用于获取TNBC 芯片信息;GEO2R(https:/ /www. ncbi. nlm. nih. gov/geo/geo2r/)用于分 析 芯 片 ,确 定 DEGs;David 在 线 分 析 平 台[9](https:/ /david. ncifcrf. gov/)用于进行基因本体(gene ontology,GO)功能富集分析;KOBAS v3.0 在线分 析平 台[10](http:/ /kobas. cbi. pku. edu. cn/ko‑bas3)用于进行京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)通路富集分 析 ;String[11](https:/ /string-db. org/cgi/input. pl)和Cytoscape[12](https:/ /cytoscape.org/)用于构建蛋白质相互作用(protein-protein interaction,PPI)网络,筛选关键基因;GEPIA 在线平台[13](http:/ /ge‑pia. cancer-pku. cn/index. html)用于分析关键基因的差异表达;Kaplan-Meier Plotter 在线分析工具(http:/ /kmplot.com/private/)用于对关键基因进行预后分析;Omicshare 在线分析平台(https:/ /www.omicshare.com)用于绘制可视化图形。

1.2 方法

1.2.1 获取TNBC 芯片 通过GEO 数据库的条件检索:输入“triple negative breast cancer”,将筛选条件限定为“Homo Sapiens”,确定适合本研究的芯片。芯片选用标准为:①测序来源于临床TNBC 患者的细胞,排除单纯实验细胞或动物来源;②目标芯片包含对照;③仅为mRNA 芯片;④芯片平台包括基因类型和基因ID信息。

1.2.2 确定DEGs 利用GEO2R 分析1.2.1 所获得的芯片,下载该芯片的所有分析数据、matrix 矩阵文件以及对应的平台信息,以便后续操作。根据筛选条件:P<0.01 且|log2FC|>0.8,确定与 TNBC 发病相关的DEGs。然后,将matrix 矩阵文件中的芯片信息,上传至Omicshare 在线分析平台,将其转化为热图,分析该芯片基因的表达差异性。

1.2.3 GO 功能富集分析 在David 在线分析平台的Function Annotion 模块,输入DEGs 的基因类型,进行GO分析,对这些DEGs介导的生物过程(biolog‑ical process,BP)、分子功能(molecular function,MF)和细胞组分(cellular component,CC)进行相应的注释。基于筛选条件:P<0.05 且错误发现率(false discovery rate,FDR)>2,获得差异性显著的GO条目。

GO 是基因本体论联合会建立的一个数据库,能对多种物种的基因和蛋白功能进行限定和描述,对一个基因的功能进行多方面的注释(包括MF、BP和CC)。且随着研究不断深入,GO 能及时更新语义词汇标准,满足用户需求。

1.2.4 KEGG 通路富集分析 利用KOBAS v3.0 在线分析平台,对筛选获得的DEGs进行KEGG通路富集分析。将P<0.05 且FDR>2 作为筛选的阈值,获得差异基因介导的主要通路。

1.2.5 构建PPI网络 在String 数据库输入所获得的DEGs,构建PPI 网络,并下载tsv 格式的文本。利用Cytoscape 分析在String 数据库获得的PPI 信息,利用Cytohubba 软件,根据中心性高低筛选得到关键致病基因。

1.2.6 关键基因的表达分析 为分析关键基因在正常组织与癌变组织中的表达情况,在GEPIA 在线平台依次输入5 个关键基因进行分析。GEPIA 将对目标样本的| log2FC | 以及P值进行计算,绘制关键基因在正常组织和癌变组织差异表达的箱型图。为进一步探索关键基因在TNBC 不同病理阶段的表达情况,以病理分期为变量计算关键基因的差异表达。GEPIA 将对此进行单因素方差分析(one-way ANOVA),绘制关键基因在不同病理阶段表达的小提琴图。

GEPIA 数据库基于UCSC Xena 计划,能根据用户需求,针对检索基因进行差异表达分析、生存分析和降维分析,并绘制可视化图形。

1.2.7 关键基因的生存分析 在Kaplan Meierplotter 网页的“breast cancer”版块,选择 ER、PR 和HER-2均为阴性的样本,输入5个关键致病基因,进行生存分析。Kaplan Meier-plotter 能通过乘积极限法,将各时点生存概率累积,根据用户的需求绘制目标基因的生存曲线图。

2 结果

2.1 基因芯片与差异表达基因信息 根据1.2.1的芯片选入标准,筛选出符合要求的mRNA 微矩阵数据集合,即 GSE133608 芯片[10]。GSE133608 属于GPL10558 平台,取自 TNBC 患者的 MDA-MB-231 细胞系,样本数量为8。根据筛选条件获得差异表达基因共61 个(其中基因SPP1 和NECTIN3 在不同探针下都具有显著差异性),如表1所示。将芯片信息上传至OmicShare进行聚类分析,得到如图1所示的热图。其横轴为基因ID,纵轴为样本的组别名称,红色表明基因高表达,绿色表明基因低表达,颜色不同表明基因表达量不同。热图显示,TNBC 不同基因之间的表达量存在差异。

表1 MDA-MB-231乳腺癌细胞差异表达基因的具体信息Tab.1 Details of differentially expressed genes in MDAMB-231 cell

图1 GSE133608芯片的热图Fig.1 Heatmap of GSE133608 chip

2.2 差异表达基因的GO 功能富集分析 根据筛选条件:P<0.05 且 FDR>2,得到 11 条具有显著性的GO 条目,如表 2 所示。其中,3 条 MF 条目,2 条 CC条目,6 条BP 条目。GO 功能富集分析结果显示,DEGs 主要在神经元连接处和细胞外间隙发挥功能,介导的分子功能主要是蛋白质相互作用以及异源二聚体活动,参与的生物过程主要有正向调控血管内皮生长因子、胚胎植入、细胞迁移、G1/S期转换以及细胞应答。

表2 MDA-MB-231细胞差异表达基因的GO功能富集分析Tab.2 GO analysis of differentially expressed genes in MDA-MB-231 cell

2.3 差异表达基因的KEGG 通路富集分析 通过KOBAS v3.0 在线分析平台对61 个DEGs 进行KEGG 通路富集分析,得到107 条相关的通路。基于P<0.05筛选得到显著性突出的45条通路,如表3所示。利用Omicshare 工具,处理KEGG 通路富集分析结果,得到KEGG 通路富集分析差异性排名前20的可视化图,如图2 所示。结果表明,DEGs 介导的通路主要富集在:卵巢类固醇生成、催乳素生成、PI3K/Akt信号通路、癌症通路、P53信号通路、PPAR信号通路、Toll 样受体信号通路、TNF 信号通路、NF-kappa B信号通路以及NOD样受体信号通路等。

表3 MDA-MB-231 细胞差异表达基因的KEGG 通路富集分析Tab.3 KEGG analysis of DEGs in MDA-MB-231 cell

图2 排名前20的KEGG通路富集分析结果可视图Fig.2 Visibility figure of top 20 KEGG pathway enrich⁃ment analysis

2.4 核心基因网络分析 利用在线工具STRING v10 构建 DEGs 的 PPI 网络,如图 3 所示。选用 Cyto‑scape 的 cytoHubba 软件分析 PPI信息,确定 PPI网络中的关键节点,得到5 个关键基因,分别是IL1B、CXCL8、FOS、PTGS2以及SPP1。

图3 TNBC相关DEGs的蛋白质相互作用网络Fig.3 PPI network of DEGs in TNBC

2.5 关键基因的表达分析 利用GEPIA 数据库,对5个关键基因进行分析,得到关键基因的箱型图。其中FOS 和SPP1 基因的箱型图具有显著统计学意义,如图4 所示。结果显示,在肿瘤组织中,FOS 表达下调,SPP1 表达上调。进一步分析,得到FOS 和SPP1 基因在TNBC 不同病理阶段的表达情况,如图5 所示。结果表明,FOS 在TNBC 的不同病理阶段的表达具有差异,而SPP1无明显差异。

图4 FOS和SPP1在正常组织和肿瘤组织中的基因表达情况Fig.4 Expression level in normal and tumor tissue of FOS and SPP1

图5 关键基因在不同病理阶段的表达情况Fig.5 Expression level in various stages of key genes

2.6 关键基因的预后分析 利用Kaplan-Meier Plotter 在线分析工具,依次键入5 个关键基因,得到相应的生存曲线图。其中,FOS 基因和SPP1 基因的生存曲线图具有临床意义,如图6 所示。结果显示,SPP1 高表达的患者生存率低于SPP1 低表达患者;对于生存率相同的患者,SPP1 低表达患者的生存时间延长。相反地,生存曲线图提示,FOS基因对TNBC患者具有保护作用,FOS高表达能在一定程度上延长患者的生存时间。

图6 关键基因生存曲线图Fig.6 Effects of key genes on TNBC patients survival

3 讨论

TNBC 作为乳腺癌最易复发的亚型,其发生发展是一个多因素、多基因以及多通路的病理过程。大量研究表明,炎症浸润、细胞周期、肿瘤血管生成甚至饮食等,都会在不同程度上影响TNBC 的发生和预后[14-17]。

本研究通过GEO 数据库,获得了TNBC 细胞系MDA-MB-231 的基因芯片信息,经筛选得到61 个DEGs。然后,对DEGs 进行GO 功能富集分析和KEGG 通路富集分析。为分析这些基因之间的相互作用,构建PPI 网络,并分析得到与TNBC 病理过程密切相关的致病基因。进一步考察关键基因在TN‑BC 不同病理阶段的差异表达,以及与TNBC 患者生存率的关系。

GO 功能富集分析结果显示,DEGs 介导的生物过程主要富集在正向调控VEGFs 的生成、细胞迁移、G1/S期转换以及炎症应答。VEGFs生成又是肿瘤血管生成的必要条件,对肿瘤细胞的生长、增殖和迁移具有重要作用[14]。相关研究表明,促进VEG‑Fs生成可加快肿瘤的恶变进程,而抑制VEGFs 生成可阻碍肿瘤的发生发展[18]。靶向药物贝伐珠单抗和索拉菲尼类似物SC-60 都能在一定程度上抑制VEGFs 的生成,提高TNBC 患者的病理缓解率,从而减慢TNBC 的进展[18-20]。恶性肿瘤细胞增殖失控与细胞周期紊乱密切相关,其中DNA 合成前期(G1期)至DNA 合成期(S 期)的转换尤为关键[16]。有研究表明,香豆雌酚能诱导MDA-MB-231 细胞停滞于G1/S 期,降低细胞活力,发挥抗癌作用[21]。以上结果表明,正向调控VEGFs 的生成和G1/S 期转换可能在TNBC的发生发展中,发挥重要作用。

KEGG 通路富集分析结果显示,DEGs 介导的通路主要有:PI3K/Akt 信号通路、P53 信号通路、炎症相关因子信号通路、多种活性物质的合成(催乳素、卵巢类固醇以及脂肪酸等)和细胞凋亡。p53 是各类癌症中最常见的突变基因,在TNBC 中突变率较高,且可作为治疗靶点[22]。有临床研究表明,p53(+)TNBC患者比p53(−)TNBC患者对化疗更敏感,化疗后生存风险明显降低[23]。乳腺细胞既是催乳素(PRL)的作用靶点,也是PRL 的分泌细胞,而PRL与 TNBC 的发生发展相关[24]。在体外 TNBC 异体移植动物模型中发现,PRL能促进癌细胞分化,导致乳腺癌干细胞样细胞(breast cancer stem-like cells,BCSC)耗竭,进而限制肿瘤发生,发挥抗肿瘤作用[25]。炎症相关因子是预测乳腺癌复发、进展和生存的一种生物标志物[26]。利用 qPCR 和 ELISA 在体外细胞实验中检测到炎症相关基因(CXCL1、IL-6、IL-8)及其相应蛋白在TNBC 细胞中的表达上调,而抑制炎症蛋白的表达,能有效抑制TNBC 细胞的增殖[27]。与其他乳腺癌亚型一样,TNBC 细胞中存在PI3K/Akt 信号通路异常[28]。PI3K/Akt 信号轴与TNBC 多项生物活动失调相关,包括细胞增殖、细胞代谢和基因组不稳定性等,而抑制PI3K/Akt信号通路,能抑制TNBC 的发生发展[29]。国内有学者发现,汉防己甲素通过抑制PI3K/Ak/t mTOR 信号通路,能减少MDA-MB-231 细胞的增殖,并诱导MDA-MB-231 细胞发生自噬,达到抗肿瘤作用[30]。以上研究表明,PI3K/Akt信号通路、P53信号通路和炎症相关因子通路可能是介导TNBC病理的重要通路。

本研究结果显示,IL1B、CXCL8、FOS、PTGS2 以及SPP1是TNBC 的关键基因。其中,FOS 和SPP1在TNBC 患者中与TNBC 的预后密切相关,可能介导了肿瘤进展的核心环节。FOS是细胞核磷酸化蛋白和JUN/AP-1 转录因子以非共价键紧密连接形成的复合物,在调节细胞发育方面具有重要作用[31]。FOS的活动状态与TNBC 密切相关,抑制FOS 的表达可抑制TNBC 癌细胞的增殖、侵袭和转移。在体外实验中,RSK2 或ELK3 敲除通过调节FOS 启动子的活性,抑制MDA-MB-231细胞增殖,从而抑制软琼脂中癌灶的形成和癌细胞集落的生长[32]。此外,在TNBC 异体移植小鼠模型中,四环素-A 通过下调黏附分子A(junctional adhesion molecule-A,JAM-A)的表达,促进c-FOS 磷酸化,降低TNBC 细胞存活率,从而改善 TNBC 患者的预后[33]。ZHANG 等[34]研究表明,在体外小鼠模型和MDA-MB-231细胞模型中,青藤碱能通过抑制c-Fos/NFATc1信号通路,有效减少MDA-MB-231 细胞中蛋白质的表达,改善乳腺癌骨转移导致的骨破坏和骨溶解。SPP1 是与羟基磷灰石紧密结合的磷酸化糖蛋白,又称人骨桥蛋白(osteopontin,OPN),能发挥细胞黏附、信号转导等生物功能[35]。当 SPP1 基因在 TNBC 癌细胞中过表达时,可促进乳腺癌细胞的转移和侵袭,加快TNBC 的恶性进程[30]。但是,当敲除 SPP1 基因时,乳腺癌细胞的侵袭性大大降低,骨转移被抑制,患者的预后得到改善[36]。以上结果表明,FOS 和 SPP1 可能在TNBC 的进展中发挥重要作用,可作为TNBC 患者预后评估的生物标志。

综上所述,本研究利用生物信息学理论和技术,筛选出了与TNBC 发病相关的DEGs,这些DEGs参与正向调控VEGFs 和G1/S 期转换等生物过程,参与介导PI3K/Akt、p53 以及炎症相关因子等多条信号通路。PPI 网络显示,DEGs 之间具有联系,共同介导DEGs 的发生发展。PPI 网络的关键节点FOS 和SPP1 与TNBC 患者预后密切相关,可能是TNBC 的核心环节,能为TNBC 的靶向治疗和预后评估提供理论依据。但本研究所采用的样本量仍不够大,且只研究了TNBC 的一个细胞系,故仍需进一步实验和临床验证。

猜你喜欢

关键芯片通路
高考考好是关键
芯片测试
多通道采样芯片ADS8556在光伏并网中的应用
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
获胜关键
Hippo/YAP和Wnt/β-catenin通路的对话
74HC164芯片的应用
生意无大小,关键是怎么做?