APP下载

生物信息学分析在非小细胞肺癌关键通路和基因鉴定中的应用

2022-02-15欧阳慧敏朱虎全郭建波曹嫦妤李欣然

关键词:细胞周期受体通路

欧阳慧敏,朱虎全,郭建波,孙 逊,付 强,曹嫦妤,李欣然

(佛山科学技术学院 生命科学与工程学院,广东 佛山 528225)

非小细胞肺癌(non-small cell lung cancer,NSCLC)是最常见的肺癌类型,大多患者在经历外科手术治疗后仍因复发或远处转移而死亡,近五年NSCLC 患者总体生存率极低急需找到一个新标记,因此,了解其增殖、凋亡及浸润的分子机制对于制定更有效的诊断和治疗策略极其重要。

用于分析基因表达的高通量平台,如基因芯片,越来越被认为是具有巨大临床应用前景的医学肿瘤学工具:从癌症的分子诊断到分子分型、从患者分层到预后评估、从新药物靶点发现到肿瘤反应预测[1-3]。在过去的十年中,许多关于NSCLC 致癌作用的基因表达谱研究都是使用基因芯片技术进行研究,这些研究显示了数百个不同途径、生物学过程或分子功能的差异表达基因(DEGs)。现今,基因芯片技术结合生物信息学分析使得可综合地分析在NSCLC 发生发展过程中mRNA的表达变化。然而,DEGs 间的相互作用,特别是相互作用网络中的途径,仍有待于阐明。在肺癌中,NSCLC 占大约85%[4],大多数NSCLC 患者在手术切除治疗后仍因局部复发和远处转移而死亡,5 年生存率不高[5]。因此,了解NSCLC的转移机制对于靶向治疗和预后至关重要,为了提高生存率和防治,有必要清楚NSCLC 发展的病因和机制。近年来,基因芯片技术迅速发展并广泛应用于揭示疾病进展过程中的遗传改变,从而确定肿瘤的诊断、治疗和预后的靶点。

笔者从高通量基因表达数据库(GEO)(http://www.ncbi.nlm.nih.gov/geo)下载了原始数据,该系统是存储库,可作为基因芯片数据存储和检索的枢纽。比较NSCLC 患者与健康样本的基因表达谱,以确定DEGs 和差异表达的microRNAs(DEMs)。随后利用GeneSpring 软件筛选了DEGs,并进行了基因本体论(GO)和关键基因组百科库(KEGG)通路富集分析。通过分析其生物学功能和途径,可以从分子水平进一步了解非小细胞肺癌的发展,并探索潜在的候选生物标志物用于诊断、预后和药物靶点。

1 材料与方法

1.1 基因芯片数据

从GEO 数据库中获得5 种基因表达谱(GSE75037、GSE74706、GSE33532、GSE43458、GSE27262)和GSE63805的miRNA 表达谱,物种选择人。GSE75037的阵列数据包括83 份NSCLC 组织样本和18 份健康样本,GSE74706 包括18 份NSCLC 组织样本和20 份健康样本,GSE33532 包括80 份NSCLC 组织样本和20 份健康样本,GSE43458 包括80 份NSCLC 组织样本和30 份健康样本,GSE37362 包含25 份NSCLC组织样本和25 份健康样本,GSE63805的miRNA 表达谱包含32 份NSCLC 组织样本和30 份健康样本。

1.2 数据处理

GEO 数据库记录了大量高通量功能基因组研究,这些研究包含使用各种方法处理和标准化的数据。应用GEO2R(http://www.ncbi.nlm.nih.gov/GEO/geo2r/)筛选NSCLC 与健康样本之间差异表达的miRNAs 和基因。GEO2R 使用来自生物导体项目的GEOquery 和limma R 包对原始提交者提供的经过处理的数据表进行比较。adjusted P values(adj.P)用于纠正假阳性结果的出现,默认情况下使用Benjamini 和Hochberg 错误发现率方法。The adj.P<0.01 和|logFC|>1 被设定为最低标准。

1.3 GO和KEGG途径富集分析

注释、可视化和集成发现数据库(DAVID,https://david.ncifcrf.gov/home.jsp)为研究者提供了一整套功能注释工具,帮助他们了解大量基因背后的生物学意义。应用DAVID 数据库对鉴定的DEGs 进行GO 和KEGG 途径富集分析。P<0.01 被设定为最低标准。

1.4 蛋白质相互作用网络的集成与模块分析

蛋白质之间的功能相互作用可以为细胞加工的分子机制提供背景信息。本研究利用蛋白互作分析工具STRING(http://string-db.org)和数据库检索工具构建了DEGs的PPI 网络,并利用细胞扫描技术(http://www.cytoscape.org/index.html)对其进行可视化研究。阈值>0.4 被设为最低标准。然后,利用分子复合检测技术(Molecular Complex Detection,MCODE)对PPI 网络的模块进行分析,筛选显著模块,条件设置为:degree cutoff=2,node score cutoff=0.2,K-Core=3 以及Depth from Seed=100。此外,还对模块中的DEGs 进行了KEGG 途径富集分析。P<0.01 被设定为差异极显著。

1.5 miRNA 靶标的预测

miRWalk2.0(http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/miRretsys-self.html)是一款可自由使用的综合档案馆,以各种新颖和独特的功能提供关于预测性的和实验证实的miRNA 靶标相互作用的集合,为miRNA 研究者提供有利帮助。miRWalk2.0 是一个产生于12 个已建立的miRNA 靶标预测程序(miRWalk、miRDB、PITA、MicroT4、miRMap、RNA22、miRanda、miRNAMap、RNAhybrid、miRBridge、PICTAR2 和Targetscan)的综合资源,通过miRanda、Pictar2 和Targetscan 项目预测的基因被鉴定为miRNAs 靶标。

2 结果

2.1 DEGs的鉴定

从GSE75037、GSE74706、GSE33532、GSE43458 和GSE27262 数据集中分别分离出3 413 个、5 001 个、2 793 个、893 个和2 255 个DEGs。在所有5 个数据集中筛选出462 个基因,如图1 所示,其中,460 个基因在5 个数据集中表现出相同的表达趋势,与健康肺组织相比较,在NSCLC 组织中包含116 个上调基因和344 个下调基因。

图1 mRNA 表达谱数据集中差异表达基因的鉴定

2.2 功能和通路富集分析

我们上传了所有DEGs 至软件DAVID 来识别表达基因的GO 类型和KEGG 通路。上调基因主要包含在生物过程相关的细胞周期和有丝分裂,而下调基因主要富集于循环系统。对于细胞成分,上调DEGs 富集于中间体、纺锤体、微管骨架、驱动蛋白配合物和细胞外基质,下调DEGs 富集于胞外区和细胞外基质。此外,GO 分子功能分析还显示出上调DEGs 明显富集于金属内肽酶活性、微管运动活性、内肽酶活性与运动性活动,下调DEGs 富集于糖胺聚糖结合、受体结合、钙离子结合、硫化合物结合、肝素结合,如表1 所示。而且,4 条KEGG 通路在细胞周期、p53 信号通路、孕酮介导的卵母细胞成熟和ECM-受体相互作用中过度表达,下调DEGs 富集于细胞粘附因子、疟疾、PPAR 信号通路、补体和凝血级联反应,如表2 所示。

表1 非小细胞肺癌相关差异表达基因的基因本体论分析

表2 非小细胞肺癌相关差异表达基因的KEGG 通路分析

续表

2.3 PPI 网络和模块选择

利用MCODE 从DEGs的PPI 网络中获得了一个显著的模块,包含29 个上调基因和28 个下调基因,如图2 和表3~6 所示。功能和KEGG 通路富集分析显示在此模块中的基因主要和细胞周期、孕酮介导的卵母细胞成熟、p53 信号通路、卵母细胞减数分裂、ECM-受体相互作用、PPAR 信号通路、补体和凝血级联反应、趋化因子信号通路相关联。

表3 模块一细胞周期、孕激素介导的卵母细胞成熟、P53 信号通路、卵母细胞减数分裂通路

图2 蛋白质相互作用网络

表4 模块二ECM-受体相互作用、PPAR 信号通路、补充和凝固级联通路

表5 模块三趋化因子信号通路

表6 模块四ECM-受体相互作用、PPAR 信号通路、补充和凝固级联通路

2.4 差异miRNA-mRNA 对

从GSE63805 数据集中筛选出25 种不同表达miRNAs,和健康样本相比较,在NSCLC 样本中包含14 个上调和11 个下调miRNAs(对照)。如表7 所示,miR-9 是最明显上调miRNA,而miR-451 是最明显下调miRNA。基于miRanda、Pictar2 和Targetscan 数据库,获得miRNAs 预测靶标。将靶标与DEGs相对比,我们发现KIT、MME、S1PR1、LDLR、RECK 和ECT2。LDLR 是6 个miRNAs的潜在靶点,包括:miR-96、miR-31、miR-135b、miR-9、miR-429 和miR-130b。

表7 在非小细胞肺癌中差异表达的microRNAs

续表

3 讨论

本研究共筛选出460 个DEGs,包括116 个上调基因和344 个下调基因,这些上调基因主要富集于细胞周期、P53 信号通路[6]和ECM-受体相互作用[7]中,并和癌症关系密切,而下调基因主要富集于细胞黏附分子[8]、PPAR 信号通路[9]、补体和凝血级联反应[10]。在这些DEGs 中,57 个基因在PPI 网络中有很高的度。功能和KEGG 通路富集分析揭示了基因在这个模块中主要和细胞周期、p53 信号通路、ECM-受体相互作用、PPAR 信号通路、补体和凝血级联反应相联系,并和癌症关系密切。

细胞周期是一个紧密结合的过程,常在肺癌中异常表达。Li[11]证明了miR-146a-5p 能通过抑制CCND1 和CCND2的表达来抑制NSCLC 细胞的细胞增殖和细胞周期进程。细胞周期蛋白依赖性激酶(CDK1)mRNA的过表达在NSCLC-N6 细胞的增殖抑制中发挥重要作用[12]。GINS 复合体与细胞分裂周期(CDC)蛋白45 和微小染色体维持蛋白2-7 相关,形成CDC45-Mcm-GINS(CMG)复合体,这对DNA复制至关重要[13]。CDC20 是一个NSCLC 切除患者的阴性预后标志,特别是那些组织学上有腺癌的患者[14]。有丝分裂纺锤体检查点激酶BLUB1的突变导致纺锤体的显性负性破坏,导致癌细胞染色体不稳定[15],Zhang 等[16]认为,从NSCLC 到小细胞肺癌(SCLC)的恶性程度增加可能是由BUB1 升高引起的,而BUB1的升高很可能为其驱动因素。在肺肿瘤中,CHEK1的高表达和总生存率不佳相关[17]。在定量RT-PCR 筛选中,淋巴结转移阴性和阳性淋巴结分层蛋白(SFN)的mRNA 表达有显著性差异[18]。

包括细胞周期蛋白B1(CCNB1)在内的亚网络主要富集于p53 信号通路,这可能在胰腺导管腺癌中起重要作用[19]。利用下一代测序技术构建并测序了cDNA 文库,发现CDK1 富集于p53 信号通路[20]。芹菜素通过上调死亡受体4(DR4)和死亡受体5(DR5)的水平,以p53 依赖性的方式致敏NSCLC 细胞至TRAIL 诱导的细胞凋亡[21]。p53 可能在NSCLC的发生中起重要作用,因此可以考虑作为NSCLC的治疗靶标[22]。Akt 和细胞外信号调节激酶(Erk)的生存通路以及肿瘤抑制因子p53 是肿瘤细胞生长和存活的关键调节因子[23]。

远处转移是造成绝大多数肺癌患者死亡的最主要原因。许多细胞外基质ECM 相关分子被提出和癌症细胞的迁移和侵袭相关。自我更新通路,如ECM-受体相互作用通路与肺癌干细胞显著相关[24]。NSCLC 肿瘤ECM 和健康组织的不同。软骨寡聚基质蛋白(COMP)通过CD36 受体信号通路诱导纤维状I 型胶原沉积,并参与细胞外基质重塑,有助于肝纤维化的病理生理过程[25]。Defilippis[26]报道CD36 是一种跨膜受体,协调调节多种致瘤表型,包括脂肪细胞分化、血管形成、细胞-ECM 相互作用和免疫应激,在多种无病基质中被显著抑制,并与高乳腺密度和肿瘤间质相关。SPP1 是一种分泌型ECM 蛋白,与多种细胞表面整合素结合,刺激细胞-细胞和细胞-ECM 黏附和通讯[27]。Leung[28]证实了SPP1 在体外和体内通过促进肝星状细胞(HSC)活化和ECM 沉积,特别是通过调控纤维状胶原-I的表达,是促纤维化形成的关键蛋白。虽然过氧化物酶体增殖物激活受体γ(PPARg)的大量研究集中在PPARg 调节葡萄糖和脂质代谢的机制上,但最近的报道表明,PPARg 具有致瘤或抗肿瘤的作用[29]。Lin[30]的研究表明,TGFbeta 诱导的p(38)/β-catenin/PPARgamma 信号通路在促进H460 细胞的EMT、侵袭和转移中起着重要作用。三苯氧胺可以降低CD36mRNA 表达、启动子活性以及CD36 启动子中PPARγ 反应元件与PPARγ 蛋白的结合[31]。补体缺失是一种很有前途的肿瘤免疫治疗模式,通过增强宿主对肿瘤的有效免疫反应,减少肿瘤微环境产生的免疫抑制效应,从而抑制肿瘤生长,可作为联合免疫治疗的一个组成部分[32]。

miRNA 是一种小的非编码RNA 分子,通过靶向3'UTR 来调节基因表达,从而引起翻译抑制或退化[33]。越来越多的证据表明,miRNAs的失调是多种癌症类型发病的原因,包括NSCLC[34-35]。在本研究中,我们确定了25 个DEMs,包括14 个上调和11 个下调的miRNAs 在NSCLC 中,其中,miR-9的上调最显著,而miR-451的下调最显著。之前也有报道类似的结果,miR-9 在NSCLC 组织中的表达水平显著高于健康组织,并被确定为NSCLC的生物标志物候选[36]。Tian[37]发现miR-451 增敏放射抗性的非小细胞肺癌A549 细胞通过增强细胞凋亡来上调对辐射的敏感性。Kanaoka[38]研究结果表明,血浆miR-451a 在NSCLC 复发患者中表达最高。miR-451a 与NSCLC 组织miR-451a 呈显著正相关。miR-451a 外体与淋巴结转移、血管侵犯和分期密切相关。miR-451a 表达水平低于NSCLC 患者总生存期缩短也有相关性。

总之,本研究目的是通过全面的生物信息学分析来确定DEGs,以发现潜在的生物标记物和预测疾病的进展。本研究共筛选出460 个DEG 和25 个DEM,其中CCNB1、CDK1、CDC45、CCNB2、BUB1、CD36 和miR-9、miR-451 等多个miRNA 可能是与NSCLC 关系密切的关键基因。研究结果表明,数据挖掘和集成是预测NSCLC 发生、发展的有用工具,有助于进一步了解肿瘤发生、发展的机制。为了将这些基因表达谱应用于临床实践,有必要提高独立数据集分析模型的可靠性和可重复性。本研究为NSCLC的诊断和治疗提供了新的思路。

猜你喜欢

细胞周期受体通路
α7-烟碱乙酰胆碱受体在肺癌发生、发展及治疗中的作用
Toll样受体在胎膜早破新生儿宫内感染中的临床意义
NSCLC survivin表达特点及其与细胞周期的关系研究
X线照射剂量率对A549肺癌细胞周期的影响
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
血管紧张素Ⅱ及其受体在疼痛中的研究进展
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
Hippo/YAP和Wnt/β-catenin通路的对话