APP下载

基于生物信息学的非小细胞肺癌相关基因筛选

2022-11-17史广林缪雨青钱佳燕冒昕欣施伟荣

吉林医学 2022年11期
关键词:信号转导芯片通路

史广林,缪雨青,钱佳燕,冒昕欣,施伟荣

(1.南通市第六人民医院呼吸内科,江苏 南通 226011;2.南通市第六人民医院胸外科,江苏 南通 226011)

肺癌是最常见的恶性肿瘤之一,无论在发达国家还是发展中国家,肺癌都是癌症死亡的主要原因[1-2]。肺癌分为小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC),大约85%的肺癌患者被归类为非小细胞肺癌并且诊断时通常处于晚期[3]。尽管肺癌在诊疗技术上有了很大的进展,肺癌的预后仍不满意,5年生存率小于15%[4]。肺癌的发生发展涉及多因素、多步骤、多基因的复杂生物学过程,除了环境因素作用,肺癌的基因学说也越来越受重视。在过去的几十年,对肺癌发生发展的分子生物学认识有了很大的提高,然而目前临床可用的基因数量有限,仅有EGFR、ALK、ROS1、BRAF、RET和C-MET等几个基因,而且主要集中于肺腺癌中[5]。在肿瘤发生发展过程中,有大量伴随基因参与癌基因扩增过程,但是绝大多数并不是关键基因。因此,从分子水平揭示肿瘤发病机制,寻找新的治疗靶点,成为肿瘤研究的热点。基因芯片技术是20世纪90年代以来影响最为深远的重大科技进展,成为生命科学领域的一项重要的技术平台,是筛选差异表达相关基因的有效手段[6]。基因组富集分析(GSEA)基于基因组系统水平在病例对照类型数据上来挖掘影响疾病的重要基因及其通路[7]。本研究采用GSEA等生物信息学方法对NSCLC全基因组表达芯片数据进行研究,挖掘出隐藏在芯片数据下的生物学信息,筛选出影响肺癌发生发展的关键基因,为对肺癌靶向治疗的研究奠定基础。

1 资料与方法

从NCBI共享数据库GEO检索NSCLC相关的基因芯片数据。最终选择登录号分别为GSE1987和GSE44077,芯片平台分别为GPL91、GPL6244。GSE1987芯片平台为GPL91,来自以色列特拉维夫大学包含从人类肺组织获得的36个样本,包括以下内容:7例腺癌标本;16例鳞状细胞癌标本;1腺鳞癌标本;肾转移2例;结肠转移1例;7例癌旁正常肺组织;2例正常肺RNA。对癌和癌旁基因进行差异表达筛选,选取上调2倍以上的基因,最终提取147个高表达基因。GSE44077芯片平台为GPL6244,来自美国德克萨斯大学安德森癌症中心,样本包含226例NSCLC的癌组织或癌旁正常组织。对癌和癌旁基因进行差异表达筛选,最终提取64个高表达基因。在TCGA数据库检索NSCLC数据库,对癌和癌旁基因进行差异表达筛选,最终提取510个高表达基因。其中差异基因筛选的条件为:P<0.05、>=2-fold change。

将分析得到的NSCLC分子标签基因上传至Funrich软件中,分析相关基因可能的分子功能、参与的信号通路、编码蛋白质之间的相互作用关系以及建立基于文献知识的基因转录子相关或物理相关的网络图谱等。使用DAVID进行GO和KEGG通路分析对差异基因进行功能注释,对其中与肿瘤信号通路如细胞增殖、凋亡、DNA损伤等密切相关的基因进一步分析。STRING分析差异表达基因的蛋白相互作用的网络关系。选取关键基因,GEO数据库分析关键基因在不同组织中的表达。利用CCLE数据库分析关键基因在不同肺癌细胞系中的表达。并利用人类蛋白质组图谱对关键基因的蛋白水平进行分析,并获得直观的免疫组化图像。使用Kaplan-Meier Plotter进行生存分析。通过以上数据库分析,基本可以确定该基因在肺癌的发生发展以及预后中的作用。本次研究经过本院医学伦理委员会同意。

2 结果

对GSE1987、GSE4077及TCGA三组数据使用Funrich V3软件进行联合分析,根据筛选标准选出7个共同上调表达的基因分别是:SPP1、SPINK1、母体胚胎亮氨酸拉链激酶(MELK)、谷胱甘肽过氧化物酶(GPX2)、CYP24A1、TFAP2、ETV4。

使用Funrich进行GO和KEGG通路分析对差异基因进行功能注释,发现这7个基因主要参与血管内皮生长因子(VEGF)、PI3K、mTOR、ErbB受体、TNF、信号转导、凋亡等信号通路,主要参与细胞凋亡、蛋白质代谢、信号转导、细胞生长等生物学过程。

STRING分析差异表达基因蛋白相互作用的网络关系,以MELK为中心的PPI网络,与其相关的蛋白有ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK,其信号通路及生物学过程主要富集在细胞信息传递及信号转导。见图1。

图1 STRING分析差异表达基因的蛋白相互作用的网络关系及以MELK为中心的PPI网络

MELK在TCGA数据库和CCLE数据库分析关键基因RNA在不同组织及肺癌不同细胞系中的表达。可以发现MELK在肺癌组织中有较高表达,在肺癌细胞系A549、HBEC3-KT、SCLC-KT中高表达。见图2。

图2 TCGA数据库中MELK在不同组织RNA表达及CCLE数据库中MELK在不同细胞系RNA表达

利用Kaplan-Meier Plotter对720例非小细胞肺癌患者MELK进行生存分析。本文发现MELK高表达组生存期较短、预后较差(HR 1.56,P=0.000 19)。

MELK在人类蛋白质图谱数据库对其在肺癌组织中的蛋白水平进行分析,并获得直观的免疫组化图像。见图3。

图3 MELK在人类蛋白质图谱中免疫组化不同表达水平

3 讨论

基因芯片技术是20世纪90年代以来影响最为深远的重大科技进展,成为生命科学领域的一项重要的技术平台,是筛选差异表达相关基因的有效手段[6]。基因芯片技术具有高通量和快速测量等优点,解决了传统核酸印迹杂交等技术复杂、自动化程度低、检测目的分子数量少、低通量等缺陷[8]。由于表达谱芯片在研究细胞基因表达模式上具有的优势,利用它可获取肿瘤细胞生长的各期以及肿瘤发生与发展过程中相关基因的表达模式变化,因此,基因表达谱芯片对肿瘤发生机制、早期诊断、肿瘤基因分型、药物筛选、指导治疗及评估预后等许多研究领域起到了巨大的推动作用[8-11]。随着表达谱芯片技术的广泛开展,产生了丰富的、海量的、复杂的生物信息数据。如何解读芯片上成千上万个基因点的杂交信息,揭示其中蕴含的生命特征和规律,已成为限制基因芯片技术应用和发展的主要“瓶颈”。因此,如何共享和利用这些数据成为基因表达谱研究的重要课题,也是生物信息学研究的重要内容。本研究运用生物信息学方法通过探索GEO NSCLC数据库中的GSE1987、GSE44077和TCGA,通过联合分析发现一组差异表达的基因重组人分泌型蛋白1(SPP1)、SPINK1、MELK、GPX2、CYP24A1、TFAP2、ETV4。GO和KEGG通路分析对差异基因进行功能注释,发现这7个基因主要参与VEGF、PI3K、mTOR、ErbB受体、TNF、信号转导、凋亡等信号通路,主要参与细胞凋亡、蛋白质代谢、信号转导、细胞生长等生物学过程。MELK基因是Snf1/AMPK激酶家族中一个独特成员,是一种保守的周期依赖性激酶[12]。MELK在脑星形细胞瘤、胶质母细胞瘤、乳腺癌、黑色素瘤及其他人类肿瘤中的表达增加[13-15],可能是它能促进肿瘤的发生。此外,MELK的高表达与患者预后不良相关。MELK在肿瘤干细胞中异常激活,使肿瘤细胞具有生长、侵袭和迁移能力[16-17]。本研究发现MELK与ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK等蛋白相互作用,主要功能富集在细胞信息传递及信号转导,与细胞周期基因如TOP2A、CCNB2共存,提示MELK与细胞增殖功能密切相关,有望成为药物治疗的靶点[18]。MELK在肺癌中研究较少,通过数据库分析发现MELK在肺癌组织中有较高表达,在肺癌细胞系A549、HBEC3-KT、SCLC-KT中高表达。Oncomin数据库检索,也进一步证实MELK在肺腺癌患者癌组织中表达与正常肺组织对比明显增高。人类蛋白质组图谱数据库中能够直观地观察到肺癌组织中MELK不同表达水平的免疫组化图片。

综上所述,本研究通过生物信息学方法筛选出7个在多个非小细胞肺癌数据库中均高表达的核心基因,它们与细胞凋亡、蛋白质代谢、信号转导、细胞生长等生物学过程密切相关。MELK在多种肿瘤中表达增加,数据库检索发现肺癌组织及细胞中均高表达,并且其高表达与患者预后不良相关,提示其子肿瘤的发生发展中发挥重要作用。病理分析及预后分析表明其有望成为NSCLC分级及预后的生物标志物。对其生物学作用的进一步研究有利于揭示NSCLC的具体发病机制以及提供新的潜在治疗靶点。

猜你喜欢

信号转导芯片通路
芯片会议
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
人体微芯片
关于射频前端芯片研发与管理模式的思考
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
益心解毒方对大鼠心肌细胞内活性氧水平及信号转导通路的影响
proBDNF-p75NTR通路抑制C6细胞增殖
HGF/c—Met信号转导通路在结直肠癌肝转移中的作用
通路快建林翰:对重模式应有再认识
从肺肠ERK信号转导通路的变化探讨“肺与大肠相表里”