APP下载

与肺腺癌发病相关的关键基因筛选及其功能分析

2023-10-12张印恩王键龙焦建宝

医学研究杂志 2023年9期
关键词:关键肺癌意义

张印恩 王键龙 陈 康 马 铮 焦建宝 张 铎

肺癌(lung cancer, LC)是世界上最常见的癌症之一,约80%的患者5年内死亡[1]。吸烟是LC的主要高危因素,非吸烟相关的肺腺癌(lung adenocarcinoma, LUAD)发展危险因素包括接触氡气、接触二手烟草烟雾、室内污染物和环境污染等[2]。LUAD是肺癌中非小细胞肺癌的一种类型, 占所有肺癌诊断的50%,其频率正在增加[3]。LUAD早期常无明显症状,因此不能被及时发现。临床上常常采用手术治疗、靶向治疗、免疫治疗、放疗等方法来治疗患者[4~6]。LUAD的发生涉及了多个因素、多个阶段、多个基因的改变,十分复杂[7]。

LUAD预后不良,早期发现LUAD可以显著地提高患者的生存率[8]。更好地理解LUAD发生的分子机制可为早期发现LUAD和开发有效的治疗策略铺平道路[9,10]。因此,寻找新的可以早期诊断LUAD的关键基因是十分有必要的。笔者利用TCGA数据库对LUAD组织与正常组织的差异基因进行筛选,并做出富集分析、生存分析等寻找新的与LUAD相关的关键基因且分析其在LUAD中的作用,为临床早期诊断LUAD提供参考。

材料与方法

1.数据的提取:从TCGA数据库中下载所有关于LUAD的mRNA转录组Count数据。整理Count数据形成一个列名为基因名,行名为样本名的矩阵文件。其中列名与行名的交点为该基因在该样本中的表达情况。样本一共有594例,LUAD样本535例,其余为正常组织样本。从TCGA数据库中下载所有关于LUAD的临床数据并整理,处理成一个包含样本名、生存时间(单位为天)、生存状态(“0”代表患者生存,“1”代表患者死亡)、年龄、性别、Stage分期、TNM分期的表格,以便后期用来做生存分析。

2.差异表达分析:将上述矩阵文件经过处理,分离出mRNA与LncRNA。之后对mRNA数据进行正常组织与LUAD的差异表达分析。将分离出的mRNA数据导入R语言,利用limma工具包读取并处理文件,通过计算所有数据的倍数变化(fold change, FC) 值以及伪发现率(false discovery rate, FDR),并且筛选出FC值< 1,且P<0.05的mRNA(为了选取在正常组织中特异性上调表达的基因,扩大差异分子数目),形成一个包含基因名、log2FC、log2CPM、Pvalue、FDR值的文件。其中上调基因3713个(log2FC>0),下调基因1813个(log2FC<0)。之后对所有的 mRNA 转录组数据进行散点图绘制。其中散点图的横轴为-lgFDR,纵轴为log2FC。

3.KEGG与GO富集分析:筛选log2FC排名前200的基因(上调基因与下调基因各100个),利用sublime、R语言、GSEA软件进行GO富集分析与KEGG富集分析。

4.筛选FDR排名前200的差异基因:蛋白质是由mRNA为模板翻译而来,因此研究mRNA对应的蛋白质非常有意义。对FDR值排序,选取排名前200的mRNA差异基因,通过String数据库进行分析,分析时隐藏没有连线的节点以便图像更为简洁清晰,之后构建蛋白互作网络图。将下载的Sting数据采用软件“Cytoscape 3.6.1” 对蛋白互作网络进行分析作图。利用R语言,将网络节点进行降序排列,选取前30个关键基因进行分析。

5.基因表达水平及生存分析:将关键基因的表达次数降序排列,寻找关键基因,找出其表达水平的中位数,以此为界,将关键基因分为高、低两个表达组,并用R软件、Strawberry perl、sublime进行生存分析。

6.关键基因在不同Stage分期中表达量的差异分析:将下载的临床数据按Stage分期进行分组,利用ggplot2和ggpubr软件包将生存分析中差异有统计学意义的5个关键基因进行不同Stage分期的基因表达量差异分析,得到关键基因在临床早期和随疾病分期进展的差异表达情况。

7.统计学方法与图形绘制:应用 SPSS 25.0 统计学软件对数据进行统计分析。通过R语言软件3.6.3和limma软件包处理数据得到差异表达基因。采用Kaplan-Meier法绘制生存曲线,关键基因的高表达组和低表达组的比较采用Log-rankχ2检验。用ggplot2和ggpubr软件包将生存分析中差异有统计学意义的关键基因进行差异表达分析,用Kruskal-Wallis检验进行多组检验,Wilcoxon检验进行两两配对检验,以P<0.05为差异有统计学意义。

结 果

1.差异基因筛选结果:根据筛选条件,筛选出上调基因3713个,下调基因1813个,共5526个(图1)。

图1 差异基因表达散点图

2.GO及KEGG富集分析结果:GO富集分析结果:GO分析结果表明,其生物过程主要在多细胞生物过程等功能富集(图2)。KEGG富集分析结果表明,其生物过程主要在神经活性配体-受体相互作用等方面发挥作用(图3)。

图2 GO富集分析图

图3 KEGG富集分析图

3.蛋白互作网络:由String数据库分析得出的网络图如图4。利用R 语言将网络节点进行降序排列,选取排在前30的关键基因CDH5、PECAM1、VWF、CAV1、TEK、CLDN5、HBB、RAMP2、TIE1、WNT3A、ADRB2、ALAS2、ANGPT4、CALCRL、CLEC14A、GIMAP8、GRK5、HBA1、HBA2、HEG1、LDB2、LMO2、PTPRB、RAMP3、TAL1、TNS1、ACVRL1、ADAMTS8、ARC和CCM2L。

图4 蛋白互作网络图

4.关键基因生存分析:R语言将网络节点进行降序排列后,对排名前30的基因使用Strawberry perl、sublime、R语言软件进行生存分析。分析显示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表达组生存率与低表达组比较,差异有统计学意义(P<0.05)。其中ADRB2和GIMAP8与生存期的关联较强,后3组不明显;其他25个基因高表达组生存率与低表达组比较,差异无统计学意义(P>0.05,图5)。因此,笔者主要对差异有统计学意义的ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8基因进行分析。

图5 生存曲线图

5.关键基因在不同Stage分期中表达量的差异分析:将下载的临床数据按Stage分期进行分组,利用ggplot2和ggpubr软件包将生存分析中差异有统计学意义的关键基因进行差异表达分析。分析显示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD临床早期就有表达,ADAMTS8差异有统计学意义(P<0.05),其余4个基因比较,差异无统计学意义(P>0.05)。使用Wilcoxon检验对ADAMTS8各分期进行两两之间配对检验,显示其StageⅠA与StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之间表达量比较,差异有统计学意义(P<0.05,图6)。ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD临床早期就有一定表达,这些基因对早期诊断LUAD具有一定价值,有望成为早期诊断LUAD的基因。

讨 论

在国际上,肺癌的病死率仍然较高[11]。中国等发展中国家癌症病死率较高。造成这样局面的原因包括获得保健服务的机会不平等导致诊断和治疗延误、环境污染、吸烟等[11]。非小细胞肺癌患者在所有LC中的比例高达4/5,而LUAD在非小细胞肺癌中较为常见[12~14]。LUAD预后较差,当LUAD患者出现症状去就诊时,通常已是LUAD晚期。EGFR、BRAF、KRAS、FGFR3和ERBB2等基因突变、染色体杂合性缺失包括9q和16p或NFE2L2/Nrf2信号通路的改变均可导致LUAD,但LUAD早期发病相关基因有待于进一步研究。因此,为了提高患者的生存率,降低患者的经济压力,探索与研究和LUAD的相关的分子标志物、基因以及癌症的发生机制并早期发现LUAD是十分有必要的。

本研究采用了生物信息学分析的方法,首先从TCGA数据库搜索并下载了549例LUAD样本与LUAD的临床数据来进行生存分析。549例LUAD样本中包含了59例正常组织样本和535例LUAD组织样本。通过差异分析筛选出上调基因与下调基因,利用String数据库与Cytoscape软件获得蛋白网络互作图。进一步生存分析显示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表达组与低表达组生存率比较,差异有统计学意义(P<0.05),其中ADRB2和GIMAP8与生存期的关联较强,后3组不明显;其他25个基因高表达组生存率与低表达组比较,差异无统计学意义(P>0.05)。关键基因在不同Stage分期的差异表达分析显示ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD临床早期就已有表达,且ADAMTS8各分期表达比较,差异有统计学意义(P<0.05)。

ADRB2是G蛋白偶联受体超家族的成员,可被β-激动剂激活,如肾上腺素、去甲肾上腺素等。该受体与其最终效应器之一的C类L型钙通道Ca(V)直接相关。该受体通道复合物还包含G蛋白、腺苷酸环化酶、cAMP依赖性激酶和平衡磷酸酶PP2A,并且这个基因无内含子[15]。ADRB2与许多癌症的发生相关。香烟烟雾中的应激激素(如肾上腺素和去甲肾上腺素)和致癌物可与β2受体结合,进一步促进癌症的发展[16]。本研究中ADRB2高表达组与低表达组的生存分析比较,差异有统计学意义,且与生存期的关联较强。ADRB2在LUAD临床早期就已有表达,但Stage各期表达量比较差异无统计学意义。研究表明ADRB2与肺癌密切相关[17,18]。Adissu等[19]

研究发现LUAD的Clara细胞系对β受体激动剂如异丙肾上腺素的促瘤作用高度敏感,异丙肾上腺素能促进cAMP的表达。然而,由肺泡Ⅱ型细胞发展而来的LUAD对β受体激动剂有耐药性,并其对cAMP刺激有反应。这一发现提示了ADRB2在肺癌发生中的重要作用,并提示AR阻断剂的应用可能是预防肺癌发生的有效手段。Szentendre等[20,21]在培养的A549(人非小细胞肺癌细胞系)细胞中发现该细胞中IL-1受体的激活导致细胞选择性地上调ADRB2,这种效应的机制涉及ADRB2 mRNA19的形成和稳定性的增加。然而,进一步的研究发现,ADRB2在Calu-3(培养的白种人LUAD)细胞中表达,表明ADRB2与LUAD的发生密切相关。

GIMAP8属于GTP结合超家族和核苷酸结合蛋白的免疫相关核苷酸(IAN)亚家族的蛋白质。本研究GIMAP8高表达组与低表达组生存分析比较,差异有统计学意义。GIMAP8在LUAD临床早期就已有表达,但Stage各分期表达比较差异无统计学意义。Shiao等[22]在共20例非小细胞肺癌的实验中用定量PCR证实了GIMAP6和GIMAP8在非小细胞肺癌中的基因表达显著降低。非小细胞肺癌包含了鳞癌、LUAD和大细胞癌,在Shiao等实验中并没有明确提出GIMAP8与LUAD的关系,仅仅表明GIMAP8与非小细胞癌有关。目前有关与GIMAP8与肺癌的相关研究极少,因此,GIMAP基因的调控机制有待于进一步研究。

LMO2编码卵黄囊红细胞生成所需的富含半胱氨酸的双LIM结构域蛋白质。LMO2蛋白在造血发育中起着核心和关键作用,并且高度保守。LMO2转录起始位点位于11p13 T细胞易位簇(11p13 ttc)下游约25kb处,在此发生大量T细胞急性淋巴细胞白血病特异性易位。本研究中,LMO2高表达组与低表达组生存分析比较差异有统计学意义,但与生存期的关联性不明显。LMO2在LUAD临床早期就已有表达,但Stage各期表达量差异无统计学意义。Wang等[23]研究表明LMO2可以调控PTTG1在肺癌组织中的表达,Li等[24]研究表明,PTTG1促进人非小细胞肺癌细胞的迁移和侵袭并受到LMO2的调控。Mao等[25]研究非吸烟LUAD患者的相关基因时发现,非吸烟LUAD患者的恶性磨玻璃结节中存在LMO2的突变,表明LMO2可能通过调节基因表达来发挥作用,从而影响LUAD的发展和预后。

TNS1基因编码的蛋白质定位于局灶性黏附,即细胞附着在细胞外基质上的质膜区域。这种蛋白质交联肌动蛋白丝并包含Src同源2(SH2)结构域,该结构域通常存在于参与信号转导的分子中。在本研究中,TNS1高表达组生存率高于低表达组,差异有统计学意义但与生存期的关联性不明显。TNS1在LUAD临床早期就已表达,但Stage各期表达量差异无统计学意义。Duan等[26]将si-NC、pcDNA3.1、si-TNS1或pcDNA3.1-TNS1转染到A549和H460细胞(非小细胞肺癌细胞株)中,通过RT-qPCR和Western blot法分析转染效率,采用MTT法和流式细胞仪检测TNS1对非小细胞肺癌细胞生长的影响,证实TNS1在非小细胞肺癌患者中显著上调,并与非小细胞肺癌的生长转移相关。

研究表明,miR-152/TNS1轴通过Akt/mTOR/RhoA通路抑制非小细胞肺癌进展。Chen等[27]构建了与LUAD生存相关的lncRNA-miRNA-mRNA ceRNA网络,证实TNS1在LUAD组织中表达下调,且表达越高,预后越好。Zhu等[28]研究表明,miR-31-5p在LUAD组织中显著上调,且与TNS1表达水平呈负相关,证实TNS1是miR-31-5p的直接靶点。进一步研究表明TNS1在一定程度上减弱了miR-31-5p对LUAD细胞功能的促肿瘤作用,证实miR-31-5p可以通过TNS1/p53轴促进LUAD细胞的生长。因此,LUAD与TNS1密切相关。

ADAMTS8是编码ADAMTS蛋白质家族的一个成员,在体内破坏血管生成。在该基因附近已经绘制了许多疾病的图谱,最显著的是肺肿瘤。ADAMTS8是一种肿瘤抑制因子,在多种人类癌症中观察到ADAMTS8的表达降低。本研究中ADAMTS8高表达组与低表达组生存分析比较,差异有统计学意义,但与生存期的关联性不明显。ADAMTS8在LUAD临床早期就已有表达且其StageⅠA与StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之间表达量差异有统计学意义。Zhang等[29]采用RT-qPCR方法探索ADAMTS8在肺癌细胞株H460和A549中的表达,研究表明ADAMTS8在肺癌中具有抑制作用。ADAMTS8在体外通过VEGFA调控HUVECs细胞增殖、凋亡、管形成,在体内介导肿瘤生长和血管生成,证实了ADAMTS8在肺癌中可能具有抗肿瘤和抗血管生成的作用。Li等[30]用CCK-8和RT-qPCR等研究方法表明ADAMTS8为促进调节预后炎症相关的生物学标志物,这些基因的表达抑制了LUAD细胞的增殖,且ADAMTS8的表达受TNF-α和增强子的调控。这些基因的表达抑制了LUAD细胞的增殖,证实了ADAMTS8表达是影响LUAD患者预后的独立危险因素。

综上所述,通过TCGA数据库分析出ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD临床早期就已有表达,且ADAMTS8在不同Stage分期中表达量差异有统计学意义。ADRB2、LMO2、TNS1、ADAMTS8已被证实与LUAD的发生和预后相关,GIMAP8已被证实与肺非小细胞癌有关,但其与LUAD的相关机制有待于进一步研究。这些关键基因与中肠发育、循环系统中的血管过程、碳酸氢盐运输等生物学过程有关,未来有希望成为早期诊断LUAD的基因。

猜你喜欢

关键肺癌意义
中医防治肺癌术后并发症
一件有意义的事
硝酸甘油,用对是关键
对比增强磁敏感加权成像对肺癌脑转移瘤检出的研究
高考考好是关键
有意义的一天
生之意义
microRNA-205在人非小细胞肺癌中的表达及临床意义
诗里有你
基于肺癌CT的决策树模型在肺癌诊断中的应用