基于TCGA数据库的肺癌和结直肠癌放疗后差异基因筛选、功能及通路研究
2022-09-05万志杰杜志鹏余南希张芳晓秦宏冉
万志杰, 王 航, 杜志鹏, 余南希, 张芳晓, 秦宏冉
(1. 海军军医大学海军医学系舰船辐射医学防护教研室,上海 200433; 2. 温州医科大学公共卫生与管理学院,浙江 温州 325035; 3. 同济大学附属上海市肺科医院核辐射科,上海 200433)
据世界卫生组织国际癌症研究机构发布的《世界癌症报告》2020版数据显示,肺癌的发病率居全球第2位,死亡率仍居所有恶性肿瘤之首。而结直肠癌的发病率和死亡率分别位居世界第3位和第2位[1]。因此,肺癌和结直肠癌的早期发现、诊断及规范治疗对于患者至关重要。其中,对于肺癌和结直肠癌的治疗,除手术切除和化学治疗外,放射治疗仍然是最主要的治疗手段。但限于目前的放疗现状,仅有部分患者可从放疗中获益,且放疗带来的副作用对患者的生活质量有较大影响,筛选出放疗敏感或者抵抗的癌症患者具有重大的临床意义。因此,寻找对辐射敏感的关键靶点,并加以干预来提高放疗疗效显得尤为重要。本研究基于TCGA数据库,筛查影响肺癌和结直肠癌放疗敏感性的基因,希望从基因水平寻找对辐射敏感的放疗靶点,以期为肺癌和结直肠癌的个性化放疗提供理论支持。
1 材料与方法
1.1 生物信息数据库及分析工具
本研究采用的数据库为癌症基因组图谱(The Cancer Genome Atlas, TCGA)(https:∥portal.gdc.cancer.gov),基因本体(Gene Ontology, https:∥www.geneontology.org),京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)(https:∥www.genome.jp/kegg),Kaplan-Meier plotter数据库(http:∥kmplot.com/analysis),GEPIA数据库(Gene Expression Profilling Interactive Analysis, http:∥gepia.cancer-pku.cn)。
1.2 生物信息学分析方法
在TCGA数据库中下载有关肺癌和结直肠癌count数据进行合并,采用edgeR中TMM算法进行归一化,然后计算FPKM值。将放疗的样本按照生存期是否超过3年进行分组,对于状态是alive的样本剔除生存期在3年以下的样本。利用limma软件进行差异分析,筛选差异表达基因(P<0.05,其中FC<0.67为下调基因,FC>1.5为上调基因)[2]。通过clusterProfiler包对差异基因进行GO功能注释及KEGG信号通路富集分析。利用Kaplan-Meier数据库对差异基因进行生存分析,绘制差异表达基因与患者的生存曲线可视化图。并通过GEPIA数据库进行生存曲线在线验证。
2 结 果
2.1 差异表达基因
TCGA肺癌和结直肠癌放疗数据库经limma软件处理后,以P<0.05为标准,在56 582个基因中筛选到6 119个差异基因。其中FC>1.5的基因有269个,FC<0.67的基因有211个。其中,将差异表达基因logFC值作为基因表达情况制作热图,见图1。
图1 两组患者基因表达热图
2.2 GO功能分析结果
为进一步分析差异表达基因的主要功能,本研究进行了两组患者之间差异基因GO功能分析,结果显示,差异表达基因Top20 GO主要存在于模式规范流程、上皮细胞增殖、细胞-细胞黏附的调节、体液免疫应答、对外界刺激反应的积极调节、泌尿生殖系统发育、肾脏系统发育、ERK1和ERK2级联、先天固有免疫反应-激活信号转导、模式识别受体信号通路、抗微生物体液应答、消化、异型生物质的代谢过程、肾脏形态发生、抗菌体液应答、表面活性剂稳态、组织内的化学稳态、异型细胞-细胞黏附正调控功能方面,见图2。
图2 Top20 GO富集气泡图(A)和柱状图(B)
2.3 KEGG通路分析结果
为进一步分析差异表达基因的作用机制和途径,本研究进行了两组患者之间差异基因的KEGG分析,结果显示,差异表达基因Top20涉及细胞因子-细胞因子受体相互作用、补体和凝血级联、胰腺分泌、Wnt信号通路、细胞色素P450对外来生物代谢的影响、TGF-β信号通路、组氨酸代谢、谷胱甘肽代谢、抗坏血酸和醛酸代谢、精氨酸和脯氨酸代谢、Hedgehog信号通路、PPAR信号通路的相互转化、色氨酸代谢、膀胱癌、脂肪消化吸收、花生四烯酸代谢、抗坏血酸和醛酸代谢、丙酸代谢等生物过程,见图3。
图3 Top20 KEGG富集气泡图(A)和柱状图(B)
2.4 差异表达基因Top10 GO和KEGG富集网络图
为了进一步明确差异表达基因与功能和作用机制之间的关系,对Top10 GO和KEGG绘制富集网络图,结果见图4。
图4 Top10 GO富集网络图(A)和Top10 KEGG富集网络图(B)
2.5 差异表达基因与生存率的关系
为了获得差异表达基因表达水平改变对患者生存率的影响,在满足P<0.05且FC>1.5的和FC<0.666的条件下,选择了差异表达最显著的4个基因,应用Kaplan-Meier数据库对基因与患者总体生存率之间的关系进行了在线分析。其中,SFTPB和SFTPA2高表达的患者生存期明显较差,相反,OLFM4和LGALS4基因高表达的患者生存期明显升高,差异有统计学意义(P<0.05),见图5。
图5 差异基因SFTPB(A)、SFTPA2(B)、OLFM4(C)和LGALS4(D)生存曲线图
2.6 差异表达基因在GEPIA数据库中生存分析
为了进一步证实这些差异是否在肺癌和结直肠癌放疗中起到了关键作用,为将来揭示肺癌和结直肠癌放疗研究奠定基础,采用了GEPIA平台[3]对差异基因进行了在线分析,得到了相应的生存曲线。其中,SFTPB和SFTPA2低表达的肺鳞癌患者具有更好的生存率,LGALS4高表达的结直肠癌患者生存率更高,验证了本研究的筛选结果,见图6A、B、C。而OLFM4无论在肺癌还是结直肠癌都未见显著差异,见图6D、E、F。
图6 差异表达基因在GEPIA数据库中与患者的生存关系
3 讨 论
放疗是肺癌和结直肠癌治疗的重要方式之一,有针对性的靶向放疗可以提高患者的生存质量和远期生存率。但由于不同肿瘤本身的特异性以及患者之间的个体差异,放疗效果往往不太理想。因此,筛选肺癌和结直肠癌放疗敏感基因对患者具有重要的临床意义,不仅可以通过事先评估患者情况来预测放疗效果,还可以通过生物学技术靶向改造基因来提高肿瘤组织的辐射敏感性,从而实现特异性精准放疗。
本研究通过下载TCGA数据库中肺癌和结直肠癌合并放疗患者count数据,以3年生存期为界,计算两组患者之间的差异表达基因。结果显示,与生存期低于3年的患者相比,生存期长的患者有269个基因高表达,有211个基因低表达。其中,本研究选择了与肺癌和结直肠癌放疗关系最密切的4个基因进行了Kaplan-Meier plotter分析。结果显示,SFTPB、SFTPA2高表达的患者生存期明显较差,而OLFM4和LGALS4高表达的患者生存期明显增加。
SFTPB和SFTPA2均是肺表面活性物质功能相关基因。已有研究表明,肺表面活性物质功能相关基因高表达与肺部不良疾病有密切关系。早在2012年就有研究者发现,患者SFTPA1外显子6和SFTPB外显子2突变与家族性特发性肺纤维化相关[4]。其次,通过病理指标检测发现,肺泡Ⅱ型上皮细胞过表达SFTPB会导致小鼠肺组织大量细胞外基质蛋白沉积。因此,通过对肺表面活性蛋白结构与功能分析[5],研究者发现SFTPB高表达与间质性肺异常进展具有强烈相关性[6]。随着肺表面活性蛋白基因的深入研究,SFTPB在肺癌诊疗方面的研究也逐渐受到关注。研究发现,SFTPB mRNA在肿瘤组织和淋巴结中的高表达可作为检测NSCLC淋巴结微转移的分子标志物,有助于早期诊断肺癌转移及组织学分型[7]。以上研究提示肺表面活性物质功能相关基因是研究肺部疾病尤其是肺癌的一个重要靶点。本研究发现,肺癌和结直肠癌患者放疗后,SFTPB和SFTPA2高表达的患者生存率明显降低,提示SFTPB和SFTPA2可能在肿瘤的放疗过程中发挥了辐射抵抗的作用。推测SFTPB和SFTPA2高表达后,通过某种调控机制降低了肿瘤组织的辐射敏感性,从而影响了肿瘤的放疗效果,最终威胁到患者的生存期。因此,对于肺癌和结直肠癌患者,可以考虑从SFTPB和SFTPA2基因入手,进一步在细胞水平和动物水平加以验证,希望能通过检测SFTPB和SFTPA2基因来评估患者的辐射敏感性,为临床个体化治疗方案设计以及提高肿瘤治愈率提供新的方向。
OLFM4,也称为GW112或hGC-1,属于olfacto-medin家族的糖蛋白[8]。以往的研究表明,OLFM4在NSCLC[9]、结直肠癌细胞[10]、胰腺癌、头颈部肿瘤[11]等多种恶性肿瘤组织中高表达,提示OLFM4可能在恶性肿瘤发生发展中发挥癌基因的作用。并且已有研究证实在某些恶性肿瘤中OLFM4已用作可靠的标志物[12-13]。但在某些情况下也检测到OLFM4的下调,例如在低分化、晚期和转移性肿瘤中。说明OLFM4的表达可能存在组织特异性[14],其表达水平与癌症的组织学类型、分化、淋巴转移与预后都有关系[15]。目前的研究结论一致认为,OLFM4阳性胃癌或结直肠癌患者的生存率高于OLFM4阴性患者[15],但几乎没有研究来阐明该基因与肿瘤放疗敏感性之间的关系。在本研究中,通过Kaplan-Meier plotter分析,发现OLFM4高表达的患者其生存率更高,与现有研究结果高度一致。提示OLFM4高表达的患者可能对放疗更敏感,更适合放疗且预后理想。因此,推测与正常组织相比,随着肿瘤的恶变,肿瘤负荷增大,OLFM4的释放和合成增多[16]。但另一方面,在某些分子机制调控下,OLFM4高表达使肿瘤细胞对辐射的敏感性提高,肿瘤组织对于放疗的灵敏度及特异度增加,放疗效果提升,生存期延长。说明,OLFM4可作为评估肺癌和结直肠癌放疗敏感性的潜在标志物。目前,虽然OLFM4高表达究竟是否真的能提高辐射敏感性以及其提高辐射敏感性的具体机制尚不清楚,但不可否认,OLFM4在肺癌和结直肠癌的规范放疗及靶向放疗上有较高的价值。
半乳糖凝集素-4(LGALS4),是一个多功能外源性凝集素,广泛参与细胞增殖、凋亡、分化及黏附等生理过程,与肿瘤的增殖、侵袭、转移等密切相关[17]。研究发现,肝癌[18]、肺腺癌[19]、甲状腺乳头状癌[20]、结肠腺癌和膀胱尿路上皮癌[21]等肿瘤的组织中LGALS4高表达预示预后良好,而LGALS4蛋白表达越低,肿瘤恶性程度越高。在本研究中,LGALS4高表达的患者生存期长,推测LGALS4高表达在抑制癌症的转移和进展同时,充当了放疗增敏因子的作用,提高了细胞的辐射敏感性。提示LGALS4不仅可以成为临床判断肿瘤恶性程度的标志物,也可能成为肺癌和结直肠癌放疗的逻辑靶点,但具体作用的分子机制还需进一步研究证实。
GEPIA数据库通过对大量数据的广泛分析,为生物学家和临床医生提供可视化的数据验证。本研究中在GEPIA数据库中在线分析了SFTPB、SFTPA2、OLFM4和LGALS4的表达与肺癌和结直肠癌患者的生存关系。其中SFTPB、SFTPA2和LGALS4分别在肺鳞癌和结直肠癌中得到了相似结果,进一步验证了筛选出的基因确实在肺鳞癌和结直肠癌的放疗中起到关键作用。而OLFM4的表达与肺癌和结直肠癌生存均未见明显统计学意义,考虑是之前做筛选的样本与目前做验证的GEPIA数据库中的样本,无论是数量还是样本来源,存在一定的差异性,后续将进一步验证。
综上所述,本研究筛选了肺癌和结直肠癌放疗的辐射敏感基因,虽然还需要从细胞、动物水平以及临床样本上进一步验证基因的敏感性以及深入研究其发挥作用的分子机制,但相信随着分子生物学的发展,人们将有望从肿瘤细胞某些特定基因表达改变入手,预测肿瘤细胞的辐射敏感性基础上,明确辐射敏感性相关的分子事件和调节通路,最终有望通过对敏感基因进行单独改造或基因联合改造,提高肺癌和结直肠癌的无复发存活率及局部控制率。