基于乳酸代谢基因的肺腺癌预后模型的建立和评价
2022-12-15侯俊杰米旭光李孝男李晓男芦小单方艳秋金宁一
侯俊杰, 米旭光, 李孝男, 李晓男, 杨 影, 芦小单, 方艳秋, 金宁一
(1. 延边大学医学院病理生理学教研室, 吉林 延吉133002;2. 吉林省人民医院肿瘤综合治疗科, 吉林长春 130021;3. 军事医学科学院分子病毒学与免疫学实验室, 吉林 长春 130122)
肺癌是最常见的恶性肿瘤之一, 其导致的死亡约占所有因癌症死亡病例的四分之一[1], 其中肺腺癌(lung adenocarcinoma, LUAD) 占肺癌病例的40%~50%[2]。多数LUAD 患者在诊断时已处于晚期, 并可能出现淋巴结和多发转移[3], 但LUAD患者预后较差, 5 年生存率低于20%[4]。因此, 迫切需要寻找一种有效、准确的LUAD 预后标志物[5]。研究[6-8]显示:肿瘤微环境中糖酵解产生的乳酸在肿瘤进程中发挥重要作用。癌细胞产生的乳酸分泌到细胞外环境中, 为肿瘤细胞提供能量, 促进血管生成, 并通过诱导和募集免疫抑制相关细胞和分子, 发挥免疫抑制功能, 影响肿瘤的发生发展等, 且主要在基础研究方面, 国内外关于乳酸直接与患者临床预后相关性的系统研究报道较少, 因此, 本研究筛选在LUAD 中可能发挥重要作用的乳酸代谢基因, 构建LUAD 患者乳酸代谢评分模型以预测患者预后, 探讨乳酸代谢在LUAD 发生发展中的作用, 为LUAD 的防治和预后提供可靠的标志物及预测模型。
1 资料与方法
1.1 数据收集从癌症基因图谱数据库(The Cancer Genome Atlas, TCGA) 下 载 LUAD FPKM 标准化mRNA 表达数据LUAD-FPKM, 以及患者相应的临床信息, 包括年龄、性别、肿瘤分期、吸烟史、肿瘤状态和生存信息。根据人类基因数据库中的乳酸代谢相关基因列表, 从mRNA 表达数据中提取LUAD 患者癌组织(癌组织组)和癌旁组织(癌旁组织组)的乳酸代谢相关基因表达信息。
1.2 差异分析采用R 语言中的“limma”数据包对2 组患者的乳酸代谢基因表达进行差异分析, 若矫正后的P<0.05 且|log2FC|>1, 则认为是差异基因;分别采用“ggplot2”和“heatmap”数据包绘制火山图和热图。通过“cluster profiler”数据包分析京都基因和基因组百科全书 (Kyoto Encyclopedia of Genes and Genomes, KEGG)分析和基因本体论(Gene Ontology, GO) 富集分析, 观察乳酸代谢对肺腺癌的潜在作用机制。
1.3 乳酸代谢评分模型的构建对差异的乳酸代谢基因进行单因素Cox 回归, 获得生存相关的乳酸代谢基因(P<0.05), 并进一步行多因素Cox 回归分析, 若P<0.05, 则认为是独立的预后相关基因。最后将独立预后基因进行LASSO 回归, 并根据 相 应 的 系 数 构 建 评 分 模 型(score model)[9]:(score 代 表 每 个 患 者 的最后评分, i 代表纳入评分模型的第i 个基因, Exp代表第i 个基因的表达, Coef 代表第i 个基因在LASSO 回归分析中的系数)。
1.4 乳酸代谢评分模型的评价在TCGA 生存信息中, 包含患者的总生存时间(overall survival, OS)和生存状态及其他预后情况相关信息, 包括疾病特异性生存期(disease free survival, DFS)、无病间隔期(disease free interval, DFI)和无进展间期(progression free interval, PFI)。根据乳酸代谢评分从低到高排序, 将患者分为低风险组和高风险组。采用Kaplan-Meier(K-M)生存分析和受试者工作特征曲线(receiver operating characteristic, ROC) 曲线评估评分模型对患者的OS、DFS、DFI 和PFI 的预测能力, 以ROC 曲线下面积(area under curve, AUC)代表其预测能力。
1.5 乳酸评分模型和患者临床信息关系分析
采用单因素和多因素Cox 回归分析乳酸评分与患者临床信息的关系, 评价其预后能力。为了提供预测每个患者生存率的定量工具, 本研究基于乳酸评分和患者临床信息构建了预后列线图并绘制1、3 和5 年生存率的校准曲线, 以评价预测生存率和实际生存率的符合程度。
1.6 乳酸评分模型与不同免疫细胞浸润丰度的相关性分析TIMER 是评估肿瘤组织中不同免疫细胞丰度的算法[10]。基于TCGA 肺腺癌队列, 本研究采用该算法估计肺腺癌微环境中6 种免疫细胞, 包括B 淋巴细胞、CD4 T 淋巴细胞、CD8 T 淋巴细胞、 中性粒细胞、 巨噬细胞和树突状细胞(dendritic cell, DC) 在低风险组和高风险组的分布情况, 并分析乳酸评分与TIMER 的相关性。
1.7 统计学分析采用R 软件(3.6 版本) 和Microsoft Excel 2016 软件进行统计分析。采用“glmnet”软件包进行LASSO 回归分析, 采用“Survival”软件包进行K-M 生存分析、单因素和多因素Cox 分析, 乳酸评分模型与TIMER 的相关性分析采用Person 相关分析法, 以P<0.05 为差异有统计学意义。采用“timeROC”软件包绘制ROC 曲线, 采用“rms”软件包绘制列线图和校准曲线。
2 结 果
2.1 2 组组织中LUAD 相关乳酸代谢基因表达水平共计500 例LUAD 和59 例癌旁组织纳入本研究。在Gene Cards 数据库中获得4 482 个乳酸代谢基因列表, 并在TCGA 数据库中提取其相应的表达。差异分析发现在癌和癌旁组织中共有1 110 个基因的表达比较差异有统计学意义(P<0.05 且|log2FC|>1), 其中504 个基因表达显著上调, 606 个基因表达显著下调。火山图显示乳酸代谢基因在癌与癌旁组织中的分布情况, 热图显示乳酸差异基因在不同患者中的表达情况。见图1。
图1 LUAD 和癌旁组织中乳酸代谢基因表达水平Fig.1 Expression levels of lactate metabolism gene in LUAD and paracancerous normal tissues
GO 富集分析将基因的功能分为三部分, 分别为基因执行的分子功能(molecular function, MF)、基因所处的细胞组分(cellular component, CC) 基因以及参与的生物学过程(biological process, BP)。见图2A~2C。差异基因参与的分子功能前3 位是受体配体活性(receptor ligand activity)、四吡咯结合(tetrapyrrole binding) 和有机酸结合(organic acid binding), 参与的细胞组分前3 位是细胞质泡腔(cytoplasmic vesicle lumen)、囊泡腔(vesicle lumen) 和分泌泡腔(secretory granule lumen), 参与的生物学过程前3 位是对抗生素的反应(response to antibiotic)、对外源性刺激的反应(response to xenobiotic stimulus)和分泌的正调节(positive regulation of secretion)。KEGG 分析结果显示许多代谢相关通路和肿瘤通路参与了乳酸代谢基因对LUAD 的调节。
图2 差异表达基因的GO 富集分析和KEGG 分析Fig.2 GO enrichment analysis and KEGG analysis of differentially expressed genes
2.2 乳酸代谢评分模型的构建和评价单因素和多因素Cox 回归分析显示249 个乳酸代谢基因与LUAD 患者的生存相关, 其中23 个乳酸代谢基因是独立的预后基因。LASSO 回归分析显示最终纳入16 个乳酸代谢基因, 建立评分模型。见图3。本研究根据每个基因表达和相应的系数计算出每位患者的分数, 并结合生存时间和生存结局绘制患者的分数分布图, 结果显示:分数越高, 死亡人数越多, 且患者的生存时间越短。K-M 生存分析结果显示:该乳酸代谢评分模型是OS、DFS、DFI 和PFI 良好的评价模型(P<0.001)。见图4。ROC曲线评估乳酸代谢评分模型预测能力的结果显示预测 第1、3 和5 年 生 存 率 的AUC:OS (AUC=0.78、0.77 和0.73)、DFS (AUC=0.79、0.76和0.73)、DFI (AUC=0.64、0.63 和0.62) 和PFI(AUC=0.69、0.66 和0.61)。见图5。
图3 Lasso 回归分析图(A, B)和患者风险评分趋势图(C)Fig.3 Lasso regression analysis diagram(A,B)and trend chart of risk scores of patients (C)
图4 低风险组和高风险组LUAD 患者生存分析曲线Fig.4 Survival analysis curves of LUAD patients in low-risk group and high-risk group
图5 ROC 曲线评估乳酸代谢评分模型的预测能力Fig.5 Prediction abilities of by lactic acid metabolic score model evaluated by ROC curves
2.3 乳酸代谢评分模型与患者临床信息的关系
单因素回归分析结果显示:年龄、肿瘤分期、肿瘤状态和评分与肺腺癌患者的生存相关, 见图6A。校正年龄、性别、肿瘤分期、吸烟史和肿瘤状态结果显示:其评分与生存相关(P<0.001), 提示乳酸代谢评分模型有作为预后评价指标的潜力, 见图6B。本研究绘制可定量评价生存率的列线图预测每位患者生存率, 见图7A;校准曲线显示:该列线图的预测生存率和实际生存率符合程度高, 见图7B。
图6 乳酸代谢评分模型与患者临床信息关系的Cox 回归分析Fig.6 COX regression analysis on relationships between lactate metabolism score model and clinical informations of patients
图7 列线图(A)及其校正曲线(B)Fig.7 Nomogram(A)and its correction curve (B)
2.4 乳酸代谢评分模型与不同免疫细胞浸润丰度的相关性采用TIMER 算法对不同免疫细胞的浸润丰度进行量化并比较6 种免疫细胞在低风险组和高风险组的分布情况, 结果显示:B 淋巴细胞(P<0.001)、CD4 T 淋巴细胞(P=0.001)、CD8 T 淋巴细胞(P=0.016)和巨噬细胞(P=0.009)百分率组间比较差异有统计学意义, 见图8 和9。相关性分析结果显示:乳酸评分与B 淋巴细胞(r=-0.326,P<0.001)、CD4 T 淋巴细胞(r=-0.196,P<0.001)、 CD8 T 淋 巴 细 胞(r=-0.094,P=0.036)、巨噬细胞(r=-0.198,P<0.001) 和 树 突 状 细 胞(r=-0.119,P=0.008)百分率呈显著相关关系。见图10。
图8 低和高风险组患者中6 种免疫细胞丰度分布图Fig.8 Distribution map of abundances of 6 kinds of immune cells in patients in low-risk and high-risk groups
图10 乳酸代谢评分与6 种免疫细胞浸润丰度的相关性Fig.10 Correlations between lactate scores and abundance of six kinds of immune cells
3 讨 论
由于早期转移和不良预后, LUAD 已成为全球癌症相关死亡的主要原因之一。癌细胞产生的乳酸外流可影响细胞侵袭、血管生成和生存信号, 逃避免疫监视可以促进肿瘤进展[11]。因此, 乳酸代谢在LUAD 的发生发展中起关键作用, 有可能是LUAD 预后的有效标志物。本研究采用差异分析、单因素和多因素Cox 回归及LASSO 回归分析, 共筛选出16 个乳酸代谢基因, 构建此评分模型。其中一些基因已被证实与LUAD 的发生发展显著相关, 如YU 等[12]发现:LDHA 在LUAD 组织和肺鳞癌组织中表达均明显上调, 并且是LUAD 患者预后的危险因素。LIU 等[13]发现:GABRA3 在肺腺癌组织中表达显著上调, 与疾病分期、淋巴转移和患者生存率显著相关, 并可能通过激活JNK/AP-1 信号通路诱导基质金属蛋白酶2 (matrix metalloproteinase-2, MMP-2)和基质金属蛋白酶9(matrix metalloproteinase-9, MMP-9) 表达, 从而诱 导LUAD 的 淋 巴 转 移。 已 有 研 究[14]显 示:C1QTNF6 与心血管疾病、炎症反应和脂肪生成有关, 且可显著影响LUAD 的增殖、迁移和侵袭。已有研究[15-17]显示:大部分基因与多种肿瘤的发生发展有关, 是肿瘤诊断治疗的潜在靶点, 为证明该乳酸代谢评分模型的临床价值提供有力证据。为评估乳酸代谢评分模型的预测价值和可靠性, 本研究根据评估分数将患者分为低风险组和高风险组。生存分析结果显示:不仅对于OS, 该评分模型还可以有效预测疾病的DFS、DFI 和PFI, 提示该乳酸代谢评分模型的应用较广泛。ROC 曲线显示:预测1、3 和5 年患者OS 和DFS 的AUC 均大于0.7, 且预测DFI 和PFI 的AUC 均大于0.6, 说明该模型对预后有良好的预测价值。此外, 本研究校正其他临床特征后发现乳酸评分模型显示差异有统计学意义, 提示乳酸评分是LUAD 患者预后的独立影响因素。本研究结合乳酸评分和其他临床特征绘制列线图, 准确定量地预测每例患者的生存率;在校准曲线中, 第1、3 和5 年患者的生存率接近对角线, 说明该列线图的预测能力较为准确[18]。因此, 本研究构建的乳酸代谢评分模型可很好预测LUAD 患者的生存, 具有较高的临床预后价值。本研究采用TIMER 算法检测免疫细胞表达;本研究结果显示:低和高风险组患者中B 淋巴细胞、CD4 T 淋巴细胞、CD8 T 淋巴细胞和巨噬细胞表达百分率差异有统计学意义, 其中B 淋巴细胞与乳酸代谢评分相关性最高, 其次是巨噬细胞和CD4 T淋巴细胞。有研究[7, 19]显示:乳酸评分和各种免疫细胞浸润丰度均呈负相关关系, 可能是TIMER中的乳酸发挥免疫抑制功能, 通过诱导和募集免疫抑制相关细胞和分子, 进而促进肿瘤的发展。在后续的研究中, 本课题组将重点关注乳酸和B 淋巴细胞、CD4 T 淋巴细胞、CD8 T 淋巴细胞及巨噬细胞在LUAD 中的作用, 通过临床队列和实验进一步分析乳酸与免疫细胞及血管生成在LUAD 中的调控关系。
图9 低和高风险组患者中6 种免疫细胞的差异性分析小提琴图Fig. 9 Violin diagrams for differences between six kinds of immune cells of patients in low-risk and high-risk groups
综上所述, 本研究采用TCGA 肺腺癌队列筛选出LUAD 乳酸代谢基因并构建评分模型, 该模型对LUAD 患者预后有较好的预测价值及可靠性, 可作为LUAD 预后的潜在标志物, 并为LUAD 的防治提供依据。