染色质调节因子对乳腺癌预后的预测价值
2024-05-07凌铿金丽琴
凌铿 金丽琴
乳腺癌在2020 年的全球发病例数高达226 万例,已超越肺癌的220 万例,成为全球发病率第一的癌症[1-2]。尽管医学技术不断进步,如靶向治疗和免疫治疗等在临床的广泛应用,但乳腺癌患者的总体生存率仍不尽如人意[3-4]。近年研究显示,多基因标记有助于乳腺癌的风险分层和预后预测[5]。染色质调节因子(chromatin regulators,CRs)在肿瘤中的表观遗传学改变被视为关键标志[6-7],其失调可能导致癌症等多种疾病的发生。然而,关于CRs 与乳腺癌之间关系的系统研究仍然较少。本研究通过生物信息学方法,探讨CRs 在乳腺癌中的表达模式及其预测预后的潜在价值,旨在了解CRs 的作用机制并寻找新的治疗靶点。
1 材料和方法
1.1 差异表达CRs 的数据收集和识别 从公共数据库癌症基因组图谱(The Cancer Genome Atlas,TCGA,https://portal.gdc.cancer.gov)获取111 个正常乳腺组织和1 057 个乳腺癌组织的mRNA 表达和相关临床信息,以及从前期专题研究中检索到870 个CRs[8]。这些mRNA 采用R 软件preprocess Core 软件中的normalize.quantiles 函数进行数据标准化处理,根据相应平台注释信息,统计将探针ID转换为gene symbol。根据|logFC|>1 和假发现率(false discovery rate,FDR)<0.05 的标准,使用基于R软件的limma软件识别差异表达的CRs。
1.2 基于CRs 的预测模型的构建与验证 采用单因素Cox 回归分析对所有候选CRs进行初步筛选,从而确定与乳腺癌患者总体生存率显著相关的CRs。随后,采用最小绝对值收敛和选择算子算法(least absolute shrinkage and selection operator,LASSO)-Cox 回归分析法中的交叉验证方法确定最佳的惩罚参数λ值,以最终确定包含在预后风险模型中的CRs。LASSO-Cox 回归不仅能够处理变量选择问题,还能有效地控制模型的复杂度,减少过拟合的风险,为乳腺癌患者提供一个可靠的预后评估工具。然后计算每例乳腺癌患者的风险分数(Risk score),Risk score=(Coef 1×expression mRNA 1)+(Coef 2×expression mRNA 2)+…+(Coef n×expression mRNA n),其中Coef 是相应mRNA 的LASSO-Cox 回归模型系数。以所有患者Risk score 的中位数将乳腺癌患者分为高风险组和低风险组。采用Kaplan-Meier 法进行生存分析,评估两组患者的预后。使用survival ROC 软件绘制时间依赖性ROC 曲线评估风险模型的预测效能,计算AUC,数值越接近1,表示模型的预测效能越强。
1.3 基于Risk score 和临床变量构建列线图 将模型与乳腺癌患者其他临床变量相结合以提高预测准确性,其中临床变量包括患者的年龄、癌症分期(StageⅠ、Ⅱ、Ⅲ、Ⅳ期)、肿瘤大小(T 分类)、淋巴结转移情况(N 分类)、远处转移情况(M 分类)。采用单因素Cox 回归分析以评估Risk score 以及上述临床变量对乳腺癌患者预后的影响,随后采用多因素Cox 回归分析确定Risk score 对乳腺癌患者预后的独立预测价值。应用上述临床变量和基于CRs 的特征Risk score 构建列线图,以评估乳腺癌患者1、3、5 年总生存期(overall survival,OS)。采用校准曲线来评估列线图的预测效能。
1.4 统计学处理 采用R 4.2.1 统计软件。组间CRs表达水平的比较采用Wilcoxon 秩和检验,高风险组和低风险组生存时间的比较采用log-rank 检验。P<0.05 为差异有统计学意义。
2 结果
2.1 基于CRs 的模型建立和验证 与正常乳腺组织相比,TCGA-乳腺癌数据库中有127 个差异表达的CRs,见图1(插页)。根据P值排序,前20 个具有预后价值的基因见图2。然后,使用LASSO-Cox 回归分析筛选出16 个差异CRs 并构建乳腺癌患者预后预测能力的特征(ACTL6B+ASCL1+CHEK1+FBXL19+FOXA1+HMGB3+IDH2+MAZ+MECOM+RAD54B+SMYD3+SP140+TDRD12+TDRKH+TONSL+UBE2T),成功构建了风险模型。根据16 个CRs 的相关系数计算Risk score,Risk score=(0.023 5×ACTL6B 表达)+(0.003 0×ASCL1 表达)+(0.003 4×CHEK1 表达)+(0.019 3×FBXL19 表达)+(0.001 5×FOXA1 表达)+(0.002 0×HMGB3 表达)+(0.001 1×IDH2 表达)+(-0.010 3×MAZ 表达)+(0.059 8×MECOM 表达)+(0.075 0×RAD54B 表达)+(0.007 1×SMYD3 表达)+(-0.097 8×SP140 表达)+(0.018 4×TDRD12 表达)+(0.012 2×TDRKH 表达)+(0.008 3×TONSL 表达)+(0.002 3×UBE2T 表达)。Kaplan-Meier 生存曲线分析显示,高风险组死亡率明显高于低风险组(P<0.001);时间依赖性ROC 曲线分析显示,TCGA 数据库中基于CRs 的特征在5 年时的AUC 为0.778,见图3(插页)。利用热图显示高风险组和低风险组之间16 种CRs 的差异,见图4(插页)。
图1 乳腺癌前50 个差异表达CRs 的热图
图2 前20 个预后基因的森林图
图3 TCGA-乳腺癌数据集基于预后CRs 的模型分析(A:Kaplan-Meier 高风险与低风险组乳腺癌患者生存分析;B:基于中位Risk score 的生存状态分布;C:总生存期Risk score 的时间依赖性ROC 曲线)
图4 高风险组和低风险组之间16 种CRs 差异的热图
2.2 基于CRs 特征构建的风险模型与乳腺癌患者临床特征之间的相关性分析 结果显示,该风险模型在预测高风险组和低风险组乳腺癌患者不同临床特征中的预后方面具有明显差异,相关性热图见图5(插页)。Kaplan-Meier 生存曲线分析得出,低风险组患者中年龄≤65 岁、StageⅠ~Ⅱ期、Ⅲ~Ⅳ期、T0~T1、T2~T3、N0~N1、N2~N3者OS 均高于高风险组患者(均P<0.05),但两组患者中年龄>65 岁者OS 比较差异无统计学意义(P=0.170),见图6。
图5 基于CRs 构建的预后Risk score 与乳腺癌患者的不同临床特征之间相关性分析的热图
图6 不同临床特征高风险组和低风险组患者的Kaplan-Meier 生存曲线(A:年龄≤65 岁;B:年龄>65 岁;C:N0~N1期;D:N2~N3期;E:Stage Ⅰ~Ⅱ期;F:Stage Ⅲ~Ⅳ期;G:T0~T1期;H:T2~T3期)
2.3 预测乳腺癌患者生存率的列线图 结合Risk score 以及其他临床变量(患者年龄、癌症分期、T 分类和N 分类)构建的列线图见图7A。为验证该预测模型的可行性和准确性,进一步采用校准曲线,结果表明预测模型在1、3 和5 年生存率的预测上与实际观察到的生存率高度一致,见图7B。
图7 预测乳腺癌患者生存率的列线图与校准曲线(A:基于多因素的乳腺癌患者1、3 和5 年的生存率预测的列线图;***表示这两个变量在Cox 比例风险模型中对于预测结果有非常显著的影响;B:列线图的校准曲线图)
2.4 相关基因在肿瘤组织与正常乳腺组织中的基因表达差异采用limma 软件统计分析乳腺癌组织与正常乳腺组织之间的基因表达差异,识别在疾病进程中显著上调或下调的关键CRs,其中ACTL6B、ASCL1、CHEK1、FBXL19、FOXA1、HMGB3、IDH2、MAZ、RAD54B、SMYD3、TDRD12、TDRKH、TONSL、UBE2T 在肿瘤组中显著高表达,而MECOM 在肿瘤组中显著低表达。
3 讨论
乳腺癌是全球最常见的女性恶性肿瘤,其复杂性和对其发生及进展的有限了解使得其预后和治疗具有挑战性。尽管CRs 在乳腺癌的发生中已被证明具有多种功能,但对其在乳腺癌中的临床意义的综合分析仍然很少。
本研究通过利用生物信息学工具,从TCGA 数据库中筛选出了127 个在乳腺癌组织和正常乳腺组织之间差异表达的CRs。这些CRs 的差异表达可能与乳腺癌的发病机制、预后和治疗有关。随后,进一步分析确定了16 个与乳腺癌预后显著相关的CRs,并基于这些CRs 构建了风险模型。该模型的生存率和ROC 曲线分析均显示出良好的预测效能,为临床医师提供了一个新的工具来评估乳腺癌患者的预后。
对于这些关键的CRs,如ACTL6B、ASCL1、CHEK1和FBXL19 等,它们在肿瘤中的作用已被广泛研究[8-11]。例如,ACTL6B 在染色质重塑和组蛋白乙酰化中起到关键作用[12],而CHEK1 则被认为是乳腺癌的潜在预后和治疗靶点[13]。这些发现不仅增强了对乳腺癌发病机制的了解,还为未来的治疗策略提供了新的方向。
然而,本研究也存在一些局限性,如CRs 如何调控乳腺癌细胞的生物学行为仍需要进一步的实验验证。此外,为了验证预后模型的实用性,还需要在多中心临床队列中进行进一步的研究。
综上所述,本研究为了解乳腺癌的发病机制、预测预后以及发现新的治疗靶点提供了重要的线索。但为了将这些发现应用于临床实践,还需要进一步的研究和验证。希望未来的研究能够基于这些初步发现,进一步深化对乳腺癌的理解,为患者带来更好的治疗效果和生活质量。