APP下载

基于生物信息学分析构建肺腺癌蛋白质预后模型

2022-12-21钟文杰陈昌南陆红红

包头医学院学报 2022年11期
关键词:腺癌生存率蛋白质

钟文杰,陈昌南,陆红红

( 1.江门市新会区人民医院肿瘤科,广东 江门 529000; 2.江门市人民医院)

肺腺癌(lung adenocarcinoma,LUAD)是最常见的肺癌亚型,其死亡率在恶性肿瘤中居于首位[1]。尽管靶向治疗和免疫治疗已经用于LUAD晚期患者的临床治疗,但治疗效果5年生存率仅约15%[2]。因此,识别与 LUAD 预后相关的生物标志物将有助于探索肺腺癌发生发展的潜在机制及改善患者的预后。

功能蛋白质组学主要研究蛋白质的表达和修饰。蛋白质作为生物学的重要组成部分,是生物功能的实现者。细胞中 mRNA 的数量不能与其相应蛋白质的表达水平准确相关。更重要的是,无论是 DNA 微阵列还是 RNA-Seq,都不能反映相应蛋白质的翻译后修饰,而这恰好是影响蛋白质功能实现的重要因素[3]。与基因组学和转录组学研究不同,肿瘤相关蛋白表达的研究更直接地揭示肿瘤发生发展的潜在机制,同时为肿瘤生物治疗提供直接的靶点[4]。反相蛋白质阵列(reverse phase protein array,RPPA)是一种结合平面高精度大规模样品蛋白抗原微阵列打印和抗体检测的高通量蛋白组学技术,可以用于蛋白质精准量化,因此可以准确鉴别肿瘤中的蛋白质种类及表达水平[5]。近年来,蛋白质组学分析已经用于鉴定肿瘤预后相关的蛋白质表达[6-7]。回顾以往关于LUAD生物信息学分析的文献,发现LUAD预后研究大多是基于基因组学或转录组学所作的预测,鲜有基于蛋白组学预后研究。因此,本研究从蛋白表达水平对LUAD预后进行分析,通过构建蛋白预后模型,以期提高对LUAD预后预测的准确性,为LUAD的临床诊断、治疗及预后提供重要的参考依据。

1 资料与方法

1.1蛋白质组学数据获取 从TCPA数据库(https://tcpaportal.org/tcpa/)及TCGA数据库(https://portal.gdc.cancer.gov/) 分别下载232个原发性肺腺癌的RPPA第4 级蛋白质表达数据及患者临床数据,包括性别、年龄、TNM分期等临床信息,用于后期结合患者临床数据进行预后综合分析,对患者进行筛选,剔除临床信息不全的肺腺癌患者(包括TNM分期、年龄、性别不明的患者);利用 R 软件(4.0.0版本)中的 knn法对蛋白质数据进行补缺。

1.2预后蛋白质确定及模型构建 首先将蛋白质表达数据与患者生存时间进行合并,通过R软件“survival”包循环对每个蛋白质进行单因素Cox回归分析, 若P<0.05则判定该蛋白质与肺腺癌的预后相关,若风险比(hazard ratio, HR)>1,该蛋白视为高风险蛋白,若HR<1则该蛋白视为低风险蛋白,并利用R软件的“ggplot2”包绘制火山图对所有与肺腺癌预后相关的蛋白质进行可视化;然后利用逐步回归分析对所得的预后相关蛋白质进行进一步筛选,以剔除多重共线性变量。对逐步回归分析筛选出的蛋白质则进行多因素Cox预后模型构建,并以风险评分进行展示:风险评分=(蛋白质系数1×蛋白质1表达)+(蛋白质系数2×蛋白质2表达)+(蛋白质系数n×蛋白质n表达)。

1.3预后模型的生存分析 计算患者风险评分,并根据风险评分的中位数可将患者分为高风险组(风险评分大于中位风险评分)和低风险组(风险评分小于中位风险评分),利用R软件“pheatmap”包根据风险评分对样品进行可视化,对风险评分与蛋白质表达数据绘制风险热图;利用R软件的“survival”包分别对高低风险组患者进行生存分析,若P<0.05,则视两组患者具有生存差异。

1.4独立预后及ROC分析评估模型有效性 将临床变量及风险评分与生存时间进行整合,利用R软件 “survival”包对临床变量及风险评分进行单因素及多因素Cox回归分析以评估预测模型风险评分是否能成为独立的预后因素,结果通过森林图进行可视化。利用R软件“survivalROC”包对蛋白质评分模型及肺腺癌患者的临床变量进行ROC分析并绘制ROC曲线。

1.5构建预测列线图 通过整合临床变量及评分模型数据,包括患者风险评分、年龄、性别及肿瘤分期,利用R软件的“rms”包构建列线图,以实现多变量综合预测,此外,利用bootstrap方法(1 000次循环)构建校准曲线,显示预测值与实际发生概率之间的偏差,以评估列线图对1、2、3年LUAD患者生存率的预测效果。

1.6统计学分析 应用R软件(4.0.0)进行统计学分析;蛋白质表达数据的差异分析通过两独立样本的t检验完成;生存分析组间比较的方法采用Kaplan-Meier方法;模型的构建、 独立预后分析均通过多因素Cox分析完成;P<0.05为差异具有统计学意义。

2 结果

2.1预后蛋白质确定及模型构建 研究共纳入232例肺腺癌患者,见表1。单因素Cox分析得到21个蛋白质与肺腺癌预后相关(P<0.05),见表2,并绘制火山图对结果进行可视化,见图1。随后通过逐步向后回归分析得到3个与生存显著相关的蛋白质(PAI1、TFRC、LCN2A),并通过多因素Cox分析获得每个蛋白质对应的系数,风险评分=(0.215×PAI1表达量)+(0.241×TFRC表达量)+(0.207×LCN2A表达量),见表3。

2.2预后模型的生存分析 风险热图显示,蛋白质PAI1、TFRC、LCN2A在高风险组为高表达,见图2A;风险曲线显示,随着患者生存风险评分的递增其对应的模型风险评分相应增加,见图2B;生存状态图显示,随着患者生存风险评分的增加患者生存率下降,见图2C。

表1 TCGA肺腺癌患者的临床变量

表2 基于单因素Cox回归分析的21个生存相关蛋白质

图1 21个生存相关蛋白质火山图

表3 用于预后模型构建的蛋白质及其风险系数

图2 预后模型风险热图(A)、风险曲线(B)及生存状态(C)

通过对预测模型风险评分进行生存分析,与低风险组相比,高风险组总体生存率较低(P<0.001),见图3。

图3 预后模型蛋白质及风险评分生存分析

2.3独立预后及ROC分析评估模型有效性 单因素(图4A)和多因素Cox(图4B)回归分析表明风险评分可作为肺腺癌独立预后因素(P<0.05);通过ROC曲线可看出风险评分模型相较于传统的临床特征具有更高的准确性和灵敏度,见图4C。

图4 预后模型独立预后及ROC分析

2.4创建预测列线图 通过整合临床因素(年龄、性别、分期)和模型公式构建了预测列线图,见图5;该预后模型C指数为0.710,1、2、3年的校准曲线显示列线图预测效果较佳,见图6。

图5 肺腺癌患者1、2、3年总生存率的列线图

图6 预测总生存率的校准曲线

3 讨论

蛋白质组学研究为探索肿瘤发生发展的潜在机制提供了新的思路。与正常组织相比,肿瘤组织具有独特的蛋白质表达。目前研究表明,肿瘤独特蛋白质表达不仅可以作为预测肿瘤预后因子,还可以作为未来生物治疗的有效靶点[8]。本研究通过生物信息学分析肺腺癌蛋白质表达,构建了一种包含3个蛋白质(PAI1、TFRC、LCN2A)预后模型,该模型可以有效地对生存进行分层,与低风险组相比,高风险组总体生存率明显降低。ROC分析及独立预后结果显示:该模型对患者预后具有良好的预测价值,是患者预后的独立风险因子。本研究进一步结合患者的年龄、性别、肿瘤分期和风险评分构建预测列线图,通过在总积分轴和每个预后轴之间画一条垂直线计算肺腺癌患者1、2 、 3 年的生存率,这种定量直观预测肺腺癌预后的方法将更有助于提高早期判断肺腺癌患者预后和制定合理的临床治疗决策。

本研究建立的预后预测模型中,蛋白质PAI1、TFRC、LCN2A在高风险组呈高表达,而且随着患者生存风险评分的增加患者生存率下降,提示与肺腺癌的不良预后呈正相关。既往研究发现肺腺癌组织中PAI1的表达水平高于正常肺组织,与肺腺癌总生存率呈负相关[9]。PAI1 通过抑制 caspase-3保护肿瘤细胞免受化疗引起的细胞凋亡[10]。TFRC在肺癌[11]、乳腺癌[12]、卵巢癌[13]、结肠癌[14]、胰腺癌[15]中高度表达且与患者的不良预后相关。动物实验[13]证实TFRC的敲除能抑制癌细胞侵袭转移,并且通过正向调控 AXIN2的表达来促进癌细胞增殖及侵袭转移,推断TFRC很可能是一个促癌蛋白。LCN2A的过表达与乳腺癌[16]、胰腺癌[17]、肺癌[18]、胶质母细胞瘤[19]和胆管癌[20]的生长和转移有关,其潜在机制可能是LCN2A的过表达可以促进肿瘤细胞对铁的吸收和对化疗的抵抗。因此,PAI1 、TFRC和LCN2A作为预后模型评价指标具有重要意义,这些蛋白质均与肿瘤的发生发展有关。本模型中TFRC和LCN2A促进肿瘤细胞对铁摄取和吸收帮助肿瘤细胞生长,共同证明铁代谢途径在促进肺腺癌的发生和发展方面具有独特的意义,有望成为治疗肺腺癌的独特蛋白靶点。运用铁偶联剂调节肿瘤的铁负荷是目前抗肿瘤治疗的研究热点[21]。

本研究集中于多个蛋白质预后模型分析,而不仅仅局限于单个蛋白质分析,该分析结果具有重要的临床指导意义;模型中PAI1、TFRC、LCN2A蛋白有望成为评估肺腺癌治疗预后新的因子,并对肺腺癌的实验研究提供一个重要的研究方向,有望为肺腺癌的诊治提供新的靶点。本研究局限性在于目前有关蛋白质组学的公共数据库少,尚未建立蛋白质组学验证集进行验证,有待实验证据及真实世界人群进一步验证。

猜你喜欢

腺癌生存率蛋白质
蛋白质自由
人工智能与蛋白质结构
“五年生存率”不等于只能活五年
人工智能助力卵巢癌生存率预测
日本首次公布本国居民癌症三年生存率
益肺解毒方联合顺铂对人肺腺癌A549细胞的影响
“五年生存率”≠只能活五年
HIF-1a和VEGF-A在宫颈腺癌中的表达及临床意义
GSNO对人肺腺癌A549细胞的作用
老年胃腺癌中FOXO3a、PTEN和E-cadherin表达的关系