肺腺癌铁死亡相关LncRNA的筛选及风险预测研究*
2024-01-02哈尔滨医科大学公共卫生学院流行病与卫生统计学系150081马宇杰刘美娜
哈尔滨医科大学公共卫生学院流行病与卫生统计学系(150081) 马宇杰 田 伟 张 薇 刘美娜
【提 要】 目的 筛选铁死亡相关长链非编码RNA(ferLncRNA)构建风险评分模型,并进行肺腺癌患者的生存预测。方法 通过相关性分析、癌组织-癌旁组织差异分析,获得差异表达的铁死亡相关LncRNA(DEferlncRNA),使用配对算法获得DEferlncRNA pairs。利用LASSO Cox筛选与生存相关DEferlncRNA pairs,多因素Cox回归分析并构建风险评分模型;计算ROC曲线的AUC值评估模型。利用单因素和多因素Cox回归分析风险评分是否具有独立预后价值;分析生存时间、临床病理特征和化疗疗效等在高、低风险组之间的差别。结果 相关性分析获取512个ferlncRNA,差异分析获得53个DEferlncRNA,配对算法获得1243个DEferlncRNA pairs。LASSO Cox分析获得40个与生存相关DEferlncRNA pairs,多因素分析得到17个DEferlncRNA pairs构建风险评分模型;模型的AUC为0.776。单因素和多因素分析提示风险评分可作为肺腺癌(lung adenocarcinoma,LUAD)的独立预后因素。患者化疗药物敏感性、TNM分期、临床分期、生存时间和生存状态在高、低风险组之间差异有统计学意义。结论 利用DEferlncRNA构建的肺腺癌风险评分模型,可为预测肺腺癌患者预后提供依据。此外,低风险评分患者对化疗药物敏感,将为肺腺癌患者临床治疗提供参考。
肺癌是全球癌症相关死亡的主要原因之一,根据组织病理学,分为非小细胞肺癌(non-small cell lung cancer,NSCLC,85%)和小细胞肺癌(15%),其中肺腺癌(lung adenocarcinoma,LUAD)是NSCLC的主要病理类型[1]。早期通过手术治疗肺腺癌可以获得较好地治疗效果,但其总体生存率仍然很低,5年生存率仅为18%;免疫抑制、细胞增殖、肿瘤远处转移、药物抵抗等因素与肺腺癌患者低生存率紧密关联[2-3]。铁死亡是一种铁依赖性新型的程序性死亡方式;铁代谢异常会促进肿瘤细胞生长,是癌症发生的危险因素;与正常细胞相比,癌细胞在增殖过程中过度依赖铁离子;激活铁死亡通路有望改善癌症化疗药物耐药的困境,为癌症治疗提供新的治疗方向[4-5]。
长链非编码RNA(long non-coding RNA,LncRNA)为大于200bps的RNA分子,其不直接编码蛋白质,但能调节蛋白编码基因的表达与蛋白质的合成[6],更重要的是,LncRNA与肿瘤发生、进展和转移等癌症相关事件高度相关[7]。铁死亡相关LncRNA作为一类特殊的LncRNA在肿瘤的发生、发展过程中发挥极为重要的作用,影响癌症患者的预后,有望成为肿瘤治疗新靶点,如LncRNA LINC00336通过与ELAVL1相互作用降低癌细胞内铁离子和脂类ROS含量,发挥抗肿瘤作用[8]。LUAD患者ferlncRNA相关特征与其预后价值的关系研究甚少,因此,本研究利用DEferlncRNA pairs构建风险评分模型,可以评估LUAD患者预后,并为肺腺癌患者临床治疗提供相关依据。
方 法
1.肺腺癌患者 LncRNA 和临床数据的收集
在UCSC Xena网站(https://xenabrowser.net/)下载肺腺癌转录组数据,包括526例癌组织和59例正常肺组织,根据Ensembl(http://asia.ense.ensembl.org)GTF文件对转录组数据进行注释,区分mRNA和LncRNA。通过UCSC Xena网站获取肺腺癌患者临床信息,提取性别、年龄、TNM分期、临床分期、生存时间和生存状态等临床特征,剔除生存时间不足30天的样本以及重复样本,共纳入489例肿瘤样本和59例正常样本,其中肿瘤样本中生存时间为1年、3年、5年的病例分别有393例、132例、51例。
2.肺腺癌铁死亡相关LncRNA的获取
从FerrDb数据库[9]提取259个铁死亡相关基因,通过相关性分析提取并筛选肺腺癌ferlncRNA。筛选标准:相关系数大于0.4,P小于0.001。利用R软件“limma”包筛选癌组织和正常肺组织差异铁死亡相关LncRNA(DEferlncRNA);以FDR<0.05及|log(FC)| >1.5为筛选标准。
3.DEferlncRNA配对规则[10]
首先,构建DEferlncRNA pairs 0或1表达矩阵,将DEferlncRNA进行两次循环配对。假设C为lncRNA A加lncRNA B所构成DEferlncRNA pairs;如果LncRNA A表达量高于LncRNA B,则C标记为1,否则C标记为0;然后,得到每个样本C的表达情况,在所有的样本中计算C为0或1的比例。由于没有一定等级的DEferlncRNA pairs无法正确预测患者的预后,因此当DEferlncRNA pairs的表达量为0或1的比例介于20%与80%之间时,可以认为DEferlncRNA pairs与预后有关。
4.建立风险评分模型
5.模型的评价
使用“survivalROC”包绘制多个时间点ROC曲线,分别计算1年、3年和5年AUC值评估风险评分模型,绘制ROC曲线计算约登指数,确定模型的最佳临界值;根据临界值,将肺腺癌患者分为高风险组和低风险组,加载“survminer”包绘制Kaplan-Meier曲线分析高风险组和低风险组患者的生存差异;对风险评分进行单因素和多因素Cox回归分析,确定风险评分是否具有独立预后价值。
6.统计分析
统计分析由R 4.1.0版软件完成。利用χ2检验分析各个临床特征的高、低风险组之间的差异。采用Wilcoxon符号秩和检验分析各临床特征不同组之间的风险评分差异。采用Wilcoxon秩和检验比较化疗药物的半数抑制浓度(IC50)在高、低风险组之间的差异。
结 果
1.DEferlncRNAs的筛选
铁死亡相关基因与肺腺癌患者LncRNA进行相关性分析,获得512个ferlncRNA;在肿瘤样本和正常样本之间进行差异分析获得53个DEferlncRNAs,见图1A;其中43个表达上调,10个表达下调,见图1B。本研究纳入489例肺腺癌患者的临床基线资料,见表1。
2.DEferlncRNApairs的筛选
53个DEferlncRNAs通过配对算法获得1243个有意义的DEferlncRNA pairs。单因素分析筛选出147个与预后相关的DEferlncRNA pairs,LASSO Cox回归分析获得40个DeferlncRNA pairs。
3.肺腺癌风险评分模型的建立
将上述40个DEferlncRNA pairs进行多因素Cox回归分析,筛选出17个DEferlncRNA pairs构建风险评分模型,见表2和图2;其中HR值均大于1的DEferlncRNA pairs为TYMSOS|AC145343.1、AC010789.1|AC111149.2、LINC00511|AC145343.1、Z98257.1|AP004608.1、LINC01614|DRAIC、AL033397.1|AC010719.1、LINC00973|AC027288.3、LINC01977|AC010719.1。
4.肺腺癌风险评分模型的评价
图3B显示绘制多个时间点ROC曲线,1年、3年、5年AUC分别为0.776、0.760、0.726;将1年ROC曲线与其他的临床特征比较,见图3C;利用风险评分公式计算每位患者的风险评分;根据ROC曲线得到风险评分cut-off值为2.035,见图3D;以此为临界值,100例患者被纳入高风险组,389例患者被纳入低风险组。图4A显示每个患者的风险值分布;图4B提示高风险组患者有更差的生存状况。Kaplan-Meier分析表明生存时间在高、低风险组之间有差异,差异具有统计学意义(P<0.001),见图4C。
5.风险评分具有独立预后价值
剔除临床特征信息不完整的肺腺癌样本后,共有469例样本纳入分析。通过单因素Cox回归分析,临床分期[P<0.001,HR=1.591,95%CI(1.358,1.864)],T期[P<0.001,HR=2.135,95%CI(1.361,3.350)],N分期[P<0.001,HR=2.581,95%CI(1.832,3.638)和riskScore(P<0.001,HR=1.321,95%CI(1.254,1.392)]显示差异具有统计学意义,见图5A;通过多因素Cox回归分析只有riskScore(P<0.001,HR=1.280,95%CI(1.212,1.353)]显示为独立的预后预测因子,见图5B。
6.高、低风险组临床特征差异分析
从热图和箱式图可以看出,T分期、N分期、M分期、临床分期与风险评分相关。图6A和图7显示TNM分期、临床分期、化疗药物(吉西他滨、紫杉醇、顺铂)在高、低风险组之间有差异,差异具有统计学意义(P<0.05)。图7显示风险评分与一些常用化疗药物IC50之间存在相关,提示风险评分可能作为肺腺癌患者化疗药物敏感性的潜在预测因子。
讨 论
利用相关性分析和差异分析获取53个DEferlncRNAs,循环配对构建0或1矩阵获得DEferlncRNA pairs;结合临床信息,利用LASSO回归和多因素Cox回归分析筛选出17个与生存相关DEferlncRNA pairs,并构建风险评分模型。本研究采用的是配对算法来提取DEferlncRNA pairs,并选择最优的DEferlncRNA pairs构建模型,该模型不需要做批次矫正,只需要考虑样本内部lncRNA的比较;不需要考虑样本之间的比较,便于临床应用。
该风险评分模型表明8个DEferlncRNA pairs(TYMSOS|AC145343.1、AC010789.1|AC111149.2、LINC00511|AC145343.1等)为肺腺癌预后的危险因素,9个DEferlncRNA pairs(LUCAT1|AL365181.3、LINC02362|LINC02544、PARAL1|LINC01843等)为肺腺癌预后的保护因素。铁死亡是一种依赖铁的细胞死亡方式,已被证明与肿瘤发展和抗肿瘤治疗有关[12-14];LncRNA参与恶性肿瘤进展和肿瘤耐药,并成为新的生物标志物和治疗靶点[15-17]。然而,铁死亡相关LncRNA与肺腺癌预后关系研究较少。有研究发现LINC00511为肺腺癌预后的危险因素,与本研究结果一致;LINC00511通过PTEN调控肺癌细胞增殖、迁移和上皮间质转化;通过miR-183-5p/ZEB2轴调控TGF-β1引起的肺癌细胞的迁移以及上皮间质转化[18]。研究发现LUCAT1正向影响Beclin1的表达而激活自噬维持肺腺癌A549干细胞干性[19],与本研究发现LUCAT1为肺腺癌预后的保护因素结果一致。在前列腺癌中,DRAIC与IKK亚基结合,阻断基间结合并抑制NF-κB的激活,从而抑制前列腺癌细胞的侵袭和增殖[20];DRAIC能促进降解通过阻断UCHL5介导的NFRKB去泛素化,抑制胃癌细胞的增殖和转移[21];以上结果表明DRAIC是癌症患者的预后因素,与本研究结果相符。AC010789.1高表达与淋巴结转移和预后不良相关[22]。然而,本研究发现AL365181.2、AL391427.1、PARAL1、AC145343.1等也是肺腺癌预后因素,但是具体影响机制还不清楚。
本研究发现常用化疗药物在高、低风险评分组之间药物敏感性是有差异的,并提示低风险评分对药物敏感。尽管还没有证据表明DEferlncRNA与肺腺癌耐药之间有直接联系,但部分DEferlncRNA在其他癌症耐药过程中发挥重要的作用。LINC0973基因下调降低p21的水平,激活癌细胞的增殖,抑制药物作用下细胞的凋亡;LINC01977表达水平上调可促进乳腺癌的进展,增加对阿霉素的耐药作用;ECSB通过调控LINC01843表达来逆转大肠癌5-FU的耐药作用[23-25]。以上研究提示,DEferlncRNA可能为研究肺腺癌耐药机制提供一定的参考。
继往研究主要基于LncRNA表达量构建肺腺癌预后模型,数据以芯片数据或PCR数据为主,需要进行批次矫正后构建转录组数据模型;而本研究基于LncRNA对构建肺腺癌预后模型,只需考虑数据内部LncRNA表达量的相对高低信息,不需要数据的矫正,方便临床使用,结果更具实用性。本研究风险预测模型样本量较少,还缺少外部数据验证。因此,在以后的工作中,将增加样本量进一步验证模型。综上,利用ferlncRNA构建,不需要确定表达量的LncRNA基因特征可评估LUAD患者预后,同时也为肺腺癌患者临床化疗提供参考。