APP下载

基于生物信息学分析筛选肺腺癌免疫预后相关lncRNA

2023-02-28思璐秦秋雯沈印罗双艳何颖张裕旭刘柳

医学信息 2023年1期
关键词:共表达腺癌因素

思璐,秦秋雯,沈印,罗双艳,何颖,张裕旭,刘柳

(广西壮族自治区人民医院国际医疗部,广西 南宁 530021)

2018 年国际癌症研究机构(IARC)的数据表明[1],全球绝大多数国家的肺癌发病率和死亡率均居首位,其中肺腺癌是所有肺癌中最常见的亚型,约占所有肺癌的40%。手术治疗、放化疗在肺腺癌的治疗中起着关键作用[2-4],但有50%的肺腺癌患者死于肿瘤复发[5],因此识别肺癌预测预后生物标记物,可为患者提供早期、有效的治疗。lncRNA(IRL)是由长度超过200 个核苷酸的组成的RNA,因缺少开放阅读框,不具备编码蛋白质的能力[6],但其可通过碱基互补配对,与DNA、RNA、蛋白质相互作用发挥生物学功能[7,8]。近期研究发现[9],IRL 通过调控T 细胞亚群的凋亡敏感性进而改变肿瘤微环境中T 细胞亚群的平衡,造成肿瘤的免疫逃逸。免疫系统在癌症的发展进程中起着关键作用[10]。多项研究表明[11,12],可通过鉴定免疫相关的基因以预测癌症患者的生存预后。本研究通过使用TCGA 数据库和Molecular Signatures Database v7.0 的数据,利用生物信息学的方法来鉴定潜在的免疫相关的预后性IRL 生物标志物,以期用于肺腺癌患者的预后预测。

1 材料与方法

1.1 数据来源 IRL 表达数据和相应的临床数据均从TCGA 数据库下载(https://portal.gdc.cancer.gov)。筛选条件如下:①肿瘤原发位点:肺癌;②病理类型:肺腺癌;③数据类型:TCGA-基因表达定量;④其余筛选条件默认或不选。根据肿瘤患者的生存时间来构建预后模型,排除临床数据不完整和总体生存率<30 d 的肿瘤标本[13],最终符合要求的有455 例肿瘤患 者。Molecular Signatures Database v7.0(http://software.broadinstitute)下载免疫相关的基因集(immune system process M13664,Immune response M19817)。通过构建免疫基因共表达网络,鉴定了1124 个免疫相关的IRL。

1.2 方法

1.2.1 数据处理及基因共表达分析 通过strawberry-Perl(版本5.30,64bit)将IRL 表达数据与相应临床数据整合。R 软件“limma”包(版本3.6.1)鉴定免疫相关的IRL,P<0.001 表示差异有统计学意义。

1.2.2 筛选预后相关的IRL 通过R 软件“survival”包进行单因素Cox 回归分析,P<0.001 认为差异有统计学意义。通过R 软件“glmnet”包和“survival”包对有单因素Cox 回归分析结果中有统计学意义的IRL进行Lasso 回归分析,筛选出影响肺腺癌预后的关键IRL。采用多变量Cox 回归分析构建风险模型,根据所选IRL 的基因表达量和系数计算每个NSCLC患者的风险评分,其公式为risk core=G1×β1G1+G2×β2G2+…Gn×βnGn。其中,n 为纳入基因的个数,G 代表基因的表达量,β 代表基因的系数[14]。将风险评分的中位数设为截断值,风险评分≥中位数为高风险组,风险评分<中位数为低风险组。

1.2.3 预后模型评价 运用Kaplan-Meier(K-M)生存分析评估低风险组和高风险组的生存差异。此外,采用ROC 曲线比较风险评分模型与其他临床性状对预后预测的准确性。ROC 曲线分析采用R 软件“survival ROC”包(版本3.6.1)进行。AUC<0.5 表示不显著,0.5~0.7 表示准确率较低,0.7~0.9 表示准确率中等,>0.9 表示准确率较高[15]。

2 结果

2.1 筛选肺腺癌预后相关的IRL 首先从TCGA 数据库筛选出符合条件的肺腺癌样本数据共455 例。通过R 软件“limma”包(版本3.6.1)构建免疫基因共表达,鉴定了1124 个IRL,Coef≥0.4且P<0.001。通过单因素Cox 回归分析,初步筛选出18 个和肺腺癌预后相关的IRL,见图1。为避免单因素Cox 回归分析过度拟合问题,通过Lasso 回归分析对预后相关的IRL 进行二次选择,得到14 个IRL 与肺腺癌的生存预后相关,见图2。

图1 单因素Cox 回归分析森林图

图2 Lasso 回归分析图

2.2 构建IRL 风险模型和评价

2.2.1 构建风险模型 将Lasso 回归分析确定的14个IRL 纳入多因素Cox 回归分析构建风险模型,最后得到由8 个IRL 组成预后分险模型,见图3。根据这8 个IRL 在样本中的表达量分析计算每个患者的预后风险值:风险值=LINC01116 的表达量×(0.213)+AL034397.3的表达量×(-0.248)+AC123595.1 的表达量×(-0.601)+AL606489.1 的表达量×(0.285)+AL365203.2量的表达×(0.297)+AC245595.1 的表达量×(0.272)+AC011477.2 的表达量×(-0.276)+AL049836.1 的表达量×(0.3305)。

图3 多因素Cox 回归分析图

2.2.2 评价风险模型 K-M 生存分析显示,低风险组生存时间长于高风险组(P<0.001),见图4。ROC 曲线分析结果显示,风险评分、年龄、性别、分期、T、M、N 对肺腺癌预后的曲线下的面积分别为0.785、0.498、0.579、0.733、0.673、0.508、0.685,见图5。此外,对风险模型绘制风险曲线,结果显示随着风险值的升高,患者生存时间逐渐下降,死亡人数逐渐增多,其中AL034397.3、AC026355.1、AC011477.2 为低风险的基因随着风险值的增大,表达量逐渐下降;AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 为高风险的基因随着风险值的增大,表达量逐渐升高,见图6。

图4 K-M 生存分析

图5 ROC 曲线图

图6 风险曲线图及热图

图6 风险曲线图及热图(续)

3 讨论

随着基因芯片技术及高通量测序技术的发展,基因组的表达数据越来越丰富。TCGA 数据库至今共收录了33 类癌症的基因数据,其中包括mRNA、lncRNA、microRNA等[16,17],极大的促进了癌症分子基础研究。近期研究表明[18,19],IRL 在多种疾病的病理及生理途径中发挥重要作用,这为疾病的诊断和治疗方法提供新契机。此外,IRL 通过染色质修饰、转录和翻译过程参与基因的表达调控与肿瘤细胞的增殖、凋亡、侵袭转移、免疫[20-23]。肿瘤免疫是机体对肿瘤细胞产生的特异性免疫反应,近年来肿瘤免疫研究取得了重大突破。Huang D等[24]研究发现,IRL通过调控T 细胞亚群的凋亡敏感性,从而改变肿瘤微环境中免疫激活及免疫抑制的T 细胞亚群的平衡,造成肿瘤的免疫逃逸。Sun X等[25]通过免疫基因共表达分析构建了一个免疫相关的lncRNA 模型以预测卵巢癌患者的预后、药物敏感性和免疫状态,促进了卵巢癌患者的个体化治疗。

多项研究证实[26-28],IRL 与肿瘤诊断、治疗、预后有显著相关性。然而目前免疫相关的IRL 在肺腺癌的预后预测少有报道。本研究通过免疫基因共表达网络共鉴定1124 个IRL,单因素Cox 回归分析得出18 个IRL 可能与预后相关。考虑单因素Cox 回归分析每次仅纳入一个变量,存在过度拟合的缺点,本研究在此基础上再次引入Lasso 回归分析,通过交叉验证λ值,对纳入Cox 回归分析的lncRNA 进行二次选择。最后,通过多因素Cox回归得出由LINC01116、AL034397.3 AC123595.1、AL606489.1、AL365203.2、AC245595.1、AC011477.2、AL049836.1 构建的预后风险模型与生存预后显著相关。此外,本研究中采用中位数截断值进行分组,结果显示低风险组生存时间长于高风险组(P<0.001);ROC 曲线分析结果显示,风险评分、年龄、性别、分期、T、M、N 对肺腺癌预后的曲线下的面积分别 为0.785、0.498、0.579、0.733、0.673、0.508、0.685。此外,对风险模型绘制风险曲线,结果显示随着风险值的升高,患者生存时间逐渐下降,死亡人数逐渐增多,其中AL034397.3、AC026355.1、AC011477.2 为低风险的基因随着风险值的增大,表达量逐渐下降;AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 为高风险的基因随着风险值的增大,表达量逐渐升高,提示AL034397.3、AC026355.1、AC011477.2 可作为肺腺癌预后的危险因素,而AL365203.2、LINC01116、AL606489.1、AC245595.1、AL049836.1 可作为肺腺癌保护性的预后因素。因此,8 个IRL 构建的风险模型可为肺腺癌患者的生存提供准确的预测和评估,同样为肺癌预后的基础实验研究提供更多选择的生物标志物。然而本研究存在一定的局限性,如纳入的数据来源于单一数据库,需要在较大队列中进行进一步验证;且目前8 个IRL 在肺腺癌的发生、发展机制以及参与的信号通路等分子生物机制尚不明确,仍需基础实验进一步验证。

综上所述,通过挖掘TCGA 数据库构建的8 个IRL 肺腺癌预后模型有望成为肺腺癌的预后评估生物标志物。

猜你喜欢

共表达腺癌因素
侵袭性垂体腺瘤中lncRNA-mRNA的共表达网络
解石三大因素
益肺解毒方联合顺铂对人肺腺癌A549细胞的影响
膀胱癌相关lncRNA及其共表达mRNA的初步筛选与功能预测
短道速滑运动员非智力因素的培养
中国流行株HIV-1gag-gp120与IL-2/IL-6共表达核酸疫苗质粒的构建和实验免疫研究
HIF-1a和VEGF-A在宫颈腺癌中的表达及临床意义
GSNO对人肺腺癌A549细胞的作用
胃癌患者癌组织HIF-1α、TGF-β共表达及其临床意义
老年胃腺癌中FOXO3a、PTEN和E-cadherin表达的关系