APP下载

基于TCGA数据筛选潜在的宫颈癌miRNA预后标志物

2022-02-08苑飞艳张新民陈明珠杨鸣张立会

中国计划生育和妇产科 2022年12期
关键词:宫颈癌癌症预测

苑飞艳,张新民,陈明珠,杨鸣,张立会*

宫颈癌是严重威胁全球女性健康和生命的恶性肿瘤,是女性癌症死亡的第四大原因,据估计,2020年全球新增病例为60.4万例,死亡人数为34.2万人[1]。我国宫颈癌发病数约占全球总发病数的30%[2],近年发展中国家宫颈癌的发生率和死亡率仍居高不下,且逐渐趋于年轻化。

宫颈癌主要采用手术治疗,但对于晚期宫颈癌治疗需要辅以放化疗[3],目前癌症发生发展的分子机制尚不明确,有研究证实miRNA参与癌症的发生、进展、转移和耐药等各个阶段,将miRNA用作临床生物标记物用于诊断、预测和预后是可行的[4]。有研究表明,致癌miRNA上调或抑癌miRNA下调可促进癌症的发生,故在癌症的靶向治疗上可有两种策略:即用miRNA模拟物用于替代、恢复下调的抑癌miRNA;或用拮抗剂减少、抑制上调的致癌miRNA[5-6]。目前已经发现miRNA表达谱能够根据组织来源对肿瘤进行分类,且其表达变异与转移过程有关,故miRNA可作为生物标志物用于肿瘤的诊断及预测[7]。TCGA数据收集并整理了多种肿瘤的多组学及临床数据,因此本文从TCGA数据库中获取宫颈癌样本的miRNA表达,筛选出宫颈癌预后相关的生物标记物,为临床工作及研究提供理论依据。

1 材料和方法

1.1 数据的获取及处理

从TCGA数据下载宫颈癌患者的miRNA表达数据、临床数据,去除重复数据、缺失数据,选择出肿瘤样本300个,提取样本中miRNA表达数据,将相同的成熟miRNA进行合并,合并过程区分3p和5p异构体,共有2 188种miRNA,将NA值转换为0,计算miRNA在所有样品种含量为0的样品数,如果超过25%样品为零,删除该miRNA,miRNA数量变为588个,使用miRNAmeConverter数据包将miRNA名称由TCGA数据转变成为通用名称,最终成功转化的585种miRNA。

1.2 数据分组

将筛选的300个肿瘤样本使用R语言随机分组函数(sample函数)分为训练集和验证集,各150例,训练集用于构建预测模型,验证集用于验证预测模型效能。

1.3 差异miRNA的筛选

对训练集使用R语言包Survival进行单因素Cox生存回归分析,计算每个miRNA与宫颈癌患者生存的风险比(hazard ratio,HR)和P值,从基因表达量角度分析,HR小于1表示对生存有利[8]。选出P值小于0.05的与宫颈癌预后相关的miRNA。

1.4 风险模型的构建

对训练集将筛选得到的miRNA使用glmnet包进行Lasso回归分析,删除回归系数为零的miRNA,筛选出与生存相关的miRNA,将每个miRNA 的回归系数作为风险系数(Coef),建立风险值公式:Risk score=Coef1×miRNA1Exp+Coef2×miRNA2Exp+……+Coefn×miRNAnExp[9-10],式中Coef为相应miRNA的多因素回归系数,Exp为相应miRNA的表达量,根据Risk score数值的中位数,将CC患者分为高风险评分组和低风险评分组。使用R语言包Survival,Dplyr,Survival ROC,ggplot2,survivalsvm进行数据整理,Kaplan-Meier曲线绘制,以及logRanK检验。使用多因素Cox分析风险值在训练组和验证组中是否属于独立预后因素。最后绘制风险评分和基于miRNA临床预后模型的 ROC曲线并计算AUC值以评估模型的预测能力。

2 结果

2.1 样本统计

将TCGA的miRNA表达数据和临床数据中的生存时间和生存状态、种族、分期,是否经过治疗进行合并后,数据特征如表1:

表1 筛选的300个样本数据特征

2.2 样本分组

两组数据的种族、生存状态、分期以及治疗方法,采用χ2检验,两个分组中所有变量的P值都大于0.05,两组数据中每个变量的组成,差异无统计学意义(见表2),可以用于建模和验证分析。

表2 比较训练集和验证集差异的统计学分析

2.3 差异miRNA的筛选

使用Cox单因素方差分析对每种miRNA表达量与生存分析,发现70种miRNA的P值小于0.05,由于前30个P<0.01,因此选择这30个miRNA作为初步候选miRNA,为了预后检测更加高效易行,使用glmnet包初筛的miRNA进行Lasso回归分析,将回归系数为零的miRNA逐渐剔除,最终筛选出的5种miRNA及风险系数(Coef)见表3。

表3 筛选的5种miRNA及对应的风险系数

2.4 风险评分方程的建立及风险模型的建立

对上述5个miRNA进行多因素Cox回归分析,根据相应的回归系数,建立风险评分方程:Risk score=Coef1×hsa-miR-101-3pExp+Coef2×hsa-miR-532-5pExp+Coef3×hsa-miR-150-3pExp+Coef4×hsa-miR-378dExp+Coef5×hsa-miR-378a-5pExp,将每个病人的这5种miRNA风险值相加按照大小排序,以中位数为界限,将训练集和验证集分为高风险组和低风险组。采用Kaplan-Meier生存分析,绘制KM曲线对预后模型进行验证,结果表明:在训练集和验证集中,高风险组的预后比低风险组差(生存时间单位为:天),P值<0.05(见图1)。

图1 训练集(a)和验证集(b)中高低风险评分组患者的生存曲线

2.5 多因素Cox分析

使用多因素Cox分析种族、发病年龄、肿瘤分期、风险值这四个因素中,风险值在训练组和验证组中属于独立预后因素:训练集风险评分(HR=6.123,95%CI:2.714-13.814,P<0.001),验证集风险评分(HR=3.230,95%CI:1.578-6.610,P=0.001),见图2,训练集与验证集中风险值的P值<0.05,说明该模型属于独立预后因素。

图2 训练集(a)和验证集(b)多因素Cox分析结果

2.6 风险模型的评价

对风险值分组进行受试者工作特征曲线(receiver operating characteristic,ROC)检验,绘制模型的ROC曲线,计算ROC曲线下面积数值AUC以评估模型的预测效能,在训练集中该模型预测1年、3年和5年生存率的AUC分别为0.9、0.796和0.863,在验证集中该模型预测1年、3年和5年生存率的AUC分别为0.601、0.686和0.761(见图3,彩插2),训练集、验证集的生存率曲线下面积都在60%以上,说明能较准确地预测预后。

2.7 对miRNA基因使用mitarbase数据库进行预测

通过对这些miRNA对应的靶基因所在的基因通路、GO的生物过程ReactomePA通路进行富集分析发现这些靶基因主要富集于调控细胞的分化、信号的转导和凋亡等过程,例如:调节淋巴细胞和T细胞的分化,参与肽链苏氨酸磷酸化等;在KEGG通路富集分析中,靶基因主要富集在乳腺癌、肝癌、MAPK信号通路和AMPK信号通路等癌症相关通路中;另外,对疾病种类进行富集分析,发现靶基因富集与肿瘤相关疾病,其中hsa-miR-150-3p主要富集于结直肠癌、乳腺癌及多发性骨髓瘤等常见的肿瘤中。基因本体论、通路、疾病富集分析结果都表明这5种miRNA的靶基因与肿瘤密切相关,因此这5种miRNA可能是潜在的肿瘤预后标志物(见图4,彩插2)。

3 讨论

宫颈癌是世界范围内最常见的妇科恶性肿瘤之一,其发生率仅次于乳腺癌,居中国女性恶性肿瘤第二位[11]。宫颈癌被认为是第一个病因明确的恶性肿瘤,几乎所有宫颈癌都与HPV感染有关[12]。目前宫颈癌致癌机制仍未被阐明,研究证明miRNA在生长发育、细胞增殖、凋亡等多种生物学过程中发挥重要调节作用,探索miRNA在宫颈癌发生、进展、治疗及预后等方面的作用,为寻找宫颈癌新的生物标记物提供新的研究方向。

1993年,Lee RC等[13]在秀丽新小杆线虫发育过程的研究中首次发现第1个miRNA,它是一类内源性的短的非编码miRNA,长度约为18~25个核苷酸,可以调节大约60%的蛋白质编码基因[14],参与了大多数关键细胞过程中基因表达的转录后调节,如细胞增殖、分化、凋亡等的调节[15]。miRNA的失调和许多人类疾病有关,特别是癌症,一项研究表明,超过50%的miRNA基因位于癌症相关的基因组区域或脆性位点[16],成熟的miRNA与mRNA通过碱基互补配对,发挥其调节靶基因表达的作用,miRNA的异常表达通常会促使癌症的进展[17]。

近些年,随着对miRNA研究的深入,其在癌症的病因、进展、转移和预后的调节作用逐渐被人们重视,门婧睿等[18]通过构建风险模型,最终确定hsa-miR132-3p、hsa-miR-139-5p、hsa-miR-3677-3p、hsa-miR-500A-3p可以作为预测肝癌预后的生物标志物;miR-21已被证明与多个器官的恶性肿瘤有关,如在人类乳腺癌细胞系和组织中的表达增加,在发病的所有阶段都起着关键作用,有助于预测宫颈癌的发生[19-20];在肾透明细胞癌中可以联合miRNA-223评估淋巴结转移、远处转移及预测肾透明细胞癌的生存[9]。在乳腺癌的研究中还发现:miR-9、miR-10b和miR-17-5p可用于协助诊断;miR-148a和miR-335可评估乳腺癌的预后;miR-30c、miR-187和miR-339-5p则可以用来预测患者对特定治疗的反应[21]。除此之外,miRNA在胃癌、胰腺癌、结直肠癌等中均有大量研究[22-25]。

miRNA在宫颈癌中的研究也取得了一定的进展,有研究证明miR127可作为宫颈癌淋巴结转移的标志物,miR-199a可能是宫颈癌治疗的潜在靶点[26];多种miRNA在宫颈癌中的表达异常可影响对化疗和放疗的敏感性[27];本研究共筛选出5种miRNA:miR-101-3p、miR-532-5p、miR-150-3p、miR-378d、miR-378a-5p,这些miRNA 在宫颈癌中已有相关研究。miR-101-3p在宫颈癌中的表达水平与肿瘤分期及中晚期宫颈癌同步放化疗抵抗相关,放疗抵抗组表达水平较放疗敏感组高[28];miR-378已被证实在许多癌症中都有异常表达[24,29],在宫颈疾病的发生发展中,随着宫颈病变的进展,miR-378发挥致癌基因的作用,表达水平增加,可作为早期诊断的生物标志物[29-32];有研究证明miR-150能促进HeLa和SiHA细胞的增殖、迁移和侵袭,在癌组织中表达水平增高[33];miR-532在肝癌和宫颈癌中均有异常表达[34-35]。

本研究从TCGA数据库下载 miRNA表达数据及患者临床信息,通过统计学及生物信息学方法单因素和多因素Cox回归分析、Lasso回归分析筛选出5种与宫颈癌预后相关的miRNA,并构建风险模型,该模型预测第1年、3年、5年生存率的AUC分别为:0.9、0.796、0.863,具有良好的预测性能。最后,本文作者对以上5种miRNA靶基因进行了预测,发现它们所在基因通路、GO、Reactome通路,均与肿瘤密切相关。

综上所述,本课题组构建的宫颈癌患者生存的风险模型,具有较好的敏感度和特异性,但本研究是基于在线数据库,预测模型还需要在实际的临床操作中进行验证,必要时需进一步通过实验的方式证实其有效性。miRNAs作为基因表达的重要调节因子,有望作为新型分子标志物应用于宫颈疾病的临床治疗及科学研究中。

猜你喜欢

宫颈癌癌症预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
体检发现的结节,离癌症有多远?
中老年女性的宫颈癌预防
宫颈癌护理及心理护理在宫颈癌治疗中的作用及应用
预防宫颈癌,筛查怎么做
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症