基于TCGA数据库筛选微小RNA(miRNA)用于原发性乳腺癌早期诊断的生物信息学分析
2021-10-16孙巨军
尹 阳,孙巨军,李 越,李 欣,何 谦
(1.西安交通大学第二附属医院检验科,西安 710004;2.西电集团医院检验科,西安 710077)
乳腺癌(breast cancer)是女性发病率最高的癌症,占女性新患肿瘤的30%[1]。治疗乳腺癌成功的关键很大程度上在于患者确诊时疾病的分期情况[2],因此,及早发现乳腺癌是乳腺癌治疗的关键因素。找寻能够早期发现乳腺癌的标志物是目前乳腺癌诊治中的一个重大挑战。
miRNA 是一类在转录后水平起调控作用的基因家族,长度约21 个核苷酸,在生物进化过程中不易发生改变,其广泛存在于真核生物中,它们在各种生理和发育过程中控制基因的表达,因此在转录后调控中起着至关重要的作用[3]。miRNA 与人类各种疾病的联系是近几年来生物医学领域的一个研究热点,多种miRNA 的突变或表达异常可能与癌症的发生发展密切相关,已发现有力的证据表明miRNA可以用于癌症的诊断、分期及预后[4]。近几年来很多研究将miRNA 作为原发性乳腺癌诊断标志物,并显示出良好的临床前景。与单个miRNA 相比,联合多个miRNA 显示出更好的诊断性能,本文拟通过生物信息学技术,筛选出合适的miRNA 用于早期诊断。
1 材料与方法
1.1 资料来源 从肿瘤基因组图谱TCGA(http://cancergenome.nih.gov/)中获取原发性乳腺癌组织和正常乳腺组织的miRNA 表达数据。使用miRwalk 2.0(http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/)软件预测miRNA 可能作用的基因,使用c-Bioportal(http://www.cbioportal.org/)数据库筛选乳腺癌高频突变基因。
1.2 方法
1.2.1 差异表达miRNA 筛选:使用TCGA biolinks R 包下载TCGA-BRCA miRNA 表达数据。使用Deseq2 R 包对TCGA-BRCA miRNA 表达数据进行差异筛选,筛选条件为LogFC(foldchange)大于3,P< 0.05。并使用ggplot2 R 包绘制火山图。
1.2.2 靶基因预测:使用miRwalk 2.0 软件预测差异miRNA 的可能作用的基因即靶基因。
1.2.3 高频突变基因筛选:使用c-Bioportal 数据库设置发生率阈值为5%,筛选高频突变基因。
1.2.4 ROC 曲线分析:使用pROC 包对下载TCGA-BRCA miRNA 表达数据进行ROC 分析。
1.3 统计学分析 使用Deseq2 R 包、pROC 包对数据进行统计分析。ROC 曲线用于评价诊断效能,计算曲线下面积(AUC)。以P<0.05 为差异有统计学意义。
2 结果
2.1 乳腺癌差异miRNA 的筛选 在TCGA 数据库下载包含原发性乳腺癌组织1 075 例,正常对照乳腺组织95 例,共有1 870 条miRNA 的表达数据。共找到差异表达显著miRNA 129 个,上调miRNA 90 个,下调miRNA 39 个,见表1。并绘制火山图,见图1。筛选出了前20 名差异表达的miRNA,按排名先后依次是:hsa-miR-105-2,hsa-miR-1269a,hsa-miR-767,hsa-miR-105-1,hsa-miR-449a,hsa-miR-1269b,hsa-miR-184,hsa-miR-592,hsamiR-4724,hsa-miR-449b,hsa-miR-486, hsamiR-4501,hsa-miR-449c,hsa-miR-4732,hsamiR-210,hsa-miR-187,hsa-miR-190b, hsamiR-96,hsa-miR-196a-1 和hsa-miR-7705。
表1 差异表达的miRNA 结果
图1 差异表达miRNA 的火山图
2.2 筛选用于乳腺癌诊断的目标miRNA 预测129 个差异miRNA 的可能作用的基因即靶基因,结果预测到18 413 个靶基因。在17 897 个发生突变的基因中突变发生率大于5%的基因12 个,见表2。18 413 个靶基因中包含12 个高频基因,所以说这12 个基因为差异miRNA 的靶基因,同时也是高频基因,这些基因能被63 个miRNA 作用,见表3。将乳腺癌前20 名差异表达的miRNA 与这63 个作用于高频突变的靶基因的miRNA 求交集,得到6 个目标miRNA,他们是hsa-miR-592,hsamiR-486,hsa-miR-4732,hsa-miR-196a,hsa-miR-449b 和hsa-miR-187。
表2 突变发生率大于5%的基因结果
表3 作用于12 个高频靶基因的miRNA 结果
2.3 目标miRNA 的ROC 曲线分析 对上述筛选得到的6 个miRNA 进行ROC 曲线分析(见图2),各 miRNA 的ROC 曲线下AUC 面积越大,其作为肿瘤标志物的诊断能力越强。其中hsa-miR-592 ROC 曲线下AUC 面积为0.950 ,hsa-mir-486 为0.938,说明其作为肿瘤标志物的诊断能力良好。
图2 目标miRNA 的ROC 曲线
3 讨论
由于乳腺癌的早期诊断对于患者预后至关重要,并且现在临床常用的诊断方法显示出某些局限性,miRNA 逐渐成为乳腺癌的新型诊断和预后生物标志物。但是回顾当前的研究成果,观察到不同研究小组确定的miRNA 几乎没有一致性,因此尚无可用于临床诊断的miRNA,原因可能是由于患者选择的差异,用于分离和检测miRNA 的技术限制,样本量不足,统计分析不足以及测试其临床效果的验证研究数量不足等[5]。TCGA 数据库提供了代表30 多种不同癌症的超过11 000 个个体的基因组序列、表达、甲基化和拷贝数变异数据[6],是迄今最成功的癌症基因组学项目之一。本研究中我们利用TCGA 公开数据筛选原发性乳腺癌相关miRNA,该方法基于大样本大数据,避免样本量不足,弱化了个体差异,与用少量乳腺患者样本或乳腺癌细胞系进行miRNA 筛选相比将更加准确和高效。
在miRNA 对原发性乳腺癌早期诊断价值的研究中,筛选敏感度特异度好的miRNA 作为血清学诊断标志物尤为关键。为了让筛选的miRNA 与原发性乳腺癌有更强的相关性,在筛选条件中首先要求miRNA 在乳腺癌组织中表达水平较正常乳腺组织变化3 倍以上,其次符合条件的至少与一个原发性乳腺癌突变基因发生相互作用,并且这种相互作用需要强力的证据支持[7]。为此,在利用TCGA 数据得到差异表达的miRNA 后,我们进一步在 miRNA 靶基因预测工具上大范围寻找差异表达miRNA 可能作用的靶基因,并将靶基因与原发性乳腺癌高频突变基因进行比较,有交集者所对应的miRNA 列为重点考虑miRNA,以此找到与原发性乳腺癌有强相关性的miRNA。最近的研究表明,基于多个miRNA 的联合分析比单个miRNA 分析具有更好的诊断性能[8],因为多个miRNA 控制多个靶基因,能够更好地阐明它们是如何促进肿瘤发展、逐步调控肿瘤进程的生物学效应[9]。也有研究者将miRNA 和临床上已广泛使用的肿瘤标志物血清CEA,CA125 和CA153联合用于诊断乳腺癌,以提高诊断敏感度和特异度[10]。综合考虑实验可操作性和临床应用的经济性,诊断模型中联合四五种miRNA 建立原发性乳腺癌诊断模型较为理想[11]。本文利用生物信息学方法筛选miRNA 进行后续原发性乳腺癌的诊断研究,方法简单、操作简便、可信度高,值得参考。