LINC00242与胰腺癌发生发展及预后的相关性分析
2021-11-10成天琼陈学农
成天琼,陈学农
(1.重庆市合川区人民医院,重庆 合川 401520;2.遵义医科大学附属医院 针灸科,贵州 遵义 563099)
胰腺癌(Pancreatic cancer)是常见消化系统肿瘤,预后较差,5年生存率不到5%,预计到2040年全球胰腺癌的发病率和死亡率将增长近80%[1]。胰腺癌的治疗选择有限,只有10%到20%的患者可以接受辅助化疗的根治性切除,且手术后的复发率很高[2]。胰腺癌缺乏早期诊断标志物,预后差,是临床研究的一大难点。
全基因组RNA测序表明,人类基因组中只有一小部分被转录为编码蛋白质的mRNA,其余部分为许多类型的非编码RNA(ncRNA)。既往研究者认为其余非蛋白质编码的转录是无功能的,非编码RNA也因此被视为垃圾RNA[3]。但越来越多的证据表明,ncRNA具有多种功能及生物学活性,调节基因表达和疾病发生、发展,如肿瘤生长、侵袭、迁移、转移和血管生成[4]。在ncRNA中,长链非编码RNA(lncRNA)和增强子RNA(eRNA)是最丰富的。ncRNA在胰腺癌发生发展中也起着关键作用,如LncRNALINC01963在胰腺癌组织和细胞系中表达较低,通过上调lncRNALINC01963在胰腺癌细胞系中的表达,可抑制集落数、细胞周期、增殖和侵袭,同时改善细胞凋亡,从而抑制胰腺癌的进展[5]。LncRNAZFAS1通过RHOA / ROCK2途径促进胰腺癌转移[6]。胰腺癌中异常表达了许多lncRNA和eRNA,而对于eRNA而言,它们在胰腺癌进展中的功能和机制在很大程度上尚不清楚。故本研究用集成数据分析方法来识别胰腺腺癌(Pancreatic Adenocarcinoma,PAAD)中的关键eRNA,并探讨其在胰腺癌预后、发生发展中的作用。
1 数据与方法
1.1 通过集成数据分析鉴定PAAD中的预后相关eRNA 首先从UCSCxena(https://xenabrowser.net/datapages/)下载33种癌症转录组数据及临床数据、生存数据,用EnsemblBioMart将Ensembl ID转换成基因Symbol。从既往的研究中获取由PreSTIGE预测的组织特异性增强子表达的lncRNA及其相应靶标的列表[7-8]。使用交互式网络服务器TANRIC(癌症非编码RNA地图集)研究TCGA中PAAD队列中上述列表中eRNA的表达水平及其临床相关性[9]。提取PAAD样品中eRNA的表达量并与生存数据合并。按照eRNA表达量将胰腺癌患者分为高低表达两组,Kaplan-Meier 生存分析比较两组间总体生存(Overall Survival,OS;Log-Rank检验,P<0.005)。然后研究TANRIC共表达数据,以评估eRNA与其预测的靶基因之间的相关性。用Spearman相关性分析上述生存相关eRNA与其靶基因在胰腺癌中的相关性,过滤标准为corFilter>0.4,P<0.001,用“ggplot2”R包作图。与总生存期(P<0.05)和其靶基因水平(P<0.001)均具有显著相关性的eRNA是PAAD中的候选关键eRNA。选取P值最小的生存相关eRNA后续进一步分析。然后用“limma”包分析在不同临床分组的胰腺癌样品中关键eRNA表达是否有差异。
1.2 GO、KEGG富集分析 为了研究关键eRNA相关编码基因的可能功能特性,共表达分析得到关键eRNA在胰腺癌中更多的潜在靶基因。使“clusterProfiler”R包进行对潜在靶基因行GO、KEGG富集分析(校正后P<0.05),探讨关键eRNA在胰腺癌发生发展中的作用。
1.3 泛癌生存及相关性验证 从33种肿瘤中提取胰腺癌关键预后相关eRNA和其靶基因的表达量,与生存数据合并,按照eRNA表达量将癌症患者分为高低表达两组,Kaplan-Meier生存分析比较两组间生存差异。验证胰腺癌关键预后相关eRNA和其靶基因在泛癌中是否具有相关性。
2 结果
2.1 PAAD中预后相关eRNA及与其靶基因相关性分析 从TCGA中PAAD队列中RNA测序数据提取胰腺癌eRNA表达,按中位数分成高低表达两组,Kaplan-Meier生存分析结果提示147个eRNA表达水平和胰腺癌总体生存率相关(Kaplan-Meier对数检验,P<0.05)。再进一步对147种eRNA的水平与其预测的目标基因mRNA的水平作相关性分析,结果提示56对eRNA存在显著相关(见表1;Spearman相关系数r>0.4,P<0.001)。选取PAAD中预后相关最显著(P<0.000)的eRNA LINC00242进一步分析。
表1 与PAAD预后相关的eRNA及其靶标
续表
2.2 LINC00242可能是PAAD中的关键eRNA 在PAAD患者中,LINC00242高表达组比低表达组显示出较好的总体生存率(图1A,Kaplan-Meier对数秩检验,P<0.001)。此外,LINC00242和PHF10 mRNA水平成正相关(图1B,Spearman的r=0.412,P<0.001)。
2.3 LINC00242与临床病理特征相关分析 进一步分析LINC00242与患者的临床病理特征包括生存状态、肿瘤分级、肿瘤分期和肿瘤状态,详细信息见表2。结果显示,胰腺癌组织中LINC00242表达量低于癌旁组织(见图2A),并且LINC00242的表达在胰腺癌组织不同分化等级(见图2B)、临床分期(见图2C)以及患者的最终结局状态(见图2D)方面均存在着明显的统计学差异。
表2 PAAD病例临床特征
2.4 GO、KEGG富集分析 LINC00242共表达分析显示在PAAD中1 846个基因和LINC00242具有相关性(r>0.4,P<0.001),是LINC00242在胰腺癌中潜在靶基因。对以上潜在靶基因行基因本体论(Gene Ontology,GO)、京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,探讨LINC00242在胰腺癌发生发展中的作用机制。GO富集分析结果分别显示了细胞成分(Cellular component,CC )、生物学过程(Biological process, BP)、分子功能( Molecular function,MF )前10个最显著的条目(见图3A,校正后P<0.05),基因富集在化学突触传递调节、突触信号转导的调控等生物过程。为进一步验证LINC00242通过以上生物过程影响PAAD的发生发展,分析富集最显著的GO条目中基因与LINC00242的相关性,结果表明所有富集的基因与LINC00242皆有较高的关联(见表3,r>0.4)。KEGG通路富集分析表明LINC00242主要通过PI3K-Akt信号通路、MAPK信号通路、cGMP-PKG信号通路、胰岛素分泌、cAMP信号通路等影响胰腺癌的发生(见图3B,校正后P<0.05)。
A:LINC00242在不同肿瘤状态的差异表达;B:肿瘤分级;C:肿瘤分期;D:生存状态。图2 LINC00242与临床病理特征相关分析
表3 最显著GO条目中富集基因与LINC00242的相关性
A:BP、CC、MF前10个最显著的GO条目;B:前30条显著富集通路。图3 潜在靶基因GO、KEGG富集分析
2.5 泛癌预后及相关性验证 泛癌生存分析表明eRNA LINC00242与肾上腺皮质癌(Adrenocortical carcinoma,ACC)、肾透明细胞癌(Kidney renal clear cell carcinoma,KIRC)、PAAD的预后相关(P<0.05),其中LINC00242低表达与ACC(见图4A)、KIRC(见图4B)良好预后相关。LINC00242和PHF10共表达分析表明在睾丸生殖细胞瘤(Testicular germ cell tumors,TGCT;见图5A)、子宫癌肉瘤(Uterine carcinosarcoma,UCS;见图5B)、肝细胞癌(Liver hepatocellular carcinoma,LIHC;见图5C)、葡萄膜黑色素瘤(Uvealmelanoma,UVM;见图5D)和PAAD 5种癌症中具有显著相关性(r>0.4,P<0.001)。
A:肾上腺皮质癌(ACC);B:肾透明细胞癌(KIRC)。图4 LINC00242与泛癌生存分析
A:LINC00242和PHF10在睾丸生殖细胞瘤(TGCT);B:子宫癌肉瘤(UCS);C:肝细胞癌(LIHC);D:葡萄膜黑色素瘤(UVM)4种癌症中呈正相关(r> 0.4,P<0.001)。图5 泛癌验证LINC00242和PHF10相关性
3 讨论
增强子是一类具有组织特异性的DNA调控元件,可通过与靶基因启动子相互作用来增强靶基因转录。活化的增强子可转录生成一类长链非编码RNA又称作增强子RNA。eRNA是在基因增强子区域衍生的lncRNA的特定亚类,能够顺式作用以影响相应基因的转录。在人类癌症中,致癌基因或致癌信号通路的激活通常由于增强子的激活和eRNA的产生引起[10]。为了增进对PAAD中eRNA的了解,本研究鉴定了PAAD中与预后相关的eRNA。最后结果显示LINC00242是PAAD中最显著的预后相关eRNA(P<0.000),PHF10是其靶点。LINC00242在胰腺癌组织中的表达低于癌旁组织,且在胰腺癌组织不同分化、临床分期、患者最终结局状态等表达差异均有统计学意义(P<0.05)。LINC00242和PHF10的表达成正相关,在泛癌验证中显示LINC00242在ACC、KIRC、PAAD中与总体生存显著相关。表明LINC00242在胰腺癌预后及发生发展中具有一定的作用,为在以eRNA为靶标的胰腺癌治疗中的临床应用提供参考。
鉴定除其预测的靶基因PHF10外的其他共表达基因来阐明LINC00242的作用。除了PHF10,本研究还发现在胰腺癌中一共有1 846个与LINC00242的表达具有显著相关性的基因,这些基因是LINC00242在胰腺癌中的潜在靶基因。尽管eRNA功能主要在顺式中执行,但一些观察结果表明eRNA可以介导反式中其他基因的表达[11-12],因此可以推测LINC00242具有直接或间接反式作用。尽管如此,转录本之间的相关性并不一定暗示因果关系,LINC00242是否是增强子活性的功能性成分仍有待确定。但是,根据基因本体论富集分析,与LINC00242相关的基因转录本主要参与突触信号转导过程,通过PI3K-Akt信号通路、有丝分裂原激活的蛋白激酶(MAPK)信号通路、cGMP-PKG信号通路、胰岛素分泌、cAMP信号通路等通路影响胰腺癌的发生发展。
PI3K-Akt信号通路参与多种癌症的发生发展[13-14],胰腺星状细胞衍生的外泌体通过激活PI3K -Akt通路来促进胰腺癌细胞的增殖[15]。胰腺癌最常见的信号畸变发生在Wnt / Notch信号传导途径中,以及在表皮生长因子受体(EGFR)途径及其相关配体,EGF和转化生长因子-β中。血浆珠蛋白是EGFR信号通路的组成部分,在正常细胞粘附中起重要作用,且与肿瘤微环境中PI3K / AKT和MAPK信号通路的差异上调有关,表明它可能在胰腺癌发生中起重要作用[16]。一种新型circRNA(circNFIB1,hsa_circ_0086375)通过抑制PI3K / Akt途径抑制胰腺癌的淋巴管生成和淋巴转移[17]。KRAS突变发生在所有人类癌症的1/4中,有研究表明MAPK途径的各个成分有潜力作为治疗KRAS突变型癌症的靶标[18]。以上都表明PI3K-Akt信号通路、MAPK信号通路在胰腺癌中也起重要作用,这与KEGG富集结果相符合[19]。
总之,本研究应用了一种集成数据分析方法来识别PAAD中的关键eRNA。结果表明,LINC00242可能是PAAD的预后相关基因,其高表达在PAAD中预后良好,可以用作PAAD的组织特异性eRNA,LINC00242的潜在靶标是PHF10。随着研究的不断深入,LINC00242有望成为新型胰腺癌诊断、预后标志物以及潜在的治疗靶点。