PARP1表达在预测结直肠癌总体生存中的作用
2022-12-02叶臻
叶臻,林㼆
结直肠癌是胃肠道最常见的恶性肿瘤之一,也是全球癌症相关死亡的主要原因。2018年肿瘤流行病学调查报道结直肠癌发病率(10.2%)位居世界第三,病死率(9.2%)则位居第二[1,2]。最新的2020年全球流行病学调查显示,结直肠癌发病率(10.0%)及病死率(9.4%)[3]的排位虽然没有改变,但其绝对数量呈上升趋势,发病人数从2018年约185万人增至2020年约193万人,死亡人数则从约88万人增至约93万人。在过去三十年中,中国大肠癌的发病率一直在不断上升,可以预见的是将来可能还会进一步上升,根据2016年国家癌症统计数据,仅我国结直肠癌死亡人数便达到19.56万人,接近全球结直肠癌的五分之一[4]。尽管目前有关结直肠癌发生、发展的相关机制已被广泛研究,影像技术、手术和多模式治疗取得了巨大进步,但晚期结直肠癌患者的5年总体生存率仍然很低,仅有5%~15%[5]。因此,我们迫切需要探寻可靠和实用的预后生物标志物并提供潜在的新的结直肠癌治疗靶点。
PARP1又名聚二磷酸腺苷核糖聚合酶⁃1(ADP⁃ribosyltransferaseD⁃type1,ARTD1),是由PARP1基因编码的核蛋白,主要参与DNA碱基修复、细胞周期、细胞死亡、肿瘤生成等病理生理过程[6-9]。PARP1蛋白有3个主要的结构域:其C端是一个催化结构域,长约55 kDa,可合成多聚二磷酸腺苷核糖(pADPr);中心自动化区域包含15个保守的谷氨酸残基,是自动聚二磷酸腺苷核糖的靶点,长约16 kDa;N端是DNA结合域,包括两个锌指基序和一个核定位序列(NLS),长约42 kDa[10]。研究发现三阴性乳腺癌患者的预后不良与PARP1基因的上调相关[11],PARP抑制剂可针对肿瘤细胞的DNA损伤修复功能进行抑制,从而促使细胞发生凋亡,从而增强化疗药物和放疗的疗效,尤其是针对BRCA1/2基因突变的肿瘤细胞。Bertucci F等分析了PARP1 mRNA在软组织肉瘤中的表达,并提出PARP1高表达是软组织肉瘤复发转移的独立危险因素[12]。Afzal H等发现在幽门螺杆菌阳性的胃癌组织中PARP1呈显著高表达,癌组织氧化应激负荷及DNA损伤明显增加,并与胃癌患者的不良预后有关[13]。然而,有关PARP1在结直肠肿瘤中的作用,研究结果并不一致。有研究报道PARP1与β⁃catenin、c⁃myc、cyclinD1、MMP⁃7协同促进CRC的早期发生[14],PARP1在大肠癌细胞中上调[15],下调PARP1显著减少ATMIN基因敲除结肠癌细胞的转移数量[16]。与之相反的是,有研究者发现PARP1的活性受损可促进染色体不稳定和肠肿瘤生长[17]。Dorsam B等[18]发现,PARP1通过修复DNA烷基化损伤,削弱亚硝基化合物诱导的肿瘤发生。因此,PARP1在结直肠癌中的作用尚不确定。
为了分析PARP1表达与结直肠癌患者预后之间的关系,我们在GEO和TCGA数据库中确定了PARP1在结直肠癌中的表达,并根据TCGA表达谱进行生存分析,鉴定了其中与PARP1相关的差异表达基因及其富集的通路,以期对结直肠癌的预后评判及疾病进展途径提供初步研究数据。
1 材料与方法
1.1 数据获取和预处理
本研究中结直肠癌mRNA表达量的数据来源于GEO数据库(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/)和TCGA(The cancer ge⁃nome atlas,https://portal.gdc.cancer.gov/)数 据 库。其中从GEO数据库获取4个数据集,分别为GSE44076、GSE100179、GSE110225和GSE184093,具体见表1。从GEO数据库下载芯片数据,通过R软件Affy包的RMA算法对GEO微阵列原始CEL文件进行归一化处理[19]并用log2转换值表示标准化基因表达水平,将探针名转换为基因名,对于同一个基因对应多个探针的情况,我们取探针表达量的均值作为该基因的表达量。我们从UCSC Xena(https://xenabrowser.net/)下载到TCGA结直肠癌的RNA⁃seq数据,数据类型为log2(FPKM+1),我们将其转换为log2(TPM+1)。结直肠癌患者的临床信息在cBioPortdatabase(http://www.cBioPortal.org/)中下载。本研究符合GEO、TCGA的数据发布指南和访问政策。
1.2 PARP1表达分析
通过R软件Limma包对GEO数据集中肿瘤和非肿瘤样本中PARP1的基因表达进行比较。通过R软件edgeR包对TCGA肿瘤和非肿瘤样本中PARP1 mRNA的表达量进行比较,用Wilcoxon比较了5个数据集中PARP1在癌和正常样本中的表达情况,通过R软件的ggplot2包对表达情况进行可视化,P<0.05被认为具有统计学意义。
1.3 生存分析
通过EXCEL中的VLOOKUP索引将获取的结直肠癌临床信息与样本ID进行匹配。在删除一些缺失数据后,将PARP1表达值从上到下排列,用R语言的survival包寻找PARP1在患者中的最佳生存分割点,并通过此分割点将患者分为高表达和低表达两组。使用ggplot2包绘制两组患者的生存曲线,P<0.05被认为是与预后显著相关。
1.4 GSEA基因富集分析
我们用基因集富集分析(gene set enrichment analysis,GSEA)软件,根据PARP1的最佳分割点阈值6.93,将样本分成两组,并从Molecular Signa⁃tures Database(http://www.gsea⁃msigdb.org/gsea/down⁃loads.jsp)下 载 了c2.cp.kegg.v7.4.symbols.gmt子 集合,用以评估相关途径和分子机制,基于基因表达谱和表型分组,设定最小基因集为5,最大基因集为5000,一千次重抽样,P<0.05被认为是显著富集的通路。
1.5 PARP1相关基因的鉴定及功能富集分析
采用R语言的Limma包对TCGA数据中结直肠癌患者和正常人的RNA⁃seq进行差异比较分析,以|log2foldchage|>1,P<0.05为阈值,筛选差异表达基因。计算差异表达基因与PARP1的Pear⁃son相关系数,相关系数|r>0.3|,P<0.05的差异表达基因被认为是与PARP1相关的基因。本研究使用R语言的clusterProfiler进行了Gene Ontology(GO)和Kyoto Encyclopedia of Genes and Genomes(KEGG)富集分析,包括生物过程(BP)、细胞成分(CC)和分子功能(MF),P值<0.05被认为是显著富集的条目。我们分别用火山图展示差异表达基因的p值、log2foldchange分布,条形图和气泡图展示GO和KEGG分析结果。
1.6 PARP1共表达基因的鉴定
通 过cBioPort database数 据 库(http://www.cBioPortal.org/)的在线分析功能鉴定PARP1共表达基因并筛选Spearman相关系数绝对值大于0.4,P<0.05的基因,用Cytoscape软件对共表达网络进行可视化。
2 结果
2.1 结直肠癌中PARP1基因的差异表达分析
GSE184093、GSE100179、GSE44076、GSE110225和TCGA数据集信息见表1,其中PARP1在肿瘤样本中的mRNA表达均显著高于其在非肿瘤样本中的表达(P<0.05,图1)。
图1 结肠癌患者肿瘤和非肿瘤样本中PARP1的mRNA表达水平
表1 从GEO和TCGA数据库收集的样本的详细信息
2.2 结直肠癌中PAPP1基因的生存分析和GSEA分析
生存分析结果显示,PARP1表达以6.93作为阈值分为高、低表达组,患者的总体生存(Overall survival)差异最大(图2.E,P<0.05)。生存曲线显示结肠癌中PARP1高表达与患者的不良预后显著相关(图2.A)。基于同样的阈值,我们比较了PARP1高表达和低表达患者的无病生存期(disease⁃free survival,DFS)、疾病特异性生存期(disease⁃specific survival,DSS)和无进展生存期(progression⁃free survival,PFS),结果均显示PARP1高表达与患者的不良预后显著相关(图2B⁃D)。此外,本研究分析了不同人群中PARP1表达与总体生存的关系,结果显示在小于50岁、大于50岁,无瘤状态、Ⅰ~Ⅱ期、Ⅲ~Ⅵ期、M0分期、N0~N1分期、T2~T3分期的患者中,PARP1高表达均与患者的不良预后显著相关(图3,P<0.05);但在术后又产生了新的肿瘤、N2~N3分期、T1~T2分期的人群中无显著性差异。GSEA筛选出7条通路,分别为磷酸肌醇代谢、同源重组、孕酮介导的卵母细胞成熟、卵母细胞减数分裂、嘌呤代谢、赖氨酸降解和非小细胞肺癌相关通路(图4A)。
图2 TCGA数据库中结肠癌患者PARP1表达的生存分析
图3 TCGA数据库不同结肠癌人群中PARP1表达与总体生存期的亚组分析
2.3 PARP1相关基因鉴定及功能富集分析
差异表达分析共筛选出2629个基因,当中765个基因与PARP1显著相关(P<0.05),其中GPATCH4(r=0.73,95%CI=[0.69~0.77])、DNMT1(r=0.71,95%CI=[0.67~0.75])、TIMELESS(r=0.71,95%CI=[0.67~0.75])、MCM3(r=0.69,95%CI=[0.65~0.74])相关度较高(图4B、C,P<0.05)。GO分析结果表明,PARP1相关基因在生物过程中显著富集于DNA聚合酶结合、组蛋白激酶活性、血小板衍生生长因子结合等;细胞成分中富集于前核糖体、小亚单位前体、浓缩核染色体着丝粒等;在分子功能中富集于卡哈尔体蛋白定位、端粒蛋白定位等(图5A)。此外,KEGG途径富集表明,DNA复制、细胞周期、错配修复、叶酸一碳单位、类固醇生物合成、同源重组、碱基切除修复、真核生物核糖体形成、p53信号通路等是富集度最高的途径(图5B)。
图4 PARP1高、低表达分组后的GSEA分析以及PARP1相关基因的鉴定
图5 PARP1相关基因的GO和KEGG富集分析
2.4 PARP1共表达基因的鉴定
PARP1共表达基因的鉴定通过cBioPortal数据库的在线分析功能完成。共有97个Spearman相关系数大于0.4的基因,通过Cytoscape选择和可视化(图6),显示IPO9(ρ=0.680)、DHX9(ρ=0.679)、KIF14(ρ=0.569)、EXO1(ρ=0.553)、NUP133(ρ=0.538)、ISG20L2(ρ=0.524)、DNMT1(ρ=0.519)与PARP1相关度较高(P值均小于0.05)。
图6 PARP1共表达基因网络
3 讨论
近年来,越来越多的研究数据表明PARP1参与了不同系统恶性肿瘤的发生发展过程[11-13]。PARP1参与DNA损伤修复(DDR)、细胞周期和基因组调控等。各种DNA损伤诱导PARP1通过其DNA结合能力快速募集到损伤部位[20],刺激PARP1的催化活性,从而诱导自身以及其他蛋白上的聚二磷酸腺苷核糖(PAR)链合成。这种酶促反应通过酯交换反应导致ADP⁃核糖单元与受体蛋白的谷氨酸、天冬氨酸或赖氨酸残基共价连接[21]。有研究报道PARP1通过将KLF4聚二磷酸腺苷核糖化将KLF4从细胞核招募到染色质中,调控KLF4转录活性,影响细胞对各种应激或致癌信号的反应[22]。FOXD3⁃AS1直接与PARP1相互作用,抑制CTCF的PAR化和激活,抑制神经母细胞瘤的进展[23]。
此外,有研究表明PARP1可以促进肝细胞癌的生长[24],Chen等[25]利用基因相互作用网络发现PARP1是新的非小细胞肺癌基因,并验证了其促进肿瘤细胞的迁移。本研究表明PARP1在结直肠癌组织和非肿瘤组织中的表达存在显著差异,PARP1高表达的结直肠癌患者的总体生存期、无病生存期(DFS)、疾病特异性生存期(DSS)和无进展生存期(PFS)显著低于PARP1低表达组,说明PARP1是结直肠癌患者不良预后的生物标志物。
在PARP1相关基因和共表达基因中,磷酸化的MCM3可促进肾癌细胞增殖和抑制凋亡[26],TIMELESS通过增强卵巢癌中巨噬细胞的募集促进肿瘤进展[27],DHX9可促进非小细胞肺癌的增殖并加速细胞周期进程[28],KIF14的表达水平可影响结直肠癌的预后[29]。此外,在相关基因和共表达基因中均排位较前的DNMT1,有报道称参与驱动肝细胞重编程为肝内胆管癌[30]。由此,我们推测PARP1与这些基因在促进肿瘤进展方面具有协同作用。同时,最新研究显示,PARP抑制剂奥拉帕尼可增强放疗对XRCC2缺陷型结直肠癌细胞的疗效[31]。
本课题组前期研究发现,在结肠癌细胞中Transgelin与PARP1存在蛋白质相互作用,可能参与了结肠癌细胞转移表型的形成[32]。本研究进一步证实了PARP1高表达是结直肠癌患者不良预后的危险因素。有关PARP1在结直肠癌发生发展中的分子机制尚待进一步研究探索,现有数据提示PARP1有可能成为结直肠癌治疗的一个新靶点。