基于TCGA胰腺癌数据集识别胰腺癌相关糖尿病特征基因
2020-08-25王新静赵昕张欣雪曹迪任章勇贾利猛郎韧贺强
王新静 赵昕 张欣雪 曹迪 任章勇 贾利猛 郎韧 贺强
1首都医科大学附属北京朝阳医院肝胆胰脾外科,北京 100020;2北京市海淀医院普通外科,北京 100080
胰腺癌相关糖尿病(pancreatic cancer-associated diabetes mellitus, PCDM)指胰腺癌(pancreatic cancer, PC)确诊前2年内诊断的糖尿病[1]。研究发现,PC患者有68%会新发糖尿病,明显高于肺癌、乳腺癌、前列腺癌和结直肠癌[2]。74%~88%伴有糖尿病的PC患者其糖尿病发生于PC确诊之前的2~5年[1,3-4]。由于PCDM与PC的诊断有一定的时间关系,因此如果能够发现PCDM始动基因,将有利于PC的早期诊断。本研究基于癌症基因组图谱(The Cancer Genome Atlas, TCGA)-PC数据集mRNA的表达数据,通过生物信息学方法分析PCDM的基因特征,探索PCDM潜在的分子标志物。
资料与方法
一、一般资料与分组
通过TCGA数据库(http://gdac.broadinstitute.org)下载PC临床数据和相应的基因组mRNA芯片表达谱数据。临床病理数据包括185例PC患者的信息,主要有性别、年龄、肿瘤分期、放疗、药物治疗、伴随疾病、复发和预后情况等;基因组mRNA表达谱数据包含其中183例PC肿瘤样本的20 531个基因的芯片表达数据,所有数据经过Quantile标准化及log2处理。将既往无糖尿病的PC患者归为PC组(109例),PC确诊前2年内新发糖尿病的患者归为PCDM组(11例),排除63例糖尿病病史超过2年的PC患者。
二、基因表达差异分析
采用R软件“limma”程序包[5],比较PCDM组与PC组基因表达量的差异,以|log2fold change|>2且P<0.05为标准,筛选差异表达基因(differentially expressed genes, DEGs)并绘制“火山图”。
三、DEGs的功能富集分析
使用R软件“clusterProfiler”程序包对DEGs进行功能富集分析,包括基因本体(gene ontology, GO)分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析[6]。其中GO分析包括生物学过程、分子功能、细胞组分分析。
四、构建蛋白相互作用(protein-protein interaction, PPI)网络
通过STRING数据库(https://string-db.org/)分析PCDM的DEGs相互作用的关系,构建PPI网络,并通过Cytoscape软件(3.7.2版本)将结果可视化,最后通过MCODE模块筛选枢纽基因。
五、统计学分析
采用R软件(3.5.2版本)整理数据,通过贝叶斯检验比较PCDM组与PC组的基因表达量。连续性变量的组间比较采用方差分析,分类变量比较采用χ2检验。P<0.05为差异有统计学意义。
结 果
一、PCDM组与PC组的临床病理特征
PCDM组和PC组患者的一般资料及临床病理特征的差异均无统计学意义(表1)。
表1 胰腺癌相关糖尿病组与胰腺癌组的临床病理特征比较
二、PCDM的DEGs
与PC组比较,PCDM组有107个DEGs(|log2fold change|>2且P<0.05),其中47个基因明显上调,60个基因明显下调(图1,表2)。
图1 胰腺癌相关糖尿病差异表达基因的火山图
表2 胰腺癌相关糖尿病差异表达基因
三、PCDM 107个DEGs的功能富集分析
对107个PCDM DEGs的GO功能分析发现,在生物学功能方面,基因的主要功能为正向调节细胞分泌和维持细胞钙离子的稳态(图2A);在细胞组分方面,基因的主要功能与小泡腔、细胞质微管腔和细胞外基质成分相关(图2B);在分子功能方面,基因主要参与受体活性调节及碳水化合物的结合(图2C)。KEGG通路富集分析显示,107个DEGs主要参与细胞因子、受体间相互作用,病毒蛋白与细胞因子受体的相互作用及趋化因子信号等通路(图2D)。
图2 胰腺癌相关糖尿病差异基因功能及通路富集分析
四、PCDM 107个DEGs的PPI网络分析及枢纽基因
通过STRING数据库,基于107个PCDM的DEGs构建了PPI网络;通过MCODE模块识别了5个枢纽基因,分别为GNG8、CNR2、GALR2、CXCL13、NPY2R(图3)。
图3 胰腺癌相关糖尿病特征基因蛋白相互作用网络
讨 论
胰腺癌是恶性程度极高的消化道肿瘤,5年生存率仅8%[7]。发病隐匿、缺少特异性标志物、易早期转移是导致胰腺癌预后不良的主要原因,因此探索胰腺癌早期始动基因和相关机制对于早期诊断、提高生存率有重要意义。糖尿病与胰腺癌相互影响、互为因果、关系密切[8]。研究显示糖尿病是胰腺癌的危险因素。Lu等[9]对新发2型糖尿病患者随访发现,糖尿病患者罹患胰腺癌风险高于非糖尿病患者;在糖尿病诊断5年内随访,第1年的胰腺癌发病率最高。同健康人群相比,新发糖尿病患者罹患胰腺癌的概率提高了8倍,特别是PCDM的患者大部分是在胰腺癌诊断数年前被诊断糖尿病[8]。因此推测新发糖尿病可能是胰腺癌早期临床表现之一[10]。
鉴别新发糖尿病尤其是PCDM,对于胰腺癌的早期诊治具有重要的临床意义[11]。对新发糖尿病患者进行PCDM的筛查是诊断无症状胰腺癌和提高胰腺癌患者生存率的重要手段之一[12]。Illes等[13]定期随诊115例新发2型糖尿病患者,进行CA19-9检测和超声检查,必要时CT检查,结果显示其中10例CA19-9升高,但未发现胰腺癌,而3例CA19-9正常的随访者被确诊为胰腺癌,可见CA19-9不宜作为PCDM的分子标志物。PCDM可能与肿瘤所致胰岛素抵抗、癌组织释放过多的细胞因子和胰岛淀粉多肽、自身免疫紊乱、肿瘤细胞破坏胰岛等因素有关[14]。因此通过探索PCDM的特征性基因,以此为出发点寻找潜在的分子标志物可能为胰腺癌的早期诊断提供新的思路。
近年来,TCGA数据库不仅提供了人体常见肿瘤的基因组、转录组和蛋白质组等多组学数据,还公布了临床病理数据及长期随访数据,是研究基因与肿瘤表型关系的宝贵资源。基于此,本研究借助TCGA-PC数据集,将患者分为PCDM组和PC组,结果显示两组在临床病理特征方面无明显差异,在107个DEGs中,GNG8、CNR2、GALR2、CXCL13、NPY2R可能是PCDM的特征性基因。
CNR2是大麻素CB2受体基因,与胰岛素分泌相关。研究显示,CB2受体在胰岛β细胞表达;在人胰岛细胞灌注实验中,CB2受体激动剂可通过开放钙离子通道,促进β细胞分泌胰岛素[15]。此外CNR2的激活还可以通过EGF/EGFR和IGF-I/IGF-IR通路抑制乳腺癌的侵袭转移[16]。本研究结果显示PCDM组CNR2表达明显下调,可能与胰岛素分泌不足及抑癌作用受损有关。
GALR2为2型Galanin受体,是一种抗糖尿病和抗炎神经肽。文献提示中枢神经系统中GALR2可以促进糖代谢,其高表达可以抑制胰岛素抵抗,避免血糖升高[17]。实验研究结果显示激活GALR2可减轻肥胖小鼠骨骼肌的胰岛素抵抗[18]。本研究结果显示,PCDM组GALR2作为枢纽基因表达明显下调,提示该基因表达下调有可能引起胰腺癌相关糖尿病的发生。此外,实验研究发现,在裸鼠-人头颈癌细胞皮下成瘤模型中,GALR2通过p38-MAPK信号通路介导促血管生成细胞因子、VEGF和IL-6的分泌,诱导血管生成,导致头颈部鳞状细胞癌侵袭性生长[19];在涎腺导管癌,GALR2处于高甲基化状态,与预后不良相关[20];Galanin蛋白作为一种肿瘤抑制蛋白,在胃癌发挥抑制肿瘤生长的作用[21]。但GALR2在胰腺癌的作用尚无报道,具体作用机制尚需进一步实验证实。
CXCLl3在人体肝脏、血清和淋巴结均有表达,具有吸附B细胞的能力,被称为B细胞吸附因子。在正常小鼠胰岛中CXCL13过表达,可通过吸附淋巴细胞,形成异位淋巴结。研究发现,外周淋巴组织如脾、淋巴结功能的维持均需要CXCLl3的参与。此外胰岛β细胞的形成也依赖于CXCLl3的正常表达,如在非肥胖型糖尿病小鼠注射CXCLl3趋化因子,可阻断糖尿病进展[22]。鳞状细胞癌和乳腺癌组织中CXCL13作为一种趋化因子具有招募免疫细胞、抑制肿瘤生长的作用[23-24]。本研究显示PCDM组CXCL13明显下调,提示CXCL13可能参与胰腺癌新发糖尿病的发生,并在胰腺癌发生发展过程中发挥一定的作用。
NPY2R为男性糖尿病患者的神经肽Y受体2[25],其高表达与糖尿病及其并发症的进展相关,如在1型糖尿病患者队列研究中,NPY2R可能与严重糖尿病导致的视网膜病变有关[26]。也有研究显示,NPY2R在伴有糖尿病的心脏病患者的右心房肌肉组织中表达明显降低,可能与器官特异性有关[27]。此外,NPY2R还参与了某些肿瘤的发生过程[28],如在口腔癌患者中,NPY2R启动子甲基化更容易引起肿瘤复发[29];在复发或转移的乳腺癌患者中,NPY2R的TT基因型频率明显增高[30]。可见,NPY2R与糖尿病及肿瘤均相关,但在胰腺癌的作用机制尚需进一步验证。
本研究由于受TCGA-PC数据集中病例样本的限制,无法将正常胰腺与糖尿病患者的胰腺组织进行对比,影响了结果的特异性。PCDM组样本偏少也影响了结果的可信度,因此扩大样本量,收集适宜的胰腺组织样本,再进行转录组分析有可能揭示PCDM的始动因素,进而为胰腺癌的早期诊断筛选可靠的新型分子标志物。
利益冲突所有作者均声明不存在利益冲突