基于数据挖掘分析ULBP2在结直肠癌中的表达及预后意义*
2022-02-28蔡克银
王 晓,王 莉,蔡克银
解放军中部战区总医院干部病房二科,武汉 430070
结直肠癌(colorectal cancer,CRC)是世界第3大癌症[1-2],也是世界第4大致命癌症[2-3],早期无明显临床症状,发现时往往已是中晚期。结直肠癌的早期诊断有利于降低发病率和死亡率,改善患者预后。由于获批的胃肠肿瘤靶向治疗药物种类较少,并且缺少有力研究证据来指导临床决策和解决治疗难题,因此有必要深入研究结直肠癌的发生机制,找到潜在的诊断、预后分子标志物和治疗靶点。
UL16结合蛋白2(ULBP2)基因是主要组织相容性复合体(MHC)的相关分子,与自然杀伤细胞(natural killer,NK)上的NKG2D(natural killer group 2,member D)受体结合,触发多种细胞因子和趋化因子的释放,进而促进NK细胞激活。NKG2D是在免疫细胞表面发现的一种活性受体蛋白,可以和NK细胞和细胞毒性T淋巴细胞(cytotoxic T lymphocyte,CTLs)等多种免疫细胞表面受体作用[4-7]。研究表明NKG2D可以通过识别应激诱导的ULBP1(UL16结合蛋白1,UL16 binding protein 1)与ULBP6(UL16 binding protein 6)和MHC类多肽相关序列A/B(MICA/B,MHC classⅠpolypeptide-related sequence A/B)的结合,调控先天和适应性免疫[8]。ULBP2可以作为黑色素瘤细胞的标志物[9],其表达还与急性髓系白血病[10-11]、卵巢癌[12],膀胱癌[13],乳腺癌[14]等癌症患者的生存结局有关。因此,我们推测ULBP2的表达也可能与结直肠癌相关。本研究通过公共数据库对ULBP2基因相关信息进行深度挖掘,从基因水平、蛋白水平和转录组水平了解肿瘤调控机制,深入研究了ULBP2基因在结直肠癌中的表达和临床意义,为寻找结直肠癌的治疗靶点和药物开发提供思路。
1 资料与方法
1.1 通过Oncomine数据库检索关于ULBP2基因的mRNA信息
登录Oncomine数据库[15-16]官网(网址:https:∥www.oncomine.org/),根据研究需求在数据库中选择筛选条件。本研究筛选条件如下:①Cancer Type:Colorectal Carcinoma;②Analysis Type:Cancervs.Normal Analysis;③Data Type:mRNA。
1.2 通过GEPIA数据库分析ULBP2基因表达
GEPIA(Gene Expression Profiling Interactive Analysis)数据库[17]整合了TCGA等数据库信息,可以分析基因在多种癌症中的表达情况和生存信息。本研究筛选条件为ULBP2和结直肠癌。
1.3 通过TCGA数据库获取ULBP2基因相关表达量和生存数据
通过TCGA数据库[18]检索:①Primary Site:colon,②Program:TCGA,③Data Category:clinical,其他条件选择默认,筛选出了437例样本信息,其中结直肠癌患者398例,正常结直肠组织39例。下载表达量数据,使用R软件中EdgeR包进行结直肠癌组与正常组基因表达量差异分析,将差异倍数≥4(logFC≥2)且矫正后P值<0.01作为差异基因的筛选标准。下载TCGA数据库的相关生存数据,将生存数据和ULBP2基因表达数据整合后进行生存分析。使用Survival包进行生存分析并绘制生存曲线,统计检验为Log-rank检验,过滤条件为P值<0.01。通过分析,找出差异基因ULBP2与结直肠癌生存时间的关系。
1.4 通过String网站进行ULBP2上下游关系预测
利用String网站[19]研究ULBP2相关蛋白的互作网络,并进行基因本体(gene ontology,GO)[20]和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析[21-22]。GO数据库共有三大类,分别是生物学过程(biological process,BP)、细胞定位(cellular component,CC)和分子功能(molecular function,MF),分别描述了基因产物可能行使的分子功能,所处的细胞环境,以及参与的生物学过程,以P<0.05为标准确定功能。
2 结果
2.1 Oncomine数据库分析ULBP2在结直肠癌中的转录表达水平
2.1.1 Oncomine数据库中ULBP2在结肠癌中的差异表达 在Oncomine数据库按照前文中检索条件分析ULBP2在结直肠癌与正常结肠组织中差异表达,得出7个数据集,10项研究,共583例(图1),结果表明ULBP2基因在结直肠癌中普遍高表达。
图1 Oncomine数据库中ULBP2在结直肠癌中的表达Fig.1 The expression of ULBP2 in colorectal cancer in the Oncomine database
2.1.2 ULBP2基因在不同类型肿瘤中的表达情况在Oncomine数据库中,我们分析了ULBP2在肿瘤组与正常组织中基因表达情况,针对基因表达有统计学差异的进行研究。Oncomine数据库共收集了352个不同类型的研究,其中有23个研究中的ULBP2在肿瘤和正常组织表达差异具有统计学意义,ULBP2高表达的肿瘤研究有18个,低表达的有5个。
2.1.3 不同数据集中ULBP2基因在结直肠癌和正常组织中的表达差异 利用Oncomine数据库中综合比较数据集的研究结果,对其进行二次分析,得出与对照组相比基因的表达情况。图2为ULBP2在不同结直肠癌数据集中的表达情况,表1分别为图2数据集对应的P值和差异倍数等信息。研究显示在TCGA Colorectal、Skrzypczak Colorectal、Skrzypczak Colorectal 2等这8个数据集中,ULBP2在结直肠癌中的表达量均显著高于正常结肠组织(均P<0.05)。
图2 Oncomine数据库中ULBP2在不同结直肠癌数据集中的表达Fig.2 The expression of ULBP2 in colorectal cancer in the Oncomine database
表1 ULBP2基因在不同结直肠癌数据集中的表达情况Table 1 ULBP2 expression in colon cancer in the 8 datasets
2.2 GEPIA分析ULBP2差异表达
通过GEPIA在线工具分析TCGA数据库中ULBP2基因在结直肠癌组织样本和正常结肠组织表达情况。结果显示,与正常结直肠组织相比,ULBP2基因在结直肠癌组织中高表达(图3)。这与Oncomine芯片数据库中检索的结果一致。
图3 GEPIA中ULBP2在结直肠癌样本和正常结肠组织样本差异表达Fig.3 Differential expression of ULBP2 in colorectal cancer samples and normal colon tissue samples shown in GEPIA
2.3 TCGA数据库结直肠癌数据挖掘与生存曲线
在TCGA数据库进行结直肠癌数据挖掘,共447例样本,其中结直肠癌样本398例,正常结肠组织样本39例。使用R软件中EdgeR包进行样本表达量差异分析,结果表明ULBP2在结直肠癌组织中高表达(logFC=4.32,P<0.01)。使用Survival包绘制ULBP2基因表达量与生存时间的关系图(图4),结果表明,在结直肠癌患者中ULBP2基因高表达,且高表达组对应的生存期显著低于低表达组(P<0.01)。
图4 TCGA数据库中ULBP2在结直肠癌中表达与生存时间曲线Fig.4 ULBP2 expression and time-survival curve in colorectal cancer in TCGA database
2.4 ULBP2蛋白互作分析及基因功能富集
subfamily K,member 1)、造血细胞信号传感器(hematopoietic cell signal transducer,HCLK)、CD226(CD226 molecule),趋化因子受体8(chemokine receptor 8,CCR8)、MHC类多肽相关序列A(MHC class I polypeptide-related sequence A,MICA)、MHC类多肽相关序列B(MHC class I polypeptide-related sequence B,MHCB)。基因互作功能富集分析如表2所示:其分子功能主要是与自然杀伤细胞凝集素受体结合;生物过程与自然杀伤细胞介导毒性、自然杀伤细胞活性和淋巴细胞活性有关;细胞组分与质膜的本征组分有关;涉及自然杀伤细胞介导的细胞毒性作用。
表2 ULBP2互作蛋白功能富集和KEGG通路分析Table 2 Analysis of function enrichment and KEGG pathway of ULBP2 interaction proteins
使用String数据库对ULBP2进行单个基因互作及功能分析,ULBP2基因在自然杀伤细胞介导的细胞毒性过程中处于重要位置。图5为ULBP2的蛋白互作网络,包括11个结点和47条边(P<0.01)。与ULBP2相互作用的基因包括UL16结合蛋白1(UL16 binding protein 1,ULBP1)、UL16结合蛋白3(UL16 binding protein 3,ULBP3)、自然细胞毒性触发受体1(natural cytotoxicity triggering receptor 1,NCTR1)、自然细胞毒性触发受体2(natural cytotoxicity triggering receptor 2,NCTR2)、K细胞凝集素受体亚科K1(killer cell lectin-like receptor
图5 ULBP2相互作用蛋白互作图Fig.5 Diagram of ULBP2 interaction proteins
3 讨论
肿瘤相关分子标志物可以作为早期检测、临床诊断和预后治疗的关键指标,是结直肠癌研究的重点[22]。ULBP2[8]是主要组织相容性复合体MHC(major histocompatibility complex)第一类超家族中的成员,表达蛋白为UL16结合蛋白2,不包含α3结构域,缺乏跨膜结构域。有研究表明,ULBP2有助于小细胞型肺癌及慢性淋巴瘤的诊断[23],也可作为胰腺癌和急性髓系白血病[10]的肿瘤标志物,并且其基因表达和卵巢癌[12]、膀胱癌[13]、乳腺癌[14]等癌症患者的生存有关。
免疫细胞及其相关因子等组成的局部微环境可帮助机体清除感染或癌变的细胞,在肿瘤发生、进展过程中起到重要作用[24]。MHC家族相关配体的免疫受体NKG2D常被肿瘤细胞表达,并通过NK细胞刺激肿瘤免疫[25]。NK细胞可以调节抗癌或抗感染免疫效应细胞因子的产生,在抗肿瘤和抗感染宿主防御中发挥着重要作用[26-27],可直接参与细胞毒性[28]作用,增强靶细胞免疫原性[29]和适应性免疫[30]。ULBP2是一种应激诱导的NK细胞受体NKG2D的配体[9],可以起到抑制肿瘤的作用。NK细胞通过激活NKG2D受体与ULBP2配体的相互作用,在急性髓系白血病免疫识别过程中发挥重大作用[10],我们通过PPI网络筛选发现,相关互作的蛋白主要调控免疫,主要包括:ULBP1、ULBP3、NCTR1、NCTR2、HCLK、CCR8、MICA、MHCB等。本项目筛选结果进一步确认ULBP2基因可能是通过调控免疫,影响肿瘤细胞的生存。
本文从大数据方向研究ULBP2基因在结直肠癌中的表达及其与预后的关系,涉及了Oncomine、TCGA、GEPIA公共数据库。使用Oncomine研究ULBP2在不同肿瘤及结直肠癌中的表达情况;通过GEPIA数据库再次验证ULBP2在结直肠癌与正常结肠组织中的差异表达;对TCGA数据库结直肠癌数据进行校正,绘制生存曲线。研究结果表明,ULBP2在结直肠癌中高表达;ULBP2的表达量和结直肠癌的预后存在明显的相关性,表达量越低,预后越好。但是,目前所得结果只是通过数据库整合分析,我们将在后续研究中进行验证,如在结直肠癌细胞或动物模型中上调或者抑制ULBP2基因表达,从体内外及临床水平进一步探讨该基因对结直肠癌发展的影响,为结直肠癌的治疗靶点和预后分子标记物的研究提供思路。