APP下载

SH3TC2促进结直肠癌的发生与进展
——基于生信分析

2023-06-04陈德合夏天红岳婷李洪涛

河南大学学报(医学版) 2023年2期
关键词:差异基因关键直肠癌

陈德合 ,夏天红 ,岳婷 ,李洪涛

1宁夏医科大学,银川 750000;2 解放军联勤保障部队第940医院,兰州 730050;3商丘市第五人民医院,商丘 476000;4甘肃省干细胞与基因药物重点实验室,兰州730050

2020年全球结直肠癌(colorectal cancer,CRC)新发190万例、死亡病例高达93.5万,是世界上发病率和死亡率最高的癌症之一[1]。最新统计报告显示,我国仅2016年结直肠癌新发患者就高达40.8万例,仅次于肺癌,死亡患者高达19.56万例[2]。早期CRC患者手术能取得良好效果,但多数患者发现时已为中晚期,同时治疗后复发高达50%[3]。近年来的研究认为,CRC的发生、发展可能与生活方式、年龄(50岁以上)、肥胖、吸烟、遗传、饮食、2型糖尿病和特定细菌种类的微生物感染等有关[4],也可能是通过两种不同的途径由两种类型的前体息肉引起的,即常规腺瘤和锯齿状腺瘤,但确切的发病机制有待探索[5]。寻找与CRC诊断、治疗和预后判断的新分子,为精准诊疗提供了新的靶点,同时也为发病机制的研究奠定了理论基础[6-9]。

随着基因组学、蛋白质组学、高通量测序及生物信息挖掘等技术的快速发展,各个学科研究领域更加便捷高效,使得肿瘤早期精准诊疗成为现实。同时,随着大数据日趋成熟,生物医学公共数据库逐步完善,推动了医学的巨大进步,为肿瘤基础和临床研究者提供了海量基因组数据和其关联的临床数据,如基因组图谱(The Cancer Genome Atlas,TCGA)、基因型-组织表达(The Genotype-Tissue Expression,GTEx)等。本研究欲通过可视化的Gene Expression Profilling Interactive Analysis 2.0(GEPIA 2.0)肿瘤数据分析平台,对TCGA 及GTEx数据库中结直肠癌及正常黏膜组织的差异基因及预后相关基因进行分析,寻找CRC 新的关键基因,同时通过数据库GEPIA 2.0、UALCAN(https://ualcan.path.uab.edu/index.html)、Tumor Immune Estimation Resource 2.0(TIMER 2.0)及STRING 11.5(https://string-db.org)进行验证和进一步探索,以期发现确切的结肠癌(Colon Adenocarcinoma,COAD)和直肠癌(Rectal Adenocarcinoma,READ)共同新的诊断标志物和潜在的治疗靶点。

1 方法

通过开放性的GEPIA 2.0肿瘤数据分析平台,对TCGA 和GTEx数据库中367个癌和667个癌旁组织的可视化基因表达谱数据进行动态分析;运用FunRich(version 3.1.3)软件对共同差异基因进行GO、KEGG 富集研究。同时,通过GEPIA 2.0、UALCAN、TIMER 2.0及STRING 11.5进行验证和进一步探索。

1.1 差异表达基因(Differentially expressed genes,DEGs)筛选

在GEPIA 2.0平台中选择FUNCTIONS菜单下的Expression Analysis,然后选择Differential Genes。筛选条件:①Dataset(Cancer name)选择COAD/READ;②Differential Methods选择ANOVA;③|Log2FC|Cutoff为1,q-value Cut off为0.01;④Gene/Isoform 选择Gene;⑤Chromosomal Distribution 选择Both;⑥比对GRCh38.p2(NCBI),得到差异基因和其染色体分布图。

1.2 预后相关基因筛选

在GEPIA2平台选择FUNCTIONS中的Expression Analysis,然后选择Survival analysis,再选择Most Differential Survival Gens。筛选条件:①Datasets Selection 选择COAD/READ;②Gene/Isoform 选择Gene;③Methods为Overall Survival or Disease Free Survival;④Group Cutoff为Median;⑤得到预后总生存期(Overall Survival,OS)和无病生存期(Disease Free Survival,DFS)相关基因。

1.3 关键基因在线验证和探索

1)通过韦恩图对结直肠癌差异基因与预后OS和DFS相关的基因分别做交集,得到关键基因后应用基因富集软件Fun Rich(version 3.1.3)完成共同差异关键基因的GO 和KEGG 富集分析。

2)通过GEPIA 2.0和UALCAN 数据库对筛选的关键基因进行表达和预后生存验证,并得到在不同肿瘤中的表达及生存热图。

3)通过TIMER 2.0在线数据库进行关键基因表达水平与免疫细胞浸润相关性分析。

4)通过STRING 在线数据库(version 11.5)分析关键基因的蛋白质相互作用网络。

2 结果

2.1 差异表达基因

应用GEPIA 2.0可视化数据库对结肠癌(275个癌组织和349个癌旁组织)和直肠癌(92个癌组织和318个癌旁组织)的RNAseq数据进行差异基因筛选,COAD 中获得5 337个显著DEGs,其中上调基因有2 658 个,下调基因有2 769 个。READ中获得5 769个显著DEGs,其中上调基因有2 831个,下调基因有2 938个。差异基因主要染色体分布如图1所示。

图1 结直肠癌与癌旁组织差异基因主要染色体分布

2.2 关键基因

通过韦恩图对结、直肠癌差异基因与预后OS和DFS相关排序前500位基因分别做交集,结果:①差异基因与预后OS交集无共同差异基因(图2A);②差异基因与预后DFS交集,通过统计得出BGLAP、COQ2、CRLF1、PREX2、SH3TC2、PTPRM、ZNF154、HOXA4等8个共同差异基因且与预后DFS相关(即关键基因,图2B);③关键基因的ID号及在癌与癌旁组织表达情况及差异性,详见表1。进一步通过GEPIA2 可视化平台进行关键基因对比分析,探索8个关键基因在31种癌症中癌与癌旁组织表达的差异热图(图2C),通过对比热图发现,在不同肿瘤中癌组织与癌旁组织表达差异,可能与肿瘤的组织特异性有关,为肿瘤的诊疗提供了新的思路。

表1 结直肠癌差异表达与预后无病生存期相关基因

图2 结直肠癌DEGs与OS及DFS相关基因韦恩图及在不同癌症中表达

图3 结直肠癌共同差异表达与预后DFS共同相关基因的GO 及Pathway富集分析

2.3 关键基因的GO 和KGGA富集分析

通过基因富集软件FunRich(version 3.1.3)对8个关键基因进行GO 分析,发现主要富集在细胞组分(cellular component,CC)12 个、分子功能(molecular function,MF)8 个、生物学过程(biological process,BP)7个。KEGG 通路富集分析发现,其涉及的通路Pathway62条。关键基因在CC中主要集中在细胞外(42.9%)、细胞核(28.6%)、细胞膜(28.6%)、细胞质(28.6%)和质膜(14.3%)等12种细胞组成元素。MF 中主要涉及转录调控(25.0%)、鸟苷酸交换(12.5%)、催化活性(12.5%)、受体信号蛋白酪氨酸磷酸活性(12.5%)和未知功能(12.5%)等8个功能簇。BP 中主要包含信号转导(37.5%)、细胞通讯(37.5%)、碱基核苷酸代谢调节(25%)、新陈代谢(12.5%)和未知生物学过程(12.5%)等13个生物过程。KEGG 分析结果表明,预后关键基因主要参与连接蛋白黏附通路(50.0%)、CDC42 分 子 的 调 控(50.0%)、CDC42 信号活动(50.0%)、血小板生长因子受体信号网络(25.0%)和肝细胞生长因子介导信号事件(25.0%)等62条信号通路(图2A-D)。

2.4 验证关键基因的表达与预后关系

通过GEPIA 2.0 和UALCAN 可视化基因表达数据和临床信息,验证筛选到的8个关键差异基因在癌与癌旁中的表达及预后分析,发现:BGLAP、CRLF1、PREX2、PTPRM、ZNF154 及HOXA4 在癌组织中显著差异低表达(P<0.01),似乎发挥着抑癌功能,但预后分析却发现低表达患者预后DFS更长,这似乎在癌症进展中又发挥促癌功能;COQ2和SH3TC2在癌组织中显著高表达(P<0.01),而COQ2预后分析发现高表达患者预后DFS 更长。我们 推 测,BGLAP、COQ2、CRLF1、PREX2、PTPRM、ZNF154及HOXA4可能在癌症的不同阶段发挥促癌、抑癌的双重功能。最终确认SH3结构域和四肽重复2(SH3 domain and tetratricopeptide repeats 2,SH3TC2)为促癌因子,在结直肠癌组织中不但高表达(图4),而且预后DFS分析高表达患者DFS更短(图5A1、B2),差异具有显著统计学意义(P<0.01),预后DFS危险度分析在结直肠癌患者高表达患者分别是低表达患者的2.2倍和4.0倍。同时以Log10(HR)对数,做预后风险系数热图,探索SH3TC2在33种不同癌症中的危险系数,从热图中可以看出SH3TC2 对不同肿瘤的预后OS 和DFS不尽相同,其中在结肠癌、肾癌、急性髓细胞白血病、肺癌、恶性间皮瘤、胰腺癌、直肠癌和皮肤黑色素瘤差异具有统计学意义(图5C)。综上,在结直肠癌中SH3TC2 高表达,且高表达患者预后DFS 显著缩短,强烈提示可能为促癌因子。

图4 通过GEPIA2和UALCAN数据验证SH3TC2在结直肠癌与癌旁组织的表达差异

图5 结直肠癌中SH3TC2的表达与预后分析

2.5 SH3TC2的表达水平与免疫细胞浸润相关性探索

肿瘤和免疫系统之间的相互作用在癌症的发生、进展和治疗中起着至关重要的作用,阐明肿瘤和免疫细胞的相互作用将有助于预测免疫治疗反应和开发新的免疫治疗靶点,也成为目前的研究热点。我们通过肿瘤免疫在线研究工具TIMER 2.0,进行SH3TC2在结直肠癌组织中表达水平与免疫浸润相关性探索。由分析可知:COAD 中SH3TC2的表达水平与6种免疫细胞浸润相关性分析,其表达水平仅与CD4+T 细胞浸润相关性有统计学意义(r=0.124,P=0.013),且相关性较弱;READ 中SH3TC2的表达与6种免疫细胞的浸润性均无统计 学意义,见图6。

图6 SH3TC2表达水平与结、直肠癌免疫浸润的相关分析

图中纵坐标表示SH3TC2表达水平、横坐标表示免疫浸润水平,最左侧显示纯度校正的部分Spearman rho值和统计显著性(因为在微环境中高度表达的基因预计与肿瘤纯度呈负相关,而在肿瘤细胞中高度表达的基因则相反),然后由左至右依次表示SH3TC2的表达水平与B细胞、CD8+T 细胞、CD4+T 细胞、巨噬细胞、中性粒细胞及树突状细胞免疫浸润水平的相关性及统计显著性。

2.6 SH3TC2基因的蛋白质相互作用分析

通过STRING 数据库分析SH3TC2的蛋白质相互作用网络,发现SH3TC2属新分子,研究较少,蛋白质相互作用多通过文本数据挖掘和共表达预测计算出其蛋白质相互作用的网络(图7)。SH3TC2相互作用蛋白及得分:肌管蛋白相关蛋白13(SET binding factor 2,SBF2),0.875;脂多糖诱导TNF因子 (lipopolysaccharide induced TNF factor,LITAF),0.872;肌管蛋白相关蛋白2(myotubularin related protein 2,MTMR2),0.865;Ras相关蛋白Rab-11A (member RAS oncogene family,Rab11A),0.860;神经节苷脂诱导的分化相关蛋白1(ganglioside induced differentiation associated protein 1,GDAP1),0.843。

图7 通过STRING数据库分析SH3TC2的蛋白质相互作用网路

3 讨论

本研究综合TCGA、GTEx公共数据库中1 034个样本数据信息,通过可视化生物临床信息分析平台GEPIA2进行DEGs筛选,预后生存OS、DFS相关基因筛选,并用韦恩图确定与DEGs及预后相关的基因;进而运用Fun Rich对关键基因进行GO 和KEGG 富集分析,明确关键基因分子的功能及作用机制;接着通过GEPIA2.0 和UALCAN 数据库对关键基因进行验证,发现SH3TC2在结直肠癌中高表达,且高表达组患者预后DFS更短。另外,通过TIMER 2.0 和STRING 数据库在线进一步挖掘SH3TC2基因的表达与免疫细胞浸润和蛋白质相互作用网络,发现SH3TC2的表达与结直肠癌的免疫细胞浸润水平相关性较弱;与SH3TC2可能相互作用的蛋白有SBF2、LITAF、MTMR2、MTMR2及GDAP1 等。然而,经查阅文献发现目前对SH3TC2基因在肿瘤中的研究较少,是有潜在研究价值的新分子。

SH3TC2位于人类5 号染色体长臂3 区2 带(5q32),编码具有两个N 末端Src同源3结构域和10个四肽重复基序的蛋白质[10]。在以往的研究表明SH3TC2突变引发常染色体隐性脱髓鞘性Charcot-Marie-Tooth 4C 型(CMT4C)神经病变和遗传4C型腓骨肌营养不良,被认为是中枢神经系统疾病的关键调节因子[11-12]。实验表明,小鼠SH3TC2的突变或敲低导致周围神经病变,导致运动和感觉神经传导速度降低和髓鞘形成[13]。进一步研究发现,这可能与SH3TC2缺乏影响neuregulin-1/ErbB信号通路有关[14]。

近年来,有研究发现SH3TC2在肿瘤中表达与预后相关,如在神经母细胞瘤中SH3TC2低表达与髓细胞组织增生病毒相关基因扩增和较差的存活率有关[15];弥漫性大B细胞淋巴瘤中,SH3TC2被确定为预后不良的CD5+活化B细胞样亚型的标志基因[16]。另外,也有研究证实在肿瘤的发生与进展中SH3TC2发挥重要功能,Doecke等[17]基于TCGA 数据库的甲基化数据发现SH3TC2是癌症高患病率相关的DNA甲基化定位基因;Yu等[18]发现SH3TC2在急性髓性白血病(acute myelogenous leukemia,AML)中高表达,并且与AML 中最常见的酪氨酸激酶3(fmslike tyrosine kinase 3,FLT3)突变相关,促进AML发生。这与我们的研究结论相似,其在肿瘤中高表达。同样,Huang等[19]发现SH3TC2在肿瘤中的表达不尽相同,其中在COAD中高表达,高表达的患者预后不良,同时SH3TC2表达水平与免疫细胞浸润水平具有相关性。本研究在Huang等人的基础上进行更深层次探索,不但发现其在COAD中高表达,在READ中同样高表达;在预后分析中发现高表达患者预后较差,且其表达水平与预后DFS负相关,与预后OS相关性无统计学差异;在免疫细胞浸润的研究中我们发现其表达水平与免疫细胞浸润相关性较低,有无实际意义仍需进一步研究。

本研究基于TCGA、GTEx、GEPIA2、UALCAN、TIMER2.0、STRING 数据 库 及Fun Rich 软件,发现SH3TC2在结直肠癌组织中高表达,且高表达与不良预后DFS显著相关,有可能作为潜在的CRC诊断标志物、治疗的靶点及预后DFS 预测的新分子。本研究结果为深入探索SH3TC2 在结直肠癌中的作用提供基础,同时也为今后的研究提供了新的方向。

猜你喜欢

差异基因关键直肠癌
硝酸甘油,用对是关键
高考考好是关键
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
腹腔镜下直肠癌前侧切除术治疗直肠癌的效果观察
紫檀芪处理对酿酒酵母基因组表达变化的影响
直肠癌术前放疗的研究进展
COXⅠ和COX Ⅲ在结直肠癌组织中的表达及其临床意义
GRP及GRPR在结直肠癌中的表达及意义
SSH技术在丝状真菌功能基因筛选中的应用
生意无大小,关键是怎么做?