APP下载

基于生物信息学分析胃癌与癌旁组织中差异基因的表达及验证*

2020-10-28段宝军王晓霏高艺白俊普彦淞靳荣辉张蓉路凯

肿瘤预防与治疗 2020年10期
关键词:信息学差异基因通路

段宝军,王晓霏,高艺,白俊,普彦淞,靳荣辉,张蓉,路凯

710068 西安,陕西省人民医院 肿瘤内科(段宝军、白俊),普外科(普彦淞),放疗科(靳荣辉),消化内科(张蓉),麻醉科(路凯); 710061西安, 西安交通大学 医学部(王晓霏、高艺)

在世界范围内,胃癌(gastric cancer,GC)的发病率在所有恶性肿瘤中居第5位,死亡率居第3位。我国每年GC的新诊断患者约46万人,发病率居所有恶性肿瘤的第3位,因GC死亡者约39万人,居所有恶性肿瘤的第2位[1]。由于早期GC缺乏特异的症状和体征,导致超过70%的患者诊断时已处于进展期[2]。虽然近年来在GC的诊断及治疗方面已有较多的进展[3-4],但其发生发展的分子机制仍不十分清楚,研究与GC相关的基因异常改变对此疾病的诊断、治疗及预后评估具有重要的意义。

本研究通过检索基因表达数据库(gene expression omnibus,GEO)中的基因表达芯片数据,分析GC与癌旁组织样本中的差异表达基因(differentially expressed genes,DEGs),利用京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)对GC中显著高表达的差异基因进行通路富集分析,并在癌症基因组图谱数据库(the cancer genome altlas,TCGA)中研究差异基因在GC中的表达及其与GC分期及预后的关系,最后在病理组织样本中验证COL1A1在GC组织中的表达及其与GC患者预后的关系。

1 资料与方法

1.1 基因表达芯片的检索及差异基因筛选

在GEO数据库(https://www.ncbi.nlm.nih.gov/gds)中以“Gastric cancer”为关键词检索并筛选GC的基因表达芯片。通过计算各基因在GC与癌旁组织样本间表达的倍数改变值和P值得到显著差异表达的基因。

1.2 差异基因的KEGG通路富集与关键基因的确定

利用在线工具Venny(https://bioinfogp.cnb.csic.es/tools/venny/index.html)将GC与癌旁组织样本间差异表达的基因取交集,获得GC组织中显著高表达的基因。使用Metascape对GC中显著高表达的基因进行KEGG通路富集分析,在最显著富集的通路中确定GC中高表达的关键基因。

1.3 关键基因在GC中的表达及其与GC分期及预后的关系

通过在线工具GEPIA(http://gepia.cancer-pku.cn/)分析TCGA数据库中GC样本中关键基因的表达差异,并进一步分析关键基因的表达水平与GC分期及预后的关系。

1.4 临床样本验证

GC及癌旁组织标本(n=113),平均年龄:(52.31±10.82)岁,男/女:64/49)来自陕西省人民医院胃肠道肿瘤生物样本库。所有患者有完整的治疗和随访资料,随访截止日期2020年1月1日,中位随访时间46.4月(11~120月)。所有纳入病例的病理诊断均经两名不同的病理医生确定,病理分期依据美国癌症联合会第七版分期。COL1A1抗体(No. 67288-1-Ig)购自Proteintech公司,二抗试剂购自北京中杉金桥公司。病理组织切片厚度为4um,经脱水、抗原修复、去除内源性过氧化物酶及山羊血清封闭后,滴加鼠抗人COL1A1一抗(1∶100),4°C过夜孵育,加生物素化二抗,DAB显色,苏木素复染,透明后封片,镜下观察并拍照,Image J软件通过测量免疫组化切片的光密度值计算阳性细胞面积百分比[5]。

2 结 果

2.1 GC与正常/癌旁胃粘膜组织的基因表达

经检索、筛选后下载2个GC与癌旁组织样本的基因表达芯片,分别为GSE54129(GC组织111例,癌旁组织21例)和GSE79973(GC组织10例,癌旁组织10例)。经过分析GSE54129的差异基因共954个,其中GC中高表达的548个,低表达的406个(图1A)。GSE79973的差异基因共569个,其中GC中高表达的117个,低表达的452个(图1B)。

2.2 差异基因的KEGG通路富集及关键基因确定

在GSE54129和GSE79973中,GC组织均高表达的基因共31个,均低表达的基因共54个(图1C、D)。KEGG通路富集分析发现这2个芯片的GC组织中均高表达的31个基因主要富集于细胞外基质受体相互作用和蛋白的消化与吸收信号通路,此通路包括3个基因,分别为COL1A1、COMP及THBS2,确定其为与GC有关的关键基因(图2)。

图1 GC与正常/癌旁组织的差异表达基因及韦恩图。

图2 GSE54129和GSE79973中高表达基因的KEGG通路富集分析

2.3 关键基因在GC中的表达及其与GC分期和预后的关系

与癌旁组织相比,COL1A1、COMP及THBS2在GC组织中的表达显著升高(P<0.001,P<0.001,P<0.001)(图3A~C)。COL1A1及THBS2在GC组织中的表达与GC的临床分期显著相关,COL1A1及THBS2表达水平越高,分期越晚(P=0.029,P=0.025)(图3D~F)。进一步分析发现,在GC患者中,COL1A1及COMP的高表达与GC的预后不良显著相关(P=0.024,P=0.045)(图3G~I)。

2.4 COL1A1在GC临床组织样本中的表达及其与预后的关系

COL1A1呈棕黄色,主要在细胞间质中表达。与癌旁组织相比,COL1A1在GC组织中显著高表达(P<0.001,图4A~C)。COL1A1的表达与GC的分期明显相关(P=0.022),COL1A1表达水平越高,分期越晚(图4D),且COL1A1与GC的预后显著相关(P=0.001)(图4E)。

图3 COL1A1、COMP及THBS2在GC和癌旁组织中的表达及其与GC分期及预后的关系

图4 COL1A1在GC中的表达及其与预后的关系

3 讨 论

生物信息学分析包括芯片表达谱、基因功能注释及基因互作网络等,是研究恶性肿瘤发病机制及筛选潜在诊断标志物和治疗靶点的有力研究工具[6-8]。Zhang等[9]通过生物信息学分析发现,与癌旁/正常胃组织标本相比,99个长链非编码RNA及2 857个mRNA在GC中的表达存在显著差异,其中13个长链非编码RNA及823个mRNA与总生存显著相关,且差异表达的mRNA与黏附斑及PI3K-Akt等信号通路有关,提示长链非编码RNA与mRNA的表达网络可作为GC的转录后分子特征。有学者通过差异共表达分析(differential coexpression analysis,DCEA)、分期特异基因调节网络(gene regulatory network,GRN)与差异调节网络(differential regulation networking,DRN)的方法分析GEO及TCGA数据库中的数据,发现胃内因子(gastric intrinsic factor,GIF)及X盒结合蛋白1(X-box binding protein 1,XBP1)与GC有关,研究结果提示从差异调节网络的层面进行生物信息学分析为理解GC的发病机制、挖掘新的药物靶点及标志物提供了新的视角[10]。Liao等[11]的研究发现Serpin家族E成员1(serpin family E member 1,SERPINE1)及分泌蛋白酸性和富含半脱氨酸(secreted protein acidic and cysteine rich,SPARC)在GC中显著高表达,且其与GC的不良预后显著相关。

我们通过在GEO数据库中检索后筛选出2个GC与癌旁组织基因表达的芯片,分析发现GC与癌旁组织中的基因表达存在显著差异,使用Venny筛选出31个在2个芯片的GC组织中均显著高表达的基因,KEGG分析提示GC中高表达的基因主要富集于细胞外基质受体相互作用和蛋白的消化、吸收信号通路,通路中包含的3个基因分别为COL1A1、COMP及THBS2。吴茜等[12]通过生信分析发现INHBA、UGT2B15、ITGA2、ITGB1、SH3GL2及其相关的生物过程可能是GC的潜在生物标志物和治疗靶标。本研究的结果与其存在一定的差异,考虑主要与所分析的芯片数据及使用的生信分析方法不同有关。

COL1A1为I型胶原α1,为I型胶原的主要成份,在多种组织中广泛存在,COL1A1的异常表达与多种肿瘤有关,包括肾癌、黑色素瘤及肝细胞癌[13-14]。Li等[15]运用RT-PCR的方法在正常/癌旁胃粘膜组织、GC前病变及GC组织中研究发现,COL1A1在GC中显著高表达,其高表达提示GC预后不良。THBS2为血栓素2,属钙离子结合糖蛋白,其通过调节细胞间及细胞与基质间的相互作用,调控血管生成、细胞凋亡、细胞增殖及细胞间黏附[16-17]。Zhuo等[17]的小组在GC的切除标本中研究发现,THBS2在GC中表达显著上调,生存分析结果显示与THBS2低表达患者相比,THBS2高表达者预后更差。COMP为软骨寡聚基质蛋白,在多种细胞及组织中表达,通过与细胞表面的整合素结合发挥生物活性,目前研究表明COMP的异常表达在骨骼疾病、血管生成、乳腺癌及前列腺癌中发挥重要作用[18]。结合我们生物信息学分析的结果与既往的研究报道,提示COL1A1、COMP及THBS2可能与GC的发生发展具有重要关系。

我们进一步分析TCGA数据库中GC与癌旁组织样本发现,与癌旁组织相比,COL1A1与THBS2在GC组织中的表达水平与GC的临床分期显著正相关。床分期相关。生存分析结果提示COL1A1及COMP高表达与GC的预后不良显著相关。综合GEO及TCGA数据库中的数据分析结果,我们发现COL1A1在GC中显著高表达,且其表达水平与GC的临床分期及生存显著相关。

虽然生物信息学分析是研究肿瘤分子生物学异常变化的有效切入点,但由于生信分析本身属于二次数据挖掘,其研究的对象为基因表达层面的改变,与执行生物学功能的蛋白质分子之间没有必然的因果联系,因此我们运用免疫组化的方法在组织学层面对COL1A1的表达进行了验证,结果提示COL1A1主要在细胞间质中表达,其在GC中显著高表达,且其高表达与GC的临床分期相关,提示预后不良。

综上所述,既往资料及我们的研究结果提示COL1A1可能在GC的发生、发展中发挥重要作用,但具体的作用机制尚不清楚。另一方面,生物信息学分析为研究GC发病相关的分子机制研究提供了新的切入点。本研究未在GC组织标本中研究COL1A1的表达水平,且未深入研究COL1A1参与GC发生发展的分子机制,这有待进一步的探索。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢

信息学差异基因通路
氧化槐定碱体内体外通过AKT/mTOR通路调控自噬抑制HBV诱发肝纤维化
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
鸡NRF1基因启动子区生物信息学分析
生物信息学辅助研究乳腺癌转移相关lncRNA进展
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
PBL教学模式在结构生物信息学教学中的应用
紫檀芪处理对酿酒酵母基因组表达变化的影响
SphK/S1P信号通路与肾脏炎症研究进展
通路快建林翰:对重模式应有再认识
食管腺癌DNA拷贝变化相关基因的生物信息学分析