WGCNA识别胃肠道间质瘤恶化进展过程中的潜在关键基因及信号通路
2020-09-03陆华英梁春华李科莲
陆华英,梁春华,李科莲
(1.广西医科大学附属武鸣医院检验科,广西 南宁;2.南宁市第二人民医院,广西 南宁;3.广西中医药大学第一附属医院,广西 南宁)
0 引言
胃肠道间质瘤(Gastrointestinal Stromal Tumors,GIST)于1983年被首次提出,是指原发于胃肠道、大网膜和肠系膜的c-KIT(CD117,一种干细胞因子受体)染色阳性的梭形细胞或上皮样细胞的一组间叶源性肿瘤[1]。从我们对GIST的一般认知分析,GIST最常发生于胃,其发病率为60%~70%[2];GIST大体病理表现为肿瘤直径2~20cm不等,境界清楚的质硬肿块,切面呈灰白色或红棕色,囊性或实性,也可伴有坏死及黏液变性[3]。GIST临床表现为男女之比2:1,常见于中老年人。同时,GIST是一种交界性肿瘤,一般分为低度恶性和高度恶性[4]。
值得注意的是,GIST临床表现多样,大小也存在较大差异。因其非特异的临床表现,给GIST的临床诊断带来巨大的困难[5]。在临床上,胃间质瘤的发现可能因消化道症状经内镜检出,但其诊断与分期基本依靠CT检查[6]。GIST影像学表现多样,主要影像学诊断要点包括肿瘤与肠壁的关系,即生产方式,强化特点及其他图像特征,比如钙化、坏死等。GIST生长方式包括腔外型、腔内型、内生型及混合型[7]。较大肿瘤其内可伴坏死、液化,强化方式以明显不均匀强化居多。值得注意的是,GIST不同的生长方式,导致肿瘤与周围组织关系不同,尤其是外生性、混合型病变。因而极易导致影像学误诊[8]。所以,GIST的良恶性的早期诊断是临床较为关注的问题[9]。
同时,随着大数据及生物信息学的快速发展,大数据共享已成为当前研究的趋势。已有不少关于GIST进展变化的测序和芯片的研究报道[10]。但尚未进行深入的探索。因此,本研究主要通过WGCNA综合分析挖掘出于GIST恶化进展过程中的潜在关键基因及信号通路。该挖掘信息有可能为后人继续GIST恶化进展过程研究提供新的研究思路。
1 材料与方法
1.1 数据来源及数据预处理
本研究的GIST恶化进展过程中的GSE136755基因表达谱数据及临床信息来源于GEO数据库[11]。该数据集是基于GPL17077平台,包括65例GIST,其中包括6个转移灶和59个胃,小肠,直肠,直肠癌的原发性肿瘤。在数据分析之前需要对下载的数据进行预处理,包括提取样本信息、构建基因表达矩阵、将探针名转化为基因名,最终获得行名为样本名、列名为基因名的矩阵和行名为样本名、列名为临床信息的矩阵用于后续分析。
1.2 共表达网络的构建与模块识别
安装R软件WGCNA包,为节省计算机运算消耗的内存,本研究选取表达量方差大于所有方差四分位数的基因。剔除离群样本并确保基因表达矩阵的样品号与临床信息的样品号一一对应。按照无尺度网络的标准选择合适的加权系数β,并用此系数将相关矩阵转化为邻接矩阵,此后通过拓扑重叠(topological matrix,TOM)计算基因间的关联,基于TOM值进行层次聚类建树。建树的方法采用动态混合剪切法(dynamic tree cut),将相异度作为距离测度,设定最小模块尺寸为30,进行模块识别并绘制基因树状图。
1.3 与临床信息相关模块
基于样本的临床信息表对模块的性状进行关联分析,寻找和GIST恶化进展性状显著相关的模块用于后续分析。采用以下方式帮助识别相关性较高的模块:首先,我们计算模块的特征值与表型的相关系数(即module eigengene E,ME值)、定义基因的显著性(gene significance,GS)来表示基因和表型之间的相关性;然后,我们选择取所有基因GS绝对值的平均数即模块显著性(module significance,MS)表示该模块与表型之间的相关性;最后,我们选取模块与表型之间的相关系数最大的、且P值小于0.05的模块用于后续分析。
1.4 核心基因的识别
我们筛选出与表型高度相关的模块后,还需要对模块下的基因进行核心基因筛选。我们首先利用softConnectivity函数计算上述被选出来的模块内基因的连接度,筛选出模块内连接度前30的基因。同时,我们将上一步选取的与临床表型相关的模块内的基因构建PPI网络,并筛选出Degree最大的前30个基因。最后我们取这两者的交集基因为核心基因。
1.5 核心基因的GO和KEGG富集分析
在本研究中,为了进一步挖掘这些核心基因在GIST恶化进展过程中所发挥的分子生物学机制。我们用R软件的clusterProfile包对这些核心基因进行GO和KEGG信号通路富集分析。以P.adjust<0.05为筛选标准。
2 结果
2.1 数据来源及数据预处理
GSE136755数据集被检索到并被下载下来,一共是65个样本,其中,女性26例,女性39例。在这个数据集内,他们把GIST分为两个阶段,分别是恶性GIST(转移和高危GIST)和低恶性GIST(低危和极低危GIST)GIST。随后我们对下载后的数据进行整理(id转换和矩阵处理),其中,基因表达矩阵含有18652个基因;临床信息矩阵为行名为样本名、列名分别是GIST等级(level)、性别(gender)和年龄(age)。
2.2 共表达网络的构建与模块识别
首先,为减少运算时计算机消耗的内存,选取基因表达量的方差大于所有方差四分位数的4663个基因(即选取在各个样本中变化较大的基因)进行后面的运算。基因表达矩阵应进行缺失值处理(删除缺失值较多的基因)和离群样本的剔除。根据样本聚类的距离鉴定离群样本,剔除离群样本后最终有61个样本纳入后续分析(图1A)。
随后,我们进行软阈值的筛选。为满足共表达网络符合无尺度网络,即出现连接度为k的节点的对数lgk与该节点出现的概率的对数lg[p(k)]呈负相关,且相关系数应>0.8。我们使用R软件WGCNA包进行构建权重共表达网络,使用分析包自动选择的软阈值计算得到软阈值β=5(图1B)。
最后,我们划分基因模块。确定软阈值后,通过动态剪切树法进行模块初步识别并合并相似模块,设置每个基因网络模块最少的基因数目为30,最终得到11个模块(grey-82个基因,turquoise-1192个基因,blue-992个基因,brown-981个基因,yellow-290个基因,green-274个基因,red-255个基因,black-205个基因,pink-178个基因,magenta-121个基因,purple-93个基因),其中灰色模块是无法聚集到其他模块的基因集合(图1C)。
2.3 与临床信息相关模块
如图2A所示,根据各个模块的特征向量,分别计算这些模块与3个表型(level、gender和age)的相关性。结果显示,绿色、蓝色和棕色模块与肿瘤level的相关性较高(分别是-0.42、0.37和-0.28),且P值均小于0.05。而洋红色、粉红色、紫色、红色、绿松石、黑色、黄色、灰色、模块与肿瘤level的相关性则较低(图2A)。
2.4 核心基因的识别
为了进一步筛选出核心基因。我们首先使用blue模块内的992个基因上传STRING数据库,构建PPI网络(图2B,以中间值信度=0.4为条件),并通过CytoHubba插件筛选簇Degree前30的基因。同时,我们利用softConnectivity函数计算blue模块内基因的连接度,筛选出模块内连接度前30的基因。最后,两者的的交集基因(16个基因,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C)被当作为核心基因(图2C和2D)。
2.5 核心基因的GO和KEGG富集分析
在本研究中,为了进一步挖掘这些核心基因在GIST恶化进展过程中所发挥的分子生物学机制。核心基因的GO富集分析结果显示,这16个潜在的关键基因主要富集在与细胞分裂增殖相关过程等方面(如chromosome segregation,mitotic nuclear division,organelle fission等)。同时,核心基因的GO富集分析结果显示,这16个潜在的关键基因主要富集在细胞周期、增殖等方面。
3 讨论
目前来说,GIST还是医学上的新词,是21世纪初才正式命名和普遍使用的医学新概念。可以说,GIST是直到本世纪才被重新认识的“新”疾病[12]。由于GIST起病隐匿,且容易被常规检测手段忽略,该病往往在疾病晚期才被发现,因此会对患者造成致命的伤害[13]。GIST是一种具有潜在恶性倾向的侵袭性肿瘤,有学者评价它“尽管它不是癌,却一样可以夺人性命。“GIST的恶性程度与肿瘤的大小密切相关,如果不予以重视,肿块逐渐增大,则会对患者的生命健康造成严重的损伤。所以早发现,早治疗对于间质瘤的治疗十分重要[14]。虽然有越来越多的患者正受到GIST的威胁,但遗憾的是GIST仍然未能引起公众足够重视。之所以没有引起人们的注意,是因为GIST早期症状具有一定的隐蔽性。同时,GIST恶化进展的机制不详也限制了人们对胃肠间质瘤的认识[16]。因此,本研究主要通过前人发表的关于GIST恶化进展的芯片数据,通过综合的生物信息学方法挖掘出GIST恶化进展潜在的关键基因和其可能涉及分子生物学过程(GO Term和KEGG信号通路)。
图A:样本聚类分析热图。颜色强度与疾病状态(风险程度)、性别和年龄成正比。图B:软阈值确定。前者是分析各种软阈值功效(β)的无标度拟合指数;后者是分析各种软阈值功率的平均连通性;5是最合适的功效值。图C:基因聚类树和模块划分。图中的每个分支代表一个基因,下面的每种颜色代表一个共表达模块。
图A: GIST恶化进展和诊断年龄相关的基因模块鉴定。图B:PPI网络。从内至外,依次是Degree>30,30≥Degree>20,20≥Degree>5,5≥Degree。图C:韦恩图。为WGCNA分析内连接度最高的30个基因和蓝色模块基因内Degree最高的30个基因的交集。图D:16个基因在各样本内的表达聚类热图。
图A:16个关键基因的GO富集分析。分为BP、CC和MF。这里仅显示富集最明显的前10个GO条目。图B:16个关键基因的KEGG信号通路富集分析。
本研究利用生物信息学方法,对GIST数据集GSE136755进行WGCNA分析,筛选出与GIST恶化进展相关的基因模块。结果显示blue模块内的992个基因与GIST恶化进展密切相关。为进一步筛选与GIST恶化进展相关的关键基因,将blue模块内的992个基因构建PPI网络,并通过CytoHubba插件筛选簇Degree前30的基因。同时,我们利用softConnectivity函数计算blue模块内基因的连接度,筛选出blue模块内连接度前30的基因。最后,我们筛选出16个与GIST恶化进展相关的关键基因。本文研究结果显示,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C与GIST恶化进展过程密切相关,提示这些关键基因可能对GIST病人的预后具有一定的预测价值。
BUB1为纺锤体检测点蛋白,作为有丝分裂检测点的重要功能蛋白,调节细胞周期及有丝分裂。有研究指出,BUB1在肾癌及乳癌等多种肿瘤中过表达,且其突变及过表达与染色体不稳定性、细胞分化和衰老相关,可促进肿瘤的发生及进展[16,17]。KIF作为驱动蛋白超家族中的成员,可调节纺锤体的形成、染色体的分离和胞质分裂,其表达异常可引起染色体分离失败和胞质分裂不完全,从而引起细胞异常、增殖和分化,诱发肿瘤形成,其异常表达已经在多种恶性肿瘤中得到证实[18-20]。有研究表明,KIF14敲低可下调Skp2和Cks1的表达,进而抑制蛋白酶体依赖性p27Kip1泛素化,p27Kip1的增加抑制细胞周期蛋白的表达,包括CCNB1、CCND1和CCNE1,从而抑制肿瘤发生及进展[21]。ASPM(assembly factor for spindle microtubules)是一种与人类中心粒蛋白相关的基因,其研究主要涉及在人脑方面[22]。AURKA(aurora kinase A)编码的蛋白是一种细胞周期调节激酶,在染色体分离过程中似乎与纺锤体极的微管形成和/或稳定有关;该基因编码蛋白存在于有丝分裂间期的中心体和纺锤体两极,可能在肿瘤的发展和进展中起作用[23]。BIRC5(baculoviral IAP repeat containing 5)是凋亡抑制因子(IAP)基因家族的成员,其编码抑制凋亡细胞死亡的负调节蛋白。IAP家族成员通常包含多个杆状病毒IAP重复序列(BIR)域,但该基因仅编码一个BIR域的蛋白质。其编码蛋白也缺乏C端环指结构域,在胎儿发育和大多数肿瘤中基因表达较高,而在成人组织中表达较低[24]。与此同时,CDCA8、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C都是众所周知的在细胞分裂增殖等过程中发挥作用。这与我们生物信息学挖掘的一致。但就目前对于胃肠间质瘤恶化进展的分子生物学机制来说,还没有深入的关于这些基因对于其机制的研究。
因此,我们的这些基因有可能为后人研究GIST恶化进展的分子生物学机制研究提供新的思路。但我们这仅仅是通过生物信息学的方式挖掘,这些基因的作用仍有待进一步的体外和体内实验的验证。
4 结论
本研究通过构建WGCNA网络筛选出与GIST发生及恶化进展过程密切相关的16个潜在关键基因,这16个潜在的关键基因可能通过细胞分裂等相关通路来影响GIST发生及恶化过程。该挖掘信息有可能为后人继续GIST恶化进展过程研究提供新的研究思路。