结直肠癌差异基因筛选及功能预测*
2022-01-13谷媛项荣武翟玉萱魏峰杨雪莹关婷婷李晓慧韩涛
谷媛,项荣武,翟玉萱,魏峰,杨雪莹,关婷婷,李晓慧,韩涛
(1.沈阳药科大学,辽宁 沈阳110016;2.北部战区总医院 医疗保障中心医学信息数据室,辽宁 沈阳110003;3.中国医科大学附属第一医院 肿瘤二科,辽宁 沈阳110000)
结直肠癌又称大肠癌,是最常见恶性肿瘤之一,在消化道肿瘤中,其发病率仅次于胃癌,并呈逐年上升的趋势。发生结直肠癌的危险因素包括饮食、肥胖、抽烟、运动量不足等,患有炎症性肠病(溃疡性结肠炎或克罗恩病)者患结肠癌的风险明显增加[1-2]。结直肠癌治疗方式包括手术、放射治疗、化学治疗、靶向治疗,然而其发病机制复杂,临床对于其病因研究仍在不断的探索中。由于结直肠癌早期症状不明显,且缺乏早期诊断的生物标志物,多数患者确诊多为中晚期,5年生存率仅为15.8%~27.9%,严重威胁患者的生命健康[3]。而早期检测为结直肠癌患者的存活率约为晚期癌症的5 倍。因此,寻找新的、早期诊断的结直肠癌肿瘤标志物至关重要。有研究表明,多种mRNA 参与结直肠癌发生、发展过程。本研究基于美国癌症肿瘤基因图谱(the cancer genome atlas,TCGA)数据库对结肠癌组织及正常组织中的差异表达基因进行筛选,并探讨其相关分子机制。现报道如下。
1 材料与方法
1.1 数据提取
从TCGA 数据库(https://www.cancer.gov)下载所有结直肠癌mRNA 转录组数据,数据均为原始Count数据。将下载的转录组数据转移至同一目录,然后将数据整合处理成包含样本ID、样本名、患者一般资料、生存资料等数据的矩阵,共包含样本740 例,其中,结直肠癌组织有571 例,正常组织有169 例。
1.2 差异表达分析
对mRNA 转录组数据进行正常组织与癌症组织的差异表达分析。将整理后的数据导入R 语言,利用edge R 工具包读取文件,校正因子、估算变异系数、计算出所有数据的倍数变化(fold change, FC)值以及伪发现率(false discovery rate, FDR)。然后,筛选出FC 值<1,且P<0.05 的mRNA 作为正常组织与癌组织有表达差异的基因,输出差异基因校正后表达值。FC 值>0 的基因为上调基因;FC 值<0 的基因为下调基因。最后,根据edge R 工具包筛选出的结果将所有的mRNA 转录组数据所对应的FC 值以及P值取以10 为底数的对数后,以-log10(FDR)为横轴,以log10(FC)为纵轴,对所有的mRNA 转录组数据进行散点图及热图绘制。本次计算的筛选条件:FC=1,P=0.05。
1.3 GO及KEGG信号通路分析
为探讨筛选出的差异基因的具体作用及通路,将根据测序分析FC 值筛选出的差异基因导入DAVID 数据库(https://david.ncifcrf.gov/),设定筛选条件。最后将具有统计学意义的GO 及KEGG 富集通路作为差异基因的富集通路。注意KEGG 富集通路的筛选条件为P<0.05。
1.4 关键基因筛选
由于mRNA 直接调控特定蛋白的合成,所以基于这些mRNA 差异表达基因,研究其相对应的蛋白的相互关系是必要的。通过STRING 数据库(https://string-db.org/)对FDR 值前200 个的mRNA 差异基因进行分析,构建蛋白互作网络图。采用Cytoscape 3.4.0 软件对蛋白互作网络进行可视化并调整图片格式。在R 语言环境下,将网络节点从高到低排序,筛选出节点排在前7 位的mRNA 作为结直肠癌研究的关键基因进行分析。
1.5 基因表达水平及生存分析
比较关键基因在癌组织及正常组织中的表达水平。以关键基因的中位表达水平为界值,将关键基因分为高表达组与低表达组,比较高表达组与低表达组的生存情况:以PLKI 相对表达量中位值(7.02)为界,将样本分为PLK1 高表达组(n=135)与PLK1 低表达组(n=134);以SUV39H1 相对表达量中位值(7.28)为界,将样本分为SUV39H1 高表达组(n=181)与SUV39H1 低表达组(n=181);以HIST2H4B 相对表达量中位值(8.66)为界,将样本分为HIST2H4B 高表达组(n=180)与HIST2H4B 低表达组(n=181)。
1.6 统计学方法
采用SPSS 19.0 统计学软件及R 语言软件包处理数据。计量资料以均数±标准差(±s)表示,比较用t检验;计数资料以例(%)表示,比较用χ2检验。采用Kaplan-Meier 法绘制关键基因高表达与低表达的生存曲线,比较采用Log rank χ2检验。P<0.05 为差异有统计学意义。
2 结果
2.1 差异基因筛选结果
根据差异基因的筛选条件,共筛选出5 073 个差异表达基因,其中,上调基因2 136 个,下调基因2 937 个。见图1、2。
图1 基因差异表达散点图
2.2 GO及KEGG富集分析结果
GO 分析结果显示,其生物过程主要在细胞增殖(GO:0008283)、转运(GO:0006810)、rRNA 加工(GO:0006364)、受体介导的内吞作用(GO:0006898)等功能富集(见图3 和表1)。KEGG 富集分析结果表明,差异表达基因的信号通路主要有细胞周期、转录失调、胆汁分泌、甲状腺激素、血小板活化等信号通路(见表2 和图4)。
表2 KEGG富集分析列表(前5)
图4 差异表达基因KEGG信号通路分析结果
表1 差异表达基因GO富集列表(前4)
图3 差异表达基因GO分析结果
2.3 蛋白互作网络结果
图2 基因差异表达热图
STRING 数据库分析结果显示,共发现115 个节点蛋白和99 条相互作用网络,其中PLK1 蛋白在网络图中处于核心地位。将网络节点从高到低排序,筛选出节点排在前7 位关键基因分别为PLK1、BRD4、EHMT2、HIST2H4B、PRPF19、SUV39H1、TRIM28。见图5。
图5 蛋白互作网络图
2.4 关键基因表达水平验证
癌组织PLK1 相对表达量为(7.04±0.53),正常组织为(6.16±0.30),经t检验,差异有统计学意义(t=5.707,P=0.000),癌组织高于正常组织。癌组织PRPF19 相对表达量为(1 963.45±513.12),正常组织为(1 169.50±343.43),经t检验,差异有统计学意义(t=7.272,P=0.000),癌组织高于正常组织。癌组织SUV39H1 相对表达量为(7.22±0.38),正常组织为(6.69±0.15),经t检验,差异有统计学意义(t=5.144,P=0.000),癌组织高于正常组织。
2.5 关键基因生存分析
PLK1 高表达组与PLK1 低表达组5年生存率分别为70.37%(95/135)和60.45%(81/134),经χ2检验,差异无统计学意义(χ2=2.972,P=0.087)。SUV39H1高表达组与SUV39H1 低表达组5年生存率分别为58.56%(106/181)和64.64%(117/181),经χ2检验,差异无统计学意义(χ2=1.413,P=0.235)。HIST2H4B 高表达组与HIST2H4B 低表达组5年生存率分别为57.22%(103/180)和74.58%(135/181),经χ2检验,差异有统计学意义(χ2=12.113,P=0.001)。
PLK1 高表达组总生存时间为47.25 个月(95%CI:44.146,50.362),PLK1 低表达组总生存时间为42.71 个月(95% CI:39.987,45.434),经Log rank χ2检验,差异无统计学意义(χ2=3.957,P=0.083)。SUV39H1 高表达组总生存时间为35.07 个月(95%CI:31.364,38.784),SUV39H1 低表达组总生存时间为33.50个月(95%CI:29.762,37.239),经Log rank χ2检验,差异无统计学意义(χ2=0.134,P=0.820)。HIST2H4B高表达组总生存时间为34.32 个月(95% CI:32.841,47.265),HIST2H4B 低表达组总生存时间为41.58 个月(95% CI:38.541,51.517),经Log rank χ2检验,差异有统计学意义(χ2=8.670,P=0.015),HIST2H4B 低表达组长于HIST2H4B高表达组。见图6。
图6 生存曲线图
3 讨论
结直肠癌发生的危险因素多样。目前通过早期筛查高危人群、改变不良的饮食生活习惯等方式预防直肠癌发病,且可通过靶向治疗、化学治疗、放射治疗、外科手术、免疫治疗等综合方法对其进行治疗,但总体预后欠佳。因此,探索与结直肠癌发病机制、预后相关的关键分子标志物对其早期诊断及治疗十分重要。本研究采用生物信息学方法从TCGA 数据库中提取571 个结直肠组织样本,169 个正常组织样本,经过筛选得到5 037 个差异表达基因,其中上调基因2 136 个,下调基因2 937 个,蛋白互作网络结果筛选出前7 位关键基因为PLK1、BRD4、EHMT2、HIST2H4B、PRPF19、SUV39H1、TRIM28。功能富集分析发现,关键基因主要涉及细胞增殖、转运、rRNA 加工、受体介导的内吞作用;信号通路分析结果显示,关键基因参与细胞周期、转录失调、胆汁分泌、甲状腺激素、血小板活化等过程。进一步生存分析发现,HIST2H4B高表达组与HIST2H4B 低表达组总生存时间有差异。
PLK1 为保守的丝/苏氨酸激酶家族成员,广泛存在于真核细胞中,富集在细胞周期通路,参与细胞增殖、有丝分裂细胞周期的G2/M 转换等生物过程,可直接磷酸化Cdc25 和Cyclin B1,在有丝分裂中起重要作用,其表达量与有丝分裂的活性呈正相关,可能通过P53 信号通路发挥作用[4]。多项研究表明,PLK1 在神经胶质瘤、乳腺癌、甲状腺癌、结直肠癌、食管癌等癌症中呈高表达,且其高表达与患者预后相关[5-7]。本研究中,PLK1 在结直肠癌组织中表达显著上调。HAN 等[8]研究表明,PLK1 在结直肠癌组织中阳性表达,且与Duke 分期、肿瘤大小、浸润程度、淋巴节转移有关,PLK1 水平在快速增殖的细胞中普遍升高,PLK1 缺失可抑制结直肠癌细胞SW1116 的迁移和侵袭能力,此外,对PLK1 进行干扰可显著抑制肿瘤细胞转移、侵袭。
BRD4 是溴结构域和超末端结构家族成员,在炎症反应、转录调控、细胞周期进展、肿瘤恶性进展等生物过程中发挥重要作用[9]。EHMT2 是组蛋白赖氨酸甲基化转移酶,在膀胱癌、乳腺癌、神经母细胞瘤等肿瘤中呈现异常高表达,与肿瘤细胞增殖、凋亡、侵袭等生物学功能有关[10],但其在结直肠癌中的表达研究较少。SUV39H1 是一种专门负责组蛋白H3K9 三甲基化修饰的组蛋白甲基化酶,催化甲基从s-腺苷蛋氨酸转移到组蛋白(特别是组蛋白H3 和H4)赖氨酸残基上,在有丝分裂期定位于着丝粒,在有丝分裂进行中起重要的调控作用,参与异染色质的形成和基因沉默,且H3K9 的甲基化是一个非常保守的表观修饰,是异染色质形成和转录沉默的标志。甲基化的失调在癌症的发展过程中至关重要。有研究表明,在宫颈癌及卵巢癌组织中Suv39H1 蛋白均呈高表达[11],且与原发性高草尿症I 型和视网膜母细胞瘤等疾病进展相关。另有研究表明,SUV39H1siRNA 能抑制急性髓系白血病细胞株KG-1 细胞的增殖,诱导凋亡,有望成为白血病治疗的新靶点[12]。TRIM28 是包含多个结构域的大分子蛋白,属于人类三聚体蛋白家族中的一员,以存在4 个保守结构域即RING 指和B-box 1 型、2 型及亮氨酸卷曲螺旋结构为主要特征。TRIM28 主要与含KRAB 结构域的转录因子相互作用,从而发挥转录共激活或共抑制作用,并在肿瘤发生、细胞分化、胚胎发育的调控中发挥重要作用[13]。
综上所述,基于TCGA 数据库分析出PLK1 在结直肠癌组织中高表达,其参与细胞增殖、有丝分裂细胞周期的G2/M 转换等生物过程,通过P53信号通路发挥作用,有望成为诊断结直肠癌的肿瘤标志物。