APP下载

基于COSMIC数据库的结直肠转移性癌的体细胞突变基因变化的研究

2019-08-29康争春鄂继福朱良亮闫飞虎于恩达

中华结直肠疾病电子杂志 2019年4期
关键词:体细胞转移性基因突变

康争春 鄂继福 朱良亮 闫飞虎 于恩达

结直肠癌(colorectal cancer,CRC)是我国最常见的胃肠道恶性肿瘤之一,虽然目前建立起了包括根治性手术切除、放疗、化疗、分子靶向治疗等综合治疗方法体系,但是部分患者仍然出现治疗后复发、转移,最终导致死亡的情况[1]。结直肠癌远处转移是一个包含了多阶段、多基因、多因素的极其复杂的过程,其从原发灶脱离、迁移、种植、生长、增殖,形成转移灶,受到多种基因及信号通路的调控[2]。目前在结直肠癌的发生、发展中,体细胞突变发挥着尤为重要的作用已经成为肠癌科研工作者的共识[3-4]。随着研究的深入,人们认识到,体细胞突变不仅可以在肿瘤的发生、发展中产生重要影响,而且还对肿瘤的转移扩散发挥不可忽视的作用[5-6]。因此,探索结直肠原发性癌灶与结直肠转移性癌灶的分子差异,寻找其中的关键的体细胞突变,进而加深加强对结直肠癌转移的分子调控机制的理解,对于预测发生转移的结直肠癌转移相关的标志物,或者可能将其关键分子研发为新的治疗靶点,具有重要意义。本研究利用来自癌症体细胞突变目录(catalogue of somatic mutations in cancer,COSMIC)的全外显子测序数据,确定了结直肠原发癌灶组织和结直肠转移性癌灶组织之间显著差异的体细胞基因突变,并进行功能富集分析,分析了差异基因突变富集的功能和通路。

资料与方法

一、患者和组织样本数据的下载及预处理

首先,从癌症体细胞突变目录官方网站(COSMIC,https://cancer.sanger.ac.uk/cosmic/)下载COSMIC Mutation Data,其中包含两类组织样本,一类组织样本包含全外显子测序数据,另一类组织样本包含目标基因测序数据。从中提取结直肠原发性癌及结直肠转移性癌全外显子测序数据。然后,下载COSMIC Sample Features数据,其中包含网站收集样本的基本信息及临床病理数据。从中提取结直肠原发性癌及结直肠转移性癌全外显子测序的组织样本的基本信息及临床病理数据。

二、计算并统计结直肠癌基因位点突变率

利用perl 5.28.0对上述抽提的含有全外显子测序的结直肠癌组织样本的基因突变位点进行统计,分别记录COSMIC ID、突变位点及类型、突变基因、突变组织样本总数、突变样本占总样本比率。并分析高突变率的基因位点。

三、筛选结直肠原发性癌和结直肠转移性癌差异突变基因

利用perl 5.28.0整理并统计全外显子测序数据中19 055个基因突变情况,记录基因在结直肠原发性癌和结直肠转移性癌的突变型数目和野生型数目,并在R3.5.0环境下,对每个基因突变分布情况行卡方检验或Fisher确切概率法计算其差异是否具有统计学意义。

四、筛选结直肠原发性癌和结直肠转移性癌差异突变基因位点

利用perl 5.28.0整理并统计全外显子测序数据中174 413个基因突变位点情况,记录基因位点在结直肠原发性癌和结直肠转移性癌的突变型数目和野生型数目,并在R3.5.0环境下,对每个基因位点突变分布情况行卡方检验或Fisher确切概率法计算其差异是否具有统计学意义,并在manhattan图中实现可视化。

五、差异突变基因的功能通路富集分析

将具有统计学意义的显著性差异突变基因通过 DAVID Bioinformatics Resources(https://david.ncifcrf.gov/version 6.8)做GO富集分析,通过KOBAS3.0(http://kobas.cbi.pku.edu.cn/)做 KEGG通路富集分析。高度富集的GO功能或KEGG通路被认为是差异突变基因的潜在功能。

结 果

一、组织样本的一般情况

共有2 333例结直肠癌组织样本纳入研究,均含有全外显子测序数据。其中包含699例结直肠原发性癌组织样本,58例结直肠转移性癌组织样本,21例局部复发结直肠癌组织样本,1 555例未知类型结直肠癌组织样本。其中58例结直肠转移性癌组织样本中转移部位为肝脏有22例,肺有3例,腹水2例,腹壁2例,淋巴结1例,卵巢1例,骨盆1例,胃1例,信息缺失25例。

二、结直肠癌基因位点突变率一般情况

共发现692 684个基因突变位点,基因位点突变率前30的位点分别为COSM476、COSM521、C O S M 5 3 2、CO S M 5 2 0、C OS M 10 6 4 8、COSM252949、COSM763、COSM270052、COSM13127、COSM18852、COSM1180896、COSM2851820、COSM179404、COSM927946、COSM1384188、COSM10659、COSM10660、C O S M 77 5、C O S M7 6 0、C OS M 1 0 7 0 4、COSM329668、COSM516、COSM19695、COSM1458728、COSM269905、COSM10656、COSM13134、COSM1440465、COSM10662、COSM19404等,如表1所示。

表1 突变率top30的基因位点

三、结直肠原发性癌和结直肠转移性癌差异突变基因结果

共发现120个基因突变差异具有统计学意义(P< 0.05),分别为 RHEB、RP11-368J21.2、AGAP10、PRKRIR、NMRAL1、QPCT、TOMM40、PYCR2、SLC18A1、KDR等。 其 中top30基因突变如表2所示。

四、结直肠原发性癌和结直肠转移性癌差异突变基因位点结果

共发现328个基因突变位点差异具有统计学意义(P<0.05),分别为R H E B|C O S M 5 7 5 7 0 1 2|c.1 6 9 C > T、A O C 3|C O S M 5 7 5 5 0 4 5|c.1 6 3 4 T > C、N M R A L 1|C O S M 1 4 8 0 11|c.7 5 5 C> T、I P M K|C O S M 5 7 5 3 5 0 9|c.1 0 9 6 T > G、E S C O 2|C O S M 1 5 0 4 7 7|c.2 3 9 C > T、T R P V 2|C O S M 1 4 8 2 0 0|c.5 0 G > C、U2SURP|COSM5756177|c.769G> C、G C O M 1|C O S M 1 4 7 9 2 6|c.8 3 0 C > T、A G A P 1 0|C O S M 4 1 5 0 1 9|c.6 8 3 A> G、SACM1L|COSM149368|c.1301A>T等。其中top30基因突变位点如表3所示。如图1所示,我们可以很容易发现全部差异基因突变位点的染色体位置及差异的P值,红线代表P值等于0.05。

五、功能通路富集分析结果

为了了解差异突变基因在结直肠癌生物学中的作用,我们通过功能通路富集分析对差异突变基因功能进行了富集分析。通过对差异突变基因筛选结果,对差异突变基因进行GO和KEGG功能通路富集分析,推断差异突变基因潜在的生物学过程。我们发现这些差异突变基因在大量的脱氢酶活性功能如D-阿拉伯糖醇脱氢酶活性、异柠檬酸脱氢酶活性、类固醇脱氢酶活性、乙偶姻脱氢酶活性、葡萄糖酸脱氢酶活性等富集,一些重要的还原酶类,如D苯基香豆素苄基醚还原酶活性富集,细胞周期相关功能如细胞周期停滞,细胞基本生命活动如O-聚糖加工、铜离子结合、G蛋白偶联受体活性、D-核酮糖形成(NADP+)活性等富集差异具有统计学意义,如图2所示。通路富集层面,通过KOBAS3.0的KEGG通路富集分析,我们发现在下列通路中差异突变基因有富集:代谢途径、PI3K-Akt信号通路、细胞周期、细胞粘附分子、癌症中的转录失调、细胞色素P450对异生素的代谢、铂类耐药性、粘着力、ECM-受体相互作用、真核生物中的核糖体发生、寿命调节通路、苯丙氨酸代谢、原发性胆汁酸生物合成等,如图3所示。

讨 论

结直肠癌作为最常见的消化系统恶性肿瘤对我国人民生命健康造成了严重威胁,并且近年来发病率呈现上升的趋势。尽管目前针对结直肠癌的治疗手段日趋完善,更加多样化、立体化,但是由于结直肠癌是一种分子水平异质性很大的癌症,其难以预测的复发和远处转移仍然是医务工作者和肿瘤科研工作者面临的严峻难题。“体细胞突变学说”在肿瘤发生机制中发挥重要作用目前在很大一部分学者中形成共识,然而近年来,人们发现体细胞突变在肿瘤的转移扩散中也有着很大的推动作用。因此,挖掘结直肠原发性癌灶与结直肠转移性癌灶的关键体细胞突变,深入理解结直肠癌转移的调控机制,对于今后结直肠癌的转移生物标志物甚至结直肠转移性癌的治疗靶点的选择具有十分重要的意义。

越来越多的学者证明体细胞突变直接影响着结直肠癌是否发生转移、转移途径、转移方式,乃至转移的靶器官。BRAF基因突变型的结直肠癌患者发生腹膜转移和远处淋巴结转移的概率远远高于其野生型患者[7],KRAS基因突变型的结直肠癌患者则更容易发生肺脏转移[8],甚至是甲状腺转移[9],脑转移在KRAS基因突变型合并PIK3CA基因突变型的结直肠癌患者中出现机会也更大[10]。然而目前对结直肠癌整体的转移相关基因突变的认识尚未形成,因此要更全面的挖掘、筛选并整合结直肠癌转移相关体细胞突变基因。

表3 结直肠原发性癌和结直肠转移性癌top30差异突变基因位点结果

COSMIC[11]数据库是目前关于癌症体细胞突变的最大、最全的数据库,它主要记录体细胞突变、突变位点的信息,另外其记录内容十分详细,包括组织类型、组织样品名称等等,涉及到不同基因、不同肿瘤或细胞系的突变信息。全外显子测序[12]是指通过序列捕获技术将全基因组外显子区域的脱氧核苷酸碱基序列捕获并进行高通量测序的一种测序技术,其测序精度高,有利于低频率突变的检出并且价格相对低廉,目前广泛应用于体细胞突变检测领域。本研究主要借助COSMIC公共数据库,对COSMIC数据库记录的结直肠癌患者组织样本全外显子测序数据进行分析研究,筛选出了如 RHEB、RP11-368J21.2、AGAP10、PRKRIR 等120个在结直肠原发性癌灶和结直肠转移性癌灶之间的显著性差异突变基因,进一步对其突变位点分析,共发现RHEB|COSM5757012|c.169C>T、A O C 3|C O S M 5 7 5 5 0 4 5|c.1 6 3 4 T > C、NMRAL1|COSM148011|c.755C>T等328个基因突变位点差异具有统计学意义,并进一步在manhattan图中对突变位点进行了可视化。经查阅文献,部分基因突变在结直肠癌发生、发展、转移中的重要作用已经得到学者证实,如SLC18A1[13]、KDR[14]、ANAPC1[15]等,但大部分突变基因和突变位点并未发现相关研究。对120个具有显著差异的突变基因进行GO功能和KEGG通路富集分析,揭示了差异体细胞突变基因的潜在功能,如脱氢酶活性、还原酶活性、细胞周期停滞、O-聚糖加工、铜离子结合等富集差异具有统计学意义。通路富集层面,代谢途径、PI3K-Akt信号通路、细胞周期、细胞粘附分子、癌症中的转录失调、铂类耐药性、ECM-受体相互作用、苯丙氨酸代谢、原发性胆汁酸生物合成等重要通路都有差异突变基因的富集。分析其内在原因可能由于结直肠转移性癌的组织标本中有相当一部分肠癌肝脏转移灶造成。显示了本研究的可靠性及对今后结直肠癌转移机制研究的参考价值。

综上所述,我们利用COSMIC数据库挖掘结直肠原发癌灶与转移癌灶之间的具有统计学差异的体细胞突变基因并进行功能分析,这些发现有助于帮助我们深入理解结直肠癌在转移过程中的体细胞突变基本情况,并为将来的机制研究提供参考,并有可能作为诊断结直肠癌转移的生物标志物和转移的治疗靶点应用于临床。

图1 差异基因突变位点的manhattan图(横坐标代表染色体位置,纵坐标代表-log10 p,红线代表P值等于0.05)

图2 GO功能富集结果

图3 KEGG通路富集结果

猜你喜欢

体细胞转移性基因突变
SPECT/CT显像用于诊断转移性骨肿瘤的临床价值
ADC直方图分析在颈部淋巴结转移性鳞癌鉴别诊断中的价值
DHI报告部分名词释义
浙江:诞生首批体细胞克隆猪
晚期乳癌五大迷思与预防
基因突变的“新物种”
“基因突变和基因重组”复习导航
转移性收入在居民收入分配中的作用
——中国居民收入分配中的逆向调节机制
肿瘤发生体细胞突变理论的回顾与发展
先天性巨细胞病毒感染致connexin26基因突变新生儿听力随访及干预