组学技术在肿瘤驱动基因研究中的应用
2019-02-12裴智勇
裴智勇
肿瘤是严重威胁人类健康的疾病之一。在对肿瘤长达一个世纪的研究中,人们逐渐将它定义为“基因组疾病”,即肿瘤是肿瘤细胞基因组中变异不断累积的结果[1]。按功能可将导致肿瘤发生的基因分为原癌基因和抑癌基因。肿瘤细胞通过原癌基因激活或抑癌基因失活而获得无限增殖能力。影响这些基因正常功能的主要突变包括单碱基突变(single-base substitutions)、小片段插入与缺失(small insertions and deletions)、拷贝数变异(copy number variation,CNV)、序列重排(rearrangement),以及其他复杂变异如Kataegis模式、染色体碎裂(chromothripsis)、Chromoplexy等,这些突变亦被证实可导致肿瘤发生(图1)[2]。在肿瘤的发生发展过程中,这些基因组突变通过表观修饰、转录、转录后调控、翻译等生物学过程而在不同水平的细胞活动中相互影响,形成多维度、高相关的动态网络。
在肿瘤细胞变异中,仅有小部分在肿瘤发生发展中发挥重要作用,这些变异被称为驱动突变(driver mutation)。驱动突变可赋予肿瘤细胞选择优势,如提高细胞分裂能力、使细胞逃避调亡、逃避生长负调控机制等。靶向治疗是以这些关键变异作为靶标进行治疗,因此鉴定肿瘤驱动基因是靶向治疗的基础。过去对驱动基因的鉴定主要根据对基因的认识进行判断,而基因组学、表观组学、转录组学等多种组学的应用,特别是近年单细胞测序技术、三代测序技术等的出现,以及大数据挖掘、人工智能等领域与肿瘤组学的结合,使驱动基因的鉴定向更系统、更全面的方向发展。
图1 肿瘤基因组中常见的变异形式
1 基因组测序技术及数据资源的应用
所有肿瘤在其发展过程中均会不断积累各种类型突变,基因组测序可提供肿瘤基因组精确到单碱基水平的突变信息,还可提供结构变异信息,确定结构变异断点,如有研究发现肝硬化较正常肝脏具有更高突变负荷,结构变异在肝硬化中极为突出[3]。新西兰一个研究团队在大型转移性实体瘤全基因组的泛癌研究中利用全基因组测序(whole genome sequencing,WGS),揭示了22种转移性实体瘤的全基因组变化特征,这些特征性突变可以反映原发肿瘤的类型,以及单个转移性肿瘤中96%的驱动基因突变为克隆性,近80%的肿瘤抑制基因可通过不同的突变机制进行双等位失活[4]。LEE-SIX 等[5]分析数百个正常样本的WGS数据发现,在直肠中腺瘤和癌均是形态正常结直肠上皮普遍肿瘤突变改变的罕见结果。而全外显子组测序(whole exome sequencing,WES)仅需对全基因组2%左右的区域进行测序即可得到超过95%的已知功能区域信息(外显子区域和周边区域)。肿瘤研究一般需较高的测序深度,因此WES在价格和有效性方面均能满足肿瘤基因组学研究需要[6-7]。以往有研究报道,应用WES技术有助于鉴定白血病、骨髓瘤等肿瘤中的部分驱动突变[8-10]。
目前,有许多研究人员与机构在编辑收录各种癌症的体细胞突变综合列表,这对更好地了解肿瘤机制有重要的指引作用。如国际性研究计划TCGA和ICGC开展了大量肿瘤相关突变的研究与总结,其中TCGA已经完成了33种肿瘤共10 879例样本的基因组测序[11],ICGC完成了12979个肿瘤基因组的测序工作[12]。研究者对多种肿瘤的基因组变异进行描述,为后续肿瘤预防及治疗研究奠定了基础。表1列举了一些肿瘤相关的重要研究计划与肿瘤突变相关数据库。
药物基因组学是研究基因序列多态性与药物效应多样性的关系,即基因本身及其突变体与药物效应的相互关系,包括研究影响药物反应个体差异的基因特性,阐明基因多态性与药物效应及毒副反应之间的关系,以及新药研发和药物指导。随着测序技术的发展,药物基因组学经过长时间的发展积累,经过整理数据及筛选验证后形成了一批药物基因组学相关数据库,如 DrugBank、myCancerGenome、PharmGKB、GDSC等。其中DrugBank数据库收录了13 000多种药物的名称、研究情况、适应证分类、药理学研究、药物相互作用、靶标基因或蛋白质。myCancerGenome(https://www.mycancergenome.org)为医师、患者、研究者提供了一个精准的肿瘤医学知识库,并定时更新肿瘤形成和发展的关键突变信息以及相关治疗影响。PharmGKB(https://www.pharmgkb.org)是遗传药理学和药物基因组学数据库,收集了较完整的与药物基因组相关的基因型和表型信息,并将这些信息系统地归类。GDSC(www.cancerRxgene.org)是癌症细胞药物敏感性和药物反应分子标志物信息的大规模公共数据库,目前收录了近75 000个实验的药物敏感性数据,描述了近700种癌细胞系中100多种抗癌药物的反应。
2 转录组测序技术的应用
转录组测序技术是肿瘤基因组学研究中的另一重要技术手段,可分析基因转录、转录后修饰及受表观遗传影响的产物,能深入研究肿瘤细胞转录层面的分子机制。对不同发展阶段或不同状态(如原发和转移、敏感和耐药)的肿瘤样本进行转录组研究,寻找差异表达基因,有助于理解肿瘤生物学特性。此外,转录组测序技术还可用于鉴定等位基因特异表达,判断突变对转录本造成的影响,以及检测转录异构体和融合转录本等[13-15]。
肿瘤的转录组研究中除蛋白编码基因的mRNA外,还有非编码转录产物的研究,包括microRNA(miRNA)和lncRNA、环状RNA(circRNA)等。各类非编码RNA在肿瘤的发生发展中亦扮演重要角色,其中miRNA属于非编码RNA家族成员,长度为17~25 bp,主要作用之一是抑制基因的转录后表达。LAW等[16]报道了一种新的PIWI-互作RNA(piRNA),即piRHep1,其参与了肝脏肿瘤发展。该研究还发现miR-1323在肝细胞癌中大量表达,且miR-1323与肝硬化背景下产生的肿瘤具有独特关联。lncRNA为长链非编码RNA,可通过其独特的机制影响肿瘤发生发展。有研究发现长链非编码RNA CTC-276P9.1可作为肿瘤抑制因子,亦可作为食管鳞状细胞癌新的预后预测因子及治疗靶点[17]。circRNA是一类内源性主要由反向剪接形成的、没有5'端帽子和3'端多聚腺苷酸尾巴的环状闭合结构。最初认为circRNA是基因剪切的副产物,并无显著功能。XIA等[18]利用SBC-ceRNA阵列在肿瘤中发现了1 021个差异表达的circRNA,并通过qRT-PCR分析证实了 circ_0057558、circ_0062019和SLC19A1在细胞株和肿瘤组织中表达。WILBERT等[19]研究亦证明了差异表达的circ_0062019、circ_0057558和circ_0062019的宿主基因SLC19A1可作为前列腺癌潜在的新型生物标志物。
表1 与肿瘤相关的部分重要研究计划及突变数据库
3 表观组学与三维基因组技术的应用
癌症发展过程中的表观遗传学改变与异常基因表达有关[20]。表观遗传的控制通过多个不同过程介导,包括DNA修饰(甲基化或乙酰化)、组蛋白修饰和核小体重塑,在不同类型癌症中常见这三类表观遗传修饰物变异。通过二代测序技术可定位这些变异,进而了解遗传和表观遗传变化的关系,为癌症治疗提供新的思路。在脑胶质瘤、急性骨髓性白血病和软骨瘤中常发生NADP+依赖的异柠檬酸脱氢酶IDH1和IDH2的单等位点基因点突变。有研究[21]表明IDH1R132H等位基因的杂合表达可诱导这些肿瘤特有的以DNA甲基化为特征的全基因组改变,说明IDH1R132H/WT突变体是癌细胞表观遗传不稳定的因素。有研究利用单细胞分辨率、多组学技术深入解析了人类结直肠癌在发生和转移过程中DNA甲基化异常及基因表达改变的特点及相互关系[22]。甲基化技术亦应用在神经系统肿瘤研究中[23]。而最近有学者进一步改进了甲基化技术[24]。
染色体重排需要DNA双链断裂形成和连接,这些事件的发生会破坏基因组完整性,在白血病、淋巴瘤和肉瘤常见。此外,特定基因间反复的基因融合在不同个体中均可观察到,说明这些基因在细胞周期中的某个阶段其物理位置非常接近。随着三维基因组技术的发展,染色质在细胞核内的三维构象与肿瘤关系的研究不断深入。目前已实现了针对乳腺癌、前列腺癌、神经胶质瘤和多发性骨髓瘤的三维基因组研究,发现在癌细胞中不同结构尺度的三维基因组均会发生改变[25]。乳腺癌和前列腺癌的研究给“三维基因组在癌症中发生改变”这一假说提供了证据,但以上研究均采用正常细胞系和癌细胞系,未能证明癌症与三维基因组改变存在因果关系。目前三维基因组研究方法主要包括ChIP-Seq、染色质构象捕获实验和ChIA-PET。一些研究将3C与CRISPR/Cas9技术结合,提供了三维基因组紊乱可能导致癌症形成的实验证据[25-30]。三维基因组Hi-C技术是基于将线性距离远、空间结构近的DNA片段进行交联,并将交联的DNA片段富集,然后进行高通量测序,并分析测序数据以揭示染色质的远程相互作用,从而推导基因组的三维空间结构与可能的基因之间的调控关系。Hi-C技术在肿瘤中应用广泛,许多分析及可视化的工具亦已开发,有助于解释Hi-C数据和分析肿瘤的三维基因组特征。一项研究[31]将Hi-C技术、WGS和Bionano光学图谱技术与一种基于Hi-C数据的新算法结合,开发了一种染色体结构变异(structuralvariationofchromosome,SV)综合检测方法,可用于癌症基因组SV的系统分析,能够全面了解癌症基因组变化。该研究还发现了癌症中潜在的非编码SV,确定了此前癌症基因组研究可能被忽略的不同SV模式,有助于发现癌细胞中新的SV信息,为深入了解癌症发生提供新思路。
4 单细胞与三代测序技术的应用
单细胞生物学是近年研究的热点之一,利用单细胞测序技术可精细区分不同细胞类型,使在单细胞水平进行分子机制研究成为可能。目前,单细胞测序技术在肿瘤领域的应用主要包括单细胞基因组测序、单细胞转录组测序和单细胞表观遗传测序,从不同角度揭示了肿瘤微环境中不同细胞的特性。有研究[32]利用单细胞测序技术从8例乳腺癌患者的肿瘤样本及其配对的正常血液、乳腺和淋巴结样本中获得多个免疫细胞,开展单细胞RNA测序实验;随后利用SEQC流程和“Biscuit”计算方法,对这些组织中的免疫细胞进行聚类和鉴定。也有研究利用最新的单细胞测序技术解析结直肠癌的突变过程[33]。
单细胞基因组测序主要用于鉴定单核苷酸变异、CNV和SV。常用的技术是单细胞转录组测序,主要对单细胞中mRNA进行基因表达定量、功能富集、代谢通路分析。分子表观遗传测序主要是研究DNA的表观遗传修饰,如甲基化、羟基化以及组蛋白修饰等。目前最常用的是单细胞甲基化测序(single cell methylation sequencing,scM-seq)。scM-seq主要有 3种方法:单细胞限制性代表区域甲基化测序(methylation sequencing of single cell restricted representation regions,scRRBS-seq)、单细胞亚硫酸氢盐测序(single-cell bisulfite sequencing,scBS-seq)和单细胞全基因组甲基化测序技术 (single-cell whole genome bisulfite sequencing,scWGBS-seq)。其中scBS-seq覆盖的GpG位点最多,约为370万个。基于多组学研究需要,可同时进行单细胞基因组和转录组测序,方法亦主要有3种:⑴scGT-seq(single-cell genome and transcriptome codetection and sequencing)采用微流体的方式将两者分离进行测序;⑵G&T-seq(genome and transcriptome sequencing),采用物理方法将两者分离测序;⑶DR-seq(gDNA-mRNA sequencing)。有研究通过单细胞测序技术发现胶质母细胞瘤的4种亚型间可以随意切换,导致药物难以杀死癌细胞,而这一发现有助于开发更好的治疗方法[34]。ZHANG 等[35]结合 10×Genomics和 SMART-seq2单细胞RNA测序技术,系统性刻画了肝癌患者多个组织的免疫细胞,分析了免疫细胞动态迁移和状态转化的特征,描绘了肿瘤浸润免疫细胞跨组织的动态过程,发现肿瘤中的巨噬细胞为腹水中髓系细胞的主要来源,为药物治疗的潜在靶点。
二代测序技术的快速发展为肿瘤组学研究提供了新的视角,但具有短读长(150~300 bp)特性,因此限制了其在结构变异检测、重复区域及新转录本预测、可变剪切研究等方面中的应用。近年来,以Pacific Biosciences(Pacbio)和 Oxford Nanopore Technology(ONT)为代表的三代测序技术具有长读长(测序序列最长可达2 M)优势,有助于解决以上问题,在肿瘤研究中有独特的优势。化疗耐药性是肿瘤治疗难以攻克的难题。近年来,越来越多的研究表明一些可变剪切事件和转录本功能可影响癌症的发生、发展、转移以及耐药性。有学者利用Pacbio测序结果探讨野生型和紫杉醇耐药型三阴性乳腺癌细胞发生的可变剪切事件,以及耐药性发展过程中新出现的亚型,发现PB.4024.2可作为三阴性乳腺癌潜在的耐药靶点,为研究乳腺癌耐药性提供了新思路[36]。除了可变剪切与新转录本外,三代测序技术在癌症领域中的应用还包括发现融合基因、癌症驱动基因的结构变异等,为研究癌症的致病机制、耐药性和治疗方法等提供有效手段。
5 蛋白组学及代谢组学技术在肿瘤标志物研究中的应用
肿瘤标志物是细胞在特定疾病状态下的分子信号,是肿瘤检测、诊断、治疗和预后判断的重要工具。蛋白质组学研究的快速发展给肿瘤标志物研究注入了新的活力。目前利用蛋白质组学技术已在肺癌、胃癌、结直肠癌、膀胱癌等多种肿瘤组织中找到有差异表达的蛋白质,这些蛋白质有望成为有效的肿瘤标志物[37]。GENTRIC 等[38]应用蛋白质组学技术及代谢组学技术,首次证明了高级别浆液性卵巢癌(HGSOC)存在代谢异质性,且能够以此进行分型,通过后续代谢流分析、分子生物学等实验,解析了High-OXPHOS HGSOC增强化疗敏感性的作用机制。同时在上述研究基础上,通过与临床相关数据的联合分析,进一步寻找到了与特定肿瘤亚型预后相关的诊断指标。如在分泌蛋白质组学研究中发现了食管癌和肝癌的早期诊断标志物[39-40],还有研究发现Flower蛋白表达可抑制肿瘤生长和转移,提高化疗敏感性[41]。
细胞内许多生命活动发生在代谢物层面,代谢物更多地反映了细胞所处的环境,如细胞是否健康、药物是否起效、环境污染物是否正在伤害细胞等。目前,虽然代谢组学还处于初生阶段,但已成为研究热点,且研究正向实用性方向发展。代谢组学定量方法精确度的提高和研究深入,以及各种组学数据的成功对接,使研究者可获得肿瘤基因转录、蛋白以及代谢水平的全景信息,实现从更高层面理解生物系统的功能。包括质谱在内的多技术联合应用,为代谢组学的发展提供了更加广阔的空间。有研究通过对138例肾透明细胞癌患者的癌组织与正常组织进行代谢组学分析,并与TCGA数据库中的转录组数据以及临床信息进行联合分析,并在代谢层面上进行分子分型,从而更好地了解肾透明细胞癌[42]。
6 小结
驱动基因的鉴定及相应靶向治疗的应用在肿瘤防治中发挥重要作用,探索预测性和预后判断生物标志物以深入了解肿瘤的发生发展机制,进一步制定个体化治疗方法,筛选获益人群,对实现肿瘤精准治疗尤为重要。随着多组学技术的不断进步,围绕肿瘤研究产生的数据量将越来越多,依托大数据挖掘,理解将更全面、更深入。然而,肿瘤组学研究产生的数据量不断加大、计算量的密集度不断增高亦给研究中数据挖掘及解析工作带来了挑战。为了应对这些挑战,数据挖掘技术需不断更新,算法策略需不断优化,与相关领域的交叉应用亦需深度加强,而人工智能技术的应用[43-45]为人类探索癌症的本质开辟了新的途径。可见,通过对肿瘤组进行多组学分析,不断结合单细胞技术、人工智能技术等,从而识别肿瘤驱动基因,制定个性化的诊疗方案,对了解肿瘤及精准医疗发展具有重大意义。