新一代测序技术在抗癌药物精准治疗中的研究现状*
2021-12-01陈永孜杨丽雯李强陈骏王冬园陈秋月王卓智李居怡邓艾平韩勇吕永宁张玉
陈永孜,杨丽雯,李强,陈骏,王冬园,陈秋月,王卓智,李居怡,邓艾平,韩勇,吕永宁,张玉
(1.天津医科大学肿瘤医院肿瘤细胞生物学实验室,天津市肿瘤防治重点实验室,国家肿瘤临床医学研究中心,天津市恶性肿瘤临床医学研究中心,天津 300060;2.华中科技大学同济医学院附属协和医院药学部,湖北省重大疾病精准用药医学研究中心,武汉 430022;3.天津医科大学生物医学工程与技术学院,天津 300070;4.武汉市中心医院,武汉 430024)
癌症是由细胞基因组变化引起的遗传疾病,包括点突变、插入突变、缺失突变和染色体易位。随着研究技术的发展,在癌症基因组学研究过程中,数据的收集呈爆炸式增长,从而引发癌症基础遗传学研究的变革。在这种情况下,肿瘤生物信息学应运而生,它采用各种生物信息学的方法对大数据包括DNA(基因组)、mRNA(转录组),蛋白质序列(蛋白质组)以及表观遗传组学等多组学数据进行分析,从而促进后基因组时代的科学技术进步,促使分子生物学家以一个全新的视角对癌症的机制进行研究。虽然目前有许多成功的癌症治疗方法,但根据癌症亚型和疾病阶段的不同,许多患者对治疗没有完全反应,或者后期出现耐药性转移性疾病。
新一代测序技术是对现代各种测序技术的总称,又被称之为高通量测序,用于检测给定DNA和RNA的核苷酸序列。与第一代测序和Sanger测序相比,新一代测序技术速度快,价格低,因此被广泛应用于基因组变异检测、转录组分析以及miRNA表达谱等研究中[1-3]。新一代测序技术主要有3种:① Illumina (Solexa) 测序,它是目前世界范围内应用最为广泛的新一代测序技术。它主要基于边合成边测序的方法,优点为覆盖度高、速度快、拼接方法简单,包括MiSeq,HiSeq以及NextSeq等多个系列。② Roche 454,基于焦磷酸测序的方法,比Illumina测序读长要长一些,单端测序读长可以达到400 bp,经常用于基因组骨架的组装。由于454测序技术存在一些缺点,比如无法填补测序缺口和无法准确测量同聚物的长度等,导致很多用户在实际应用时不会选择此技术。③ABI SOLID,是基于磁珠的大规模并行克隆连接DNA测序法,它的准确度非常高,但由于系统通量难以提升,且读长短、成本高,以及拼接复杂,目前也不被广泛应用。
新一代测序技术在基因组学、转录组学、蛋白质组学中的应用,使研究者能够对各种新的假设进行验证,从而促进癌症研究的发展。而这些大规模测序技术的应用也可以获取大量与特定癌症相关的基因变异和表达情况,并能够整合分子特征和临床特征来预测不同药物对癌症治疗的反应。在精准医学的时代背景下,从患者那里收集大量临床和组学数据,从而找到潜在的药物靶点,并将结果应用到临床是当前的主流方向。更为重要的是,这项研究有助于解释由肿瘤异质性引起的耐药性。通过将药物反应数据与表型、基因组学数据以及患者临床信息相结合,制定个性化的治疗策略是精准医疗的主要目的。笔者拟对新一代测序技术在抗癌药物精准治疗中的应用逐一阐述。
1 全基因组测序(whole genome sequencing,WGS)及其应用
1.1WGS简介 WGS是癌症和复杂遗传性疾病等许多医学研究项目的主要研究手段。研究人员发现,外显子以外的DNA变异也会影响基因活动和蛋白质的生成,并导致遗传性疾病——而全外显子基因测序则无法捕捉这一变化。WGS通过全自动DNA测序方法和计算机软件来组装高通量的序列片段,对个体DNA中所有核苷酸顺序进行测定,从而检测基因组任何部分的变化。研究者可以通过对肿瘤的基因组进行测定,将肿瘤进一步细化成各种亚型,并找到相应的药物治疗靶点。
1.2WGS的应用 目前,WGS已经被用作研究工具广泛应用到临床上。特别是对个性化医疗和药物抗性的检测,全基因组序列数据都是指导治疗干预的一个重要工具。通过临床试验,根据患者的基因情况和对药物的反应来决定药物试验的参与者,可以使得新药开发的成本更低、周期更短。因此,对于一次能够快速、廉价地为数千个样本测定数千个单核苷酸多态性(single nucleic acid polymorphism,SNPs)的技术非常受欢迎。随着人类基因组计划完成,迄今已发现约1200万个真正的SNPs。然而,大多数尚未与疾病易感性或药物反应有关。在需要治疗的患者中寻找与药物反应相关的SNPs,对于个性化治疗以及选择正确的药物和剂量非常重要。很多制药公司和研究机构都致力于识别与多基因性状相关的SNPs,对癌症进行基因分型以便发现新的治疗靶点。目前,已有很多研究通过WGS对SNPs进行测定来发现与药物治疗反应有关的SNPs。比如,NIVEDITHA 等[4]通过对成骨肉瘤的血液细胞进行WGS,从26个与复发有关的基因中发现与药物反应有关的SNPs。 NASTASE等[5]通过对IIIA期非小细胞肺癌化疗患者全基因组数据进行分析,来预测患者是否对诱导化疗有所反应,通过确定患者是否含有特定的突变来决定是否进行手术,类似的研究还有三阴性乳腺癌,肺癌和卵巢癌等[6-9]。
2 全外显子测序(whole exome sequencing,WES)及其应用
2.1WES简介 外显子(基因组的蛋白质编码区域)在整个基因组中占比<2%,而WES则覆盖超过95%的外显子,其中含有与人类疾病表型相关大多数基因变异。WES 使研究人员能够更高效地利用测序和分析资源,集中研究基因组中最重要的部分,促进常见和稀有变异的发现和验证。总体来讲,WES除了价格比WGS有优势以外,还具有WGS的许多优势,可以有效地识别各种变异。
WES可以快速准确对肿瘤及其配对正常组织样本的外显子区域进行测定,从而确定每种癌症类型的癌症驱动基因。虽然研究者们在癌症疗法方面取得了一定进展,但这一进程仍然比较缓慢。WES在抗癌药物治疗中的应用与WGS基本上是一致的。比如,通过比较药物反应组和药物抗性组来发现与药物敏感性有关的基因突变,SNP和肿瘤突变负荷以及拷贝数变异等[10-13]。虽然这些研究都取得很多进展,但是仍迫切需要强大稳定的生物标志物来预测一些患者对于治疗的耐药性。随着测序技术的飞速发展和成本的降低,利用基因组信息为患者选择最有效的治疗方案并尽量减少副作用将很快成为现实。
2.2WES的应用 WES的主要应用之一便是肿瘤突变负荷(tumor mutation burden,TMB),它通常以每百万肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示,单位为mutations/Mb,可以用来代表蛋白编码区的非同义突变分布的密度,在生物标志物研究中受到广泛关注。一般来讲,TMB主要针对蛋白编码区中有可能使肿瘤细胞产生新抗原的非同义突变。TMB越高,其肿瘤细胞中能被免疫系统识别的肿瘤新抗原的数量可能越多,被免疫系统识别的概率越高,免疫检查点抑制剂激活机体自身的抗肿瘤免疫应答反应后,杀伤这些肿瘤细胞概率越大。一般来讲,每兆序列中含有超过10个突变的患者被认为是高肿瘤突变负荷,有些研究也把>20 mutations/Mb认为是高肿瘤突变负荷。目前,最直接有效计算TMB的方法就是WES,然而考虑到实验周期和成本,也有根据不同靶向基因设计的各种检测组合(panel),从而降低成本,然而得到的TMB分值没有全外显子得到准确。通过比较患者肿瘤组织和配对正常组织的全外显子或者靶向测序序列,可以得到肿瘤中体细胞突变的数量,进而计算TMB,再结合统计学方法进行建模,从而对患者预后或者药物反应进行预测。比如,研究者为TMB分析开发一种新的算法,用于预测检查点抑制剂免疫疗法的反应[14]。而通过分析不同基因或者基因集与TMB的关联性,寻找与化疗或者免疫治疗相关的生物标志物,也是非常热门的研究[14-18]。
3 转录组测序及其应用
3.1转录组测序 RNA分子在各种生物过程中扮演重要角色,在抗癌药物的治疗研究过程中非常重要。测序是研究RNA非常重要的工具,比如对于信使RNA来讲,常用的高通量手段有RNAseq和基因表达谱芯片。而RNAseq与表达谱芯片比较,可以提供更大的测序范围和更高的灵敏度,同时消除芯片固有的偏差。此外,有研究表明,特定的转录本与药物反应有关,因此,RNAseq在寻找与药物反应有关的生物标志物时更有优势。
3.2转录组测序的应用 基因表达分析是RNA测序的主要应用之一,已被制药公司和研究机构广泛使用,用来检测SNPs、基因融合和拼接事件等水平。通过二代测序技术对mRNA进行测定首先需要制备mRNA文库。对于文库的构建来讲,最终目的都是尽可能提高文库的复杂度。目前,也有很多成熟的商业化试剂盒,用户可以根据需要来进行选择。信使RNA测序技术已成为功能基因组学研究中一项非常关键的实用技术,它主要通过检测人类基因组的表达情况,找到两组患者(药物敏感和药物抗性)显著差异表达基因,通过通路富集分析或者进一步实验验证,即可发现与癌症耐药有关的基因,及其信号通路等信息[19-20]。
在个性化医学的发展中,通过RNA测序发现的生物标志物,最终目的是为癌症患者的诊断、监测和分类提供更高的应用价值。通过RNA测序进行高通量生物标志物筛选后,研究人员通常会进行配套诊断检测并开发验证,最后申请药物监督部门批准。比如,在 2014 年,RIMSZA等[21]发现一个由20个基因组成的表达谱能够对弥漫性大B细胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)进行分类。塞尔金公司随后与NanoString合作,根据研究结果开发配套诊断测试,对参与DLBCL治疗的临床试验患者进行筛查,最终成功地应用到临床上。
4 小RNA测序及其研究
小RNA是一类的非编码RNA分子,长度<200 nt。小RNA的种类包括miRNA、siRNA、piRNA、snoRNA、tsRNA、srRNA和snRNA。这些小RNA在基因沉默和基因表达的转录后调节中起着至关重要的作用,涉及许多生物过程,包括细胞增殖、分化以及凋亡。一些研究结果表明,小RNA与癌症的发生和发展,以及抗肿瘤耐药性有关。例如,通过miRNA测序分析,研究人员发现miR-17的过度表达与结肠癌的化疗抗性有关[22]。miR-34参与胃癌、前列腺癌和乳腺癌耐药性的调节[23-25]。在肿瘤组织中发现piR-4987、piR-20365、piR-20485 和 piR-20582 的表达水平显著上调[26]。
一种成功的新药必须满足当前的医疗需求,在安全性或疗效方面应明显优于当前的标准。最近的动物和人类试验数据表明,抗miRNA化合物通过抑制特定miRNA,有可能成为一个全新的药物类型。此外,miRNA 有几个显著的优点,首先它们很小,并且是由已知序列组成,而且在物种之间非常保守,从药物开发的角度来看,这些优点非常有吸引力。近年来,miRNA测序为鉴定新药靶点提供了更多的机遇。基于miRNA在疾病状态中的作用及其在疾病细胞调节中的作用,miRNA的调控在药物研究中是非常具有潜力的。因此,研究小RNA在肿瘤学中的作用,将促进研究者们对肿瘤病理进展的认识,加速发现新的抗肿瘤疗法。
5 免疫组库测序
对免疫系统的深入了解是现代医学与治疗相关发展的核心。免疫组库是指在任何时间,某个个体的循环系统中所有功能多样性B细胞和T细胞的组合。免疫组库测序主要以T/B淋巴细胞为研究目标,对B细胞受体和T细胞受体的互补决定区进行扩增。该区域包含三个部分,在抗原识别中起着很重要的作用。结合高通量测序技术对此区域的DNA或RNA进行测定,可以全面评估免疫系统的多样性,深入挖掘免疫组库与癌症之间的关系。免疫组库分析可以在生物医学研究各个阶段对免疫系统进行研究。由于免疫调节药物旨在改变免疫系统的动态性质,免疫疗法往往伴随严重的副作用。通过对免疫组库测序数据进行分析,将捕获的信息进一步转化为预测性生物标志物,以便更好检测患者免疫检查点的治疗疗效。比如,REUBEN等[27]通过免疫组库测序发现,病灶特有的突变会导致新抗原的内部表达差异,从而改变肿瘤免疫原性,并形成T细胞克隆性差异。T细胞受体的肿瘤内异质性增高与术后疾病复发以及低生存率有关。此外,免疫组库测序还可以用于癌症亚型的分类[28]、生物标志物的发现[29]和微小残留病的检测[30]等。
6 单细胞测序
不同细胞类型的功能往往是不同的,而具体哪种细胞类型会导致疾病是很多科学家一直致力于解决的问题。以往大多数研究是在整个组织样本上进行的,这些样本由数百万种不同类型和功能混合在一起的细胞组成。虽然这种研究对于比较组织(例如药物治疗之前和之后)的一般特征非常有用,但它们在了解组织内不同细胞类型的特征和反应能力方面非常有限。最近,单细胞RNA测序(scRNA-seq)技术的进步可以大规模对单个细胞中的基因表达进行深入分析,为探索细胞类型内部和细胞类型之间表达的异质性提供无限可能。它为研究组织中所有细胞的类型和研究单个细胞类型在疾病环境中的表达特征、表达丰度和相互作用方面的变化提供了一个新的机会。而且,scRNA-seq也可以揭示与疾病相关的意外新亚型或功能状态。在癌症研究中,对单个细胞的DNA进行测序可以提供各个小细胞群所携带的突变信息。而对单个细胞的mRNA进行测序则可以深入了解不同细胞类型的存在和它们的生物学行为。由于肿瘤异质性的存在,单细胞测序可以很好地鉴定不同细胞对不同药物的反应,从而揭示潜在的分子学机制[31]。它还可以通过对疾病过程和治疗干预措施中的新药靶点进行识别,从而在医学领域提供尖端应用[32]。
7 结束语
作为一个复杂型疾病,癌症的治疗受到多方面的影响。医生和科学家们也一直在寻找更好的方法来治疗癌症患者。为此,他们开发并研究新的肿瘤药物以及寻找新的治疗方案来使用已有的药物。一种新的肿瘤药物从实验室到临床应用是一个漫长的开发和审批过程,而这个过程往往需要很多时间和大量的资源。因此,老药新用作为一种药物研发策略,不仅可以缩短研发时间,降低研发成本,还可以减少研发风险,受到越来越多的重视。新一代测序可以对基因组、表观基因组、转录组、蛋白质组以及代谢组数据进行测定,而计算机分析和处理能力的迅速发展和生物信息学的崛起使研究者们能够从不同的数据中挖掘与癌症治疗药物有关的生物标志物,进而得到可以稳定应用到临床中的生物标志物,从而更为精准、系统地揭示不同疾病的分子机制。虽然通过科学家的不懈努力,发现很多可以用于指导药物治疗的生物标志物,然而由于数据的质量和单个研究的数量问题,在应用的时候会产生不稳定的结果。也就是说单个研究发现的生物标志物缺乏可靠的鲁棒性(Robustness)。如果研究者们可以将完整的数据,尤其是用药及其药物反应等临床数据进行公开,那么对于发现稳定的生物标志物无疑是非常有帮助的。此外,将多层次的数据进行整合对于抗癌药物治疗效果的研究来说也是一个非常有效的方法。鉴于癌症的复杂程度,单个基因的突变或者表达有时很难对一种癌症进行解释。目前,各种组学的数据都可以通过新一代测序数据获得,如果将这些数据进行整合分析,相信可以更加深入的了解不同药物在癌症治疗中的作用。