单细胞测序技术在乳腺癌研究中的应用进展
2022-08-08王靖
刘 强,方 仪,王靖
国家癌症中心,国家肿瘤临床医学研究中心,中国医学科学院北京协和医学院肿瘤医院乳腺外科,北京 100021
癌症严重威胁人类健康,影响人类寿命,世界卫生组织国际癌症研究机构最新研究报告[1]显示,女性乳腺癌发病率已超过肺癌,2020年新发病例约230万例,占全部新发癌症病例的11.7%。乳腺癌是一种起源于乳腺导管上皮细胞的高度异质性的疾病,肿瘤之间、肿瘤内部及患有癌症的个体间存在高度异质性,这些因素共同导致疾病进展和耐药性产生。近年来,全基因组测序等高通量测序技术的进步使我们能够以前所未有的深度分析肿瘤,尤其是近年来兴起的单细胞测序技术,包括单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)、单细胞DNA测序(single-cell DNA-sequencing,scDNA-seq)、高通量测序分析转座酶可及染色质(assay for transposase-accessible chromatin with high-throughput sequencing,scATAC-seq)及单细胞T细胞受体测序(single-cell T cell receptor sequencing,scTCR-seq)等。其中scRNA-seq是在单个细胞水平对mRNA进行高通量测序的一项新技术,针对单个细胞研究其整体水平的基因表达情况。scDNA-seq是利用优化的二代测序技术检测来自单细胞的DNA信息,提供细胞层面的遗传图谱,以更好地了解单细胞在微环境中的功能,scATAC-seq能在基因组水平上帮助我们了解细胞的转录调控过程,揭示不同调控因子位点,从表观遗传学的角度来解析基因信息。scATACseq在开放染色质图谱绘制、细胞分化发育、疾病的致病机制、肿瘤微环境及生物标志物研究等方面具有广阔的应用前景。scTCR-seq技术则通过对大量T细胞进行TCR测序分析,有助于理解TCR免疫组库的多样性、TCR介导的抗原特异性识别及适应性免疫的相关机制。
单细胞转录组测序技术是一种可以对单个细胞进行转录组分析的新技术,近年来,单细胞测序技术进一步的更新迭代使其得以用更低的成本获得更高的准确度及灵敏度。通过分析复杂组织中的单个细胞,相比传统的组织测序技术,单细胞测序技术在研究细胞群体的异质性以及探索与肿瘤发生、发展及转移相关的细胞类型方面具有独特的优势。为确保有足够的RNA量用于后续分析,传统的RNA测序技术是对从混杂组织或较大的细胞群体中提取出的混合RNA进行测序,因此不可避免地局限于仅能获得混合细胞群体中的基因表达平均值,而无法捕获细胞群体间的转录组异质性,限制了我们真正了解具体细胞类型中的基因表达信息[2]。近年来不断发展的单细胞测序技术已经能够分离单细胞,在单细胞水平上建库测序,捕获单个细胞的基因表达信息。2009年,Tang等[3]首次报道了单细胞转录组测序技术,最初的单细胞测序只能对10~100个细胞进行研究,随着技术的不断完善,现阶段人们已经能够在单个项目中对成千上万个单细胞进行测序[4-6]。
在乳腺癌研究领域,通过将具有不同分子分型的乳腺癌细胞进行聚类,以鉴定出可能与不良预后和耐药性相关的不同群体。在乳腺癌微环境研究方面,可以通过鉴定与免疫逃逸相关的免疫细胞亚群,以期发现新的潜在免疫治疗靶点;单细胞测序技术的发展还使肿瘤微环境中的细胞与细胞通讯研究、单细胞水平的调节状态研究成为可能。总之,单细胞测序技术的迅猛发展使人们能够进一步了解实体肿瘤中细胞的异质性,并具有阐明肿瘤发展、转移的复杂机制的巨大潜力,为确立乳腺肿瘤精准治疗策略提供新的思路。
1 乳腺癌单细胞图谱类研究进展
传统基因组和基因表达谱所展示的是患者乳腺癌组织的特征,而肿瘤内部存在高度异质性,极有可能会影响疗效,因此,深入到单细胞层面的基因组及基因表达研究显得尤其必要。近年来,基于单细胞测序技术的基因表达图谱研究开始在单细胞水平上呈现乳腺癌的基因表达图谱。2017年,Chung等[7]应用单细胞转录组测序分析了来自包含4种乳腺癌亚型的11例原发性乳腺癌患者的515个细胞的基因组图谱,根据scRNA-seq数据推断拷贝数变异将癌细胞与非癌细胞区分,结果表明,癌细胞在肿瘤内既有共同的特征,也显示出乳腺癌亚型和关键肿瘤相关通路的瘤内异质性,大多数的非癌细胞是免疫细胞,包括3个不同的分群,分别是T淋巴细胞、B淋巴细胞和巨噬细胞簇。淋巴细胞和巨噬细胞都表现出免疫抑制特征:具有调节或耗竭表型的T细胞和具有M2表型的巨噬细胞,该研究提示乳腺癌转录组具有广泛的瘤内异质性,这种异质性包括肿瘤细胞及周围环境中的其他间质细胞。乳腺癌起源于乳腺上皮细胞,它们获得遗传改变,导致随后的组织稳态丧失,2018年Nguyen等[8]绘制了人类乳腺上皮的单细胞转录组图谱,该研究应用单细胞转录组测序技术描绘了来源于7名女性的共25790个正常乳腺上皮细胞的转录组图谱,经过聚类分析,定义了3类细胞:分泌性Luminal细胞、激素反应性Luminal细胞和基底细胞,通过拟时序分析,重建了连接这3类细胞的分化路径,该研究系统描述了乳腺上皮细胞的特征图谱,有助于进一步理解乳腺癌细胞的谱系分化。近年来,肿瘤免疫治疗的发展如火如荼,但由于肿瘤异质性的存在,导致不同疾病或同一疾病不同患者,应用免疫抑制剂治疗的临床效果各不相同,因此全面理解乳腺癌微环境中的免疫细胞图谱至关重要。2018年,Azizi等[9]收集了4种具有代表性的来自8例未接受过治疗的原发性乳腺癌患者肿瘤组织,包括雌激素受体(estrogen receptor,ER)阳性乳腺癌、孕激素受体(progesterone receptor,PR)阳性乳腺癌、人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)阳性乳腺癌、三阴性乳腺癌(triplenegative breast cancer,TNBC)癌组织、癌旁组织和由乳腺成形术得到的正常乳腺组织,对收集的共计47016个CD45+细胞进行单细胞转录组测序,并对这些组织中的免疫细胞进行细胞活化及分化状态鉴定,提供了一个全面的乳腺肿瘤内的免疫细胞图谱,揭示了乳腺肿瘤内的免疫细胞分群情况,鉴定出83个不同的免疫细胞簇,包括38个T细胞簇、27个髓系细胞簇、9个B细胞簇和9个自然杀伤(natural killer,NK)细胞簇,揭示了适应性免疫和固有免疫系统免疫细胞的多样性,这种巨大的变化与细胞所处的组织微环境有关。近日,一项属于乳腺癌细胞图谱(Breast Cancer Cell Atlas)计划的研究[6]从5例原发性TNBC病例中采集了24271个细胞,利用scRNAseq对其开展分析,确定了4个基质细胞群,包括2个与癌症相关的成纤维细胞亚群,以及2个血管周样基质细胞亚群,作者还通过信号转导通路预测,发现了基质细胞与免疫细胞间存在广泛的相互作用。乳腺癌单细胞图谱类研究仍在迅猛发展,将为人类从单细胞水平探索乳腺癌异质性及其真实的微环境动态演变提供借鉴。
2 单细胞测序技术应用于乳腺癌微环境研究
乳腺癌微环境具有高度的异质性,主要由肿瘤细胞、间质细胞和免疫细胞等构成,乳腺癌微环境中的多种细胞都可能是异质性的来源,然而传统转录组测序技术对微环境的异质性束手无策,单细胞测序技术的发展使得乳腺癌微环境研究成为可能,近年来已经有多个乳腺癌微环境相关的研究成果发表。肿瘤相关成纤维细胞(cancer-associated fibroblast,CAF)是肿瘤微环境的主要组成部分,但由于显著的异质性及技术的局限性,关于CAF在肿瘤发生、发展和治疗反应中的作用尚不清楚。Bartoschek等[10]分析了来自乳腺癌小鼠模型中的768个间质细胞的单细胞转录组测序数据,并在转录和蛋白质水平上验证了CAF的空间分离来源于3个不同的CAF亚群:血管周围微环境、乳腺脂肪垫和转化的上皮,发现每个CAF亚群的基因谱与独特的功能相关,并且在临床队列中具有独立的预后能力,该研究发现乳腺癌微环境中的CAF存在异质性,不同的CAF亚型参与不同的功能及信号转导通路,使得未来针对标志物驱动的靶向乳腺癌微环境中的CAF治疗及药物开发成为可能。单细胞测序技术的进展使得人们突破原有体外研究的局限性,可以比较在真实肿瘤微环境中的某一类细胞与正常组织微环境中某一类细胞的基因表达谱差异,以更精准的方式研究潜在影响疾病发生、发展的细胞亚型、信号转导通路及分子靶点。例如,Sebastian等[11]的研究首先采用单细胞转录组测序技术在动物模型中研究了TNBC的CAF的异质性,鉴定了6种CAF亚型,对正常乳腺组织及胰腺组织的CAF进行单细胞测序并与TNBC中的CAF分群进行比较,发现其中有2个CAF亚群也存在于正常组织中,提示有一部分CAF细胞亚群对于维持乳腺组织正常微环境稳态具有重要作用。
乳腺癌微环境中的肿瘤浸润淋巴细胞(tumor infiltrating lymphocyte,TIL)的数量是提高患者生存率的一个强有力的预后因素,特别是在TNBC和HER2过表达的乳腺癌中,虽然T细胞是主要的TIL群体,但T细胞亚群的定量和定性差异与患者预后的关系仍不清楚。Savas等[12]通过对从乳腺癌组织中分离出的6311个T细胞进行scRNA-seq,发现浸润T细胞存在显著的异质性,表明含有大量TIL的乳腺癌组织中含有CD8+T细胞,其具有组织驻留记忆T细胞分化的特征,并且这些CD8+组织驻留记忆T细胞表达高水平的免疫检查点分子和效应蛋白。最近Hollern等[13]通过创建新的乳腺肿瘤模型,联合scRNA-seq与传统转录组测序,发现肿瘤基因突变数量和特定免疫细胞,与免疫检查点抑制剂的疗效密切相关,此外,该研究还利用敏感和耐药小鼠模型经过或未经过免疫治疗的肿瘤,建立了scRNA-seq和批量信使RNA测序的大型数据库,通过该方法,发现免疫检查点治疗可以诱导B淋巴细胞激活滤泡辅助型T淋巴细胞,从而促进其抗肿瘤作用。该研究还表明,B淋巴细胞分泌抗体并且激活T淋巴细胞是免疫治疗效果的关键,并且为免疫检查点抑制剂治疗找出了新的生物标志物。此外,单细胞测序技术还开始用于乳腺癌微环境中的细胞与细胞通讯研究,例如,Kumar等[14]提出了一种利用scRNA-seq来描绘微环境中所有细胞类型之间配体-受体相互作用的方法。
3 单细胞测序技术应用于乳腺癌耐药研究
原发性Luminal型乳腺癌是由非突变ERα驱动,所有术后患者会采取辅助内分泌治疗,这一治疗策略可显著延迟临床复发,但却不能完全消除复发,每年约有3%的患者复发,因此不可避免地导致肿瘤进一步的发展、转移。2018年,Hong等[15]使用活细胞成像、单细胞转录组测序和机器学习分析ERα阳性乳腺癌的表型异质性和可塑性,并利用这些信息在体外和体内鉴定了一种罕见的细胞类型,这些细胞表现出独特的转录特征,具有休眠及混合上皮和间质特征,在循环肿瘤细胞群中占主导地位。TNBC是一种侵袭性的乳腺癌亚型,常对新辅助化疗(neoadjuvant chemotherapy,NAC)耐药,但仍未确定其耐药性是由罕见的已经存在的克隆选择引起的,2018年Kim等[5]通过scDNA-seq、scRNA-seq及外显子组测序对20例处于治疗过程中的TNBC患者的大量细胞进行了分析,首先采用深度外显子组测序确定了10例NAC导致克隆消失的患者和10例治疗后克隆持续存在的患者,通过DNA测序分析了900个单细胞,RNA测序分析了6862个细胞,发现化疗中出现的拷贝数突变是预先存在且适应性选择的,而表达谱是通过转录重编程获得的,揭示了TNBC患者在接受NAC时肿瘤细胞的基因组和表型进化,他们表现出两种截然不同的克隆动态,即消退或持续,在克隆性消退患者中,NAC消除了肿瘤细胞,只留下正常细胞类型,而克隆性持续患者则携带更多数量的残留肿瘤细胞,其基因型和表型在NAC反应中发生改变。Impassion130研究[16]结果表明,免疫治疗可以改善晚期程序性死亡[蛋白]配体-1(programmed death ligand-1,PD-L1)阳性TNBC患者的预后,采用单细胞测序技术比较了治疗应答及治疗后疾病进展患者接受免疫治疗联合化疗前后近4000多个细胞的变化情况,scRNA-seq分析显示,治疗应答及治疗后疾病进展患者在免疫治疗联合化疗前后,肿瘤免疫浸润细胞存在显著的基线异质性,在治疗应答患者中,程序性死亡[蛋白]-1(programmed death-1,PD-1)高表达的T细胞在治疗后显著减少,并且存在组织驻留记忆T细胞,而治疗后疾病进展患者则表现出普遍和持续的髓系成分。
4 单细胞测序技术应用于乳腺癌异质性及克隆演化研究
异质性是恶性肿瘤的内在特征,即使在单个肿瘤中,细胞群体也表现出不同恶性程度及对治疗的反应情况[17]。近年来,单细胞测序技术逐渐被应用到乳腺癌异质性研究中,例如,2018年,Karaayvaz等[4]对6例原发性TNBC患者的1500多个细胞进行了scRNA-seq(Smartseq2),发现每个肿瘤内基因表达程序的细胞间异质性是可变的,并且在很大程度上与推断的基因组拷贝数变异的克隆性相关,表明基因型驱动了单个亚群的基因表达的表型,基因表达谱的聚类分析确定了多个肿瘤共享的不同恶性细胞亚群,包括与多个耐药和转移特征相关的单个亚群,并且功能上以通过激活鞘糖脂代谢和相关的先天免疫通路为特征,该研究在单细胞层面揭示了TNBC的功能异质性及其与基因组进化的关系。
单细胞测序技术使研究者得以单独对某一个细胞亚群的功能状态进行分析,从而避免其他细胞的干扰。Gao等[18]应用纳米网格单核RNA测序方法比较了乳腺癌细胞系中485个单核与424个单细胞的转录组,结果显示出高度一致的基因水平和丰度,分析来自乳腺肿瘤组织样品的416个细胞核和来自正常乳腺组织的380个细胞核,揭示了癌细胞表型的异质性,包括血管生成、增殖和干性,以及一个具有许多过表达癌基因的亚群(19%)。循环肿瘤细胞是存在于肿瘤患者血液中的一类细胞,目前认为循环肿瘤细胞与肿瘤播散转移密切相关,2012年,Powell等[19]使用一种基于微流控的单细胞测序技术,87个癌症相关基因和参考基因的单细胞转录谱显示出单个循环肿瘤细胞之间的异质性,根据31个高表达基因将它们分成2个主要亚组,相反,来自7个乳腺癌细胞系的单细胞却根据样本分化抑制因子(inhibitor of differentiation,ID)和ER状态紧密的聚类,这项工作显示出循环肿瘤细胞与其他乳腺癌细胞系的异质性。Chen等[20]通过对一类侵袭、迁移能力强的细胞进行scRNA-seq分析,发现与乳腺癌转移相关的基因。循环肿瘤细胞簇是存在于肿瘤患者血液中的细胞群,虽然相对含量少,但比单个循环肿瘤细胞有23~50倍的转移侵袭能力。2014年,Aceto等[21]应用单细胞转录组测序技术比较了乳腺癌患者血液中配对的循环肿瘤细胞簇与循环肿瘤细胞的转录组差异,发现细胞黏附成分珠蛋白的高度差异表达,进一步研究发现循环肿瘤细胞簇来源于多个原发肿瘤细胞之间以珠蛋白黏附连接聚集。
在克隆演化研究方面,Wang等[22]应用全基因组单核拷贝数分析及外显子单细胞测序方法比较正常及来源于ER阳性乳腺癌和TNBC的单核,发现非整倍体重排发生于肿瘤进化的早期,并随着肿瘤的克隆扩展而保持高度稳定,相反,点突变进化逐渐产生广泛的克隆多样性。为直接验证基于群体的突变簇推断和克隆基因型,Eirew等[23]在乳腺癌小鼠移植瘤模型中应用单细胞测序技术揭示了基因组克隆的扩增模式。Demeulemeester等[24]应用单细胞测序技术,对6例乳腺癌患者的骨髓提取物的63个单细胞进行了基因组测序,对分离的细胞的基因组图景进行分析,追溯乳腺癌患者播散肿瘤细胞的来源,研究表明,非转移性乳腺癌患者的骨髓中存在拷贝数变异阳性细胞的异质细胞群体,其中只有一部分来自观察的肿瘤谱系,提示可以借助单细胞测序技术研究播散肿瘤细胞,为揭示肿瘤转移过程提供更多参考。2015年,Lawson等[25]开发了一种基于高灵敏度荧光激活细胞分选(fluorescenceactivated cell sorting,FACS)的检测方法用于鉴定和分离转移细胞,从单细胞水平揭示了早期转移细胞具有独特的干性基因表达特征。2020年,Brechbuhl等[26]采用单细胞转录组测序技术提取13例乳腺癌转移患者及1例原发乳腺癌患者血液中的1707个循环肿瘤细胞进行单细胞转录组测序,鉴定了2个循环肿瘤细胞亚群。一项最新研究中,Davis等[27]在动物模型中分离出匹配的转移和原发肿瘤细胞,利用Illumina平台构建单细胞库,对来自9只患者来源异种移植(patientderived xenograft,PDX)小鼠和3个肿瘤模型的共1707个肿瘤和转移细胞进行测序,揭示了乳腺癌转移的转录多样性和生物能量转移,表明氧化磷酸化在肿瘤转移过程中具有重要作用。
5 乳腺癌单细胞测序公共数据的挖掘
2013年,单细胞测序被Nature杂志评为年度技术,被认为将对生命科学界和医学界带来重要改变。随着二代测序(next-generation sequencing,NGS)技术成本下降,单细胞测序得到了更多发展。各项大型单细胞测序计划正在全球范围内广泛开展,大量单细胞测序数据累积在公共数据库中。例如,人类细胞图谱计划是一项可与“人类基因组计划”相媲美的大型国际合作项目,致力于建立一个健康人体所包含的所有细胞的参考图谱,目前已收录33个组织、289位供体、4500000个单细胞的测序数据,并在持续更新中。乳腺癌相关单细胞测序数据也已有较多积累,但目前仍然没有专门收集乳腺癌相关单细胞测序数据的二次数据库,而是分别存储在各个独立的公共数据库中,本文将存储单细胞测序数据的相关公共数据库进行整理,详见表1。持续积累的海量的单细胞公共数据中隐藏着尚待发掘的宝贵信息,笔者建议应该重视对公共数据的充分挖掘和利用,目前已有一些研究团队注意到这部分宝贵的数据资源。例如,近期Bao等[28]通过整合挖掘TNBC的单细胞转录组测序数据及传统的转录组数据来阐释肿瘤的异质性,并且阐明了M2型肿瘤相关巨噬细胞在TNBC中的浸润和侵袭性,该研究所使用的TNBC单细胞转录组数据下载于GEO数据库[29],传统转录组测序数据下载于UCSC Xena数据库[30],该研究提示单细胞测序数据挖掘可考虑与传统测序数据进行有效整合,同时建议也应该考虑单纯的数据挖掘与湿实验相结合。在数据挖掘方面,目前尚无专门针对乳腺癌的相关单细胞数据库,在数据搜集与检索方面可能会耗费大量时间,建议尽快建立专门的乳腺癌单细胞数据库,实现专库专用,降低乳腺癌研究社群挖掘乳腺癌单细胞数据库的门槛。
表1 scRNA-seq数据库资源汇总Tab.1 scRNA-seq database resources
6 单细胞测序技术应用于肿瘤研究的挑战及思考
近年来,人们逐渐意识到单细胞水平的分析正在改变我们对疾病的理解方式,人们开始理解肿瘤组织、细胞群体的复杂性和异质性,而传统的混合组织测序分析不足以完全表征生物学的复杂性。单细胞基因组学、转录组学和蛋白质组学的进步将促进肿瘤的临床研究、诊断、预后预测和治疗的发展。然而,在单细胞研究广泛开展的大背景下,我们也不得不去思考单细胞技术应用于肿瘤研究的局限性。首先,目前单细胞分析的常规方法仍然存在一定缺陷,一方面,在单细胞的分离和捕获过程中,单细胞的活性和完整性可能受到影响,从而导致下游分析中显示的细胞功能可能已经不同于其在体内环境下的功能状态;另一方面,目前单细胞捕获的效率不足可能会影响后续对于组织或细胞群真实微环境的判断[35]。其次,单细胞基因组学能够在单个实验中测量成千上万个单细胞的基因组信息,其产生的高维大数据的分析处理及生物学意义解析是一个极大的挑战,一方面对于无生物信息学或数据科学背景的医学科学家、临床医师、生物科学家而言,要完成这些高维数据的分析可能会面临很大困难,这就阻碍了单细胞测序技术在生物医学研究中的应用;另一方面,对于无生物医学知识、临床医学背景的生物信息学专家、数据科学家而言,在阐释解析这些复杂数据背后的生物学或临床意义时,可能也会面临困难。因此,笔者建议应该加强生物医学专家与生物信息学专家的团队合作及沟通,促进对于单细胞大数据的理解与挖掘,发挥出单细胞分析应用于阐明肿瘤发生、发展、诊断、治疗及预后预测方面的巨大潜力。
利益冲突声明:所有作者均声明不存在利益冲突。