单细胞转录组测序在生殖发育领域应用进展
2019-03-20李彤徐家伟孙莹璞
李彤,徐家伟,孙莹璞
细胞是生物体结构和功能的基本单位,在生物体生长发育过程中,因细胞类型、外界环境以及内部调节的不同,其转录组信息也呈多样性。细胞命运的决策是单细胞层面的过程而非组织层面。由于基因组和表观遗传的重编程,以及在细胞分裂和分化过程中出现的误差造成来自同一细胞系或个体的细胞呈现出不同的基因组、转录组和表观基因组,即细胞异质性。例如胚胎发育早期的细胞,每个细胞的谱系和发育轨迹也不尽相同。传统的测序方法将大量相同类型的细胞团共同提取遗传物质进行测序,忽略了单个细胞在遗传方面的特殊性。单细胞转录组测序(single-cell RNA-sequencing,scRNA-seq)技术对单个细胞进行高通量分子检测,探索单个细胞全基因表达谱,不仅在解决生物异质性方面有着强大的功能,同时在低数量的生物材料问题上有许多优势。
在以往基因层面的测序,需要输入数百到数百万个细胞,得出细胞群的平均读数。而单个细胞便决定生物发育过程。单细胞组学技术将高通量分子技术转移到单细胞规模[1-3],同时结合其他检测结果,如染色质可及性等[2,4],更深入地了解细胞命运调节的机制。自2011年单细胞测序技术被称为最有期待价值的技术[5],至今在各杂志刊物中大批量出现,单细胞测序无疑是当今科学界的宠儿。现总结scRNA-seq所涉及的主要过程、应用优势以及在生殖发育领域的作用。
1 scRNA-seq基本方法
1.1 单细胞捕获 分离单个细胞,常用技术有:有限稀释法、显微操作法、荧光激活细胞流式分选(fluorescence-activated cell sorting,FACS)、磁性激活细胞分选(magnetic-activated cell sorting,MACS)以及激光捕获显微切割法等[6]。有限稀释法利用梯度稀释细胞悬液,获得理想状态下的单细胞悬液。该方法无选择偏向性,成本较低,但分离效率低下。显微操作法即在显微操作下精确地分选收集单个细胞,能够较好地保持细胞活性,不影响细胞的状态,分离细胞也较前者更精确,但同样不适合大规模操作,仅适用于细胞量少且无法用流式分选仪的情况,例如动物胚胎或卵子等,以上两者均属低通量方法。
FACS借助于细胞表面标记或细胞特性对特定群体的细胞进行分选。FACS能大批量获得单个细胞,技术较为成熟,实验标准易于统一,是目前应用较广泛的方法,但一定程度上影响了细胞状态。MACS将结合特定细胞表面抗原的抗体附着于磁性纳米颗粒[7],混合孵育珠子和细胞后转移至强磁场的柱子中分离细胞,该方法可以针对特定抗原呈阳性或阴性分离。激光捕获显微切割法提供了在原始自然环境中从单个细胞中分离DNA的低通量方法,但是来自显微切割的单细胞的测序数据质量相对较差。
除了显微操作技术,大多数单细胞捕获需使用酶切技术解离组织,解离过程在一定程度上降低了细胞活性,可能会改变RNA表达谱。为解决细胞原始状态被破坏的问题,转录组体内分析(transcriptome in vivo analysis,TIVA)法可在体内的自然环境中非侵入性捕获单个细胞,通过光活化后从活组织中的单个细胞捕获mRNA完成体内转录组分析[8]。此外一些特殊细胞的分离法因细胞类型而不同,例如肿瘤细胞具有迁徙的能力,易与血液中的多种细胞混合,DEP Array系统便可用非均匀电场固定细胞[9],从10万个细胞的混合物中分离、移动和成像单个肿瘤细胞。
1.2 建库及数据获得 scRNA-seq数据的获得通常经过细胞裂解、mRNA反转录、cDNA扩增建库的过程。早期研究者多使用平板法,即在微孔板上分选和裂解细胞进行文库制备[10-11],每个微孔中便有一个单细胞进行RNA-Seq。后由学术团体商业化开发的机器和微流体系统逐渐代替[12-13]。平板法倾向于利用较低的细胞数量,提供更高质量的文库,其可以从整个转录本中产生读数,并检索剪接变体和等位基因特异性等转录信息。具有已知表面标记的稀有细胞,通常采用FACS法和平板法。
10×genomics微流控技术是基于Drop-seq和InDrops方法[12-14],利用微流体将带有条形码的微珠和细胞一起包裹进液滴,装载入用于扩增的条码引物,建立了快速、廉价、高通量的scRNA-seq方法,由此检测数以千计的细胞。虽敏感度偏低,但其成本较低、速度快、效率高。该方法可能使多个不同的细胞被相同的条形码标记,产生多个重复的细胞转录组,液滴实验中的双重速率与负载细胞的数量成正比。10×genomics技术在液滴中破坏细胞膜,游离出来的mRNA与微珠中的逆转录酶、引物以及脱氧核糖核苷三磷酸(dNTP)接触,逆转录为cDNA供进一步建库。内含子连续荧光原位杂交(sequential fluorescence in situ hybridization,seqFISH) 技术利用荧光标记内含子,当基因开始表达时荧光标记便描绘了基因表达的位置和强度,seqFISH可同时对单个细胞内的1万多个基因进行成像观察[15]。液滴法提供了高细胞通量,平板法在每个单独的细胞中提供更高的分辨率。这些方法的不同实施方式也会导致略微不同的输出,例如研究早期胚胎发育时考虑到细胞数量少,可选择平板法;对于胚胎后期发育阶段,每个胚胎中有成千上万个细胞,细胞具有高水平的异质性,液滴法则更适合。
一个人类细胞中RNA总量大约为10 pg左右,其中大部分为rRNA,mRNA的含量仅占2%~3%,mRNA的扩增从pg提升至μg,百万倍的扩增带来的偏差会随着聚合酶链反应(PCR)的扩增呈指数级放大。因此减小背景噪音和偏差,提升扩增的均一度和覆盖率是测序分析的要点。
2009年Tang等[1]开发的单细胞mRNA-seq全转录组分析利用PCR原理,并保留了部分非编码RNA,但无链特异性。Quartz-seq法在Tang等[1]的方法基础上进一步优化,操作更简单,且降低了副产物的含量[16]。SMART(switching mechanism at 5′end of the RNA transcript)建库法以总RNA或polyA RNA为模板,以锚定序列oligo(dT)作为引物,并添加胞嘧啶核苷酸,在反转录酶作用下合成cDNA的第一条链,将胞嘧啶C锚定于转录本尾端,形成polyC尾,进而使随机寡核苷酸引物与polyC杂交,合成cDNA第二条链。得到的产物经PCR和进一步纯化后用于测序,SMART-seq和SMART-seq2改进SAMRT 5′端测序的缺点可做到全长测序[11,17]。自scRNA-seq发布以来,该技术已发展成为研究复杂生物体系细胞异质性以及细胞轨迹的有效方法。
1.3 多组学分析 多组学分析是将多种因素如基因组、蛋白质组、转录组、表观基因组和微生物组组合同步生物分析的方法,可以有效地分析复杂的大数据,以便轻松找到生物标记。例如,G&T-seq将DNA测序与RNA-seq相结合[18],擅长识别拷贝数变化对转录的影响。M&T-seq同时使用NMT-seq捕获DNA甲基化和转录组数据[19-20],使用胞嘧啶-磷酸-鸟嘌呤(CpG)甲基转移酶可获得染色质可及性信息等。迄今为止,大多数scRNA-seq实验将细胞分离出原始空间位置,但空间位置会影响细胞接收的信号,特别是在发育早期,空间位置的影响足以改变细胞命运,增加多重RNA FISH和其他原位测序技术等新方法有望在细胞的原始空间展开分析。多组学分析已允许对同一细胞的表观基因组、转录组和染色质可及性进行综合分析[20],用共同坐标框架计算记录胚胎内单个细胞的位置,可以进行跨样本比较[21]。同时计算胚胎内部空间分辨的表达图将促进信号梯度的计算推断,发现新的形态发生模式。
2 scRNA-seq应用优势
2.1 鉴定细胞亚群 分析scRNA-seq数据第一步需要将细胞亚群分类,进一步选择感兴趣的细胞亚群,评估亚群特征如细胞异质性,找到不同条件下的差异表达基因。特别是细胞数量很少的情况,在潜在的小细胞群或稀有细胞群(例如原始生殖细胞)之间进行比较,scRNA-seq具有极大的优势。与常规RNA-seq相同的是,scRNA-seq也利用分层聚类分析鉴别差异表达基因[22],运用SINCERA技术(一种细胞类型富集分析软件)进行基因群分析[23],判断该亚群是否与已知细胞类型相关。2015年Zeisel等[24]首先证明了基因表达谱相似的细胞可以组合在一起,省略细胞标记来分析,鉴定出了肺泡上皮双能祖细胞。后来这种所谓的逆向组织工程方法帮助研究人员鉴定出了多种组织中的细胞,更重要的是识别了这些细胞群中的新型细胞[25]。Macosko等[13]则证明如果评估完整的转录本,则有可能揭示基于同种型变体的新型细胞类型特异性。
2.2 探究细胞异质性 来自同一细胞系或个体的细胞呈现出不同的基因组、转录组和表观基因组,即细胞异质性。在多细胞生物中,细胞群中的每种细胞类型具有不同的作用,依据不同的转录谱形成亚群。由于缺乏亚群层面的鉴定,亚群之间基因表达的相关性常常会被遗漏[26]。若表达谱的变化是由于调节作用或组成成分的改变,批量分析则无法识别。当检测细胞分化水平时,平均表达谱仅能够按时间排列细胞,因此无法显示细胞发育阶段内特异性基因表达水平及趋势[27]。scRNA-seq允许对组织中各种细胞类型及其相应的转录谱进行分析,结合分层聚类等技术,鉴别亚群中和亚群间差异表达或高表达的基因,更好地理解细胞异质性。例如,细胞异质性是肿瘤的重要特征,肿瘤细胞的异质性描述了不同肿瘤细胞基因型和表型两个方面的差异。其中表型异质性是指同一肿瘤内部存在具有不同基因表达谱和功能特征的肿瘤细胞。随着谱系分化和细胞周期的进行,肿瘤细胞表型异质性逐渐形成。scRNA-seq通过分析单个肿瘤细胞转录组,根据基因表达的类型将细胞分为多个亚群,可更加清晰地了解肿瘤细胞的动态演变过程,揭示肿瘤细胞形成的相关基因和通路,发现一些新的肿瘤分子标记物等。循环肿瘤细胞(circulating tumor cell,CTC)是从原发性肿瘤流入血管系统或淋巴管并存在于外周血中的肿瘤细胞的统称[28]。CTC是造成大多数肿瘤转移和复发的因素。CTC scRNA-seq有助于临床肿瘤患者早期诊断,检测肿瘤转移,制定个性化治疗方案等。
2.3 推断细胞发育轨迹 scRNA-seq的一个优势是能够在单个实验中捕捉不同发育阶段的细胞。通过观察各阶段基因表达变化,揭示哪些基因是驱动发育的关键因素,重建发育路径[29-30]。目前这种方法已经得到广泛的应用。例如研究人类限制性内胚层细胞的形成与分化,scRNA-seq依据细胞发育路径将其有序排列,可重建已知标记的行为轨迹,同时发现一些新的候选调节基因,其中包括Krüppel样转录因子8(Krüppel-like factor 8,KLF8),后通过功能获得和敲低实验,证明KLF8在调节中内胚层至限制性内胚层分化中起关键作用[31]。
虽然scRNA-seq在研究转录事件中作用强大,但其无法捕获控制每种细胞类型转录的染色质调节区域,因此发育轨迹的推断并不局限于转录组数据,也可以从单细胞染色质可及性等方面进行研究。染色质可及性测定常用方法有DNase-seq、MNase-seq和ATAC-seq等,且单细胞染色质可及性推导出的发育轨迹也与表达信息的推断密切相关[32]。此外单细胞蛋白表达也可应用于发育轨迹,Bendall等[33]利用质谱流式细胞技术(mass cytometry)与自主开发的算法结合,构建了从造血干细胞到幼稚B细胞的发育轨迹,揭示了B细胞来源的祖细胞的新生部分,并将它们与发育调控的调节信号传导和免疫球蛋白重排等细胞事件进行比对,突出了检测点,为B淋巴细胞生成提供了全面的分析。
3 scRNA-seq在生殖发育中的应用进展
3.1 scRNA-seq与配子形成 受精后11周的人类雌性胚胎中的生殖细胞称为卵原细胞,雄性胚胎中的生殖细胞称为生殖细胞或前精原细胞,二者统称为人类胚胎生殖细胞(FGCs),即精子和卵子的前体。FGCs对物种的维持至关重要,然而其发育轨迹和异质性在很大程度上是不清楚的[34]。通过scRNA-seq发现雌性FGCs经历4个不同的连续发育阶段,其特征性活动分别是有丝分裂、视黄酸信号传导、减数分裂前期和卵子发生。雄性FGCs发育则通过迁移、有丝分裂和细胞周期停滞。通过对正常睾丸细胞和来自非梗阻性无精子症(NOA)供体的睾丸细胞进行scRNA-seq分析,建立了3种精原细胞亚型、7种精母细胞亚型和4种精子细胞亚型的连续发育分层模型,描述了人类精子发育的发展,也进一步分析鉴定了人类生殖细胞的几个阶段特异性标记基因,如HMGA1、PIWIL4、TEX29、SCML1和CXC112等[35]。
3.2 scRNA-seq与卵母细胞发育 人类卵母细胞与其周围卵丘颗粒细胞(GC)的scRNA-seq分析揭示了转录因子调控网络对人类卵母细胞和GC相互作用的特征,在特定发育阶段卵母细胞与GC分别表达不同的特定基因,如RBM24仅在原始卵泡和初级卵泡中表达,甘油-3-磷酸脱氢酶1(GPD1)主要在次级卵泡和窦卵泡阶段表达,NTF4和LCP2在窦卵泡期特异性表达等。与之前的研究不同的是,scRNA-seq数据表示随着卵母细胞成熟,DNA甲基化程度不断增加[36]。卵丘GC中,甾体类固醇产生相关的基因在窦卵泡中上调,在排卵前卵泡中达到峰值。在卵母细胞介导的GC增殖和分化中,Notch通路在卵细胞驱动机制下被激活[34],KITLG-kit通路由旁分泌效应中GCs表达的KITLG启动[37]。通过scRNA-seq确定了影响卵泡发育、卵巢储备以及可能控制原始卵泡活化的5种途径,可为卵巢功能不全的女性提供新的治疗策略。
3.3 scRNA-seq与早期胚胎发育 哺乳动物早期胚胎发育阶段细胞数量极少,直到囊胚之前胚胎以有丝分裂的形式进行发育,未产生细胞分化,故早期胚胎细胞命运决定及细胞异质性的研究尤其需要进行scRNA-seq分析。近年来,关于哺乳动物和脊椎动物胚胎早期发育阶段的scRNA-seq分析陆续被报道。来自斑马鱼早期胚胎发育7个阶段的scRNA-seq提供了所有细胞状态组合而成的树状图,结合跨时间相关细胞的状态,发现并记录每种细胞类型的初转录现象,并识别在不同分化状态细胞间差异表达的基因,记录每个谱系的基因表达变化以及每个细胞状态的特定标记基因[38]。与此同时,研究者开发了包括人工DNA条形码追踪“Tracer-Seq”等技术,对野生型斑马鱼转录组的聚类能够揭示发育时间内表皮、神经、中胚层和内胚层细胞状态集合,其中许多可以基于标记基因的表达特别注释,且形成细胞类型的转录程序的稳定性不受信号干扰影响[39]。
4 结语
第一个人类基因组测序点燃了基因组学高通量时代,scRNA-seq的出现可能是我们对人类胚胎发育以及疾病细胞多样性理解的分水岭。随着技术的革新,scRNA-seq将有助于我们研究早期发育阶段高度异质性的细胞群,但该技术仍有待进一步优化与完善,如捕获效率的增加、技术噪声的屏蔽、空间位置对细胞接收信号的影响、基因的自然变异以及基因网络传播调控等产生的影响等。目前多组学方法可以整合分析同一细胞内多个分子层的结合细胞在胚胎中的位置信息,逐渐进入对同一细胞的表观基因组、转录组和染色质可及性综合分析的时代,更深入地了解驱动基因表达变化的机制。随着单细胞测序研究的不断进展,我们正在揭开细胞命运选择整体模型的面纱,即生命的发生过程,相信单细胞测序技术将推动精准医学的发展,并对发育生物学产生深远的影响。