基于单细胞转录组测序分析描绘人类早期胚胎红细胞发育图谱
2022-05-16陈仲扬马艳妮
陈仲扬,马艳妮,余 佳
(中国医学科学院基础医学研究所 北京协和医学院基础学院 医学分子生物学国家重点实验室, 北京 100005)
在经典的造血分化模型中,来源于造血干细胞(haematopoietic stem cells, HSCs)分化的多能祖细胞(multiplepotential progenitor, MPP)进一步分化形成髓系祖细胞(common myeloid progenitor, CMP)和淋巴系祖细胞(common lymphoid progenitor, CLP)。其中,髓系分化包含巨核系/红系祖细胞(mega-karyocyte/erythroid progenitor, MEP)和粒系/巨噬系祖细胞(granulocyte/macrophage progenitor, GMP)的分化, 而MEP最终可以分化产生红细胞[1]。然而,在胚胎发育早期,红细胞的产生路径却并不同于成体阶段的经典分化模型。有研究发现,小鼠体内的HSC最早产生于胚胎发育第10天的主动脉-性腺-中肾区(aorta-gonad-mesonephros region, AGM),而早在小鼠胚胎发育第7.5天的卵黄囊血岛部位就已经发现原始红细胞(primitive erythrocytes, PE)的存在了,这说明胚胎期红细胞产生的时间及位置并不依赖于HSCs[2-5]。
人类胚胎发育根据间隔多天的胚胎外部形态特征定义为不同阶段,称为卡内基阶段(Carnegie stages, CS)[6]。哺乳动物胚胎期主要存在3个阶段的早期造血过程[4,7],人类造血起源于胚胎发育CS7-8时期的卵黄囊[8],到CS9-10时期第2阶段胚胎造血开始[9],HSCs出现于CS13时期的AGM等区域,标志着第3阶段胚胎造血的开始[10]。此后,红系分化即按照经典分化模型进行。
目前,对人的红细胞发育的研究主要集中于成体红细胞,结果也已经较为清晰,然而对胚胎期非HSCs依赖的红系发育的探索多以模式生物如小鼠为研究对象,缺乏人体数据的支持[11]。单细胞技术的发展与应用为更全面地了解红系细胞发育分化及相关的关键调节因子提供了可能[12]。本研究旨在通过对人胚胎发育早期卵黄囊单细胞转录组测序(single-cell RNA sequencing,scRNA-seq)数据的分析,在单细胞水平系统性地描绘人早期红系发育图谱,包括发育模型、起源、分化路径等,为体外红细胞再生以及相关疾病的致病机制和治疗方法研究提供理论依据。
1 材料与方法
1.1 材料
妊娠第36天CS15后期的人胚胎卵黄囊组织(中国人民解放军总医院第五医学中心提供)。主要试剂:胶原酶I(Sigma-Aldrich公司);RPMI1640培养基(Gibco公司)。本研究已通过中国人民解放军总医院第五医学中心伦理委员会批准,并取得所有涉及此项研究对象的知情同意。
1.2 方法
1.2.1 人卵黄囊组织单细胞获取与测序:将人卵黄囊组织在PBS中清洗3次,去除血液污染后转移至含有0.1 g/mL胶原酶Ⅰ的RPMI 1640培养基中。在37 ℃培养箱中酶消化20~30 min,每5 min摇匀1次,直至消化成单细胞悬浮液。流式细胞分选系统分选活细胞,按照 10×Genomics指导说明构建文库并进行3’ 端单细胞转录组测序。原始测序数据集已存储在GEO数据库中,登录号为GSE137010[13]。
1.2.2 单细胞数据分析:通过CellRanger软件(v2.1.1)对原始测序数据进行质控和统计并进行初步过滤,将UMI<10%的细胞作为背景处理,之后将序列与GRCh38人类参考基因组比对[14]。利用R软件(v3.4.3)中的Seurat代码包深层次过滤无效基因和无效细胞[15]。将上述处理后的数据根据可变基因进行主成分分析(primcipal component analysis, PCA),确定可用于聚类的差异主成分,进一步通过共享最近邻算法(shared nearest neighbor, SNN)对细胞进行聚类分析,利用非线性降维算法(t-distributed stochastic neighbor embedding, t-SNE)实现聚类结果的可视化。根据人卵黄囊内可能存在的不同类型细胞的标记基因的表达水平、不同群体表达的差异基因以及功能富集确定细胞类型[10,16-20]。通过R软件(v3.4.3)中的Monocle代码包对卵黄囊单细胞数据进行无监督的拟时序分析,推断红系发育分化过程中的细胞类型的发生路径[21]。
2 结果
2.1 CS15时期的人卵黄囊scRNA-seq数据初步质控
在本研究所使用的测序样本中,共读取了4亿多条reads,测到约6 176个细胞,共22 954个基因的表达。有效Barcode标签,即有效测序细胞数为98.0%,细胞捕获率>65%,细胞内测得的有效reads数占82.8%,测序质量合格。平均每个细胞内测得reads数约7×104条,每个有效细胞内测得的有效基因中位数为2 859个(表1)。
2.2 CS15时期的人卵黄囊scRNA-seq主成分分析
为保证准确性,将上述表达谱中的测序边缘数据剔除,最终得到6 116个有效细胞和20 193个有效表达的基因。根据可变基因进行主成分分析,确定具有统计学显著性的主成分。热图显示,在PC10之后,差异显著性降低(图1A);JackStraw分析显示,前9个主成分具有统计学显著性(图1B);而经典碎石图中,则是在PC11后显著性明显降低(图1C);综上,选择PC1-PC10对单细胞测序数据进行聚类及拟时序分析。
2.3 CS15时期的人卵黄囊细胞定群及发育路经分析
根据人类珠蛋白、常见的红系转录因子及红细胞表面标记基因的表达情况,初步确定本研究中Cluster2, 3, 5为红细胞群体(图2A)。拟时序分析结果显示,Cluster3出现时间更早(图2B),且差异表达基因(DEGs)与翻译和增殖相关(表2)。Cluster1, 8, 11中高表达内皮细胞表面标记基因CD31和CDH5,且出现了主动脉相关的DEGs;早期造血细胞表面标记基因CD45以及单核/巨噬细胞的特异性基因ITGAM和CD14在Cluster4中显著高表达; 造血干祖细胞表面标记基因CD34在Cluster1, 8, 10, 11中表达量较高,其中Cluster10的DEGs与先天性免疫和造血相关;Cluster0, 6中存在与粒细胞相关的DEGs;Cluster7中特异表达血小板相关基因;Cluster9的DEGs与肌肉相关;Cluster12中显著表达巨核细胞标记基因ITGB3和ITGA2B(图2C,表2)。后续结合拟时序分析结果,进一步确定了红细胞发育路径(图2B,D)。
表1 单细胞转录组测序数据质控结果Table 1 Single-cell RNA-seq data quality control results
A.heat maps showed the significance of the difference among the 12 principal components; B.JackStraw analysis of the statistical significance of 12 principal components; C.scree plot showed the statistical significance of principal components
A.expression of globin genes and erythrocyte marker genes; B.result of time-series analysis for scRNA-seq; C.expression of other cells marker genes; D.result of cluster analysis.Red arrows indicated the path of RBC development
图2 卵黄囊细胞定群及发育路经分析Fig 2 Analysis of population identification and developmental pathway of yolk sac cells
2.4 CS15时期的人卵黄囊内红细胞异质性分析
单独对红细胞群体进行的异质性分析发现,红细胞被聚类为4个群体(图3A)。其中Cluster0几乎不表达珠蛋白基因,且差异基因显著与免疫相关;Cluster1, 3中胎儿珠蛋白HBZ和HBE1表达量较高;Cluster2中胚胎珠蛋白基因HBA1、HBA2、HBG1、HBG2显著表达,且翻译和增殖活跃程度低于其他细胞(图3B, C)。
3 讨论
随着人类细胞图谱计划(human cell atlas project, HCA)的开展,人体内各个组织中不同类型不同状态的细胞参与生命过程的运作方式将会逐渐展现。同时,单细胞测序技术的不断更新与发展为构建完整的人类细胞图谱提供了坚实的技术支持。作为最近的研究热点之一,红细胞在成体内的发育分化路径已经比较清晰,但其在人体内的早期发育分化情况的研究还并不全面,甚至非常缺乏。
本研究利用人胚胎早期的卵黄囊scRNA-seq数据进行生物信息学分析,完成了基础的人卵黄囊内细胞类型的确定以及粗略的早期红系发育轨迹描绘。
A.result of cluster analysis of erythrocyte; B.expression of globin in different clusters; C.functional enrichment analysis of differentially expressed genes
根据相关基因的表达情况,认为Cluster1, 8, 11可能是不同类型的血管内皮细胞,Cluster4中可能存在类似小鼠红髓祖细胞(erythro-myeloid progenitors, EMP)的尚未发现的新类型细胞,Cluster10可能是具有部分多能性的造血前体细胞,Cluster0, 6分别为与先天性免疫相关的单核细胞和髓系发育早期的淋巴细胞,Cluster7被认为是血小板细胞,Cluster9与肌肉相关,Cluster12可能是巨核细胞。早期胚胎中的红系发育路径可能为:血管内皮细胞分化生成造血前体细胞,进一步分化成为红髓祖细胞,产生巨核细胞和红细胞。同时,在红系异质性方面,本研究发现在人卵黄囊中存在不同状态的红细胞,早期红细胞Cluster1, 3与晚期红细胞Cluster2共存,进一步解析人类胚胎发育过程中的组成血红蛋白不同亚基的珠蛋白表达如何转换,这对认识红细胞疾病尤其是血红蛋白功能缺陷导致的疾病具有指导意义。通过一系列相关分析,尽早完善人类早期红细胞发育图谱,并且揭示早期红系发育的关键调控因素,描绘调控网络,将会对正确认识人类早期红细胞的发育及在红系相关疾病的诊断与治疗具有十分重要的意义。