APP下载

细胞间通信预测方法研究进展

2023-10-14任丽萍潘贤润刘天元

电子科技大学学报 2023年5期
关键词:间通信单细胞配体

任丽萍,潘贤润,刘天元,杨 煜,宁 琳,张 杨

(1.成都东软学院健康医疗科技学院 成都 611844;2.成都中医药大学医学技术学院 成都 611137;3.筑波大学科学与技术学院 日本 筑波 3058577;4.成都中医药大学中医药创新研究院/交叉学科研究院 成都 611137)

细胞可通过各种化学或物理信号相互交流、应答及协作[1]。在单细胞生物中,细胞间的信号可使不同细胞相互协调,分工合作,继而完成单个细胞无法单独完成的任务。在多细胞生物中,细胞间信号可以使得细胞向不同方向特化形成不同的细胞类型,而不同种类的细胞之间又可以通过胞间信号传递与交流,有序组合形成肌肉、血液及神经系统等组织和系统,最终行使特定的生物学任务[2]。细胞这种从其他细胞或环境接收和处理各种信息,同时又通过信息的内部运作对其他细胞与外环境做出响应的过程被称为细胞间通信。

单细胞测序技术的快速发展为细胞生物学提供了新的研究范式[3]。尤其是单细胞RNA 测序(single cell RNA sequencing, scRNA-seq)技术,可在单细胞水平上精确表征组织及微环境中的细胞组成,提供对组织或微环境细胞异质性和单细胞基因表达的高分辨率景观,是剖析组织及微环境稳态及动态过程的有力工具[4]。目前已有诸多研究利用scRNA-seq技术来绘制生理及病理情况下的组织及微环境的细胞图谱,为解析组织与微环境中细胞间信号传递及调控机制提供了重要的技术支撑与数据基础[4-5]。在单细胞水平上利用生物信息学方法,系统地解析组织及微环境中细胞间通信网络及信息交流机制迅速成为细胞生物学研究的热点[6-8]。近三年有诸多研究开发了基于单细胞测序数据的细胞间通信预测方法,极大地促进了单细胞层面细胞间信号转导及机制研究[9-11]。同时,作为scRNA-seq 的补充,空间转录组学(spatial transcriptomics, ST)技术可绘制细胞单“点”或亚细胞分辨率下的基因表达。有研究提出将ST 数据与单细胞测序的数据结合来推断细胞间通信以提高预测的准确性及合理性[12]。本文首先简要回顾了细胞间通信的基础生物学过程,继而结合国内外基于单细胞测序的细胞间通信预测研究现状,对目前细胞间通信相关蛋白质配体-受体(ligand-receptor, L-R)互作数据库、预测算法以及基准评测研究进行综述,总结存在的问题并提出展望。

1 细胞间通信的生物学基础

细胞已经进化出多种信号转导机制来完成生物信息传递,如图1a 所示[2]。在多细胞生物中,各种代谢物、生长因子、激素、神经递质和细胞外基质是细胞传递信号的关键分子,被称为配体。而配体又可通过与细胞表面的受体特异性结合,将信号传递到受体细胞内部。根据化学信号的形式,细胞间信号传递可主要分为自分泌、旁分泌、细胞黏附以及内分泌4 种方式,如图1b 所示。如血液中的代谢物可以触发腺体细胞表面受体,导致细胞释放葡萄糖调节所需的激素。神经递质作为一类短程信号分子,可穿过相邻神经元之间或神经元与肌肉细胞之间的微小空间,与其特异性受体结合传递神经信号。某些细胞表面配体及受体还具有黏附能力,其不仅可在细胞之间传递信息,而且还能在物理上将这些细胞彼此连接。此外,某些配体不仅能在局部微环境中发挥作用,也可以通过内分泌的方式,利用体液进行长距离传播发挥信号传递作用[13],如促卵泡激素,其从哺乳动物的大脑通过血液传播到卵巢触发卵子释放,这种通过体液的远距离传播信息的方式,在跨器官通信中起关键作用。

图1 细胞间通信的生物学过程示意图

此外,在靶细胞上的受体蛋白接收到配体传递的信号后会发生构象变化,进而在细胞内启动一系列生化反应。形成细胞内信号通路,也称为信号转导级联[14]。实际上,一个活跃的细胞无时无刻不在接收和响应大量信号,且多个信号转导通路同时在细胞质中并行,这些通路之间又存在许多交叉点,构成复杂的级联串扰网络(crosstalk)。最终,细胞通过这种高度复杂而精密的信号通路网络,不断整合从外部环境接收到的所有信息,完成各种复杂的生物学任务[15]。

综上所述,细胞间的通信过程可简述为:细胞生产各种信号分子作为配体,当其与自身或其他细胞的特异性受体结合时,会在该细胞内进一步触发一系列信号级联事件,这些事件将配体传递的信号传送到细胞内部,并进一步将其放大,最终使得细胞执行相应的具体功能。而在细胞微环境中,各种信号分子允许微环境内的细胞共享有关内部和外部条件的信息,这些信息有助于细胞自行安排、协调完成各种复杂的生物学功能。但由于目前传统生物实验技术的局限,生物学家对细胞间及细胞内的信号转导过程的层次结构及其高度集成及动态的过程的理解仍不清晰。相信随着学科不断的交叉融合发展,尝试基于生物学实验数据对细胞内外分子信号网络进行数学建模,创建算法用于解析目前条件下无法用实验解析的结果,将是细胞间信号传递研究的新路径[16]。

2 L-R 互作数据库

目前,基于单细胞测序的细胞间通信研究的主要原理是通过单细胞测序数据中配体及受体的mRNA 表达水平推测不同细胞群落中的细胞间通信关系,该过程主要依赖于蛋白质L-R 互作先验知识[6]。除DLRP[17]、IUPHAR/BPS[18]、KEGG[19]及HPMR[20]等单细胞测序时代之前的L-R 互作数据库之外,近几年针对单细胞测序细胞间通信研究的L-R 互作数据库也陆续上线,如表1 所示。其中,2015 年文献[21]从已知的L-R 数据库如DLRP、IUPHAR/BPS 及HPMR 等收集并整合得到1 894条L-R 互作数据,并构建了144 种细胞间的通信网络。同时,该课题组在2020 年进一步通过文献挖掘及数据库整合等方式将该数据集更新为2 293 条L-R 互作数据,并命名为connectomeDB2020 数据库[22]。CellPhoneDB 数据库[10]通过文本挖掘及其他PPI 数据库收集了1 396 条L-R 互作数据,并开发了一个在线分析平台用于scRNA-seq 数据的细胞间通信分析。CellTalkDB 数据库[23]通过大规模地收集STRING v11 数据库[24]中的L-R 互作数据,并通过文献挖掘验证,最终收集了3 398 个人类的L-R 互作数据、2 021 个小鼠的L-R 互作数据。OmniPath 数据库[25]通过收集数据库来源的配受体数据及PPI 数据,整合构建了可用于细胞间通信分析的细胞间及细胞内信号网络数据集。Cellinker 数据库[26]通过文本挖掘、数据库整合以及同源分析等方法收集了超过3 700 条人类、3 300 条小鼠以及16 条冠状病毒-人类的高置信的L-R 互作数据,Cellinker 数据库还收录了超过400 条内源性小分子-受体互作数据,为细胞间通信预测研究提供了重要的数据基础。同时,一些细胞间通信算法如SingleCellSignalR[11]及iTALK[27]等同样构建了L-R 互作数据集用于推测细胞间通信。上述L-R 互作数据资源为细胞间通信研究及细胞微环境信号转导网络研究奠定了重要的数据基础。此外,文献[28]绕过了L-R 互作数据,开发了一个收录高质量的人类细胞互作的数据库CITEdb,该数据库通过文献挖掘收集了728 条人类细胞互作数据,为细胞间通信研究提供了重要的基准数据集。

表1 部分细胞间通信相关L-R 互作数据库与数据集

3 细胞间通信预测算法

为帮助推测细胞间通信,近三年已开发了大量基于单细胞测序数据的细胞间通信算法和工具,如表2 所示。依据所采用的具体模型与策略,现有方法主要可分为4 类:1)基于配受体差异表达的方法;2)基于配受体表达结合统计检验的方法;3)基于L-R 互作下游细胞内信号网络的方法;4)结合ST 数据的方法[6]。

表2 部分细胞间通信预测算法

3.1 基于配受体差异表达的方法

基于L-R 互作中配受体差异表达的方法包括iTALK[27]、PyMINer[29]以及CellTalker[30]等,其主要原理是筛选scRNA-seq 数据中不同细胞类型之间显著差异表达的基因,并将差异基因列表中存在的L-R 互作定义为差异细胞间通信。此类方法对于推测不同细胞类型间特异的细胞间通信比较有效,但该策略忽略了在所有细胞类型之间都普遍且稳定存在的通信关系[6]。此外,还有基于L-R 互作配受体表达矩阵分解的方法,代表性工具是scTensor[31],其使用张量模拟L-R 互作。从数据中生成了一个等级为3 的张量,其中两个维度分别表示单细胞数据中每种细胞类型的配体和受体表达,第3 个维度代表所有L-R 互作。然后进行非负塔克分解来分解这个张量,产生3 个矩阵,其系数代表相互作用的细胞与其各自的配体和受体之间的关系。这种基于张量分解的方法,其隐变量的可解释性依然存在问题[6]。

3.2 基于配受体表达结合统计检验的方法

基于L-R 互作中配受体表达结合统计检验的方法包括CellPhoneDB[10],CellChat[32],NATMI[22]和ICELLNET[33]等,其方法原理主要是通过置换检验等统计检验方法评估L-R 互作中配体与受体表达之积或之和的统计显著性。此类方法策略同样过度依赖于配体受体的表达量高低,而对稳定表达的L-R互作相关细胞间通信缺乏鉴定能力[34]。总体而言,上述基于L-R 互作中配受体表达强度或特异性来推断细胞间通信的方法存在明显局限。首先,某些受体蛋白质通常在细胞中表现出稳定的表达水平,其表达量高低与细胞间通信强弱并不完全相关[25];且部分编码细胞表面受体的mRNA 通常处于低丰度状态,这可能导致受体的表达无法在单细胞水平被检测到,造成数据删失[6,35];而上述方法最根本的问题在于其模型未考虑L-R 互作下游的细胞内信号转导过程[9]。

3.3 基于细胞内信号网络的方法

为解决上述问题,最近已有多种方法开始尝试基于L-R 互作下游信号网络的方式将细胞内信号转导过程也纳入细胞间通信分析模型,包括CCCExplorer[36],SoptSC,NicheNet[9],CytoTalk[37],scMLnet[38]以及CellCall[34]等,其算法原理主要通过L-R 下游的信号转导网络、基因调控网络或基因共表达网络的拓扑结构与基因表达来推测细胞间通信关系。如NicheNet 算法通过PageRank 方法计算细胞内部转录因子(transcription factor, TF)调控网络中TF 的靶基因与细胞外配体的相关性去推测细胞间通信。CytoTalk 算法通过PCSF(prize-collecting Steiner forest)方法筛选与细胞间L-R 互作相关的细胞内基因共表达网络,继而重建细胞间信号转导网络。CellCall 算法[34]可通过整合L-R 互作的表达和L-R 互作下游TF 的激活程度来推断细胞间通信,其能够同时推断细胞间通信和相应的细胞内部信号。上述方法将细胞外信号与细胞内信号结合,在一定程度上解决了细胞间信号转导推断方法过度依赖于配体与受体表达的问题,生物学模型相对合理,同时此类方法还增加了对细胞内信号转导网络的推测能力。

3.4 结合ST 数据的细胞间通信预测方法

细胞间通信的本质是细胞膜表面或分泌型配体将生物信号扩散传递到微环境中附近的细胞,因此,配体在有限空间扩散率限制了组织或微环境中可发生通信的细胞数量及范围。因此,有研究提出将空间转录组数据与单细胞测序的数据结合推断细胞间通信以提高预测的准确性及合理性。随着ST 技术的不断发展,目前已出现多种基于ST 数据的细胞间通信方法,如表3 所示。如Cell2Cell 通过对大量L-R 互作进行Bray-Curtis 样评分,然后结合不同细胞之间的距离定义细胞间通信关系[39]。SpaOTsc 通过推断配体、受体及细胞内信号通路的推测信号发送细胞及接收细胞的空间分布,并通过空间最小传输距离推测细胞间通信[40]。stLearn 算法通过计算不同的空间簇中细胞多样性以及相关L-R 互作的共表达分数去推测在空间中细胞间通信信号密集的热点区域[41]。SVCA 算法主要使用概率模型来推断细胞特异性基因如何受到邻近细胞和外部环境的影响[42]。COMMOT 通过集体最佳传输方法来推断空间转录组学中的通信,提出了一种处理复杂分子相互作用和空间约束的集体最佳传输方法[43]。其可解释不同配体和受体物种间的竞争以及细胞间的空间距离。然而,细胞间通信是一个动态的变化过程,目前还未有方法考虑ST 数据中固有的动态时序信息。随着ST 技术分辨率的进步,开发基于ST 数据时序信息的细胞间通信动态变化过程预测方法必将是下一步探究的方向[12]。

表3 部分结合ST 数据的细胞间通信预测方法

4 细胞间通信分析的可视化

除了推测或量化细胞间通信关系外,目前各种方法还提供了丰富的细胞间通信分析结果的可视化策略,包括绘制Circos 图、桑基图、热图以及气泡图等。在此,本文以CellCall 算法为例,简略介绍几种常见的细胞间通信可视化图,如图2 所示。CellCall 使用Circos 图(图2a)对数据中所有细胞间的通信总体呈现,外圈线段代表不同的细胞,圈内指向曲线代表不同细胞间的总体通信情况(颜色深浅表示通信强弱);CellCall 使用热图(图2b)对细胞间L-R 互作的分数进行可视化,通常热图的行和列分别为细胞对以及L-R 互作对,而热图的颜色深浅则代表某对细胞的某对L-R 互作的通信得分;CellCall 使用气泡图(图2c)呈现信号通路富集分析结果,其中气泡大小代表P值,颜色深浅代表富集度;此外,CellCall 还使用桑基图(图2d)呈现LR-TF 三元关系,使用GSEA 富集图(图2e)和山峦图(图2f)呈现了TF 激活程度。总之,不同算法集成了不同的可视化策略,如不同于CellCall,一些算法如CellChat 等使用Circos 图,而CellphoneDB等方法使用气泡图对细胞间L-R 互作进行可视化呈现。

图2 细胞间通信的可视化策略

5 细胞间通信方法的评测

建立适当的基准数据是评价和比较已开发的各种细胞间通信预测方法的前提与基础。然而,目前已鉴定的细胞间通信关系在多大程度上代表真实的生物学情况还尚未清楚。当前评价算法的常用手段仍是通过湿实验(如体内成像)和下游功能研究(通过实验干扰某些细胞间通信)来验证具体某一特定细胞间通信是否存在[44-45]。同时,除了用作约束以优化细胞间通信的推断结果之外,ST 数据也可以用作评估假阳性率的基准[46]。此外,也有研究通过计算机模拟仿真数据对细胞间通信推断算法进行基准测试[12]。为了比较各细胞间通信数据库数据的重合率及结果的准确性,文献[47]系统比较分析了16 个L-R 互作数据资源以及7 种算法,结果发现大多数数据库中的L-R 互作数据主要来源于KEGG[19],Reactome[48]和STRING[24]等数据库,且不同数据资源在通路、功能分类、组织特异性蛋白质等方面存在偏倚,提示各数据资源的选择将会影响细胞间通信的预测。文献[49]将ST 数据与scRNA-seq 数据相结合用于评价各细胞间通信的数据库及算法的一致性,并将配受体间的互作信息分为基于细胞直接接触的短程互作及基于分泌信号的远程互作,其分析结果提示不同方法预测结果存在显著差异,并建议在未来预测细胞间通信的工作中纳入不同配受体间及细胞内的调控信息,以提高预测的准确性。

6 结 束 语

探究细胞间通信精细调控过程及全局特征有助于阐明机体的精细调控机制及内环境稳态,也可为进一步探究机体疾病发生发展奠定理论基础。尽管目前已经有大量相关数据库及算法用于研究细胞间通信,且相关算法仍在不断推陈出新,但该领域仍然存在诸多挑战:1)细胞信号传递主要体现在蛋白水平而非基因层面,但基因表达并不一定产生蛋白质表达,而现有预测方法均基于转录组学数据,因此其预测结果不可避免会存在失真;2)同时,目前的方法只能用于预测组织或者微环境内细胞间短程通信,而对内分泌等远程通信的研究还力有未逮;3)细胞间通信的物质基础除蛋白质外,还包括大量其他非肽类的内源性小分子(如小分子、碳水化合物、脂质和核酸配体),但目前的数据库及算法均只收录了蛋白质L-R 互作数据,涵盖的范围存在明显局限。

因此,未来的工作需进一步将细胞外信号与下游转导信号结合以提高对细胞信号传导的细胞类型特异性的理解;同时,还需增加单细胞多组学数据,尤其是蛋白质组以及代谢组学数据进行联合分析,进一步提高预测的准确性及全面性;此外,相关工具还需增加跨器官通信等远程通信的解析能力,扩展预测方法的应用范围,为单细胞测序数据分析以及细胞间信号转导网络分子机制研究提供新的技术手段,为疾病机制、临床诊疗及药物开发研究提供关键的理论依据。

猜你喜欢

间通信单细胞配体
人工智能助力微生物单细胞鉴定
综合航电分区间通信元模型设计研究
基于配体邻菲啰啉和肉桂酸构筑的铜配合物的合成、电化学性质及与DNA的相互作用
新型三卟啉醚类配体的合成及其光学性能
联合SNaPshot和单倍型分析技术建立G6PD缺乏症单细胞基因诊断体系
单细胞测序技术研究进展
基于Schiff Base配体及吡啶环的铜(Ⅱ)、镍(Ⅱ)配合物构筑、表征与热稳定性
系列含4,5-二氮杂-9,9′-螺二芴配体的钌配合物的合成及其性能研究
谢晓亮院士研发出单细胞测序新技术
基于核间寄存器的多核虚拟机系统中虚拟机间通信研究