影像转录组学数据处理与应用进展
2022-10-08胡珂,刘冰
胡 珂,刘 冰
1中国科学院自动化研究所脑网络组研究中心,北京 100190;2北京师范大学认知神经科学与学习国家重点实验室,北京 100875
非侵入性人类神经成像技术(如MRI)已经成为一种量化体内大脑结构和功能各个方面的有力工具,促进了我们对大脑宏观神经表型的理解[1]。MRI越来越多地应用于研究各类神经和精神疾病,为这些疾病中大脑结构和功能改变的区域模式提供了详细的解剖学特征[2-3]。然而,由于目前MRI方法有限的时空分辨率和获得的信号的生物物理特性,由此产生的影像衍生表型(IDPs)仅提供了病理机制的间接测量,对脑组织的潜在分子和细胞特性缺乏特异性[4]。
近来的研究越来越强调基因表达等微观属性是如何影响这些IDPs的[5-7]。越来越多的证据表明,遗传学在塑造大脑的组织方式方面发挥着重要作用[6-8]。遗传力研究表明,许多IDPs具有高度的遗传性[9-11],全基因组关联研究(GWASs)已经发现了单核苷酸多态性与大脑结构、功能和连接等不同测量之间的数百种关联[12-13]。这些研究的一个常见假设是在GWASs中发现的这些DNA变异会影响蛋白质的表达和功能,从而改变细胞功能并最终引起影像学表型的变化。然而,多种环境和其他因素都有可能影响基因的转录活性及其随后的蛋白质产物丰度[14-15],因此DNA变异也存在着一定的间接性,其可能影响表型变异的分子机制尚不清楚。相比之下,基因表达研究则可以更直接地测量基因的转录活性。在过去十年中,高通量组织处理和分析流程的进步促进了全脑基因表达图谱的开发[16]。通过结合神经影像和转录组学数据,影像转录组学在分子组织和宏观的大脑IDPs之间架起了一座桥梁,为研究基因表达的空间模式如何与健康和疾病中的大脑结构和功能的解剖变化相关提供了新的机会[6]。
在本综述中,我们首先介绍了影像转录组学领域广泛使用的基因表达数据集,以及数据处理的基本步骤和常用的工具箱;其次,我们概述了将基因表达数据与影像数据相关联的基本工作流程和三大类分析方法;最后,我们总结了影像转录组学的具体应用和进展,并对未来的研究方向进行展望。
1 转录组数据
艾伦人类脑图谱(AHBA)[16-17]是人类大脑转录组图谱和详细解剖注释的第一个示例,于2010年发布,至今仍是同类数据集中空间覆盖最全面的数据集,提供了一个将大脑转录组学与神经影像数据相结合的独特机会。AHBA是一个免费访问的多模态数据集[18],源自对从6个健康成人供体获得的组织样本进行的批量微阵列分析,在大脑MRI立体定向空间中的3702个不同的样本中提供了超过20 000个基因的表达数据,样本分布在大脑的皮层、皮下、脑干和小脑区域。研究人员对6个AHBA供体中的不同大脑区域进行了采样,以最大限度地扩大空间覆盖率。凭借其卓越的分辨率,AHBA为影像转录组学领域的出现做出了重大贡献[6]。
2 转录组数据处理流程
自AHBA发布以来,研究者已经开发了多个软件工具箱进行转录组数据的基本处理[19-21]。许多研究小组选择为AHBA开发自己的处理流程[5]。然而,由于没有用于处理影像转录组数据的领域公认标准,因此生成的处理流程在不同研究组之间存在很大差异。过去十年的神经影像学研究表明,数据处理方法的不同会对使用结构MRI[22]、弥散MRI[23]、任务态fMRI[24]和静息态fMRI[25]进行的分析产生广泛的影响。为了建立起AHBA数据处理的标准工作流程,以确保一致和可重复的结果,有学者在2021年开发了一个开源的Python工具箱abagen[26],致力于使其成为影像转录组学研究通用的基础社区工具。abagen将所有可能的处理参数集成到一起,并针对灵活性和易用性进行了优化,简化了ABHA的处理和准备工作,以便后续与神经影像数据进行整合分析。
具体来说,为了将转录组与神经影像数据联系起来,需要通过一些程序对转录组数据进行处理,主要包含以下6个核心步骤:(1)基因注释:探针到基因的重注释;(2)数据过滤:过滤信号强度没有超过背景噪声的探针;(3)探针选择:当多个探针注释到同一个基因时,可以选择代表性探针或计算一个基因的所有可用探针的平均值;(4)样本分配:把组织样本映射到影像数据中的感兴趣区域;(5)考虑到基因表达存在个体间差异和离群值,对数据进行标准化;(6)基因过滤:去除6个大脑中表达不一致的基因,并根据研究问题选择感兴趣的基因(表1)。经过以上的处理步骤,我们最终可以得到一个脑区×基因的表达矩阵,用于结合影像数据进行区域分析。以上每个处理步骤都有不同的方法和参数选择,已被集成到abagen工具箱中,以促进未来研究的标准化。
表1 转录组数据处理步骤和方法Tab.1 Transcriptomics data processing steps and methods
3 影像转录组学的分析方法
转录组数据集的一个流行应用是将基因表达数据与影像数据测量的大脑结构或功能的某些特性相结合,并通过检验两者之间的空间相关性来探索可能的关联[21,28-39]。这种方法的主要目标是识别具有区域表达空间模式的基因,跟踪特定神经影像生物标志物的解剖变异。通常,这些分析首先将来自AHBA的基因表达数据与神经影像映射到一个共同的神经影像空间。然后,一个或多个神经影像生物标志物与每个区域中数千个基因的表达值通过多元统计技术(例如,偏最小二乘回归)进行相关。接着,根据空间对齐程度对基因进行排序,提取出排名靠前的基因进行富集分析。与参考集(如:整个基因组)中的注释数量相比,当这些排名靠前的基因中存在相当多的基因有特定的基因注释(如:生物或分子通道)时,则认为这些基因富集于该注释。由于排名靠前的基因与感兴趣的大脑影像特征密切相关,我们可以通过这种富集注释的间接方法来假设这些潜在的细胞和生物通路可能是特定神经影像特征的基础(图1)。
至此,我们较为完整地介绍了在影像转录组学研究中常用的分析流程之一。实际上,根据研究问题的不同,影像转录组学的分析方法通常分为三大类(图2)。第一类分析关注区域的基因表达模式,即前述的方法,旨在检验基因表达的空间变化与解剖学定义的不同空间位置的IDPs之间的相关性。特别地,当应用于脑疾病时,可以通过将病例和对照组中给定IDP的空间图进行比较产生一个差异图,然后将该差异图与感兴趣基因的表达模式进行空间相关,从而得到给定IDP的转录相关性。第二类分析考虑相关的基因表达,它量化了一组基因在成对的大脑区域之间的转录相似性,产生对称的区域×区域矩阵(类似于功能连接矩阵)。然后,相关的基因表达可以与在大脑区域对水平上定义的IDPs相关,例如结构或功能连接[11,40-42]。第三类分析检验基因的共表达,它量化跨大脑区域的基因对之间的相关性,从而产生对称的基因×基因矩阵。基于这些基因×基因矩阵的一些衍生特征已被计算并与IDPs相关[43-44]。
以上这些分析中需要考虑的一个重要因素是神经影像和基因表达通常会表现出一定程度的空间自相关,这意味着不同大脑区域之间的影像特征或基因表达值不是相互独立的,而是存在着依赖关系,该依赖关系随着距离衰减。即与物理上相距较远的区域相比,相距较近的区域之间的基因表达更强烈相关[45-46]。因此,有研究提议通过空间限制的零模型来考虑这种空间自相关[47]。在对影像数据和基因表达数据进行相关性分析时,基于参数化的变异函数模型[48]或者基于空间置换[49]来生成保留空间自相关的代替脑图;在这些置换脑图上计算基因表达矩阵来和影像数据进行相关,可得到一个相关系数的经验分布;若真实的r值落在该经验分布的95%CI内,则认为相关性是显著的(图3)。这种做法可以大大减少假阳性结果,从而确保结果的有效性和可靠性。
4 应用与进展
过去十年中,研究人员进行了数十项研究,检查了基因表达与一系列宏观大脑影像特征之间的关系,包括皮质厚度[34]、髓鞘化[45]、大脑发育成熟度[50-51]、大脑结构网络[52-54]、大脑功能网络[40,55,56]和人类认知[57-58]等。另外,影像转录组学研究还强调了全脑基因表达在理解神经发育、精神疾病和神经退行性疾病中的重要性,越来越清楚的是,转录通路在形成疾病进展和突发症状的更广泛动态方面发挥着关键作用[59-67]。
与年龄相关的皮质结构和功能变化与正常的大脑发育有关[68],皮质变薄被认为是皮质成熟的形态学标志[69]。为了阐明正常和异常神经发育中发生的大脑变化的分子相关性,影像转录组研究使用特定细胞类型标记基因的表达谱来识别这些IDPs的细胞相关性。例如,一项对细胞类型标记的分析发现,在青春期中期(平均年龄14岁),通常用于衡量髓鞘含量的磁化转移率的区域变化与CA1锥体和室管膜细胞有关,但与髓鞘化无关[70]。考虑到CA1锥体基因集富集了与树突组织相关的基因,该研究认为,大脑中磁化转移率的变化可能与树突树枝状结构的区域差异有关。但从青春期中后期开始,磁化转移率的后续纵向变化与少突胶质细胞标志物和参与髓鞘形成的基因的表达有关。
此外,影像转录组学的方法已被应用于重度抑郁症[71]、自闭症谱系障碍[72]、注意缺陷多动障碍[73]和精神分裂症[63]等各类精神疾病中。使用形态相似性网络[74]或结构协方差网络可以间接评估大脑连接,这些网络可以量化形态测量的区域间耦合。精神分裂症病例和对照组之间的区域平均形态相似性差异已被发现与调节突触信号、神经系统发育和腺苷酸环化酶调节G蛋白偶联受体信号通路的基因表达有关[63]。用弥散MRI量化的精神分裂症的区域白质连接异常与通过GWAS识别的精神分裂症相关基因的空间分布显著相关[60],提供了结构风险变异、基因表达和疾病中连接的宏观改变之间的直接联系。值得注意的是,双相情感障碍的连接变化与双相情感障碍相关风险基因的表达有关,但与精神分裂症无关,这表明这些关联具有一定程度的诊断特异性。
对于亨廷顿病[61]、阿尔兹海默症[75]和帕金森病[59]等神经退行性疾病,转录组数据可用于识别神经退化区域易感性的分子相关性,并帮助我们理解疾病是如何在大脑中发展的。细胞类型特异性标志物分析表明,与健康被试者相比,阿尔兹海默症患者的皮层厚度减少与CA1锥体细胞、星形胶质细胞和小胶质细胞的标记基因的表达谱有关,这些基因组与年龄相关的皮层厚度变化和精神疾病有关。此外,与小胶质细胞基因共表达的基因显著富集了阿尔兹海默症风险,提供了与疾病病因的直接联系,并暗示了神经炎症的关键作用[76]。
5 总结与展望
影像转录组学为揭示大规模宏观脑影像学特征的分子基础提供了前所未有的机会。本文主要概述了影像转录组学的数据处理流程和主要分析方法,以及该领域在近二十年来的应用和进展。与仅使用神经影像数据的研究相比,影像转录组学研究将基因表达数据与影像衍生的表型联系起来,使人们更好地理解了神经精神疾病和大脑神经发育过程中假定的生物机制。
影像转录组学在识别临床相关IDP的分子相关性方面有着很大的潜力,但该领域处于新生阶段,必须克服一些方法学上的挑战以确保研究结果的稳健性。例如,基因表达数据处理步骤中的不同选择会影响后续的统计推断和研究结果,最佳处理参数可能会因研究问题而异,目前还无法准确说明哪些处理选项对于AHBA是最佳的;由于组成AHBA的样本数量有限,因此无法详细研究基因表达的个体差异;除了考虑空间自相关外,还应通过随机选择与假设集相同大小的随机基因子集来对基因特异性进行显著性检验。随着该领域的快速发展,一方面需要标准化的数据处理流程,建立方法指南以确保一致和可重复的结果,另一方面需要检查这种方法的有效性,以捕捉基因表达、细胞和宏观神经影像表型之间的间接关联。新的技术发展正在推动新的转录组数据库的创建,结合现有方法的改进,未来的研究可以与越来越全面和精确的转录组图谱数据相结合,例如,来自PsychENCODE等联盟的功能基因组学数据[77],早期人类大脑发育的单细胞转录组图谱[78]以及跨物种研究的比较转录组学数据集[79]等,有望在整个生命周期和更多个体上进行测量。未来需要做更多的工作来扩大现有的转录组数据:更多的供体,覆盖整个大脑的单细胞数据,以及特定疾病的大脑转录组数据。这些数据将转化为新的机会,使人们能够更加深入地了解大脑组织,为研究大脑变化的分子相关性提供一个强大可靠的框架,从而将大脑障碍的宏观表型与疾病生理病理学模型联系起来。