人脑影像表型的基因组与暴露组广度关联研究
2021-11-30于春水
于春水
以MRI 为代表的脑影像技术可以准确评估人脑结构与功能,其个体变异决定了人类认知功能及神经精神疾病易感性的个体差异[1]。人脑结构和功能的个体差异与遗传变异、环境暴露、遗传-遗传交互作用、环境-环境交互作用及遗传-环境交互作用有关。研究人脑结构与功能个体差异的原因不仅有助于理解正常及异常脑功能的生物学机制,也有助于开发改善认知功能及防治神经精神疾病的新技术。
由于单个遗传变异或单个环境暴露对人脑结构与功能的影响效应微弱,常需要较大的样本才能识别更多的影响人脑结构与功能的遗传或环境因素。随着大样本综合性数据的积累,有可能从整个基因组和整个暴露组中筛查影响人脑结构与功能的遗传因素、环境因素及其交互作用。本文将重点讨论基因组广度关联研究(genome-wide association study, GWAS)、暴露组广度关联研究(exposomewide association study,ExWAS)、基因组广度遗传-遗传交互作用研究、暴露组广度环境-环境交互作用研究及基因组-暴露组广度遗传-环境交互作用研究在揭示人脑结构与功能个体差异成因中的潜在价值及其面临的挑战。
1 人脑影像表型
近几十年来,以MRI 为代表的脑影像技术快速发展,可以活体定量评估人脑结构、功能、连接与网络特性,进而得到一系列脑影像表型。例如,基于高分辨率结构MRI 可以提取全脑体积、灰质体积、白质体积、皮质下核团体积以及各个皮质脑区的体积、厚度与表面积;基于任务态功能MRI 可以检测各种任务或刺激诱发的脑激活及其激活脑区之间的效应连接;基于静息态功能MRI 可以测量每个脑区的自发脑活动、脑区间功能连接及脑功能网络拓扑属性;基于扩散张量成像可以度量脑白质完整性、脑区间解剖连接及脑结构网络拓扑属性;基于磁共振波谱成像可以检测脑内谷氨酸等代谢产物含量;基于动脉自旋标记成像可以定量测量每个脑区的脑血流量。这些脑影像表型已经被广泛用于评估神经精神疾病病人的脑结构、功能、连接与网络异常[2-4]。脑影像表型在不同个体间存在差异,这种差异不仅与健康人认知功能的个体差异有关[5],也与神经精神疾病的临床症状、治疗反应、临床预后的个体差异有关[6]。然而,脑影像表型个体差异的成因尚不清楚,值得深入研究。
2 脑影像表型的基因组广度关联研究
单核苷酸多态性(single nucleotide polymorphism,SNP)是指由单个核苷酸的改变而引起的DNA 序列改变,是最常见的遗传变异。神经影像遗传学是研究遗传变异与人脑影像表型之间关联的一门科学。最初多是研究单个SNP 与单个脑影像表型的关系,而后演变为研究多个SNP 与单个脑影像表型或单个SNP 与多个脑影像表型的关系,目前人们多关注多个SNP 与多个脑影像表型的关系。以往多数研究的样本量很小,由于统计效能不足,无法全面识别遗传变异对脑影像表型的影响。近年来,随着全基因组检测技术的普及和大样本神经影像遗传学数据的出现,GWAS 被用来研究整个基因组所有SNP与多个脑影像表型之间的关联。代表性的大样本神经影像遗传学数据集包括:中国人影像遗传学研究(Chinese imaging genetics, CHIMGEN)[7]、英国的 UK Biobank[8]、欧盟的IMAGEN[9]、美国的青少年脑与认知发育(adolescent brain and cognitive development,ABCD)[10]及由全球数十个项目组成的ENIGMA[11]。第一项大样本脑影像表型GWAS 研究是由ENIGMA 联盟完成的,发现rs7294919 与海马体积有关,rs10784502 与颅内体积有关[12]。随后,该研究组[13-14]又发现了5 个影响壳核和尾状核体积的遗传位点以及199 个影响人脑皮质厚度及表面积的遗传位点。迄今为止,涉及人脑影像表型最全的GWAS 研究是基于UK Biobank 数据进行的,总计研究了3 144 个脑影像表型,发现了148 个显著的遗传-影像关联[15]。然而,这些研究同时发现单个SNP只能解释不足1%的脑影像表型变异,为此有人使用多基因风险分数来综合性评估遗传风险,再研究其与脑影像表型的关联,结果也仅能解释一部分表型变异,这也间接提示研究环境因素对脑表型变异影响的重要性。此外,所有GWAS 研究都是基于高加索人进行的,由于不同种族人群在等位基因频率、连锁不平衡结构等方面存在异质性,其结果能否应用到其他人群尚不清楚。虽然最近有研究者[16]提出了跨种族GWAS 的概念并成功应用到血细胞遗传关联研究中,但尚未应用到研究人脑影像表型。因此,开展非高加索人脑影像表型的GWAS 研究以及跨种族GWAS 研究是今后重要的方向。
3 脑影像表型的暴露组广度关联研究
环境暴露无处不在,也会影响人脑结构与功能。暴露组学是指生命全周期中所有环境暴露的总和[17-18],个体生命周期中每个时间点的某个脑影像表型都可以被看作是怀孕期间及出生后整个发育过程中所有环境暴露长时间共同作用的结果。神经影像暴露组学可以系统研究整个生命周期中环境暴露与脑影像表型之间的关联。暴露组可分为一般外在暴露、特殊外在暴露和内在暴露。一般外在暴露多是对区域进行评价,包括温度、湿度、绿色空间、空气污染等物理环境因素以及人口密度、经济、交通、医疗及教育资源等社会经济因素;特殊外在暴露多是对个体进行评价,包括饮食、吸烟、饮酒、体育锻炼等生活方式,以及心理创伤、欺凌、贫穷、吸毒等心理社会因素;内在暴露是指人体内在的环境或过程,包括代谢、激素、肠道菌群、氧化应激等,这些因素可以通过转录组、蛋白质组、代谢组及表观遗传组等组学技术进行评价。
神经影像遗传学研究已经发展到大样本无偏见的神经影像基因组学研究,与之相比,神经影像暴露组学研究尚处于起步阶段。目前的研究一般多采用靶向的假设驱动的方法分析环境暴露与人脑影像表型的关系。例如,研究发现空气污染与局部脑区的皮质厚度有关[19];铅暴露与皮质表面积有关[20];绿色空间暴露与前额叶皮质活动有关[21];社会经济状态与脑表面积有关[22];城市生活与城市成长与局部脑激活有关[23];心理社会压力与脑发育有关[24]。
由于脑表型受许多环境因素的影响,只研究一个环境因素而未考虑其他环境因素可能会导致误导性结果,或错过真正影响该表型的环境因素。而神经影像暴露组研究可以系统评估许多环境暴露与人脑结构与功能的关联。例如,暴露组广度关联研究可以用单个模型研究很多环境暴露与某个脑影像表型的关联;影像表型组广度关联研究可以用单个模型研究很多脑影像表型与某个环境暴露的关联;典型相关分析等多变量分析方法可以用单个模型评估多个环境暴露与多个脑影像表型的关联[25]。人们还可以利用纵向暴露组数据研究环境暴露的累积效应及其对环境暴露的易感年龄窗,这对于开发针对性干预措施以减轻环境暴露的负面作用极为重要。
神经影像暴露组研究面临很多挑战。首先,获得使用不同方法测量的成千上万环境变量的完整暴露组数据十分困难。因此,研究应尽可能包含更多的环境变量,最好能够覆盖环境暴露组的3 个维度。不同研究最好使用相同的或等效的工具评价环境暴露,这将使得比较不同人群的神经影像暴露关联成为可能。准确评价环境暴露是另一个挑战。测量误差和误分类十分常见,需要开发能够以高时空分辨率精确评估环境暴露的新方法。例如,基于卫星遥感技术的环境观测,基于可穿戴设备的生态瞬时评价,以及基于电子日记的心理社会评价等。其中,基于卫星遥感技术的环境评价是一种可以获得既往较长时间环境暴露信息的方法,只需要获得被试既往的居住地信息,就可以得到过去数十年的物理环境暴露信息。LandSat 系列卫星从1972 年起不间断获取地球图像,据此可以反演出植被覆盖、夜间灯光、空气污染、气候等很多有价值的高时空分辨率的纵向环境指标。例如,可评价绿色空间暴露的标准化差异植被指数(normalized difference vegetation index,NDVI)的时间覆盖达到了50 年,空间分辨率达到了30 m,时间分辨率达16 d。
个体环境暴露在整个生命周期中不断变化,需要研究者考虑其时间变异性。最理想的方式是连续不断地观察整个生命周期中的环境暴露,但对多数环境变量来讲,这是一个几乎不可能完成的任务。另一种方法是收集一些关键时间点的暴露信息。例如,出生前、儿童期和青春期等关键脑发育期。在暴露组数据采集方面,CHIMGEN 项目[7]采用了一系列可行的方法,包括:①基于被试居住史,通过卫星遥感技术获取整个生命周期的NDVI、夜间灯光、气候等一般外在物理环境暴露信息;②基于国家统计局发布的历史数据获得被试所在省份的人口密度、GDP、人均收入等一般外在社会经济环境暴露信息;③通过问卷调查获得被试不同年龄阶段吸烟、饮酒、社会经济状态、心理创伤等特殊外在环境暴露信息;④基于血液标本获得重金属含量、氟化物含量、基因表达、DNA 甲基化等内在环境暴露信息。
神经影像暴露组学还面临方法学挑战。一是来源于大样本数据本身的统计误差。暴露组数据容易发生测量误差和误分类,解决办法是使用最准确的测量工具采集小部分被试的环境暴露数据,用于识别和校正这种误差;也可以通过识别奇异值的方式寻找测量误差较大的被试,并进行校正。二是暴露组学研究中数据缺失很常见,会直接影响统计结果。建议根据数据缺失的机制(完全随机、随机及非随机),选择期望最大化、链等式多变量插补(multivariate imputation by chained equation,MICE)等方法插补缺失的数据[26]。三是对大样本数据而言,有时会遇到只有一部分被试采集了某个环境指标,只对这部分被试进行分析可能会导致选择性误差,可以用逆概率加权等方法进行评估与校正。四是多中心数据在中心之间的差异不容忽视,建议使用ComBat 等工具进行标准化[27]。为了获得可靠的结果,对于数据驱动的研究,独立数据验证也是必不可少的步骤。
环境暴露变量之间高度相关使得常用的线性统计模型无法区分具有因果效应的环境变量,以及与这些变量相关的环境变量。因此,需要变量选择或数据降维来应对暴露组自身的自相关结构。图单元进化随机搜索(graphical unit evolutionary stochastic search,GUESS)、删除-替代-添加(deletionsubstitution-addition,DSA)和弹性网络等变量选择技术是预测性方法,可以选出与脑影像表型相关的环境变量[28]。但是,如果未能将因果环境变量代入模型,这些技术将无法检出这些环境变量。主成分分析和因子分析等数据降维技术可以通过少数正交的成分或因子捕捉到许多环境暴露的方差,但这类方法所得到的结果高度依赖于被选择的组分或因子的数目。稀疏偏最小二乘回归(sparse partial least squares regression, SPLSR)可以同时捕捉到环境和影像指标的方差,不受多重共线性影响且不容易发生过拟合,但是其结果缺乏可解释性[29]。目前暴露组广度关联研究尚无标准化流程,因此系统模拟不同模型的效能十分必要。值得注意的是,这些方法只能得到相关结果,不一定是因果联系,需要生物学实验判断因果。暴露-时间-响应关系十分复杂,需要同时考虑线性与非线性关联。分布滞后非线性模型(distributed lag non-linear model,DLNM)就可以同时估计非线性暴露-响应关系和滞后-响应关系[30]。
4 脑影像表型的基因组广度遗传-遗传交互作用研究
一般统计学要求样本量要远远大于研究变量的个数才能得到可靠的统计结果,然而人类存在超过5 000 万SNP,SNP-SNP 组合形成的变量数目还要高出多个数量级,因此研究所有SNP 之间的交互效应面临严峻的统计学挑战。此外,SNP 之间的交互效应十分复杂,包括加性效应、显性效应、隐性效应及上位效应,这进一步加剧了研究的难度。由于基于GWAS 结果的多基因风险分数可以反映SNP之间的加性效应,但无法反映上位效应,而且上位效应远较显性和隐性效应普遍,所以研究SNP 之间的上位效应至关重要。以往的脑影像表型的上位效应研究多是探讨候选的二阶交互作用,即2 个SNP之间的上位效应。虽然基因组广度二阶交互作用尚未用于研究脑影像表型,但在其他研究领域已经开始应用。一般采用两步式分析方法,即在筛选SNP的基础上进行上位效应分析。SNP 筛选的主要方法包括:①GWAS 主效应筛选法,根据GWAS 结果设定一个显著性阈值,筛选出具有显著主效应的SNP进行交互作用研究;②生物学知识筛选法,基于转录、翻译、信号通路等生物学知识来筛选SNP;③性状方差筛选法,对于某个SNP 而言,GWAS 分析只是考虑该SNP 基因型之间脑影像表型均数的差异,而忽略了基因型之间表型方差的不同。基因型之间表型方差不同的原因有很多,其中SNP-SNP 交互作用是其重要原因之一。因此,可以基于基因型之间性状方差来筛选可能存在交互作用的SNP[31]。研究二阶SNP-SNP 交互作用的工具包括:①BiForce,是专门为在全基因组水平研究二阶交互作用而设计的高通量分析软件,计算效率高是其特点[32];②多因素降维,既可以分析二值性状,也可以分析量化性状。然而,二阶交互作用只考虑2 个SNP 的交互作用,而实际上可能存在更多SNP 的交互作用,因此开发了贝叶斯高阶交互工具包[33]和量化多因素降维等研究SNP 之间高阶交互作用的软件。人类有20 000 多个基因,研究基因之间的交互作用,既可以增加统计效能,又可以增加结果的可解释性。
5 脑影像表型的暴露组广度环境-环境交互作用研究
环境因素对人脑表型的影响也存在复杂的交互作用,可以是协同效应也可以是拮抗效应。协同效应是指2 个环境因素对脑影像表型的联合效应大于这2 个因素的独立效应之和;而拮抗效应是指2 个环境因素对影像表型的联合效应小于这2 个因素的独立效应之和。除了暴露组广度关联研究所面临的问题以外,暴露组广度环境-环境交互作用研究还将面临更高的维度。虽然少数研究探讨了2 个环境因素对脑影像表型的交互作用,但目前尚无关于脑影像表型的暴露组广度环境-环境交互作用研究的报道。一种潜在的研究思路是在采用聚类技术将环境变量分为不同的类别的基础上,对每类环境变量进行主成分分析或因子分析,将其转化数个代表性变量(隐变量)。通过这种变换可以明显减少被分析环境变量的个数,而且能够保证环境变量之间的独立性,进而满足线性回归分析的应用前提。由于环境暴露具有时间变异性,环境-环境交互作用也可能存在敏感年龄窗,如何识别交互作用的敏感年龄窗是一个需要解决的问题。
6 脑影像表型的基因组-暴露组广度遗传-环境交互作用研究
与上述4 类研究相比较,基因组-暴露组广度遗传-环境交互作用研究涉及的变量数目最多,多重比较校正的压力最大,需要的样本量也最大。因此,合理降低遗传和环境数据的维度是关键。前面提到的遗传数据和环境数据降维的方法也都适用于基因组-暴露组广度遗传-环境交互作用研究。即便如此,筛选出的遗传变量和环境变量仍然数量很大,需采用特定方法来识别遗传-环境交互作用。例如,迭代独立性筛查(iteration sure independence screening,ISIS)[34]、基于距离相关的交互作用筛查(interaction pursuit via distance correlation, IPDC)[35]、结构线性混合模型(structured linear mixed model,StructLMM)[36]等。IPDC 具有运算效率高、可同时考虑多个脑影像表型以及能够同时筛选具有主效应和交互效应的变量等优势。StructLMM 可以通过一个模型研究单个遗传变异与多个环境暴露的交互作用。
7 小结
从基因组和暴露组广度研究人脑结构与功能个体差异形成的原因,对理解人类高级脑功能及神经精神疾病易感性具有重要意义。虽然基因组广度遗传-影像关联分析的方法学体系已经建立并取得了突破性进展,然而暴露组广度环境-影像关联研究、基因组广度遗传-遗传交互作用研究、暴露组广度环境-环境交互作用研究及基因组-暴露组广度遗传-环境交互作用研究仍然面临诸多挑战。这需要全球合作收集高质量更大样本的数据并制定适宜的统计分析策略。这些研究不仅有助于发现更多的影响人脑结构与功能的关键因素,也有助于更好地理解这些因素与认知及神经精神疾病的关联。