精神分裂症的影像遗传学方法研究
2020-04-14谢忠翔武杰
谢忠翔, 武杰
上海理工大学 医疗器械与食品学院(上海, 200093)
1 影像遗传学研究进展
作为一种病因复杂的遗传疾病, 精神分裂症是由多种遗传因素和环境效应相互作用的结果[1-3], 同时其患病率在所有精神疾病中高居榜首。患者的临床表现往往有不同的症状, 有许多障碍, 如感知、 思维、 情绪和行为, 以及心理活动的不一致, 不仅不同患者的临床表现差异很大, 而且同一患者在不同时期可能表现出不同的症状。作为一种病因复杂、 临床表现多样、 影响范围广泛的慢性致残性疾病, 全球约有1%的人口患有精神分裂症, 它对患者、 家庭和社会构成巨大危害。
自从精神分裂症作为一种精神疾病在100多年前被研究以来, 研究者们一直试图揭示其病因、 病理并寻求有效的治疗方法。传统的对精神分裂症的研究大多是在单一模态(功能磁共振成像、 结构磁功能成像等)下进行的, 每一种成像方式都只提供了有限的大脑信息。但是, 这样采集到的数据通常是分开分析的, 单独分析无法利用不同模态的交叉信息来得出更有效的结论。近年来, 影响遗传学通过联合分析脑影像数据和基因型信息, 帮助确定候选基因在大脑功能水平上的功能, 已经逐渐成为研究脑功能与基因相关性的一个有效的方法[4]。
影像遗传学(Imaging Genetics)作为一门新兴的交叉学科, 是神经影像学与遗传学的结合。近年来发展迅速, 广泛应用于神经精神疾病(精神分裂症、 抑郁症、 阿尔兹海默症)和肿瘤(肝细胞癌、 非小细胞肺癌、 胰腺癌、 胶质瘤、 乳腺癌)等领域。其运用神经成像技术将脑功能或结构作为表型来评价基因对个人的影响, 来研究大脑功能或结构与遗传的关系, 可以揭示精神疾病的发病机制, 为疾病的预测和诊断提供了更准确的方法。大多数影像遗传学研究中, 研究人员都使用单核苷酸多态性(SNP)作为关联分析的基因型数据, 因为SNP是由基因水平中的单个核苷酸变异引起的DNA序列多态性, 在某种程度上, 它反映了个体的遗传特性。而在表型数据的获取中, 研究者大多采用临床上广泛使用的磁共振成像(MRI)脑影像数据进行分析。
2 影像遗传学研究方法
近年来影像遗传学迅猛发展, 影像学研究者和遗传学家在获得诸多结果的同时, 也面临着一大挑战: 如何正确分析收集到的数据?因为神经成像和遗传学往往都会产生大量的数据。针对不同的情况, 需要实施不同的策略、 处理方法和验证方法等等。
对于一些多基因遗传疾病, 患者的脑功能或脑结构往往异于正常人, 多模态数据分析难度较大, 例如: (1)多个基因控制同一脑功能或脑结构; (2)风险基因之间的上位效应; (3)某单一基因影响多个脑功能或脑区域等等。考虑到影像遗传学中多基因或多位点联合效应的关联问题, 以及影像和基因数据变量的高维特性, 单变量分析方法已经远远不能满足, 因此, 研究人员大多使用多变量方法来研究多个遗传变异与多个脑表型的关联。研究精神分裂症疾病的影像遗传学特征的常用多变量方法[5]主要有: 多模态典型相关分析(Multimodal Canonical Correlation Analysis, mCCA)、 联合独立成分分析(Joint Independent Component Analysis, jICA)、 并行独立成分分分析(Parallel Independent Component Analysis, PICA)、 基于稀疏表示变量选择(Sparse Representation based Variable Selection, SRVS)。各方法特点总结如表1所示。
表1 多变量方法特点总结Tab.1 Summary of characteristics of multivariable methods
2.1 Multimodal CCA
mCCA允许fMRI和SNP数据集有不同混矩阵, 并被用于找到变换的坐标系, 该坐标系最大化两个数据集之间的协变[6]。该方法将每个数据集分解为一组成分(例如fMRI的空间区域)及其相应的典型变量(Canonical Variates, CVs), 如图1所示。CVs对于不同的受试者具有不同的激活水平, 并且如果它们在受试者之间相似地调节则相关联。在分解之后, CVs只在同一个索引上互相关联, 并且它们对应的相关值被称为典型相关系数(CCCs)。
与限制两个(或更多)特征共享相同混合矩阵的jICA相比, mCCA具有灵活性, 因为它允许两个特征之间的相同或不同级别的连接, 但相关的源映射在空间上可能不是稀疏的(这方面比不上SRVS方法), 特别是当CCC不够明显时[7]。
图1 mCCA概念图Fig.1 The conceptual diagram of mCCA
2.2 Joint ICA
联合独立成分分析(jICA)是一种功能磁共振分析方法, 它假设fMRI和SNP数据集共享同一个混矩阵, 并且最大程度地实现成分之间的独立性[8]。这是一种简单且有效的方法, 能够在水平连接的特征上进行独立成分分析, 适用于研究不同类型数据之间的相同的调制。Joint ICA对许多成对的特征(数据类型)组合或者3路特征组合都是可行的[9-10], 如功能磁共振成像(fMRI)、 脑电图(EEG)、 结构磁共振成像(sMRI)和弥散张量成像(DTI), 如图2所示。
图2 Joint ICA概念图Fig.2 The conceptual diagram of Joint ICA
2.3 Parallel ICA
并行独立成分分析(PICA)可以同时处理fMRI和SNP数据集, 能够揭示每种数据类型的独立成分, 并评估这些成分之间的相关性。PICA需要同时解决三个问题, 其中两项涉及到fMRI和SNP数据集成分之间的独立性最大化, 第三项是确定这两数据集独立成分之间的相关性。PICA方法是基于Infomax算法的, 它利用互熵的最大化来最大限度地实现成分间的独立性[11], 而对于fMRI和SNP独立成分之间的相关性, 则是通过增加一个相关性平方最大化的约束项来确定的, 如图3所示。
图3 PICA理论框架Fig.3 Theoretical framework of PICA
约束项是两种数据类型之间的桥梁, 它是PICA的本质[12], 不同于两个完全独立的ICA优化,约束的适当优化在收敛和避免过拟合中起着关键的作用。有很多可能的原因会导致过拟合, 包括数据维度和噪声, 但需要调整的重要参数只有两种数据类型各自的熵的学习速率以及表示不同数据类型之间相互关系的关联项的学习速率。采用两种策略来进行约束优化: (1)动态强制连接; (2)自适应学习速率。
2.4 SRVS
基于稀疏表示变量选择(SRVS)[13]是将传统线性回归模型扩展到两类数据集(fMRI和SNP数据集)的集成分析:
(1)
为了在获得具有少量非零项的稀疏向量δ(对应于少量的X测量值)的情况下, 对表型Y进行最佳逼近, 使用了许多行之有效的方法来解决Lp最小化问题。例如, 对于P=1时, 可以用同伦算法来解决;P=0时可用正交匹配追踪算法[14]; 0≤P≤1时可用MFCOUSS算法。该算法近似求解公式(1)给出的回归问题, 并选取稀疏向量δ中非零项所对应测量矩阵X中的列作为所要提取的fMRI和SNP特征。
3 研究成果
因为精神分裂症是一种遗传病, 患者不仅在基因水平上存在差异, 脑功能和结构同样受到影响。因此, 一些研究人员研究了精神分裂症, 为筛选出具有意义的少量精神分裂症相关SNP和影像特征, 采用PICA和SRVS方法对受试者的fMRI数据和SNP数据进行处理。研究中采用的数据由Mind Clinical Imaging Consortium(MCIC)收集而来, 所选取数据符合《美国精神障碍诊断与统计手册》第4版(DISM-IV)精神分裂症诊断标准[15]。
3.1 PICA
研究人员用PICA方法处理结果如图4所示。
图4 与SNP相关的fMRI脑区Fig.4 Brain regions of fMRI associated with SNP
结合脑AAL模型, 我们可以从图4中发现: 该fMRI成分最大的部分位于楔前叶, 第2个区域是舌回, 第3个区域是楔叶。相关SNP成分主要在以下编码基因中: 芳香族L-胺基酸类脱羧基酶基因(AADC), α-2A肾上腺素能受体基因(ADRA2A), α-7烟碱乙酰胆碱能受体基因(CHRNA7), DISC1, SCARB1, GNAO1, APOC3, CHRM3。
3.2 SRVS
对于SRVS方法, 研究者通过交叉验证, 选出特征性筛选结果较好时的参数, 在L1范数下, 权重因子α1∶α2=0.5∶0.5时, 提取到的fMRI特征如表2所示。
表2 L1范数下提取的影像学特征Tab.2 Imaging features extracted under L1 norm
在表2中, 仅显示了提取出的体素占所属脑区总体素百分比前十的脑区。这里有一点需要注意的是, 不能简单地从百分比的大小来判定某一脑区与精神分裂症相关性的大小, 只能表示该脑区受精神分裂症的影响程度更大。比如, 顶下缘角回(左)13.97%大于中央前回(右)8.72%, 不能说中央前回脑区与精神分裂症的相关性就不如顶下缘角回脑区的, 只能从一定程度上说明顶下缘角回脑区受精神分裂症的影响程度要大于中央前回脑区的。其中, 中央前回、 枕上回、 顶下缘角回和角回与精神分裂症相关[16-17]。内侧和旁扣带脑回、 后扣带回则是与记忆、 行为与情感有关, 这与SZ在临床上显示的情感和行为等方面的障碍相一致。
将该条件下筛选出的SNP特征与之前学术界公认的精神分裂症的45个易感基因进行对比, 发现有DAOA、 RELN、 HTR2A[18]和GABRB2属于这45个易感基因, 如表3所示。
表3 L1范数下提取的SNP特征Tab.3 SNP features extracted under L1 norm
4 总结
作为影像学和遗传学联合而形成的一个悄然兴起的分支学科, 影像遗传学从影像学角度来研究遗传因素对不同个体所产生的影响, 临床上主要用于对神经精神疾病和肿瘤的辅助诊断和有效治疗。PICA、 SRVS等多变量方法通过充分发掘和利用基因与影像等生物标记数据内在的结构信息, 能够分析易感基因与大脑结构或者功能的相关性, 更好地揭示脑认知行为或者相关疾病的产生机制。本文回顾了有关精神分裂症疾病的影像遗传学方法研究, 对mCCA、 jICA、 PICA和SRVS等方法的原理和特点做了介绍, 同时阐述了有关精神分裂症影像遗传学特征的最新进展。
综上所述, 影像遗传学的研究对于理解大脑活动和疾病方面能够提供很大的帮助, 特别是对于某些遗传性疾病。从最新的研究中我们能够看到, PICA和SRVS等多变量分析方法能够有助于找到精神分裂症相关脑功能区和易感基因, 有助于精神分裂症的辅助诊断和有效治疗。当然, 在影像遗传学研究中, 根据分析的优先级选择合适的多变量方法而也是非常重要的, 这样可以更好地阐明多模态之间的关系。