fMRI的视觉神经信息编解码方法综述

2023-02-21杜长德周琼怡刘澈何晖光

中国图象图形学报 2023年2期

杜长德，周琼怡，刘澈，何晖光， 3*

1. 中国科学院自动化研究所脑图谱与类脑智能研究中心, 北京 100190； 2. 中国科学院自动化研究所多模态人工智能系统全国重点实验室, 北京 100190； 3. 中国科学院大学人工智能学院, 北京 100049

0 引言

视觉是人类感知和理解外部世界的最重要途径之一。视觉系统作为人类和外部世界进行交互的桥梁，能够稳定、高效、鲁棒地处理复杂的视觉刺激信息，具有当前计算机视觉所无法比拟的优越性。基于功能磁共振成像 (functional magnetic resonance imaging, fMRI) 等神经影像的视觉神经信息编解码是理解、破译和模拟大脑视觉系统运作机制的重要研究途径，对于类脑智能技术的发展具有重要意义。

视觉神经信息编码以大脑视觉感知机制为基础，通过建立大脑视觉信息处理的计算模型来描述大脑对外界刺激的响应过程，以实现对大脑活动的预测。其中计算模型的输入是图像刺激，输出为大脑对图像刺激的响应。研究视觉神经信息编码，对于探索大脑视觉信息加工机制，提高人工视觉模型的感知和认知能力具有重要意义。与此相反，视觉神经信息解码则主要通过分析脑信号数据，从中找到其与外界视觉刺激的对应关系，实现利用脑信号对外界视觉刺激进行分类、辨识或重建(参见图1)。

图1 视觉神经信息编码与解码

视觉神经信息编解码模型是建立在统计机器学习框架上的(参见图2)。基于 fMRI 数据的视觉神经信息编解码通过测量被试大脑的血氧水平依赖性 (blood-oxygen-level-dependent, BOLD) 信号，得到一系列3维脑图像，每个3维脑图像都包含上万个体素(对应于2维图像中的像素)，每个体素的信号对应于该区域内神经元活动所引起的 BOLD 信号。在视觉神经信息解码研究中，多体素模式分析 (multi-voxel pattern analysis, MVPA) 方法将大脑中的多体素激活模式看做高维空间(不同体素的响应代表不同的维度)中的一个样本点，利用统计机器学习算法解码多体素激活模式中所蕴含的信息。在统计机器学习中，估计条件概率P(y|x)的模型是判别式模型，而估计联合分布P(x,y)的模型是生成式模型。被训练用来从一个变量x预测另一个变量y的模型是有监督模型，而估计单个变量分布的模型是无监督模型。现有的视觉神经信息编解码研究工作大都可以归纳到上述范畴中的一种。

图2 视觉神经信息编解码与统计机器学习方法间的关系

无论是视觉神经信息编码还是解码研究都依赖于“视觉刺激—大脑响应”成对数据。现有方法大都是基于数据驱动的原理，通过训练数学模型来拟合成对数据的输入和输出之间的关系来确定的。下面从视觉神经信息编码、视觉神经信息解码、公开数据集、度量指标、挑战以及未来展望等角度对该领域进行综述。

1 视觉神经信息编码

随着对神经元信息编码机制研究的不断深入，以视觉感知为目的、信息处理为过程的计算模型，推动了人们对大脑视觉系统的探索与认知。一方面，研究视觉系统结构特性以及视觉皮层编码特性，探索神经机制在不同层次上的运作规律，将有助于揭示大脑的运作机理，特别是大脑感知、学习和记忆等高级功能；另一方面，视觉系统高效、鲁棒地处理外界信息的能力，启发了信息科学的研究。模拟视觉系统结构和视觉皮层编码特性，开发新一代类脑计算模型，将大幅度提高机器智能处理视觉信息的能力。因此，视觉信息编码机制的研究不仅是脑科学、神经科学的研究热点，也逐渐成为信息科学领域的一个重要研究方向。

近年来，图像物体识别方面的突破进展，进一步激发了人们研究深度学习的热情。神经网络因其强大的特征提取能力和非线性函数刻画能力，已经在计算机视觉、自然语言处理等领域取得了飞跃性的进展。尤其在视觉信息处理领域，神经网络层次化的网络结构、神经元感受野的逐层增加机制，都与视觉系统编码特性有很强的相似性。深度神经网络应用于视觉信息编码模型中，有望更加精细地刻画大脑视觉皮层的信息处理过程，进一步促进现阶段视觉信息编码模型的研究和揭示大脑视觉系统的运作规律。同时，随着脑成像技术的不断进步，fMRI凭借着极高的空间分辨率和良好的时间分辨率，成为观测大脑活动的主要工具，推动了视皮层信息处理研究的发展。

基于fMRI的视觉信息编码模型是描述大脑对于外界视觉刺激如何响应的计算模型(如图3所示)。视觉神经编码研究主要由4个部分构成 (Naselaris等，2011)。第1部分是视觉刺激。这些刺激或是离散的不同类别的刺激图像，或是连续的自然图像，亦可为其他形式的刺激。第2部分是刺激的特征提取。不同的特征反映不同的图像所包含的视觉信息，可以通过卷积神经网络、Gabor滤波器等方法提取。第3部分是大脑中的感兴趣区域。这些区域中包含参与建立模型的体素，能够产生对刺激图像的响应。第4部分是估计模型参数的算法，通常是采用线性回归。完整的视觉信息编码模型的计算过程主要由两个映射构成：第1个映射是从刺激空间到特征空间的映射，是非线性映射；第2个映射是特征空间到体素空间的映射，通常是线性映射。

图3 基于fMRI的视觉神经信息编码模型

视觉信息编码模型研究方式主要有两种：体素感受野模型 (receptive field, RF) (Kay等，2008)和表征相似性分析方法(representational similarity analysis, RSA) (Kriegeskorte等，2008)。体素感受野模型基于体素构建视觉信息编码模型，代表性工作是Kay等人(2008)的工作，利用金字塔结构的Gabor基函数来模拟视觉区域简单细胞的感受野, 再经过投影计算得到Gabor感受野编码模型。该模型成功模拟了从图像到脑激活模式的构建过程，实现了对视觉刺激图像的预测。表征相似性分析方法是一种高阶数据分析方法，能够实现不同模态数据之间的比较分析 (Kriegeskorte等，2008)。其核心为表征差异性矩阵(representational dissimilarity matrix, RDM)。利用表征差异性矩阵作为某个脑区对视觉刺激响应的标签，通过计算不同矩阵之间的关系可以分析大脑的不同脑区对于相同视觉刺激的不同激活模型，亦可分析某个脑区的不同计算模型之间的差异性。

由于fMRI的体素信号测量的是许多神经元的汇集响应，因此这些模型通常又称为群体感受野(population receptive field，pRF) 模型。如图4所示，我们重点关注这个特别活跃的研究领域，即使用pRF建立视觉神经信息编码模型，来描述人类视觉皮层在各种任务中对一系列刺激的响应过程。下面主要介绍几个经典建模方法。

图4 基于fMRI的视觉神经信息编码发展历程

1) OG模型。2008年，Dumoulin和Wandell(2008)提出了单高斯 (one Gaussian, OG) pRF估计方法，这种方法第一次利用fMRI来构建视皮层群体感受野模型，定量地测量了人类视觉皮层群体感受野的属性。实验者测量了一系列视野位置处由显式对比度定义的环和楔的响应，用来估计每个体素产生最大fMRI响应的视野位置。该模型将感受野形状在视野中建模为圆对称(各向同性)高斯模型，组合刺激位置进而预测fMRI响应。这种pRF估计方法将毫米级的fMRI测量与微米尺度的神经元特性联系起来，减少了功能磁共振成像和电生理学之间的差距。

2) DOG模型。2012年，Zuiderbaan等人(2012)在pRF结构上做出了进一步的拓展，将原先的二元单高斯模型拓展成二元双高斯模型。由于经典感受野区域的刺激响应能够被在其他感受野区域的刺激所抑制，会降低功能磁共振幅度(通常称降低到基线以下的幅度为“负面”响应或抑制)。因此，Zuiderbaan等人(2012)设计出了双高斯模型，使用圆对称高斯差 (difference-of-Gaussians, DOG) 函数，即通过在OG模型上增加一个负高斯函数，可以允许pRF分析捕获低于基线和环绕抑制的fMRI信号。考虑了环绕抑制的DOG模型显示出了fMRI数据拟合上的进步，在生物学上更合理地表征了pRF结构，进一步提高了视觉信息编码的性能。

3) Topography模型。2013年，Lee等人(2013)提出了一种新的数据驱动方法来估计pRF的结构。pRF结构建模为结构向量，对于每个体素，可以通过求解一系列线性模型从fMRI时间序列中来估计结构向量。估计完整的pRF拓扑结构后，通过设计阈值，模型选择了中心区域内的结构向量，然后再用二元高斯函数去拟合，得出最佳中心位置。这种方法没有对具体的pRF形状做出先验假设，因此是揭示不同空间位置的潜在pRF结构的有用工具。由于该模型先估计pRF的拓扑结构，所以它可以更好地优化模型中pRF中心落在刺激空间之外的体素。

4) 贝叶斯pRF模型。2018年，Zeidman等人(2018)提出了贝叶斯群体感受野估计模型，提供了一个处理任意维度刺激的通用框架。这个框架将感受野模型建为一个多元正态分布，对于分布中的参数进行约束是通过给每个参数引入给定先验分布的潜在变量。仅对参数空间的采样，就可以估计出先验条件下的pRF。随着观测数据的进入，参数先验概率密度的估计转化为后验概率，样本信息逐渐修正了参数的初始估计值。贝叶斯方法的关键优点是估计每个参数的不确定性(方差)以及参数之间的协方差。贝叶斯群体感受野模型不会对pRF参数施加强烈的先验，而是将它们保持在合理的范围内。这种合理的约束使其能够调整参数和演变来验证两个重要问题：1)体素的反应是用单一多元正态分布 (OG) 还是具有兴奋中心和抑制环绕的高斯差模型 (DOG)；2)感受野的形状是圆形、椭圆形还是旋转的椭圆形。

5) fwRF模型。2018年，St-Yves和Naselaris(2018)提出了特征加权感受野模型 (feature-weighted receptive field, fwRF)，这个模型有3个成分：特征图、权重向量和特征采样区域。关键假设是每个体素的活跃都跨越多个特征图来在空间局部区域编码差异，对所有特征层而言这个区域是固定的。这个模型构建各向同性2维高斯的特征采样区域，在自然图像形成的每个特征图中采样整合，通过采用最小误差平方和函数，对每个体素最优化特征图层权重和高斯采样区域的参数，形成最合适的编码模型。该模型利用pRF的大小和特征采样区域的大小之间的关系，刻画了初级视觉皮层中群体感受野分布。当这种方法应用于具有数千个特征图层的深度神经网络时，所得到的编码模型在视觉系统中大多数体素的预测精度高于相比的编码模型。

6) “What”&“Where”模型。2020年，基于层次化深度特征的感受野模型研究深度学习和大脑视觉通路之间的关系，Wang等人(2021)开发了可解释性强的“What”和“Where”编码模型，从两个角度对大脑视觉通路进行解释。“What”指的是研究大脑视觉处理通道会产生什么类型的特征，“Where”指的是研究大脑神经元的群体感受野位置在哪。为了自动学习到每个体素的感受野位置及形状，作者使用了带有拉普拉斯正则化约束的稀疏线性回归模型。模型的输入是多层次深度特征的加权组合，拟合目标是各个体素的响应信号。层次化特征的组合系数即可反映体素编码过程中的“What”信息。最终，编码训练使得各个脑区的每个体素会对层次化的深度特征产生选择效应，根据此体素对深度特征所在层的选择倾向和体素所属的感兴趣区域 (regions of interest，ROI)，可以定量分析深度神经网络和大脑视觉通路之间的对应关系。该模型不仅有效利用了深度神经网络的层次化表征而且符合神经科学对大脑视觉通路研究的基本结论，具有较好的编码效果和可解释性。

2 视觉神经信息解码

近年来，随着人工智能技术的不断进步，基于fMRI的神经信息解码研究也得到了快速发展。如图5所示，目前国内外已经有很多视觉神经信息解码方面的研究，涵盖了对初级视觉特征(方向、对比度)、中级视觉特征(轮廓)以及高级视觉特征(语义)的分类、辨识和重建。

图5 基于fMRI的视觉神经信息解码发展历程

2.1 基于脑信号解码的语义分类

基于功能磁共振成像的多标签语义解码是一项有挑战性的任务，具有重要的科学意义和应用价值。从机器学习方法角度来讲，语义解码是一个单标签或者多标签 (multi-label learning, MLL) 的分类问题。简单的图像刺激只包含单个物体，复杂的图像刺激中往往含有多个语义标签，如一幅图像中可能同时含有花、水、树木和汽车等。根据大脑信号，预测出图像刺激的一个或多个标签即为语义解码。早在2001年，Haxby等人(2001)利用MVPA方法成功实现了根据 fMRI 信号对呈现给被试者的8个不同类别的图像进行分类。Kamitani和Tong(2005)将不同方向的条纹作为视觉刺激，根据 fMRI 信号实现了对不同条纹刺激的分类，也证明了在初级视觉区域含有外界图像刺激的信息。Norman等人(2006)通过给被试者观看不同种类物品，采集相应的任务态 fMRI 数据，并使用其训练支持向量机 (support vector machine, SVM) 模型，用于最终的分类任务。SVM 在解决小样本、非线性和高维模式识别问题方面有明显的优势。Schmah等人(2008)基于 fMRI 数据首次使用受限玻尔兹曼机 (restricted Boltzmann machine, RBM) 实现了大脑状态的解码。Huth等人(2012)研究了大脑对于动态视觉刺激中的1 000多种物体和行为类别的语义表征空间，探索了语义在大脑皮层上的分布地图。Stansbury 等人(2013)使用基于隐含狄利克雷分配 (latent Dirichlet allocation, LDA) 的神经编解码方法研究人脑如何聚合有关对象的信息来表示场景类别。Huth等人(2016)利用层次逻辑回归模型以及 WordNet 数据库成功地从大脑信号中解码出了动态视觉刺激中包含的多种语义及语义之间的关联信息。

上述语义解码工作大多是基于单标签的，语义信息单一，而现实世界的视觉刺激往往包含多个物体的信息。研究人脑对于复杂视觉刺激的感知和解码，尤其是考察大脑如何对多个物体进行同时表征对于研究人脑视觉加工机制具有重要意义。Li等人(2018)提出了多标签语义解码方法，用于从大脑信号中解读多种共生的语义。此外，针对单被试小样本的问题，Li等人(2021)还提出了基于多模态对抗学习的多被试数据增广方法。该方法基于子空间和多个生成对抗网络将目标被试少量数据与其他被试数据相结合，有效地克服了单被试样本数目少和多被试差异大的问题，提高了单被试的解码精度。在多标签语义解码研究中，现有方法主要集中在标签学习上，忽略了样本本身所包含的信息量，尤其是脑数据，从而限制了方法的性能。另外，大脑信号的多标签标注也是一项费时费力的工作。针对这些问题，Li等人(2022)提出了一种基于模态辅助和协同训练的半监督多标签神经解码方法。该方法利用成对有标签的图像模态和脑信号模态(非图像模态)以及大量的非成对无标签的互联网图像数据进行多标签识别，从而利用图像模态来辅助脑信号模态进行多标签学习。

2.2 基于脑信号解码的图像检索

基于脑信号解码的图像检索也是一类常见的视觉解码任务。简单地说，就是利用创建的模型和fMRI，通过解码模型，检索出一个人刚刚所看到的图片。主要有两种思路解决这一问题。

2.2.1 基于编码模型的图像检索

Kay等人(2008)首先建立神经编码模型，然后将大量候选图像依次输入到神经编码模型，根据编码模型的预测结果和待解码脑信号之间的相关性来确定哪幅图像更有可能是激发该脑信号的刺激。首先给被试者看一千余幅图像，记录他们每一次的磁共振功能成像，然后从这一千余次图像和脑信号的成对数据中估计出一套比较普适的规律，这一步叫做模型估计。接下来就要将这套规律运用于全新的一套图像上，预测出被试者看到这其中每幅新图像的大脑反应是什么样子。当被试者看到一幅新图像，测试者并不知道是哪一幅，但是可以把受试者脑信号的记录与之前的预测相比较，选取预测值与本次实测值最相近的一幅图像，也就是“推测”被试者所看到的究竟是哪一幅图像。

2.2.2 基于解码模型的图像检索

Horikawa和Kamitani(2017)首先根据图像特征—大脑信号成对数据集训练一个特征解码器，这可以将脑信号转换为图像特征，如采用卷积神经网络提取的图像特征，然后根据解码得到的特征与候选图像的特征做一一匹配，根据相关性大小返回最匹配的图像。

2.3 基于脑信号解码的图像重建

基于脑信号解码的图像重建，也就是像素级神经解码问题，是解码研究中最难的一种。目前的研究在简单的字母或数字图像上的重建效果较好，在复杂的自然场景图像的精确重建方面仍然非常困难，重建效果还有很大提升空间。解决视觉重建问题的思路有两个关键步骤：首先利用BOLD信号变换得到一个特征表示，然后利用该特征表示通过图像生成网络进行图像像素的预测，可以分两阶段完成，也可以端到端的方式完成。视觉刺激重建算法在技术上涉及机器学习中的自编码器(auto-encoder)架构(基于MLP (multilayer perceptron)、CNN(convolutional neural network)或VAE(variational auto-encoder)等)以及利用对抗学习进行图像生成方面的研究(如GAN等)。由于视觉重建问题本质上是建立两个空间的映射关系，所以也可以利用CCA(canonical correlation analysis)、多视图学习 (multi-view learning, MVL) 等方法。总之，这里要建立大脑体素和图像像素之间的映射关系，如何建模这个映射才更好更有效，是研究人员要探索的核心问题。

对于图像重建任务，Haynes和Rees(2006)的研究表明可以利用大脑视觉区域的信号重建出被试实际观察到的刺激图像。Miyawaki等人(2008)采用了多尺度的思想与多变量重构方法，实现了对二值几何图像视觉刺激的重构。Naselaris 等人(2009)利用贝叶斯模型，将语义信息与结构信息作为模型的先验信息，较好地重构了自然视觉刺激图像。Nishimoto等人 (2011)利用运动能量编码模型以及贝叶斯模型成功实现了对动态影片的粗略重构。这项研究的难点在于相对于缓慢变化的血氧依赖水平而言，动态影片的变化速度很快，大量细节信息很难通过血氧依赖水平信号来恢复。Fujiwara等人(2013)利用贝叶斯典型相关分析(Bayesian canonical correlation analysis, BCCA) 建立了从视觉图像预测大脑响应及从大脑响应预测视觉图像的双向生成式编解码模型。Schoenmakers 等人(2013)使用线性模型对手写字母进行了重建。Cowen等人(2014) 利用主成分分析 (principal component analysis, PCA) 和偏最小二乘回归方法从 fMRI 脑活动中重建出了被试看到的人脸图像。Wen等人(2018)基于深度神经网络层次化中间特征实现了动态自然刺激的编解码。Güçlütürk等人(2017)利用回归方法和生成对抗网络从fMRI 信号重建出了人看到的人脸图像。Du等人(2019)首次提出了基于多视图变分自编码生成式模型的视觉信息编解码的研究框架，即假定大脑信号和外部刺激是由同一隐含变量生成。通过学习一个多视图变分自编码器可以建立外部刺激到脑信号的双向映射关系。将视觉信息编解码问题看做多视图学习中缺失视图的推断问题。该方法较好地重建出了人看到的字母图像信息。Shen等人(2019)首先将大脑信号解码到深度神经网络中层次化的视觉特征，然后利用梯度下降和自然图像先验成功重建出了选自于 ImageNet 数据集的自然图像。但是这些重建结果还是较为模糊，且不含语义信息。VanRullen和Reddy(2019)基于VAE和GAN的混合模型也实现了人脸图像重建。Fang等人(2020)提出了一个基于形状和语义的刺激图像重建方法，该方法分别从低级视觉皮层和高级视觉皮层解码出形状和语义表征，然后将形状和语义信息输入到图像生成网络中进行图像生成。Du等人(2022)提出了一种新的结构化神经信息解码方法。新研究通过多任务特征解码的方式揭示了多个典型计算机视觉模型(如VGG(Visual Geometry Group)、ResNet(residual neural network))与人脑腹侧视觉通路在层次化特征表达方面的联系。通过高效结构化地利用这种层次化特征与人脑视觉皮层信号表达之间的关系，该方法能够根据采集到的少量人脑fMRI数据清晰地重建出被试所感知到的复杂自然图像和人脸刺激内容。该方法由两个阶段组成，即Voxel2Unit和Unit2Pixel。在Voxel2Unit阶段，Du等人(2022)首先使用矩阵变量高斯先验来建立结构化多输出回归模型，将高维fMRI数据解码到卷积神经网络的层次化中间单元特征。在Unit2Pixel阶段，作者进一步建立了自省条件生成模型，将预测到的CNN中间特征作为条件反演回对应的视觉图像。最近，Wang等人(2022)进一步利用条件视频生成对抗网络实现了对动态自然刺激的重构，但重建结果仍面临轮廓模糊、语义不清晰等问题。为了改善基于VAE模型的图像重建模糊的问题，Zhou等人(2022a)提出基于可逆归一化流(normalizing flow, NF)的神经编解码框架，在fMRI信号上实现了手写数字刺激的重建。

上述fMRI解码研究表明，深度神经网络在视觉信息处理方面与人类大脑的视觉处理过程在一定程度上具有类似的表现。因此，深度神经网络是研究神经信息解码的强有力工具。尽管上述神经信息解码工作已经在语义分类、图像辨识与重建方面取得了一定的效果，但是该领域仍然处于发展过程中，尚有很大的提升空间。此外，现有的视觉神经信息解码研究依赖于大量的“视觉刺激—大脑响应”成对数据，神经解码模型能否取得成功很大程度上取决于数据集的大小和质量。

3 公开数据集

视觉神经信息编解码研究中常用的公开数据集如表1所示，这些数据集为该领域的发展做出了重要的贡献。

表1 视觉神经信息编解码研究中常用的公开数据集

1) 69 (van Gerven等，2010)。该数据集包含一名被试在100幅灰度手写数字图像刺激下的BOLD信号。每幅图像以6 Hz的频率闪烁12.5 s。刺激图像从MNIST手写数字数据集中挑选，包含50幅手写数字6和50幅手写数字9，分辨率为28×28 像素。采集设备为3T MRI采集系统，扫描间隔TR=2.5 s，体素尺寸为2 mm×2 mm×2 mm。包含了初级视觉皮层V1、V2、V3脑区的体素。

2) BRAINS (Schoenmakers等，2013)。该数据集以360幅灰度手写字母图像做刺激，包含B、R、A、I、N和S共6种字母，每类字母有60个样本，分辨率为56×56 像素。用3T MRI采集系统记录了共3名被试的BOLD信号，扫描间隔TR=1.74 s，体素尺寸为2 mm×2 mm×2 mm。为了更准确地估计被试的BOLD响应，每个刺激重复呈现两次。包含了初级视觉皮层V1和V2脑区的体素。

3) Binary Contrast Patterns (Miyawaki等，2008)。该数据集有两种刺激，一种是440幅随机图像，用于模型训练，每个刺激重复呈现20次；一种是包含5种几何形状和5种字母的人工图像，每个刺激重复呈现两次，用于模型测试。图像分辨率为10×10 像素。实验用3T MRI采集设备记录了共2名被试的BOLD信号，扫描间隔TR=2 s，体素尺寸为3 mm×3 mm×3 mm。体素来自初级视觉皮层V1、V2、V3和V4。

4) Vim-1 (Kay等，2008)。该数据集的视觉刺激为1 870幅灰度自然图像，其中训练集的1 750幅图像重复呈现2次，测试集的120幅图像重复呈现13次。刺激图像的分辨率为500×500 像素。采集设备为4T MRI扫描仪，扫描间隔TR=1 s，体素尺寸为2 mm×2 mm×2 mm。共记录了两名被试的V1、V2、V3、V4、V3a、V3b和LO视觉区的体素。

6) BOLD5000 (Chang等，2019)。该数据集是大规模的人类fMRI数据集，包含从主流计算机视觉数据集，如SUN (Xiao等，2010)、微软COCO(common objects context) (Lin等，2014)和ImageNet(Deng等，2009)中挑选出的4 916幅自然图像刺激，囊括了丰富的语义类别。刺激大小为375×375像素，采集设备为3T核磁共振成像系统，TR=2 s，体素尺寸为2 mm×2 mm×2 mm，记录了4名被试LO、OPA、PPA和RSC脑区的体素活动。

7) Generic Object Decoding (Horikawa和Kamitani，2017)。该数据集包括图像刺激实验和想象实验。从ImageNet数据集中挑选图像刺激实验中的刺激，在12×12°的视角范围内呈现刺激。训练集包含150类的1 200幅图像，每幅仅呈现一次，测试集包含50类的50幅图像，每类一幅图像，每幅重复呈现35次。训练集和测试集的图像类别不同。想象实验中被试被要求根据提示想象测试集中的某一类图像。共采集了5名被试的BOLD信号，采集设备为3T核磁共振成像系统，TR=3 s，体素尺寸为3 mm×3 mm×3 mm。体素来自初级视觉区V1—V4和高级视觉区LOC、FFA和PPA。

8) Deep Image Reconstruction (Shen等，2019)。该数据集包括图像刺激实验和想象实验。图像刺激包括Generic Object Decoding中的刺激 (Horikawa和Kamitani，2017)，Miyawaki等人(2008)所用的5种人工形状与8种颜色构成的40种组合，以及10种字母。训练集的1 200幅自然图像刺激被重复呈现5次，测试集的50幅自然图像刺激、40幅人工形状刺激和10幅字母刺激分别重复呈现了24、20和12次。在想象环节，被试需要根据提示想象测试集中的自然刺激或人工形状刺激。共采集了3名被试的BOLD信号，采集设备为3T核磁共振成像系统，TR=2 s，体素尺寸为2 mm×2 mm×2 mm。记录了初级视觉区V1—V4和高级视觉区LOC、FFA、PPA的体素响应。

9) Faces (VanRullen和Reddy，2019)。该数据集以人脸作为图像刺激，人脸图像来自CelebA数据集 (Liu等，2015)。为了使被试关注面孔的信息或者模型易于重建的背景信息，呈现的刺激图像是原始图像经过VAE-GAN自编码器后的重建图像。在每次运行中，图像呈现环节，每名被试在8×8°的视角内被呈现88张训练集人脸和20张测试集人脸，不同被试的训练集和测试集都不相交；在想象环节，被试需要从20张测试刺激中选出一张人脸进行想象。在整个数据采集过程中，平均每名被试观看8 000多张人脸刺激。采集设备为3T核磁共振成像系统，TR=2 s，体素尺寸为3 mm×3 mm×3 mm，共有4名被试的BOLD信号。

10) NSD (Allen等，2022)。该数据集是大规模的自然场景刺激fMRI数据集，包含73 000幅刺激图像，这些图像来自COCO数据集(Lin等，2014)。刺激在8.4×8.4°的视角范围内被呈现。在7T磁共振成像系统下，TR=1.6 s，体素尺寸为1.8 mm×1.8 mm×1.8 mm，记录了8名被试的高空间分辨率、高信噪比的BOLD响应。每名被试在40次扫描的过程中总共被呈现10 000幅图像，每幅重复呈现3次，其中1 000幅是所有被试共有的刺激，剩余9 000幅刺激在被试间没有交集。

4 度量指标

4.1 编码模型度量指标

对模型编码表现的度量通常通过逐体素地计算预测误差或精度，并在全部体素上求平均。常用的评估单个体素拟合精度的指标有均方误差 (mean square error, MSE)，皮尔逊相关系数 (Pearson correlation coefficient, PCC)，可决系数 (coefficient of determination,R2) 等。

4.2 解码模型度量指标

在评估模型的解码性能时，主要通过评估原始刺激图像和重建图像的相似度，并在所有样本上取均值。常用的评估图像重建质量的指标有均方误差MSE，峰值信噪比 (peak signal to noise ratio, PSNR)，皮尔逊相关系数PCC以及结构相似性指数(structural similarity index， SSIM) 等。相比MSE和PCC，SSIM在更高的层面上对图像的相似性进行了衡量(Wang等，2004)。该指标综合对比一个图像对的亮度、对比度和结构。

5 问题与展望

5.1 视觉神经信息编解码存在的问题

在神经编码方面，现有研究往往是基于预训练卷积神经网络的中间层特征建立体素回归模型。尽管相较传统的基于Gabor小波特征的编码方法具有更多的解释性和更好的效果，但是和真实的脑响应数据之间还有很大的拟合误差，且如何进一步减少这种拟合误差目前仍没有解决。现有的视觉神经编码方法还存在以下缺陷：1)计算模型多基于现有的神经网络架构，不能反映真实的生物视觉加工过程；2)由于每个人在视觉加工过程的选择性注意以及fMRI数据采集过程中不可避免的噪声导致个体差异大；3)fMRI数据采集昂贵，对被试的要求较高，不适合长时间采集，因此现有的数据集样本量不足；4)研究者大多基于固定类型的预训练神经网络(例如AlexNet)来构建神经编码模型的特征空间，造成了视觉特征多样性不足等问题。

在神经解码方面，传统的基于多体素模式分析的方法直接在高维的 fMRI 体素空间和视觉图像像素空间建立映射关系，这种解码方法很容易造成对冗余或噪声体素的过拟合。尽管现有的视觉信息编解码模型在对大脑信号的分类、辨识任务上表现良好，但是试图建立视觉刺激和大脑视觉皮层信号之间的精确映射关系仍然非常困难，图像重建结果往往不清晰且缺乏明确语义。此外，现有的视觉信息解码方法大多数基于对视觉图像的线性变换或者深度网络变换特征，缺乏对新型特征的探索。阻碍人们有效地进行视觉信息解码、重建图像或视频的因素主要包括 fMRI 数据维度高、样本量小以及噪声严重等。

5.2 展望

随着功能磁共振成像和人工智能技术的进步(叶慧慧等，2022)，现有研究已经可以较为有效地建模被试在观看数字、人脸和自然场景等视觉刺激时的大脑神经活动，并实现了相应的视觉刺激重建和语义解码。未来要通过采用更加先进的人工智能技术研发更为有效的大脑视觉神经信息编解码方法，并尝试将大脑信号翻译成图像、视频、语音和文字等多媒体内容，实现更多的脑—机接口功能。有意义的研究方向包括：1)基于图像和文本联合的多模态神经信息编解码；2)大脑神经信号指导的计算机视觉模型训练与提升；3)基于大规模预训练模型高效特征的视觉神经编解码 (张浩宇等，2022)；4)基于神经编解码方法评估现有人工神经网络模型的类脑特性(Zhou等，2022b)等。此外，由于大脑信号具有复杂性、高维度、个体差异性大、高度动态性和样本量小等特点，因此未来的研究还需要更多结合计算神经科学和人工智能理论研发高鲁棒性、适应性、准确性和解释性的视觉神经信息编解码方法。

6 结语

基于fMRI的视觉神经信息编解码方法的研究，有利于理解视觉系统感知机制和探索人脑视觉皮层高效的信息处理过程。事实上，机器智能和人脑的研究可以相互促进、相辅相成，先进的机器智能有助于探索大脑信息处理的内在神经机制，而大脑的运行机理也将启发新一代类脑计算模型，提高机器智能感知和处理外部信息的能力。因此，基于深度学习和fMRI的视觉神经信息编解码方法研究，不仅对脑科学、神经科学有重要意义，更对人工智能领域有深远影响。

本文总结了基于fMRI的视觉神经信息编解码方法的研究进展，从视觉神经信息编解码的定义、与统计机器学习之间的关系、研究方法和进展、公开数据集和度量指标等方面进行深入阐述。首先，详细介绍了基于群体感受野估计的视觉神经信息编码方法的发展过程。其次，将视觉神经信息解码分为语义分类、图像辨识/检索和图像重建3个部分，并详细介绍了每种解码任务类型的差异。之后，列举了该领域常用的公开数据集以及视觉神经信息编解码算法的度量指标。最后，提出视觉神经信息编解码研究方法的不足，并对未来的研究方向进行了展望。结合更多计算神经科学和人工智能理论研究高鲁棒性、适应性、准确性和解释性的视觉神经信息编解码方法是未来的发展方向。