迈向下一代视网膜神经假体
——基于脉冲的视觉计算方法
2020-09-05余肇飞刘健贾杉杉张祎晨郑雅菁田永鸿黄铁军
余肇飞,刘健*,贾杉杉,张祎晨,郑雅菁,田永鸿,黄铁军
1. 引言
精准医学这一概念,多年以来一直都在继续发展完善。这一术语通常是指,为患者量身定制医疗服务。近年来,人工智能技术所取得的进步,包括硬件、软件和算法,可以让医疗设备或医疗服务与患者之间的沟通更为顺畅,以此进行的设计和调整,使得针对每个患者的医疗过程变得越来越精准。
神经假体是一种精准的医疗设备,它提供了传统药理学治疗之外的另一种治疗手段。神经假体通常与大脑神经活动,特别是与神经元脉冲发生直接相互作用[1–9]。它由一系列装置组成,可以替代身体或大脑的一部分,如受损的运动区域、感觉区域或认知区域。大脑作为中心枢纽,可以控制和交换运动、感觉和认知行为所需的信息,因此,为了提升神经假体的性能,我们需要更好地分析神经假体所使用的神经元信号。除了开发神经假体硬件外,发展更好的算法也是提高神经假体性能的核心[6,10,11]。
人们对运动神经假体的研究已有很长的历史,最新的技术已经能够很好地记录并使用大脑皮层神经元的脉冲信号来控制神经假体[6]。人工耳蜗是最广泛使用的感觉神经假体,尽管在很多方面仍存在许多问题[11,12],例如,如何提高其在嘈杂环境中的性能,如何提高其对下游听觉皮层神经元活动的影响,但是它们在解决听力受损方面,已经表现得相当出色。在算法研究方面,针对人工耳蜗,也已经开展了很多算法模型[11]。与此相比,尽管有若干种视网膜神经假体已用于临床[13,14],但是它们在恢复视力方面的表现则差强人意,关于视网膜神经假体的算法研究也要少得多。
视网膜由感光细胞、双极细胞和神经节细胞3层激发神经元组成,它们的活动受到周围抑制性水平细胞与无长突细胞调制。感光细胞接收输入的光信号,这些信号将自然环境的视觉信息编码,并将它们转化为由水平细胞调制的电活动。接着,电活动被送到双极细胞和无长突细胞进行进一步处理。最后,所有的视觉信号都到达视网膜的输出端神经节细胞。它们作为视网膜唯一的输出神经元,会产生一系列的动作电位或脉冲,这些脉冲通过视神经传送到下游脑区。因此,论到根本,无论在空间上还是在时间上,所有我们所处环境的视觉信息,都被编码为神经节细胞脉冲信号的时空模式。
很多种眼病都属于感光细胞的神经退化性疾病,然而视网膜的输出细胞——神经节细胞仍然是健康细胞。治疗这类疾病的一种方法是开发一款先进的视网膜假体,用一系列电极直接刺激神经节细胞。人们对视网膜神经假体的研究历史相对较长[15]。然而,研究者付出的大量努力都集中在视网膜神经假体的硬件材料设计方面[13–18]。近年来,有研究者认为采用更好的神经编码算法可以提升视网膜神经假体的性能[10]。该研究表明,通过增加一个编码器,将输入图像转换为视网膜神经节细胞使用的脉冲编码,然后用这些脉冲编码来驱动硬件传感器,如电极、光遗传学刺激器或视觉恢复相关的其他组件,可以显著提升视觉场景的重建。
因此,我们需要使用更好的计算模型来提升视网膜神经假体的性能。与其他刺激信号相对简单的神经假体相比,视网膜神经假体在空间和时间上,需要处理具有高阶相关性的动态视觉场景。目前而言,导致视网膜神经假体性能低下的主要原因之一,是没有明确理解神经节细胞如何对丰富的视觉场景进行编码。在此方面,我们已有的大部分知识,都是获取自简单的人造刺激实验,如白噪声图像、条形图和光栅。我们目前仍然不清楚,视网膜如何使用其神经元和神经网络的内部结构处理复杂的自然图像。近年来,人工智能得了显著进展,有了更为先进的分析技术来处理复杂视觉场景,包括自然图像和视频。因此,现在我们有能力开发新的功能型人工智能模型,利用它们分析视网膜神经节细胞的脉冲信号,来研究脉冲信号如何对自然场景进行编码和解码。
在本文中,我们回顾了这一领域近期取得的一些进展。视觉编码的研究可以大致分为两个流派。第一个更为传统的流派是基于特征的建模方法,在这种方法中,模型的视觉特征或滤波器尽量与视网膜的生物物理特性,如感受野,保持一致。第二个相对新颖的流派是基于采样的建模方法,在这种方法中,视觉场景的统计数据,如像素,是用概率模型来表示的。需要注意的是,这两种方法并不是完全独立的;事实上,随着最近硬件和算法技术的进步,它们之间的联系越来越紧密。在本文中,我们将回顾这两种途径,考察其利用神经脉冲分析视觉场景的核心思想。我们认为,对于促进下一代视网膜神经假体的发展,计算建模将起着至关重要的作用。
本文结构如下:第2节介绍了视网膜的生物结构,侧重于其内部神经元环路。我们认为,相比于视网膜单个细胞的动力学,视网膜环路可以进行更为丰富的计算。在第3节中,我们认为,视网膜并非一个简单神经网络,其结构高度复杂,可以与脑皮层的某些方面相媲美。视网膜具有类似于脑皮层的网络模块,用这些模块分别进行特定计算,提取特定的视觉特征。我们概述了3种模块,分别为前馈、循环和赢家通吃(winner-take-all,WTA)的网络结构。对于每一种,我们探讨了相关证据和最新研究结果。
第4节讨论了基于特征的建模方法,并对基于视网膜特征提取视觉场景的编码和解码模型进行了综述。对于编码,我们首先总结了生物物理模型,这些模型可以直接分析和拟合神经元脉冲信号,从而确定某些神经元的特性,如神经元的感受野。然后,我们回顾了一些基于人工神经网络(artificial neural network, ANN)的编码模型,它们使用最先进的机器学习方法来处理复杂的自然场景。然而,对于解码,则有必要依赖于统计和机器学习模型,目的是用神经脉冲重建视觉场景。我们回顾了解码器模型,重点是讨论如何使用它们更好地提升视网膜神经假体处理静态图像及动态视频的性能。
第5节讨论了基于抽样的建模方法。我们概述了视网膜环路的某些网络结构特性,以及利用这些环路来构建概率图模型(probabilistic graph model, PGM)和脉冲神经元网络(spiking neuronal network, SNN)模型,从而形成不同的功能模型,来模拟相关视网膜进行的视觉计算。我们首先介绍了脉冲神经计算的基础,并从采样的角度讨论了神经脉冲和SNN的建模框架。然后,我们认为,视网膜计算的研究需要超越神经元和神经网络动力学的经典描述,将概率推理考虑在内。我们回顾了关于用SNN实现概率推理的最新研究结果。尽管这些方法传统上用于视觉皮层的研究,但是我们将展示如何使用它们进行视网膜计算建模。最后一节讨论了未来可能的研究方向,并总结了全文。
2. 视网膜神经环路的视觉计算
图1展示了视网膜神经环路的典型结构。粗略地讲,视网膜是一个由几种神经元组成的三层网络。感光细胞根据视觉场景的信息流,将具有一系列强度(从昏暗到明亮)和颜色(从红色、绿色到蓝色)的光转化为电信号,然后由抑制性水平细胞进行调节。接下来,这些信号被传递到兴奋性双极细胞进行复杂计算。双极细胞的输出电位传统上被视为分级电位;然而,最近的实验证据表明双极细胞可以产生快速动作电位及脉冲事件[19]。然后抑制性无长突细胞以不同的方式调节这些输出,以产生更加有效、具体和多样化的计算[20]。在视网膜的最终阶段,信号传递到神经节细胞进行最终处理。最后,神经节细胞将它们的脉冲发送到丘脑和皮层,进行更高层次的认知功能计算。
视网膜中,每一种神经元的形态都非常丰富;例如,有研究认为,小鼠视网膜中大约有14种双极细胞[21,22]、40种无长突细胞[23]和30种神经节细胞[24]。除了神经元细胞之外,神经元之间的连接也是神经元环路的独特之处。视网膜神经元之间的连接通常是由各种类型的化学突触形成的。然而,在不同类型的细胞之间,以及同一类型的细胞之间,都有大量的电突触连接或缝隙连接[25–28]。这些缝隙连接的功能仍是研究热点[25],这里,我们认为,缝隙连接具有创建循环连接的功能性作用,并且能够增强视网膜的视觉计算能力。这一概念将在后面的章节中讨论。
在视网膜研究领域,大多数研究都基于传统的观点,认为视网膜的神经元具有静态感受野(receptive field, RF),其作为时空滤波器可以提取视觉场景中的局部特征。然而我们知道,视网膜在信息处理的过程中有若干层次的复杂性,即从感光细胞到双极细胞再到神经节细胞。此外,抑制性水平细胞和无长突细胞的调节功能尚不清楚[20,29]。唯一一个理解相对透彻的例子,可能是视网膜的如何进行方向选择性计算[30–33]。
图1. 视网膜神经环路图示。视觉场景在第一层由感光细胞转换,其中视杆细胞编码弱光,视锥细胞编码颜色。在被水平细胞调制后,信号被发送到第二层双极细胞。输出结果被发送到第三层进行进一步处理,该层由无长突细胞和神经节细胞组成。视网膜的最终信号来自神经节细胞的脉冲,这些脉冲被传递到脑皮层。除了细胞之间的化学突触外,不同类型和相同类型的细胞(如神经节-神经节细胞)之间还存在大量的缝隙连接。
视网膜神经节细胞是视网膜的唯一输出,然而,它们的活动与视网膜的其他部分也是紧密耦合且高度相关。这些相互作用不仅使视网膜环路结构复杂,而且使视觉处理的计算更加多样化。因此,视网膜应该比科学家所认为的“更聪明”[34]。这些观察使得我们重新思考视网膜的功能和结构特性。鉴于视网膜中神经元和神经环路的复杂性,我们认为,应该以一种新的方式来理解视网膜所进行的视觉计算。传统观点认为视网膜就像前馈网络一样传递信息,但是我们则认识,与脑皮层一样,视网膜可以形成侧抑制和循环连接(如缝隙连接),因此视网膜就像视觉皮层处理视觉那样[35–37],可以利用各种神经网络模块,提取视觉场景的不同特征,形成特定的计算。
要注意的是,与视觉皮层相比,视网膜在视觉信息处理中的计算和功能,近些年来才有了较为详细的理解。如今,视网膜神经元和神经环路对视觉信息的计算,正在从不同层次上得到深入;更多细节请参见最近关于视网膜神经科学进展的综述[20,21,25–29,34]。
3. 视网膜的计算框架
从生物学的角度来看,视网膜环路的不同神经科学实验众多繁杂,要统一这些实验结论似乎很困难[38]。然而,我们认为,有必要组合多种神经网络结构模块,对视网膜环路进行计算建模。这样一个尚在萌芽的计算框架,可以更好地利用近年来出现的机器学习技术,从而有助于我们理解视觉计算[39]。如图1所示,视网膜神经环路的全局看来似乎相当复杂。然而,在提取了网络结构的某些特征后,简单的网络模块就呈现了出来。在这里,如图2所示,我们仅关注3种类型的网络结构模块,即前馈网络、循环网络和WTA网络,并假设这些模块在视网膜的视觉计算中起着不同的作用。然而,视网膜不仅仅是这3种网络模块的混合体。相反,它是一个由多种类型网络模块组成的超环路[38]。目前人们还不清楚如何更有效地让这些不同的网络模块共同工作来进行视觉计算,但是这种超环路为潜在的视网膜计算统一框架提供了生物学基础。随着实验和计算技术的发展,可以从这个超环路中提取更多的计算特征。
3.1. 前馈网络
如图2(a)、(b)所示,前馈网络是视网膜中视觉信息流方向的经典视图。光的前馈信息流通过3种主要的细胞通过视网膜:感光细胞、双极细胞和神经节细胞。为了简单起见,这里不考虑其他两种起调节作用的抑制性细胞。这种观点的生物学基础可以在视网膜中央凹中看到,在中央凹中,兴奋性细胞起主要作用,几乎没有抑制作用[40]。中央凹中有直接连接过程,从感光体到双极细胞,再作为输出到神经节细胞。
近年来,人工神经网络的发展证明了前馈网络的优势。特别是人们在CNN的框架中取得了突破[39]。如图 2(c)所示,一个简单的3层CNN就像在视网膜中一样,其中卷积滤波器起着视网膜细胞感受野的作用。视觉输入的层级处理是通过视网膜中每个神经元的感受野来计算的。上一层的计算结果池化传递到下一层的神经元。最近的研究强调了CNN结构和视网膜神经环路之间的相似性[41,42],这将在后面部分进行讨论。
3.2. 循环网络
循环网络的动力学[43–45],以及丰富的突触动力学和可塑性[46,47],对于理解大脑功能非常重要。在这里,我们认为循环连接对于视网膜也很重要。如图2(a)所示,视网膜中的循环连接主要由大量的缝隙连接产生。与化学突触不同,缝隙连接是双向或对称的。对于视网膜所有类型的细胞,同一类型细胞之间和不同类型细胞之间,都有缝隙连接使相邻细胞之间形成短连接。然而,这些缝隙连接的功能仍待讨论[25]。
从计算的角度来看,由缝隙连接形成的循环连接,如图2(b)、(c)所示,可以使视网膜环路类似于无向MRF的PGM。通过将图论与概率论相结合,PGM为多元统计建模提供了强大的理论框架[48]。PGM已广泛用于计算机视觉和计算神经科学研究。与MRF相比,还有另一种PGM,称为贝叶斯网络,其中节点之间的连接具有方向性。图2(c)所示是一种贝叶斯网络,被称为HMM。近年来,人们做出了很多努力构建SNN来实现这些PGM计算。这些研究利用机器模型PGM来理解大脑中观察到的神经活动,从而启发了视网膜的视觉计算模型的建立。
3.3. WTA 网络
最后,我们认为视网膜环路有WTA模块的网络结构。在脑皮层中,WTA环路是一种强大的网络计算模块,可实现归一化[49]、视觉注意力[50]、分类[51]等计算功能[52]。
图2. 不同的计算网络模块图示。(a)视网膜环路可以提取不同的网络模块,如前馈网络、循环网络和WTA网络。(b)用于建模的不同类型神经网络的抽象模型。刺激首先由输入神经元的活动表示,然后传入兴奋性和(或)抑制性神经元网络对其进行计算。不同颜色表示相同的模块。(c)用于抽象计算的典型ANN,如卷积神经网络(convolutional neural network, CNN)、马尔可夫随机场(Markov random field, MRF)和隐马尔可夫模型(hidden Markov model, HMM)。需要注意,人工神经网络可以使用一种或混合的计算网络模块,如(b)图所示。在MRF中,xi是由WTA环路表示的单个变量。在HMM中,xi是由WTA环路中输入神经元表示的观察变量,yi是WTA环路中兴奋神经元表示的隐变量。
两种抑制性神经元位于视网膜的前两层。水平细胞调控感光细胞,将光信号传递给双极细胞,而无长突细胞则调节双极细胞末端和神经节细胞树突之间的信号。这两种类型的细胞都有一类宽视野多轴突的特定亚型,它们的结构特性会将动作电位的信号大范围散布(大于1 mm)[38]。从计算的角度来看,视网膜的这种超环路特征起着与WTA网络模块相似的作用。最近的研究表明,可以通过WTA环路的网络模块来实现MRF算法,这表明WTA可能是视觉计算中概率推理的最小计算单位[53]。
3.4.网络模块构成的多类型计算
以上我们简要回顾了视网膜环路,指出了3个基本的神经网络模块,从而利用这些模块充当视网膜进行复杂计算的基本单元。然而,皮层微环路的研究提出了更多类型的网络模块[37],这些模块也可以作为视网膜超环路的一部分参与视网膜计算[38]。将视网膜视为超环路,可以让很多皮层视觉处理的方法用到视网膜计算的研究中,从而跳出传统视网膜的研究思路,实现更为丰富的动态特性计算[34]。特别需要指出的是,研究者已经发现某些视觉功能是由视网膜中某些类型的网络模块实现的,详情参见文献[34]。
人工神经网络领域的最新进展形成了计算视觉领域的许多突破。例如,深层CNN可以模拟从视网膜到皮质下颞部的视觉计算过程[54]。这些基于特征的模型利用感受野的优势来捕获视觉特征。但是,CNN模型在视觉计算方面有一些缺点。例如,CNN架构在很大程度上缺乏设计原理,这个缺点可以通过利用包括视网膜在内的大脑生物神经网络设计知识来完善[55]。
另一方面,有研究者认为,为了理解视觉计算,需要一个层级贝叶斯推理框架[56]。使用这种基于采样的建模方法时,不同类型的网络模块可以实现特定的计算功能[57],从而使得视觉的统计计算可以通过各种类型的概率模型来实现。贝叶斯模型中的这些计算技术已经用于视觉皮层和视网膜的视觉处理[56]。
但是,这两种方法不是完全分离的。实际上,它们之间存在密切的联系[55]。我们将在以下各节中,使用视网膜作为模型系统来解释这些方法:第4节将讨论基于特征的方法,第5节将讨论基于采样的方法。
4. 视网膜的编码和解码模型
神经如何编码信息是系统神经科学的核心问题之一[58–60]。特别是针对视觉编码,首先有必要理解视觉场景如何被表征为神经脉冲活动,然后也需要理解如何解码神经元脉冲活动以还原给定的视觉信息。视网膜是研究这些问题的一个有效系统。
4.1. 生物物理编码模型
为了理解视网膜的编码原理,研究者已经根据视网膜中神经元和神经元环路的生物物理特性发展了几种模型,参见最近的综述[61]。在这里,我们简要回顾一下这些方法。
研究视网膜神经元计算的起点是找到神经元的RF。实验中获得神经元RF的经典方法,是固定某个细胞的位置,然后改变刺激光斑的大小,从而获得一个中央激发而周围抑制的高斯滤波器作为RF结构。后来,研究者使用多电极阵列,发展了一种更为系统的实验方法来记录一个包含了很多视网膜神经节细胞的群体。通过此方法,我们可以使用各种类型的图像来操纵光刺激,这些刺激包括简单的条形、斑点、光栅、白噪声以及可控的复杂图像和视频。这个方法的优势是可以同时记录很多细胞,得到单个神经元精度的脉冲序列。当利用白噪声作为刺激时,使用一种简单的被称为脉冲触发平均(spike-triggered average, STA)[62]的反向相关方法,可获取神经节细胞的RF。STA扩展到协方差分析,被称为脉冲触发协方差分析,是分析视网膜神经元二阶动力学的有力工具之一[63,64]。
基于神经元的感受野,利用线性-非线性(linear–nonlinear, LN)模型可以简单而有效地模拟光信息的层级处理过程。LN模型分为两个阶段[65,66]。第一阶段是线性时空滤波器,代表细胞的敏感区域,即感受野。第二阶段是非线性变换,将线性滤波器的输出转换为脉冲发放频率。LN模型的这两个属性,都可以很容易地从白噪声刺激所激发的脉冲信号中计算出来[64]。当处理的是复杂的刺激信号而不是白噪声时,利用足够的数据,可以使用其他方法(如极大似然估计[65]和最大信息[67])计算LN模型的组成。
迄今为止,为了完善LN模型的构建,使LN模型计算功能更强大,研究者已经开发出几种改进模型。这些模型包括:LN泊松模型[63](在非线性变换之后,使用泊松过程来生成脉冲序列)和广义线性模型[68](其中包括了几个其他模型组件,如用于刻画脉冲适应动力学的历史滤波器和用于刻画相近神经元影响的耦合滤波器)。最近,研究者开始侧重发展具有子单元成分的模型来模拟上游神经元的非线性特征。例如,非线性输入模型[69],其中包括一些子单元非线性滤波器,并假设神经元的输入是相关的;脉冲触发协方差模型[64,70,71],利用特征向量分析法对脉冲触发的刺激系综进行协方差分析,以获得一系列RF的子单元滤波器;两层LN网络模型[72],通过两层LN模型实现层级过程;以及脉冲触发的非负矩阵分解(spike-triggered non-negative matrix factorization, STNMF)模型[73],该方法松弛了脉冲触发协方差中使用的正交性约束,从而获得一组非正交的子单元滤波器,这些子单元在实验中被验证为视网膜中的双极性细胞。进一步研究表明,STNMF可以获取上游双极细胞的各种生物物理特性,包括空间RF、时间滤波器、非线性和从双极细胞到神经节细胞的突触连接特性。另外,该方法也可以将双极细胞产生的脉冲信号子集,从神经节细胞的整个脉冲信号中分离开来[74]。
4.2. 基于ANN 的编码模型
近年来,研究者在ANN的使用方面(如深层CNN和PGM)已经取得了突破,可以完成许多与视觉信息相关的实际任务[39]。例如,对于收集好的且用特定标签标记好的大量视觉图像,ANN在对象识别和分类方面的性能要优于人类水平[39]。各种用于可视化CNN学习的图像特征技术已经被开发出来。但是,CNN对于处理复杂自然图像端到端的获取方式,让人们很难用这种方法来解释底层的网络结构组成[75,76]。
受神经科学实验观察的启发[55,77],典型的深层CNN具有多层的分层结构[78]。在这些层中,有些具有一组卷积滤波器,每个卷积滤波器都用作特征检测器,来提取图像的重要特征[79,80]。因此,经过大量图像训练后,这些卷积滤镜可以起到与视网膜和其他视觉系统中的神经元相同的功能作用,从而对自然图像的复杂统计特性进行编码[59]。这些滤波器的形状稀疏且局部化,类似于视觉神经元的RF。
因此,研究者认为,可以使用类似的基于ANN的方法来研究神经科学中神经元编码的核心问题[54,81]。特别是,对于视觉编码来说,人们普遍认为,大脑的腹侧视觉途径是从视网膜开始,然后穿过外侧膝状核和分层的视觉皮层最终到达皮质下颞部。该视觉途径被认为是识别视觉对象“是什么”的路径。研究者发现,用CNN对猴子下颞叶皮层神经元的实验数据进行建模时,可以很好地预测神经元的响应[54,82–84]。因此,可以认为,大脑中视觉处理的生物学结构与CNN中使用的网络结构具有一定关系。然而,从视网膜到颞下皮层的通路很复杂,因此解释这种关系并不简单[54]。一种可能的更简单的方法,是使用CNN对大脑的早期视觉系统(尤其是视网膜)建模,如上所述,大脑的早期视觉系统的神经元环路相对简单。
实际上,一些研究已经使用CNN及其变体来模拟早期视觉系统,如视网膜[41,42,85–87]、视觉皮层区域V1 [88–92]和V2 [93]。这些研究大多数是基于这样的假设,即可以通过使用前馈或循环神经网络(或两者)来实现预测神经元反应。与传统的LN模型[71]相比,这些新方法增加了系统识别的复杂度。其中一些研究还详细检查网络组成部分,试图确定这些CNN组成部分[41,42,92]是否和怎样类似于神经元网络的生物学结构。
图3 [41,74,85]展示了用于视网膜CNN建模方法的典型设置。为了了解视网膜环路感受野的精细结构,重要的是要了解CNN所获取的滤波器。与使用群体视网膜神经节细胞的研究相反[42,92,94],该模型可以将复杂的视网膜环路简化为简单的网络模型,如图3(a)所示。这使得在视网膜单细胞层面上完善网络结构的模型更为容易。实际上,研究已经发现CNN可以学习调整其内部结构成分以匹配视网膜的生物神经元[42,85],如图3(d)所示。
鉴于视网膜具有相对清晰和简单的环路,并且眼睛(几乎)没有来自脑皮层的反馈连接,因此可以合理地将该系统建模为前馈神经网络,这类似于CNN的原理。可以肯定的是,抑制性神经元(如水平细胞和无长突细胞)在视网膜功能中发挥作用。从这个意义上讲,更为理想的神经网络模型需要包含侧抑制和(或)循环单元 [86,94]。
图3. 使用CNN方法通过简化的生物物理模型对视觉场景进行编码。(a)将视网膜环路简化为生物物理模型:前馈(顶部)网络表示为视网膜环路的一部分,它接收进入的视觉场景并从神经节细胞发出脉冲;(中部)一个具有单个神经节细胞和5个双极细胞的小网络;(底部)代表5个双极细胞子单元的生物物理模型,每个子单元都有一个线性滤波器作为RF,并且具有一个非线性。5个子单元的输出通过另一个非线性进行合并和校正。可以对最终输出进行采样得到脉冲序列。(b)训练CNN模型,其图像作为输入,脉冲作为输出。这里有两个卷积层和一个密集层。(c)训练后,CNN模型显示出与神经节细胞生物物理模型相同的感受野。(d)训练后的卷积滤波器类似于(a)部分中双极细胞的RF。(a)转载自文献[74],(b)~(d)摘自文献[41,85]。
4.3. 从视网膜脉冲解码视觉场景
对于视网膜神经假体,理想的编码器模型能够针对给定的视觉场景向电极提供精确的刺激。为了实现这一点,有必要找到一种理想的解码器模型,从而可以根据神经元响应读出并重建视觉场景的刺激。
多年来一直有通过算法重建视觉场景的研究。相关的神经信号包括人脑功能磁共振成像(functional magnetic resonance imaging, fMRI)信号[95–98]、视网膜[99–102]和外侧膝状核[103]的神经元脉冲,以及V1中的神经元钙成像数据[104]。然而,对于自然场景,无论是静态自然图像还是动态视频,当前方法的解码性能都相当低。从fMRI数据中重建视频的示例可以参见文献[97]。
对于视网膜神经假体,人们希望通过使用神经节细胞的脉冲响应来解码视觉场景。最新的研究显示,利用模拟的视网膜神经节细胞,并且当细胞数量足够多时,可以对视觉场景进行解码[100]。但是,当时尚不清楚是否有可能使用实验数据来实现这一目标。这种解码方法可以被称为脉冲图像解码器,它演示了从神经元脉冲到视觉场景的端到端训练过程。
我们近期使用深度学习神经网络模型开发了这种解码器。相比之前的研究,我们的解码器利用同时记录的视网膜神经节细胞群体的脉冲序列,可以重建真实的视觉场景(包括静态图像和动态视频),并且具有更好的图像分辨率[105]。
脉冲图像解码器的工作流程如图4所示[105,106]。实验者使用多电极阵列可以同时记录大量的视网膜神经节细胞,并提取其脉冲。接下来,使用脉冲图像转换器将每个神经节细胞的脉冲映射到像素量级的图像。之后,用深度学习神经网络,这里是自动编码器,将基于脉冲的图像转换为原始刺激图像。本质上,这种方法包含两个阶段:脉冲到图像转换和图像到图像自动编码。先前的大多数研究都集中在第一阶段,其通过统计模型和(或)基于ANN的模型以线性或非线性方式来优化传统解码器[95–103]。最近的研究将CNN自动编码器单独训练以提高图像质量[100]。然而我们发现,通过端到端的训练过程,包括脉冲到图像转换和图像到图像自动编码两个阶段,可以取得更好的效果。当然这里并不排除其他可能性,使用其他类型的深度学习神经网络,来对这两个阶段中使用的网络详细架构进行优化,也可能达到更高的性能。
5. 使用SNN 和PGM 对视网膜建模
SNN被视为第三代ANN模型。就像大脑一样,它们使用神经元脉冲进行计算[107]。除了神经元和突触状态外,SNN中还考虑了脉冲时间的重要性。研究表明,在相同神经元数量的情况下,SNN比其他ANN在计算方面更强大[107]。近年来,SNN在许多领域都得到了广泛的研究[108–110]。特别是最近的研究表明,SNN可以与多层的深层架构结合使用,以获得与ANN相似或更好的性能[111–115]。SNN的脉冲特征对于下一代神经形态计算机芯片尤为重要[116,117]。
图4. 从神经元脉冲解码视觉场景。(顶部)解码视觉场景的工作流程。在这里,一个蝾螈游泳的视频被呈现给蝾螈的视网膜,以激发神经节细胞的一系列脉冲。这些脉冲序列被用于训练脉冲图像解码器,以重建相同的刺激视频。神经节细胞的RF被映射到图像上。每个彩色圆圈是感受野的轮廓。(底部)脉冲图像解码器是具有两个阶段的端到端解码器:脉冲到图像转换,用于将大量的脉冲映射到像素量级的初始图像;以及图像到图像自动编码,可将每个像素映射到所需图像中的目标像素。请注意,这里的脉冲图像解码器没有独特的架构,人们可以采用其他最新模型对其优化。初始图像的确定形状取决于用于训练的损失函数。解码过程的详细信息参见文献[105]。此图中显示的数据可在线获取[106]。
单个神经元的计算能力是有限的。但是,当连接大量神经元形成网络时,可以极大地扩展连接神经元的计算能力。利用图论语言[118],SNN可以表示为图G=(V,E),其中,V代表神经元集合,E∪V×V代表突触集合。鉴于图和神经网络之间的这种等价性,近年来人们深入研究了PGM方法。经典的ANN和SNN模型,就像Hodgkin-Huxley模型所揭示的那样[119],都利用确定性动力学系统进行建模。然而,与这种观点不同,大脑中使用的计算原理也可以利用PGM描述。
越来越多的神经科学证据表明,人类和猴子(以及其他动物)也可以表示概率,实现概率计算[120–122];因此,概率大脑的观点越来越被认可[123]。研究者认为,可以在神经环路层面上,利用由脉冲神经元组成的网络来实现概率推理[123]。越来越多的研究兴趣着重于结合SNN和概率计算,以便人们既了解脑计算的原理,又能利用这些脑启发的原理解决实际问题。
在PGM框架中研究的概率推理,传统上是概率论和图论的组合模型。PGM的核心思想是利用图来表示一组变量之间的联合分布,其中每个节点对应一个变量,每个边对应两个变量之间的概率交互。利用图结构的优势,可以将高维空间上的复杂分布,分解为低维局部势函数的乘积。PGM可以分为有向图形模型(如贝叶斯网络)和无向图形模型(如MRF)。贝叶斯网络可以表示变量之间的因果关系,因此通常被用于建模认知和感知过程,而MRF可以通过局部势函数的乘积来表示联合分布。
通过SNN实现PGM,是为了解释神经元脉冲如何实现概率推理。SNN的推理包括两个主要问题,分别是概率编码和概率推理:①如何利用单细胞或细胞群体的神经活动(如膜电位和脉冲)编码概率分布?②如何利用脉冲神经元网络动力学逼近概率推理?
概率编码是概率推理的前提。根据概率的表达方式,概率编码可分为3种基本类型:①编码每个状态下每个变量,如概率编码[124]、对数概率编码[125,126]和对数-似然比编码[127,128];②编码分布的参数,如利用神经元的动态变化特性进行概率群体编码[129–131](即对恒定刺激作出响应的神经活动具有较大的变异性,这表明活动神经元群体可以自动编码分布);③编码一个分布的采样过程来描述神经活动[132,133],如许多实验显示的那样[134–137]。
根据这些编码原理,可以采用不同的方法对神经网络构建推理过程:①利用神经动力学方程与某些PGM在时间过程中推理方程的相似性,来进行推理[125,126,128,138–140],该方法主要适用于小规模SNN;②利用神经变分近似进行推理,这适合直接描述大规模SNN的动力学[53,56,141–148];③利用概率群体编码和一些符合神经元特性的操作来进行推理,包括求和、乘法、线性组合和归一化[149–153];④利用神经元在时域上的特性来采样推理,其中,噪声(如实验观察中发现的随机神经响应[154,155])是神经采样和推理的关键[156–160]。同样,可以通过使用大量神经元同时从分布中进行采样[153,161–163],因为已经发现大脑某些区域的神经元群体状态遵循特定的分布[164,165]。
上面的研究大多以抽象的方式,来模拟包括视觉皮层在内的皮层神经计算。我们认为,可以将这些计算技术用于研究视网膜计算。图5 [53,166,167]显示了用于视网膜的一些示例,其中通过缝隙连接[图5(a)]的感光细胞网络,与MRF模型[图5(b)]在网络层面上具有相似性,可以由包含WTA微电路模块的脉冲神经元网络实现MRF [图5(b)]。如图2所示,大量的缝隙连接让视网膜神经元之间形成循环连接。最近的一项研究表明,如图5(c)所示,带有缝隙连接的棒状感光细胞网络可以对图像去噪,而附加CNN可以进一步增强图像的质量。与其他传统的CNN相比,这种包含感光细胞的CNN可以实现更好的降噪性能[166]。同样,PGM已用于降噪图像[168]。研究表明可以由SNN进行PGM各种类型的计算[53,163,169–172],因此,如图5(d)所示,当使用SNN进行去噪时,可以实现类似的性能[167]。
PGM在视觉编码方面得到了广泛的研究和应用,但主要用于对皮层神经进行建模[56]。在此,本文讨论的这些结果表明,人们可以构建一个系统框架中来研究视网膜中的视觉计算,这个框架包括经典的PGM、特殊的包含缝隙连接的视网膜环路结构,以及最近利用SNN在实现PGM算法方面的努力。对于深入此框架的未来工作,需要从视网膜丰富的网络结构中获得更多启发,其中包括循环神经网络、WTA网膜和前馈神经网络,以及皮质微环路中其他普遍存在的模块[37]。
6. 讨论
图5. 用视网膜感光细胞、PGM和脉冲神经网络实现降噪计算。(a)缝隙连接形成的杆状感光细胞网络。(b)由WTA子单元形成的脉冲神经元网络,以及相应的MRF表示图。MRF的每个变量都由一个WTA网络模块表示。(c)可以通过感光细胞网络对有噪图像进行消噪,然后通过CNN对其进行增强。(d)有噪图像可以通过循环脉冲神经元网络实现的MRF进行噪点处理而无需增强。(a)和(c)引自文献[166],(b)引自文献[53],(d)引自文献[167]。在(b)和(d)所示的MRF模型中,xi是由WTA表示的变量。
在精准医学的框架内,神经假体是很有前途的医疗设备。由于它们直接与每个患者的大脑进行交互,因此发展神经假体,除了更好的硬件设计之外,还需要更好的神经元信号计算算法。提高视网膜神经假体的计算能力,主要困难在于需要解决复杂的时空视觉场景。对于其他神经假体,传入的信号在低维空间,例如,手臂或腿在三维空间中的运动轨迹,或者在一维频率空间中的听觉信号。然而视觉场景非常复杂,并且以时空方式包含信息。近年来,计算机视觉的发展使得对这些复杂自然场景的分析取得了突破,人工智能也因此达到前所未有的高度。
鉴于神经科学领域取得的实验进展,同时记录大量的神经元现在成为可能。特别是在视网膜上,当视网膜施加控制良好的视觉场景刺激时,如图像和视频,数以百计的视网膜神经节细胞产生的脉冲位序列可以被记录下来[173]。最新的技术可以同时记录数千个神经元[174–176]。该技术通过使用足够的脉冲来实现高分辨率,开辟了研究视觉场景的编码和解码方法。
植入电极是目前最常见的视网膜神经假体方法,并已在临床中使用。但是,在这种视网膜假体中嵌入的计算模型非常有限[10,13,177]。将编码器嵌入视网膜假体中,可以处理传入的视觉场景,从而更好地激发神经节细胞[10,13]。使用解码模型的好处,是可以验证下游目标神经元产生的脉冲模式。理想情况下,电刺激应该能够获得与假体中的视网膜神经活动的期望模式接近的结果。比较脉冲模式之间相似性,无论是一般神经编码研究[178,179],还是针对视网膜假体[180],传统方法着重于如何计算两个脉冲序列之间的距离。另一种方法是在神经假体中使用解码模型获得更好的性能[10,100,181]。其他神经假体可以使用闭环设备解码神经信号以控制刺激,因此,视网膜假体传递的信号应该能够重建原始刺激,即投射到视网膜上的动态视觉场景,从而有可能使用解码模型,从视网膜神经节细胞产生的脉冲模式中重建这种视觉场景[10,100]。更好的且可调节的神经假体,应该使用解码模型直接测量脉冲模式的精度,控制由视网膜神经假体产生的电刺激模式。
在本文中,我们仅重点讨论了嵌入式电极的视网膜神经假体的计算模型问题。当然,作为工程系统的视网膜神经假体,仍然存在许多并存的难题,例如,对高级材料的需求、电源设计、通信效率以及其他相关的硬件问题;这些问题已在许多很好的综述中都有涉及[13,15,16,18]。应当注意的是,还存在其他不同类型的视觉植入设备,包括光遗传学和化学光控开关的视网膜刺激植入设备,以及在视网膜以外的大脑其他视觉部位的植入设备。本文提出的计算问题也与这些视觉假体有关。除人工视觉植入设备外,另一研究方向是通过对干细胞的生物操作,如诱导性多能干细胞,对视网膜进行修复[182–184]。对于这些情况,更为相关的是了解生物神经元和神经环路的编码视觉场景的计算机制。人们可能需要付出更多的努力,才能将视网膜中发现的生物学原理纳入潜在解码模型中[34]。
鉴于实验神经科学和假体工程技术的这些进步,现在是时候通过使用视网膜脉冲数据和基于ANN的模型来提高我们对视觉计算的理解,从而获得更好的计算算法来提高视网膜神经假体的性能。在本文中,我们回顾了用于视觉计算的新型人工智能模型方面取得的一些最新进展。基于特征的建模方法,如深层CNN,在分析复杂的视觉场景方面取得了显著进展。对于某些特定的视觉任务,这些模型可以胜过人类[39]。然而,对于训练好的模型,不同任务之间的转换效率、泛化能力以及适应或转移学习的水平,仍远低于人类的表现水平[55]。利用神经元脉冲进行采样建模已成为一种新方法[57],它可以更好地利用大脑神经系统中的多种特性,如单个神经元和突触水平的噪声[52,157,160]。采样模型具有利用像素表示视觉场景的优点,可以方便地用于各种类型的视觉计算[168],但是,采样模型中使用的学习算法的效率仍然远远低于大脑神经系统的灵活性[185]。因此,将这两种方法结合,同时利用特征和采样的优点,进行视觉计算。为此,需要将视网膜视为一个混合神经网络,在这个神经网络中,视觉计算可以由不同的功能网络模块来完成。需要做更多的进一步工作,来将各种网络模块组合成一个混合网络,然后利用这个混合网络提取、处理和计算不同的视觉信息。这样的混合合作或超网络只是最近才被开始研究;特别是WTA网络可以作为一个更复杂的超环路网络模型中的功能模块,用于各种类型的计算[52,53,110,186]。我们认为,该研究方向上将会有更多的研究值得开展。
本文所描述的建模框架,并不局限于视网膜上的应用;它也可以应用于大脑中的其他视觉系统,以及其他人工视觉系统。这些算法的主要特点是利用了神经元脉冲。人工智能计算的最新进展之一,是设计下一代神经形态芯片和设备,这其中的数据格式是脉冲或事件[187–191]。因此,这些算法也可以应用于带有脉冲或事件信号的神经形态视觉相机。这些视网膜计算模型可用于模拟一系列脉冲,以便对任何给定的视觉场景进行编码和解码,包括静态自然图像、动态视频,甚至是由基于图像帧的标准相机捕获的实时视频[105]。将神经形态硬件与事件/脉冲计算算法相结合,这种思路并不仅仅局限于视网膜神经假体,也可以为下一代计算视觉开发出一种更好的人工视觉系统,因此,我们认为,人工智能、计算机视觉、神经形态计算、神经科学、生物工程和医学之间的相互交叉,可以增进对大脑的理解,促进开发下一代视网膜神经假体等这类人工视觉系统。这里讨论的人工眼的视觉计算算法,包括编码和解码视觉场景的模型,对于这种多科学交叉的系统方法将尤其重要。
致谢
本工作得到了中国国家基础研究计划(2015CB351806)、 国 家 自 然 科 学 基 金(61806011、61825101、61425025和U1611461)、 国 家 博 士 后创新计划(BX20180005)、中国博士后科学基金(2018M630036)、北京市科学技术委员会国际人才交流计划(Z181100001018026)、之江实验室(2019KC0AB03和2019KC0AD02)和英国皇家学会牛顿高级研究学者基金(NAF-R1-191082)的支持。
Compliance with ethics guidelines
Zhaofei Yu, Jian K. Liu, Shanshan Jia, Yichen Zhang,Yajing Zheng, Yonghong Tian, and Tiejun Huang declare that they have no conflict of interest or financial conflicts to disclose.