APP下载

记忆增强型深度强化学习研究综述

2021-03-21曾凡玉郭九霞

小型微型计算机系统 2021年3期
关键词:记忆体深度经验

汪 晨,曾凡玉,郭九霞,2

1(电子科技大学 计算机科学与工程学院,成都 611731) 2(中国民航飞行学院 空中交通管理学院,四川 广汉 618307)

1 引 言

深度强化学习在环境认知和控制策略中表现突出,能实现智能体(如真实机器人、虚拟机器人或游戏中的人物等)从被动感知环境到主动认知环境,且具有较好的通用性.但在动态复杂的现实环境中,智能体的行为具有高维的状态空间,此时深度强化学习算法存在复杂度较高,求解效率低的问题.

记忆是实现智能体更高级行为的重要途径,人类的复杂行为方式都是基于其拥有记忆能力产生的.在深度强化学习模型中引入记忆,一方面能充分利用先验知识,使智能体能直接利用过往事件中收集到的信息来指导行为,减少试错次数,加快训练的收敛速度;同时,记忆使得深度强化学习智能体具有某种程度的主动认知和推理能力,使其快速遍历环境状态,帮助智能体更好地完成目标任务.

常用的记忆体有LSTM[1]/GRU[2],为了增强智能体应对复杂环境的能力,研究者往往通过增加LSTM/GRU的数量来提高记忆的容量.然而,它们的训练参数量会随着记忆体容量的增大而急剧上升,使得训练变得困难.部分研究者尝试增大记忆体容量的同时保持训练参数量不变,将记忆体与参数训练过程相分离,提出了一些外部记忆体;这些外部记忆体都是基于神经网络结构,故又被称为记忆增强型神经网络.记忆增强型神经网络将网络训练参数与记忆体容量相分离,因此增大记忆体的容量,不会导致训练参数的增加.常见的记忆增强型神经网络包括:经验回放(Experience Replay)[3]、记忆网络(Memory Networks)[4,5]、情景记忆(Episodic Memory)[6]、神经图灵机(Neural Turing Machines,NTM)[7]及其改进型的可微分计算机(Differentiable Neural Computer,DNC)[8].

如图1是记忆增强型深度强化学习的结构图.智能体与环境交互,获取环境状态信息;智能体从记忆中读取或写入有助于其交互的信息,执行动作决策;环境以奖励的形式对智能体执行的动作给出反馈.如此反复该过程,最终达到累计奖励最大化,学习到一个环境到状态的映射关系,即策略.

图1 记忆增强型深度强化学习结构图Fig.1 Framework of memory-augmented DRL

尽管深度强化学习领域已有部分研究综述被发表,一些综述[9-12]在整体上介绍深度强化学习的基础理论与应用;另外,部分学者对深度强化学习基础理论的某一分支进行了详细综述,如分层深度强化学习[13]、多智能体深度强化学习[14]等;同时,其他学者也综述了深度强化学习在某一具体领域的应用,如视觉导航[15]、无人驾驶[16]、游戏[17,18]、通信[19,20]等.然而,目前还没有一篇全面并系统地对记忆增强型深度强化学习研究进行综述;因此,本文将对记忆增强型深度强化学习的研究进展、存在的问题、以及可能的研究方向进行详细阐述,希望这篇综述能够促进该领域的发展.

本文首先介绍强化学习的基本理论,以及常用的深度强化学习算法;接着对常见记忆增强型神经网络进行了阐述;同时,对记忆增强型深度强化学习络进行分类并介绍了其研究进展;然后,对常用的训练环境进行介绍;最后对记忆增强型深度强化学习存在的不足与未来研究方向进行了讨论与展望.

2 强化学习

强化学习过程属于马尔科夫决策过程(Markov Decision Process,MDP).通常,将MDP定义为一个四元组[21]:

(S,A,R,P)

(1)

其中,S表示环境的状态信息,st∈S表示智能体在t时刻的环境状态;A为智能体可执行的动作,at∈A表示智能体在t时刻执行的动作;R是奖励函数,rt∈R表示智能体在t时刻获得的奖励值;P为状态转移概率分布函数,表示智能体执行动作at从状态st转移到下一状态st+1的概率.

强化学习智能体以累积奖励最大化为训练目标,t时刻的累积奖励可表示为:

(2)

其中,γ∈[0,1]是折扣因子,反映当下反馈的重要性随着时间减弱.

状态值函数Vπ(s)用于评价状态的好坏,其定义如下:

(3)

(4)

行为值函数Qπ(s,a)用于评价动作的好坏,其定义如下:

(5)

(6)

通过贝尔曼公式,更新Q值:

Qi+1(s,a)=Eπ[Rt+γmaxQi(st+1,at+1)|St=s,At=a]

(7)

其中,当i→∞,Qi逐渐收敛至最优行为值函数,获得最优策略:

π*=argmaxa∈AQ*(s,a)

(8)

3 深度强化学习

深度学习飞速发展,许多经典的深度神经网络结构被相继提出:AlexNet[22]、VGG[23]、GoogleNet[24]、ResNet[25]、DesNet[26]、MobileNet[27]以及GAN[28].深度学习的优势在于感知能力,强化学习的优势在于决策能力,两者优势结合形成了深度强化学习,并成功应用于AlphaGo[29].近年了,一些经典的深度强化学习算法被研究者们提出,包括深度Q网络(Deep Q Network,DQN)算法[3],深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[30],异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法[31],置信域策略优化(Trust Region Policy Optimization,TRPO)算法[32]及其改进版近端策略优化(Proximal Policy Optimization,PPO)算法[33].

按照最常用的策略更新和学习方法标准来分类,深度强化学习可分为:基于值函数的深度强化学习、基于策略搜索的深度强化学习和基于演员-评论家的深度强化学习.

3.1 基于值函数的深度强化学习

求解最优策略等价于求解最优值函数,这种求解最优策略的方式称为基于值函数的深度强化学习,该类算法中使用最广泛的是DQN 算法.DeepMind的Mnih等人[3]提出了DQN,开创性地将深度卷积网络与传统强化学习Q-learning结合在一起,成功地直接从高维的输入学习控制策略,在多种Atari游戏上取得了超越人类水平的成绩.

相对于Q-learning,DQN主要做了3个方面的改进:利用深度卷积网络逼近值函数;训练过程中使用经验回放;设置单独的目标网络处理时间差分(Temporal difference,TD)的误差.在DQN的基础上,各种深度强化学习算法相继被提出,如深度双Q网络[34]、对偶Q网络[35]、深度循环DQN[36]等.

3.2 基于策略搜索的深度强化学习

不同于求解最优值函数间接得到最优策略,基于策略梯度的强化学习通过策略梯度函数在策略空间内搜索得到最优策略.π(a|s;θ)为参数为θ的策略,At是优势函数,通过对累计奖励的期望E[Rt]进行梯度上升来更新π(a|s;θ),如式(9)所示:

(9)

TRPO[32]及其改进版PPO[33]是使用较多的基于策略搜索的深度强化学习算法.DQN[3]和A3C[31]等深度强化学习算法在训练时存在一定的波动性,研究者们思考:能不能找到这样的一种方法,减小深度强化学习算法波动的同时保持其策略稳定上升.OpenAI的Schulman等人[32]找到一种衡量策略优劣的计算方法,提出了置信域策略优化算法TRPO,TRPO保证了每一轮更新后的策略保持单调提升.TRPO计算过程相对复杂,并无法与参数共享的网络架构兼容,Schulman等人为了解决TRPO的这方面问题,提出了PPO算法[33],将TRPO中的二阶梯度约束项改进为一阶梯度的惩罚项,极大地简化了计算过程和计算量.

3.3 基于演员-评论家的深度强化学习

基于值函数的方法和基于策略搜索的方法有各自的优点和缺点[21]:

1)策略搜索方法可以处理动作空间连续和状态空间 大的任务,并能直接将策略的优化函数参数化,收敛性好;但策略搜索方法无法直接对产生的策略进行评价,导致策略梯度方差大.

2)值函数方法可以评价动作的好坏;但其无法对动作空间连续或状态空间过高的的任务进行有效求解.

基于演员-评论家(Actor-Critic,AC)的强化学习算法融合了两者的优势,利用策略搜索方法更新策略,同时结合值函数来对策略进行评价.如图2为Actor-Critic架构图,Actor网络用来输出动作,Critic网络用来评估动作选择的好坏.DDPG与A3C是两个使用最广泛的基于演员-评论家的深度强化学习算法.

晋南办事处销售员张逸骄,是去年招进公司销售队伍、专业对口的大学生,他与当地52户农民交上了朋友。除学习市场深耕的基础知识外,他大多数时间就是进行农化服务,走进农民中间,走进田间地头,主动为农民讲解切合当地农作物实际的科学施肥知识、田间管理知识。在春耕、夏种、秋收、冬藏时节,张逸骄主动参与、跟踪服务、交流沟通、贴心服务。在当地农民朋友心中,张逸骄就是天脊集团精准服务形象的“标签”。

图2 Actor-Critic结构图Fig.2 Framework of Actor-Critic

Silver等人在确定性策略梯度(Deterministic Policy Gradient,DPG)算法[37]的基础上提出了深度确定性策略梯度DDPG算法[30],解决了DQN只能用于离散动作的情况,DDPG可应用于连续动作的任务学习.DDPG算法基于Actor-Critic框架,在动作输出方面采用Actor网络来拟合策略函数,直接输出动作,可以应对连续动作的输出及大的动作空间,同时采用Critic网络拟合值函数估计策略优势.此外,DDPG还采用了类似DQN结构,Actor和Critic都有相应的网络和目标网络.训练决策模型时,只需训练Actor网络参数和Critic网络参数;每间隔一段时间,将Actor网络参数和Critic网络参数分别传递给Actor目标网络和Critic目标网络.

A3C由DeepMind的Mnih等人[31]提出的,A3C算法基于Actor-Critic框架引入了异步训练和优势函数,加快了算法的训练速度.A3C无需经验回放机制,异步训练建立不同线程的智能体保证了搜索策略的多样性.每个线程的智能体并行地与环境交互,降低了训练样本的相关性,同时提高了算法的学习速度.

4 记忆增强型神经网络

记忆增强型神经网络也称为外部记忆体.常见的内部记忆体有LSTM/GRU,它们的训练参数量会随着记忆体容量的增大而急剧上升,使得训练变得困难.常见的外部记忆体结构:经验回放[3]、记忆网络[4,5]、情景记忆[6]、神经图灵机[7]及其改进型的可微分计算机[8].外部记忆体将训练参数与记忆容量相分离,因此增加记忆体的容量,不会导致训练参数的增加.

4.1 经验回放

如图3所示为经验回放结构图,它存放着智能体的经验单元et=(st,at,rt,st+1),不同时刻的经验单元构成了训练数据集Dt=(e1,e2,e3,…,et).在智能体的训练过程中,经验回放具有以下几个优势[3]:

图3 经验回放结构图Fig.3 Framework of experience replay

1)每个时刻的经验单元et会被重复使用,极大地提高了训练数据的利用率;

2)由于连续的样本(即经验单元)具有高度的相关性,直接用连续的样本训练智能体会导致其学习效率低下;经验回放能够随机打乱训练数据,去除数据之间的相关性,减小训练方差;

3)经验回放能够平均行为的分布,平滑学习过程并避免参数的振荡与发散.

4.2 记忆网络

现有的 RNN 在长期记忆中表现不佳,Weston等人[4]提出了记忆网络MemN来保存问答的知识或者聊天的语境信息.如图4所示,MemN包括4个重要的组件:输入(Input)、泛化(Generalization)、输出(Output)和回答(Response).输入组件将文本转换为特征向量,泛化组件更新记忆槽里面的记忆信息,输出组件将问题文本转换为向量表示并读取相关记忆信息,回答组件根据记忆信息与问题文本的向量表示输出文本答案.

图4 记忆网络结构图Fig.4 Framework of memory network

4.3 情景记忆

情景记忆是指个体在特定时间和地点时候的记忆.情景记忆可以提升智能体在复杂状态空间中的样本使用效率,基于少量数据学习,有效近似值函数,同时建立动作与奖励的长期依赖.

图5 情景记忆结构图Fig.5 Framework of episodic memory

4.4 可微分神经计算机

DNC由一个可以读写外部记忆矩阵的神经网络组成,类似于传统计算机中的随机存取存储器.DNC既可以像传统计算机一样使用它的存储空间来表征和操作复杂的数据结构,也能像神经网络一样从数据中学习.

图6 可微分计算机结构图Fig.6 Framework of differentiable neural computer

如图6所示,DNC包括4个部分[8]:控制器、读出头、写入头和记忆体.控制器的作用是将输入信息写入记忆体,以及生成可以被解读为答案的输出;读出头通过内容寻址或时间记忆链接的方式读出数据;写入头通过内容寻址或动态记忆分配的方式将数据写入记忆体;记忆体是一个多维矩阵,用于存储数据.内容寻址方式适用于具有关联性的数据,时间记忆链接方式适用于序列数据的读出,动态记忆分配方式为写入头提供未使用的记忆存储位置.

5 记忆增强型深度强化学习

记忆是实现智能体更高级行为的重要途径,将记忆增强型神经网络引入深度强化学习,让智能体充分利用先验知识,提升智能体的主动环境认知与推理能力,做出有效决策.记忆增强型深度强化学习广泛应用于智能体的导航、机械臂控制、游戏以及自然语言处理等领域.记忆增强型神经网络使得导航智能体能够应对部分可观测且大范围环境;使得机械臂能够执行精准的操作;使得游戏人物能够完成更灵活的动作;使得自然语言处理对话系统更智能.

根据不同的记忆增强型神经网络与深度强化学习结合,我们将记忆增强型深度强化学习细分为:基于经验回放的深度强化学习,基于记忆网络的深度强化学习,基于情景记忆的深度强化学习和基于可微分计算机的深度强化学习.

5.1 基于经验回放的深度强化学习

传统的经验回放池[38]采用均匀采样,忽略了经验之间的重要程度.为了提高抽样效率,Schaul等人[39]提出了优先级经验回放(Prioritized Experience Replay,PER),利用时间差分误差来衡量经验的优先级;PER将重要的经验被回放的概率增大,加快了智能体在Atari 2600中的学习效率.为了让优先级经验回放用于多任务,Yin等人[40]将其扩展到多任务强化学习领域,提出了分层优先经验回放(Hierarchical prioritized experience replay,HPER)机制,从多任务的经验池中选择性地获取训练数据;经验回放被划分为几个采样分区,每个分区内,根据经验的优先级对其进行进一步采样,并执行重要性采样;HPER使得DRL智能体在许多Atari 2600中表现优异.另外,Horgan等人[41]提出了分布式优先级经验回放(Distributed Prioritized Experience Replay,DPER),对传统DQN、DDPG使用分布式actor获取经验回放数据,并优先选择更重要的经验数据进行回放,从而使深度强化学习网络训练得更有效率.另外,Kapturowski等人[42]解决传统经验池的参数参滞后导致RNN 隐藏状态滞后的问题,提出的具有循环经验池的分布式DQN算法在Atari-57和DMLab-30上显著优于人类水平.Cha等人[43]为了解决分布式强化学习存在通信开销大与智能体之间隐私保护的问题,提出了代理经验回放(Proxy experience replay,ProxER),ProxER提升了分布式强化学习的智能体之间的通信效率和数据的隐私保护.Messaoud等人[44]将先前经验轨迹的数据存入经验回放中,在每次迭代中选取一批样本,对其平均损失执行随机梯度下降;智能体可以高效地解决语义分割中高阶条件随机场的推理问题.

传统强化学习需要手工设计奖励函数,但该过程复杂且不可控;如果从简单的奖励函数(如二值奖励)学会任务,就无需设计复杂的奖励函数.为此,Andrychowicz等人[45]提出了事后经验回放(Hindsight Experience Replay,HER),HER将失败经验中到达的状态视为伪目标,从失败的经验数据中学习,使得基于深度强化学习的机械臂在二值和稀疏奖励的情况下也能学习到好的技能.Lu等人[46]将HER推广至对话学习领域,提出了修剪型HER(Trimming-based HER,T-HER)和拼接型HER(Stitching-based HER,S-HER);T-HER和S-HER对失败的对话进行修剪和拼接来生成成功的对话数据,最后训练DQN学习对话策略.对于HER,并非所有的失败经验都有效,使用所有失败经验导致智能体学习效率不高,Fang等人[47]增加好奇心机制,让智能体自适应地选择更有效的失败经验,提升DDPG在机械臂控制方面的学习效率.

一些研究者将基于经验回放的深度强化学习应用于智能体导航领域.Bruce等人[48]将机器人一次遍历环境的世界模型存入交互式经验回放中,让智能体与世界模型反复交互获得大量训练数据以使其学会导航;实现了不需要模型微调,机器人就能在真实环境中从一个位置到达指定目标.Eysenbach等人[49]提出了一种基于经验回放的规划控制算法,该算法把到达一个较远的目标状态的任务分解成一系列简单的任务,每一个任务对应于达到一个特定的子目标.利用DQN/DDPG算法构建环境状态的有向图,有向图的节点和边分别对应环境的观察和它们之间的预测距离;节点存于经验回放中,通过搜索经验回放自动生成此子目标序列,使智能体能够在稀疏环境下快速学会导航规划.Singla等人[50]将经验回放用于无人机,并结合深度回复式Q网络实现无人机在非结构和未知的室内环境中自主避障.

5.2 基于记忆网络的深度强化学习

Oh等人[51]利用记忆网络MemN提出了上下文相关记忆检索(Context-dependent memory retrieval)读取机制,基于该记忆读取机制设计了3种新的记忆型智能体网络结构:记忆Q网络(Memory Q-Network,MQN)、循环记忆Q网络(Recurrent Memory Q-Network,RMQN)、反馈式循环记忆Q网络(Feedback Recurrent Memory Q-Network,FRMQN).这些基于MemN的DRL智能体可以在部分可观测的Minecraft中主动感知环境,其学习到的技能具有较好的泛化能力.

5.3 基于情景记忆的深度强化学习

Tang等人[52]提出了一种基于情景记忆神经启发的认知导航模型,该模型综合了内嗅皮层的认知映射能力和海马的情景记忆能力,建立环境认知地图.认知地图和情景记忆之间的信息通过各自的编码和解码方案进行交换,该认知导航模型实现了移动机器人在真实环境中的定位与导航.Chin等人[53]提出了一种情景记忆的无监督学习导航模型—增强情景记忆自适应共振理论(Enhanced Episodic Memory Adaptive Resonance Theory,EEM-ART),EEM-ART由多层ART网络组成,将机器人的经验分类和编码到环境中,并生成认知地图供机器人连续地进行路径规划和目标导航.除了利用情景记忆存储智能体导航的环境认知地图,Savinov等人[54]将好奇心与情景记忆结合,缓解导航环境中奖励的稀疏性;情景记忆存储了丰富的环境信息,通过比较当前观察值与情景记忆中的观察值为智能体提供额外的奖励,在VizDoom和DeepMind Lab中智能体能够快速学会导航能力.

情景记忆同样也可以提高深度强化学习的样本效率.为了提高DQN的采样效率,Lin等人[55]提出了情景记忆深度Q网络(Episodic Memory Deep Q-Networks,EMDQN),在EMDQN的训练过程中,不断把历史最优的交互轨迹数据存储在情景记忆中,同时不断取出训练;EMDQN学会Atari游戏仅需DQN的五分之一的交互次数.另外,传统的基于情景记忆的强化学习使用类似表格的记忆体,将经验数据作为不相关项进行存储,样本效率有待进一步优化.联想记忆(Associative Memory)能够通过经验之间的联系来联想出过去的经验,Zhu等人[56]借助联想记忆的优势,提出了基于联想记忆的情景强化学习(Episodic Reinforcement Learning with Associative Memory,ER-LAM);ER-LAM将相关的经验轨迹关联起来,使智能体推理更有效的策略,在导航实验和Atari游戏中,ER-LAM在样本效率方面得到明显优化.受人类联系记忆的启发,Banino等人[57]提出了一种情景记忆灵活组合的深度网络,在配对联想推理任务中智能体可以进行更长距离的推理,具有高效的样本效率.Cornia等人[58]通过情景记忆向量和编码与解码模块之间的网状连接来利用先验知识,将情景记忆结构应用于图像字幕生成.

研究者也利用情景记忆解决智能体在部分可观测环境中学习问题,实质上也是提升智能体在部分可观测环境中的样本使用效率.Wayne等人[59]引入集合记忆(Memory)、强化学习(Reinforcement Learning)和推理网络(Inference Network)的模型MERLIN,该模型通过一个预测性建模过程来引导记忆的形成,MERLIN能够成功地解决来自心理学和神经科学行为研究的标准任务.

情景记忆也被用于近似值函数.Xiao等人[60]将情景记忆和蒙特卡洛树搜索结合应用于围棋游戏,情景记忆结构中的每个存储位置都可以包含某个特定状态的信息,通过综合类似的状态的估计结果,情景记忆可以生成每个状态的估计值;相较于原始的蒙特卡洛搜索算法,基于记忆的蒙特卡洛搜索在围棋中的表现更好.

5.4 基于可微分计算机的深度强化学习

基于可微分计算机的深度强化学习广泛用于智能体导航,目的在于利用DNC提升深度强化学习智能体在动态复杂环境或部分可观测环境下的决策能力.Khan等人[61]为了解决在部分可观测空间下路径规划问题,基于值迭代网络(Value Iteration Network,VIN)基础上加入外部记忆DNC,提出了记忆增强型控制网络(Memory Augmented Control Networks,MACN).MACN将网络分为2部分,带有VIN的底层网络学习环境状态特征和值函数图(Value Map),带有DNC的高层网络学习路径规划策略.Zhang等人[62]使用外部存储器DNC让智能体学习探索环境,通过软注意机制将SLAM的定位、运动预测与测量更新部分嵌入到深度强化学习网络中.基于外部存储器结构DNC的寻址使用外部存储器作为智能体环境感知后的内在表征,增强了传统SLAM方法的鲁棒性与适应性.除了将丰富的环境特征存入DNC以提高智能体导航决策能力,研究者也尝试直接将环境的地图信息直接存入记忆体.Parisotto等人[63]基于DNC提出了神经地图(Neural Map),将环境的地图信息映射到DNC记忆体,并设计一种适应性强的读写操作,让网络的计算量不随地图的变大而增大.神经地图的外部记忆体存储了环境地图的历史信息,使得智能体的导航能力可以泛化到未见过的VizDoom环境.

与其他记忆增强型神经网络类似,DNC同样可以提高样本效率.Shi等人[64]将DNC的初始版本NTM用于概念学习,通过综合隐藏嵌入和标记向量的相似性,同时对记忆槽内的历史样本取平均来更新记忆信息,使得智能体在几个少样本数据集上表现很好.Beck等人[65]将递归网络与顺序无关并基于DNC的汇总记忆相整合,从最近的观测序列中推断出状态的隐藏特征,使智能体可以回忆起过去任何时间曾经观察到的信息,极大提高了智能体在Minecraft游戏中的表现.La等人[66]利用DNC的数据存储和推理能力,对序列数据进行解释;通过跟踪预测时的记忆访问,以及网络在输入序列的每一步存储信息,每次与预测最相关的记忆信息可以被检索到;在迷宫和故事完形填空的任务中,基于DNC的深度强化学习具有很强的推理能力.

6 训练环境

深度强化学习常用的训练环境包括[67]:Gym、Gazebo、ViZDoom、DeepMind Lab、Minecraft、TORCS和 PySC2.表1为各训练环境的简介和网址链接.

表1 深度强化学习训练环境Table 1 Training environments for DRL

Gym由OpenAI推出,不仅包括Cart-Pole、Mountain-Car等简单游戏,同时还集成了复杂机器人交互控制环境,如Mujoco、Roboschool等.Gazebo集成于机器人操作系统(Robot operating system,ROS)中,能够在复杂的室内和室外环境中准确有效地模拟机器人群,提供了高保真的物理模型.VizDoom是一种基于“毁灭战士”游戏(第一人称射击类游戏)的强化学习实验平台,支持多智能体和竞争环境下测试智能体.DeepMind Lab是DeepMind提出的一个第一人称3D游戏迷宫,包括收集水果、走迷宫、穿越危险区域、以及快速学习并记住随机生成的环境.Malmo是基于游戏“我的世界”Minecraft设计的虚拟训练环境,研究者可以通过该游戏训练智能体自主地应对复杂环境.TORCS是一个跨平台的赛车游戏模拟器,可作为强化学习的研究平台.PySC2是DeepMind开源的StarCraft II的研究平台,允许研究者使用该游戏来训练自己的智能体.

7 发展趋势与展望

没有记忆就没有真正的智能,记忆增强型深度强化学习受到越来越多研究者的关注,并取得了一些重要发展.同时,它也面临着一些不足与挑战,主要体现以下几个方面:

1)记忆的可解释性

目前,记忆增强型神经网络主要存储了一些反映状态信息的数值,其物理意义尚不明确.对记忆体可解释性的研究对提升其使用效率具有重要的意义.

2)不同记忆增强型神经网络的融合

不同的记忆增强型神经网络具有不同的记忆优势,如何发挥各自的优势,设计一个通用且高效的记忆体具有重要的研究价值.

3)记忆信息的有效编码与存储

记忆增强型神经网络通过高维特征向量存储记忆信息,但记忆信息的不断增加会导致存储空间的不断增大.如何有效地对记忆信息进行编码,利用尽量少的存储空间保存记忆信息成为了解决这一难题的关键.

4)记忆信息的泛化性

记忆信息有助于提高深度强化学习算法性能,然而记忆信息往往保存着某一特定场景的结构性信息.如何增强记忆信息的泛化性能,使记忆信息表征环境的通用信息,利用通用的记忆信息提高深度强化学习的泛化性能,实现深度强化学习的实际应用值得进一步研究.

5)实时性与高效性

目前,基于记忆增强型的深度强化学习计算量较大,研究如何设计或通过神经架构搜索等方法获得轻量级网络来降低模型的参数量和计算量,是其投入实际应用面临的重要问题.

8 结束语

本文对记忆增强型深度强化学习进行了分类介绍与讨论,介绍了典型的深度强化学习算法和记忆增强型神经网络,并分别对基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习算法进行了综述.同时,介绍了深度强化学习常用的训练环境.最后对记忆增强型神经网络存在的挑战与未来研究方向进行了讨论.

猜你喜欢

记忆体深度经验
四增四减 深度推进
深度思考之不等式
2021年第20期“最值得推广的经验”评选
简约教学 深度学习
2018年第20期“最值得推广的经验”评选
Can lucid dreams kill you?
当你遇见了“零经验”的他
深度挖掘