稀疏奖励场景下深度强化学习算法研究

2021-12-27周国明

科学与信息化 2021年12期

周国明

四川大学电子信息学院四川成都 610000

引言

深度强化学习[1](deep reinforcement learning ,DRL)是机器学习[2]的重要分支，它是在与环境交互中寻找最优策略的一类方法。DRL中智能体的目标是获得最大奖励，环境可以提供密集的奖励信号时DRL可以工作得很好，然而在许多实际问题中，奖励是稀疏的，稀疏奖励导致智能体无法有效的学习。实际上稀疏奖励问题会导致强化学习算法迭代缓慢、难以收敛，甚至根本无法进行学习[3]。因此，如何解决稀疏奖励带来的负面影响，研究稀疏奖励环境下的强化学习算法，至关重要。本文提出了一个使用智能体相邻两个状态之间的距离来作为智能体的内在奖励以驱动智能体对环境进行探索的方

1 基于内在激励机制的算法化

1.1 内在激励机制

由此可见，奖励在强化学习中起着非常重要的作用，它指导着智能体的学习。然而，在许多实际生活场景中，奖励是稀疏的，这意味着智能体很难获得奖励，甚至需要正确执行很长序列的动作才能得到环境的反馈，导致智能体很难学到解决目标任务所需要做的动作，无法学习到给定的任务。另一方面，由于缺少奖励信号，智能体需要与环境做大量的交互，获取足够多的样本数据，这会导致算法训练的非常缓慢，甚至无法收敛。因此，本文考虑如何为智能体提供额外的奖励信号来源，称之为内在奖励[1]。

1.2 基于状态距离的内在奖励生成算法

特征提取模块中使用的是不进行参数更新的卷积神经网络。卷积神经网络是一种特殊的神经网络模型，专门用于处理具有相似网格结构的数据。卷积是图像处理中一种有效的特征提取方法，而我们的实验环境为Atari视频游戏，它的表现形式是一帧帧的图像，所以我们使用卷积神经网络提取状态的特征。不进行参数更新的原因在于，首先我们需要稳定的内在奖励项，由于卷积神经网络是固定的，所以在整个训练过程中，提取到的所有状态的特征向量都是通过同一个范式得到的，保证了用特征向量做差得到的内在奖励项是稳定的；其次，如果要训练特征提取模块中使用的卷积神经网络，是比较困难的，虽然我们可以采取ICM模型[5]，但这会大大增加模型的量。

2 实验

为了测试本文提出的基于内在奖励机制的算法的有效性，必须要有一个合适的环境来进行测试。由于我们的算法是稀疏奖励相关的，我们需要外在奖励稀少的场景。本文从Open AI Gym工具包中选择了Atari视频游戏中的Space Invaders和Freeway。

Space Invaders提供的是一个具有相对密集的奖励反馈的环境，而Freeway则提供的是一个智能体进行需要搜索才能得到奖励的稀疏奖励环境[6]。我们选择这两个环境，一个奖励信号相对密集，另一个奖励信号稀疏，可以更好地看到本文所提出的内在奖励生成算法在稀疏奖励环境下的优越性。

选择的基础强化学习算法为A2C，它是在Actor-Critic算法的基础上，使用优势函数代替Critic网络中的原始回报[7]。比较原始A2C算法与添加了内在奖励机制的A2C算法（称之为IBA2C算法），分别在Space Invaders和Freeway下的表现效果。需要注意的是，由于智能体的目标是最大化来自环境的奖励信号值，所以在实验结果对比中，只使用了外在奖励值，内在奖励项是没有使用的。

从实验结果可看出，在Space Invaders场景中，A2C算法IBA2C算法基本上有相同的性能表现，IBA2C算法的表现稍稍优于A2C算法，两者都能够很快地到达一个很好的收敛。这表明，在外在奖励密集的场景下，智能体无须做很多的探索，仅仅依靠外在奖励信号的指导，就能够学会完成目标任务。在外在奖励稀疏的Freeway场景中， A2C算法的表现很糟糕，智能体基本上无法获得任何的外在奖励，而IBA2C算法表现优异，在经过大约2.4e7个时间步的训练后，可以快速得到一个很好的效果。实验结果表明，本文提出的内在奖励机制在稀疏奖励场景下可以显著提高性能。

3 结束语

本文针对稀疏奖励场景下的内在奖励机制进行了研究。引入内在激励机制，提出了一种新的内在奖励生成算法。本文提出的内在奖励生成算法利用一个固定的卷积神经网络提取状态的特征向量，把相邻的两个状态的状态特征向量的欧式距离作为内在奖励项。将内在奖励与外在奖励合成为一个奖励，使用这个合成的奖励信号来指导智能体的学习。最后，把提出的内在奖励生成算法与A2C算法结合在一起，在Atari视频游戏场景Space Invaders和Freeway中进行了对比试验，实验结果表明，本文提出的内在奖励生成算法可以显著地提高智能体在稀疏奖励环境下的表现。