基于强化学习的自然语言处理技术

2020-11-24冯少迪台湾长庚大学

数码世界 2020年3期

冯少迪台湾长庚大学

引言

随着人工智能技术的发展，机器翻译作为自然语言处理（Natural Language Processing，简称NLP）研究的重要组成部分受到人们的广泛关注。经过了多年的研究和努力，以机器翻译为代表的自然语言处理技术取得了巨大的进展，并且在未来有着广阔的应用前景。机器翻译（Machine Translation）是指通过特定的计算机程序将一种文本形式或声音形式的人工自然语言，翻译成另一种形式的人工自然语言，是计算机语言学、人工智能和数理逻辑相结合的一门交叉学科。现在，机器翻译已经成为世界自然语言处理研究的热门。网络化和国际化对翻译的需求日益增大，翻译软件商业化的趋势也非常明显。近年来，加入深度学习、强化学习（Reinforcement Learning，简称RL）等人工智能的机器翻译已经不止于简单的将一个个单词翻译成另一种自然语言，而是能够像人工翻译一样，不断向前回顾，能够理解结构复杂的句子，同时能够联系上下文进行翻译。最为明显的就是现在的部分机器翻译软件已经可以理解每一个代词具体指代何人或何事物，这在许多年前是不可想象的。实现这种功能的关键，分别依赖于两种神经网络架构：循环神经网络（Recurrent Neural Networks，简称RNN）和卷积神经网络（Convolutional Neural Network，简称CNN）。

1 强化学习

强化学习是人工智能领域热门的研究方向，它是一种与监督学习不一样的学习范式，即通过一个智能体与环境进行交互从而达到学习的目标。强化学习在机器人AI方面获得了很大的成功，从而引起了越来越多的关注。利用强化学习技术，可以更好地解决NLP中的两个经典任务：关系抽取和文本分类。在关系抽取中，用强化学习可以解决远程监督方法自动生成的训练数据中的噪音问题；在文本分类中，利用强化学习文本能够获得更好的结构化表示，并利用该表示得到了更好的文本分类效果。

强化学习的优势主要体现在：序列决策，即当前决策影响后面的决策；试错，即不告诉智能体怎样决策，让其不断试错；探索和开发，即探索一些低概率事件，开发是利用当前的最佳策略；未来收益，即当前收益可能不是最佳的，对未来来讲当前决策最佳。由Google DeepMind使用强化学习训练出了一个智能体，它在Atari 2600游戏中取得了令人感叹的表现。更令人惊讶的是，这种强大的性能仅仅是通过将游戏的屏幕和游戏过程中取得的奖励作为输入来实现的，这使通用人工智能的发展向前迈出了一大步。强化学习的目标是生成一个与环境自主交互的智能体，通过反复试验来学习最优行为。目前，研究人员已经开发了三种主要的方法来解决RL问题：基于价值函数的方法、基于策略的方法和行为批评家的方法。Google DeepMind使用的是一种基于价值函数的方法，即Deep Q-Network，它是一种深度卷积神经网络。以Atari 2600游戏中的Breakout为例，智能体的目标是通过控制小球，使它击中砖头来获取奖励，并用球拍接住小球来避免生命的损失。这是一个典型的RL问题，它训练一个智能体与游戏环境进行交互，并努力通过使用某些策略来获得最大的奖励。最终，通过迭代训练，智能体变得更加智能，能够与游戏环境进行交互并获得很高的回报。

DQN模型有几个重要的扩展。有些研究人员提出了一种使用竞争网络来学习状态的价值函数和与状态相关联的优势函数，并将它们结合起来来估计动作的价值函数的方法。Double-DQN使用两个估计量来解决DQN网络的过度估计问题。还有一个重要的扩展是优先级经验重放[，它使用了更加频繁地对重要经验进行采样的方法。

2 自然语言处理

目前，强化学习在NLP方向的研究主要在对话管理、文本生成、机器翻译、自动文本摘要、文本游戏、热点预测和推荐等方面。在对话管理方面，Williams等人提出了使用混合编码网络（Hybrid Code Networks，简称HCNs）与监督学习和强化学习混合的方法，HCNs可以大大减少所需的训练数据的数量，同时还可以保留对话状态的潜在的关键点，并且他们还通过改变梯度的更新策略来使用监督学习或者强化学习对神经网络进行训练，对原有的对话管理技术进行了优化。

现实世界中的许多问题都可以使用序列到序列（sequence to sequence）的方式来学习。其中重要的应用包括文本生成、机器翻译等。这类问题可以表示为将一个单词句子映射到另一个单词序列。对这些任务进行建模最主要的挑战是文本序列的长度是可变的，这些通常是未知的先验知识。为了解决这个问题，有研究人员提出了一种编码器-解码器-长-短期存储器（Long Short-Term Memory ，简称LSTM）体系结构，它被证明是一种有效的解决方式。其核心思想是使用一个LSTM对输入序列进行编码，从而得到一个固定维度的向量来表示输入序列。随后，使用这个固定维度的向量，作为另外一个LSTM的输入，进行解码得到最终的输出序列。解码过程本质上是一个递归神经网络（Recurrent Neural Network，简称RNN）语言模型。Guo[3]等人，提出了一种使用深度Q网络（Deep Q-Network，简称DQN）来进行迭代解码的策略，首先使用编码器-解码-LSTM网络对输入序列进行编码，在此过程中自动生成文本的信息特征来表示DQN的内部状态和潜在的操作列表。然后使用DQN对输出序列进行迭代解码，DQN会从操作列表中选择哪个单词来修改当前解码序列，新编辑的输出序列随后作为输入，送入下一解码迭代的DQN当中。

关于提取文本摘要，最著名的解决方案就是Goldstein等人提出的使用最大边际相关性（MMR）。然而，由于其贪婪性，MMR不能考虑整个摘要的质量。另一种解决方案是使用优化技术，如整数线性规划（ILP）来推断句子的分数并且同时考虑整个摘要的质量。此外，还有少数研究者提出了使用RL来进行自动文本摘要的方法（Goldstein等人）。他们的研究主要是在基于RL的文本自动摘要中使用手工来标记复杂的特征。然而，为任务选择重要的特征以及为新应用程序重新生成新的特征是非常困难且耗时的工作。目前，最主流的NLP程序都是用深度学习来减轻手工标记特征的负担，有研究人员提出了一种在RL方法中使用简单特征嵌入的方法来对自动文本摘要任务进行优化。

从文本中学习控制策略也引起来研究人员极大的兴趣。主要的应用方向包括解释软件帮助文档、导航和计算机游戏方面。游戏为基础语言分析提供了一个丰富的领域。Gorniak和Roy开发了一个游戏角色，可以通过语音指令来适应游戏环境。命令到动作的基础是从一个用动作和状态属性手动注释的脚本中学习获得的。He和Ostendorf[6]提出了一种引入在线流行度预测和跟踪任务作为基准任务，以结合组合的自然语言动作空间进行强化学习的方法，采取以自然语言为特征的选项，以最大化长期回报为目标，考虑具有组合动作空间的任务，其中每个动作是一组多个相互依赖的子动作。