APP下载

深度强化学习研究进展

2021-11-28张鹏昊秦斌

电脑知识与技术 2021年28期
关键词:深度学习人工智能

张鹏昊 秦斌

摘要:随着人工智能的发展深度强化学习越来越多进入人们的视线,它是以一种通用的形式把深度学习的感知力和强化学习的决策能力结合起来,继而通过高维度的方式感知信息训练模型发出决策,也可以通过分层强化学习来将复杂的深度学习问题化简为单一的问题,从而解决了空间维数灾难的问题。该文介绍了深度强化学习的理论知识还有几种最新的前沿算法,以及在现实生活中的各种各样的应用,最后对相关领域进行了总结和展望。

关键词:深度学习;强化学习;深度强化学习;人工智能;智能应用

中图分类号:TP3       文献标识码:A

文章编号:1009-3044(2021)28-0104-03

开放科学(资源服务)标识码(OSID):

1949年春季,DONALD HEBB提出了历史上大名鼎鼎的赫布理论(Hebbian theory),他解释了在人类学习过程中大脑里的神经元[1]是怎么变化的,标志着机器学习[2](Machine Learning)的诞生。1956年的一个夏天,一群具有创新总结能力的年轻科学家一起聚会,其中包括麦卡赛、明斯基和罗切斯等人,坐在一起讨论如何用计算机将人脑的思维模拟出来的问题,由此,人工智能(AI)这门未来最火热的学科正式诞生。2016年秋季人工智能[3]团队DeepMind把深度学习(Deep Learning:DL)和以决策能力闻名的强化学习(Reinforcement Learning:RL)创新性地结合起来,由此标志着深度强化学习(Deep Reinforcement Learning:DRL)算法第一次问世,这直接开启了一波学习人工智能的新热潮。

近些年来,DRL算法应用到了越来越广泛的领域,比如图像识别[4]分析,机器人,电子皮肤[5],目标识别,自动汽车,自动泊车等多个领域,显示出了DRL的适应性和未来的潜在发展能力。所以,深入研究探索DRL算法无论对于人工智能领域还是未来人类智能家居方面都有着不可替代的意义。

1 预备理论

1.1 深度学习

1956年,能模拟人类感知能力的机器被一位心理学家Frank Rosenblatt首次提出,并为之进行过无数次试验后,为之命名为感知机(Perceptron),而单层神经网络[6]的出现就给DL的出现奠定了重要的基础。直到2006年,Geoffrey Hinton提出了一个多层神经网络,这个神经网络对比单层神经网络的话,是有更强的总结能力和学习能力的,对所学习的东西那些最根本的数据都有着最贴切地表达,这实现了低级特征到高级特征的过度。

深度学习的发展阶段:起源阶段:BP模型,海布规则,感知机。(1940s-1980s)发展阶段:Hopfield神經网络,BP算法,梯度消失[7]等问题。(1980s-2000s).

1.2 强化学习

强化学习是一个从属于机器学习当中非常重要的学习工具,他的其他名字还有增强学习[8]等,是大类机器学习当中最重要的的方法论之一,智能体在和环境交互时,所在的环境会给予对应的反馈,通过这个反馈智能体[9]会自行决定应该采取什么动作来适应这个变化,马尔可夫决策(Markov Decision Process, MDP)过程就是最常见的强化学习模型,如图1所示。在另一方面,该决策过程会影响智能体的变化,直到智能体进入一个新的稳定的状态,此时一次完整的迭代才算结束,智能体会将该过程中所有的变化全部记录下来直到形成一个新的智能体。

2 深度强化学习主流算法

2.1 Q-LEARNING

1989年Q-LEARNING[10]的方法由Watkins提出。1992年,他和Dayan证明了其收敛性,对于智能体的某一个状态,以及智能体执行的每一个动作,有很多动作是不是及时的,比如有些情况,买面包能买到好的和坏的,这并不是我们能决定的,而且也不是及时反馈的,所以最好的情况是智能体可以对未来的情况进行有效的期望总结,那么Q-LEARNING就都具备这些我们希望得到的结果。

有的时候我们还会引入一个概念折扣因子[-γ],如果在某一个时刻智能体获得了一个奖励[X],那么对于U时间前的动作的期望和奖励献是X*[γ^u],在经济学当中这个公式也得到了广泛的应用。这就叫Q函数,也就是现在我们经常说的Q-LEARNING,他能够计算期望奖励。如果智能体的空间状态是有限的,转移概率就是可估计的,我们就可以用期望动态规划来解出来Q函数,一般情况下我们需要进行无数次的迭代探索来选择Q学习的动作,这叫作Q-LEARNING。

2.2 DEEP Q-LEARNING

2013年,谷歌旗下的DEEPMIND位于英国伦敦,是一个致力于发展前沿人工智能的企业,首次将神经系统[11]的知识和人工智能领域结合在一起的企业,在NIPS WORKSHOP上提出了DEEP Q-LEARNING,主要的任务是让AI智能体系统在像素中学会进行ATARI游戏,在之后2015年还登上了NATURE的封面,如果智能体的空间是连续的,那么规划的状态数就是无限的,我们用深度[Q]网络来模拟这个[Q]函数,这个就是DQN,他会把智能体所有的信息(状态、动作、奖励、期望等等)存储到内存中,这些东西在训练的时候就可以多次使用,称之为Memory Replay,我们注意到当前的每个动作的拟合的奖励,还要拟合我们未来可能要引入的噪声,来形成一个延迟更新的Q函数,来形成一个新的[Q]值,我们通常称之为Target Network。

2.3 DQN改进算法

2015年,DQN有三个主要的改进,分别是Double DQN,Dueling Network和Prioritized Replay,我们来分别说一下每个算法的具体改进步骤,Double DQN是改进了Q值运算的计算方法,这个动作考虑到Q值以及他的状态动作都相关。但是具体到现实情况以后,我们实际上更加注重动作所带来的奖励,Dueling Network则是对DEEP Q-LEARNING的网络结构进行调整和改进,Prioritized Replay是在探讨replay memory的采样优先级的问题,这其中Double DQN,Dueling Network这两种算法不困难只需要改几行代码就可以实现该功能,但是Prioritized Replay这个算法却需要很多的工作,还有额外的维护数据结构等工作,会消耗很大量的时间和工作。

2.4 Policy Gradient

Richard S.Sutton在2000年在NIPS上提出了policy gradient的方法,policy gradient是一种用状态来进行直接的输入输出的方法,他是更为直接的,输入一个动作输出一个动作,进而获得奖励来更新出智能提示如何决断下一个动作出现的概率,但是这种方法并不是最优策略。

2.5 Deep Deterministic Policy Gradient

Deep Deterministic Policy Gradient的决定行为策略是由David Silver在前些年提出的,大致的算法是,当神经网络的概率方差无限趋近于零的时候,就达成了我们需要的东西,运用了actor-critic算法框架,把DEEP Q-LEARNING和Policy Gradient混合了起来,在提高样本利用率方面取得了长足的进步。

3  深度强化学习的实践

3.1 计算机视觉领域

多年来,深度强化学习实践领域中最饱满的研究方向之一就是计算机视觉[12]领域,该领域包含多种多样的技术方面,从模仿人眼视觉观看世界到拓展新的视觉领域方面都取得了新的突破(比如人脸识别领域),而我们所说的计算机视觉领域又包含以下几个方面的五种应用技术:

一是目标跟踪技术,目标跟踪是指追踪某一个或者多个目标的一种在特定场合才能用到的技术,这种技术的老牌应用是在视频和真实世界的交互上的作用,在檢测到真实世界出现了视频中存在的特定对象以后进行采集和捕捉跟踪进而进行观察。

二是图像分类技术,具体例子就是选取几个类别的数字图片,集成图像识别分类算法进行训练以后,再取得不同的数字图片集合,来进行验证识别分类操作,最后得出分类成果和准确率。

三是对象检测技术,这项技术通常会牵扯到一些对象的边界化和标签化问题,需要针对图像上的各个标签进行分类和定义,这是一项很大的工程,需要在很多地方大量的使用卷积神经网络[13]来进行图片的分类和标签化识别,这通常会消耗大量的训练时间,也很一项很重要的成本。

四是实例分割技术,该技术就是将一副复杂重叠图象的各个要素进行识别和分割,并且用不同的颜色代表他们,后期对不同的物体进行不同的操作,并且确定内容和边界以及彼此的差异关系。

五是语义分割技术,将一幅图片分解成一个个的像素组,并且对他们进行分类和标签化[14],比如在一个房间里面,除了识别桌子、椅子、杯子、台灯、冰箱、电视以外,我们还必须要知道每个物体的边界,用我们自己训练好的算法模型来预测结果。

3.2 语音识别领域

近年来,将语音翻译为文字等功能如雨后春笋般涌现出来,那么语音识别的任务主要就是将一段由自然语言发音的一段语音,每一个频率声段对应上人类的每一个语音序列片段即可。而这一任务又会由很多不同的技术方向串联而成,其中包括语音识别声段及其频率的选取,语音识别[15]声段的特征提取,对应语音识别声段和频率的模式配对准则,以及对应语音声段和汉字翻译之间的训练技术等。

一是语音识别声段及其频率的选取,由单词识别,音节识别,音素识别等选取方法,具体使用哪种选取方法根据特定的情况来看,具体问题具体分析,其中单词识别使用最广泛也最实用,音节识别多用在像汉语这种音节较多且能大部分覆盖所有汉字的情况下。

二是语音识别声段的特征提取,意为对语音信号的各种信息进行处理,去除掉对分析频率频段没用的信息,筛选出对我们有用的频段,简而言之就是对语音信息的一个压缩再处理的过程。

最后就是语音识别声段和频率的模式配对还有训练技术,该技术意为将不同频率的频段信号和我们所熟悉的文字一一搭配起来,工作量很大,但是由于汉字很多,所呈现出来的结果并不理想,所以正在逐步被人工神经网络取代。

3.3 游戏领域

在近几年来深度强化学习在游戏领域的应用越来越广泛,甚至在某些领域超过了人类操作的极限,会更加精准,取得了长足的进步,比如现在深度强化学习已经应用到了棋类游戏,策略[16]游戏等,通过深度强化学习,我们能在每一步选择的时候都做出最正确的抉择,来适应未来游戏的发展走向,或者说棋类游戏预知对手所有可能的行动方式,让我们胜利的概率大大增加。也正是因为深度强化学习在游戏领域如此的如鱼得水,很多游戏或者软件开发商甚至开放了关于自家游戏的深度强化学习的测试平台来更好地对游戏性能进行更加精准的测试和分析,效率大大提升。

3.4 汽车智能驾驶领域

自动泊车,高速公路的定速巡航,以及发生事故前的自动避障[17]功能近些年来被越来越多的应用到最新的汽车上面,这些最先进的功能都是得益于深度强化学习和汽车领域的传感器[18]等器件的高度结合,传统的自动泊车都是基于昂贵的激光距离传感器还有人工算法相结合出来的产物,但是人们自己设计出来的算法总会出错出现误差,那么在泊车时候的磕碰,在定速巡航[19]时的事故也是可能发生的,而且后果不堪设想,在深度强化学习取得长远进步的今天,将该技术与汽车领域结合后,就具备了很强的自适应能力,能很好的判断绝大多数可能出现的场景,摆脱了人工设计算法的最大弊端,所有的算法都是由数据进行决策,给智能驾驶领域带来了一个全新的未来。

4 结语

本文主要介绍了深度强化学习的历史发展进程,当代的主流算法以及如何实现的过程,以及深度强化学习在我们的日常生活中各式各样的应用。深度强化学习在目前AI领域也是一个极其热门的研究方向,随着社会的进步和发展,智能系统越来越多地应用在了人们的日常生活中,深度强化学习在这场人与数据的演变中发挥着不可替代的作用,可以预见到的是,在未来,深度强化学习扮演的角色将会越来越重要。

参考文献:

[1] 刘星,王文双,赵建印,等.自适应在线增量ELM的故障诊断模型研究[J].系统工程与电子技术,2021,43(9):2678-2687.

[2] 夏茂森,江玲玲.基于深度网络CNN-LSTM模型的中国消费者信心指数预测[J].统计与决策,2021,37(7):21-26.

[3] 陈锐,孙庆春.人工智能司法决策的合法性辨疑[J].西安交通大学学报(社会科学版),2021,41(3):123-130.

[4] 曾国叙,吴德伟,代传金.NCC特征匹配的类脑视觉识别记忆算法[J].信号处理,2021,37(5):780-787.

[5] Suresh Kumar V,Krishnamoorthi C.Development of electrical transduction based wearable tactile sensors for human vital signs monitor:Fundamentals,methodologies and applications[J].Sensors and Actuators A:Physical,2021,321:112582.

[6] 黄浩,葛洪伟.强化类间区分的深度残差表情识别网络[J].计算机科学与探索, 2021:1-10.

[7] 程玉,郑华,陈晓文,等.基于密集残差注意力网络的图像超分辨率算法[J].计算机系统应用,2021,30(1):135-140.

[8] Banerjee S,Singh G K.Deep neural network based missing data prediction of electrocardiogram signal using multiagent reinforcement learning[J].Biomedical Signal Processing and Control,2021,67:102508.

[9] 高巍,罗俊仁,袁唯淋,等.面向对手建模的意图识别方法综述[J].网络与信息安全学报,2021,7(4):86-100.

[10] Vainer J,Kukacka J.Nash Q-learning agents in Hotelling's model:Reestablishing equilibrium[J].Communications in Nonlinear Science and Numerical Simulation,2021,99:105805.

[11] 凌园果,徐卡娅,仇文进,等.钙卫蛋白S100A8/A9在神经系统疾病中作用的研究进展[J].医学综述,2021,27(7):1278-1283.

[12] 王宇,李涛,邢立冬,等.OpenVX高效能并行可重构运算通路设计与实现[J/OL].计算机工程,2021:1-16.

[13] 赵宏,孔东一.图像特征注意力与自适应注意力融合的图像内容中文描述[J].计算机应用,2021,41(9):2496-2503.

[14] 董绍江,吴文亮,贺坤,等.基于性能衰退评估的轴承寿命状态识别方法研究[J].振动与冲击,2021,40(5):186-192,210.

[15] 陈聪,贺杰,陈佳.混合连接时间/注意力机制端到端语音识别[J].控制工程,2021,28(3):585-591.

[16] 赵小军,陈建,井宇航,等.地铁车辆基于受电弓供电的控制策略研究及应用[J].科技风,2021(9):197-198.

[17] 房启志,张树宁,徐嵩,等.小型智能机器鱼系统研究与设计[J].电子器件,2021,44(1):197-202.

[18] 洪婉玲,赵春柳,徐睿,等.涂覆介孔型Pt/WO_(3)膜的光纤布喇格光栅氢气传感器[J].光通信技术,2021:1-7.

[19] Ma F W,Yang Y,Wang J W,et al.Eco-driving-based cooperative adaptive cruise control of connected vehicles platoon at signalized intersections[J].Transportation Research Part D:Transport and Environment,2021,92:102746.

【通聯编辑:朱宝贵】

猜你喜欢

深度学习人工智能
我校新增“人工智能”本科专业
人工智能与就业
数读人工智能
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望