APP下载

强化学习在运筹学的应用:研究进展与展望

2020-10-23徐翔斌李志鹏

运筹与管理 2020年5期
关键词:库存动态利用

徐翔斌, 李志鹏

(华东交通大学 交通运输与物流学院,江西 南昌 330013)

0 引言

强化学习(Reinforcement Learning,以下简称RL),又称增强学习,在运筹与控制理论领域称为近似动态规划,是统计学、心理学、运筹学、信息论以及计算机科学等多学科交叉综合的一门学科。RL是机器学习的一个重要分支,它是基于Agent与环境进行交互,并从环境中获得信息奖赏并映射到动作的一种学习方式[1],其主要思想是Agent与环境不断交互和试错,接收反馈信号来进行优化决策[2]。RL更接近于自然界生物学习的本质,因而在很多领域取得了成功的应用,包括游戏[3,4]、机器人控制[5]、自然语言处理[6]以及计算机视觉[7]等。特别地,基于RL与深度学习[8]融合的AlphaGo[9]与新一代AlphaGo Zero围棋程序将RL的理论和应用研究推向了一个新的高度。

本文对RL在运筹优化领域中的应用进行文献综述,首先简单介绍RL的基本原理及其算法分类,其次阐述RL在运筹优化领域应用的研究框架,然后对RL在运筹优化领域的应用进行总结与评述,主要包括库存控制、路径优化、装箱配载以及车间作业调度等几个经典运筹学问题,最后对RL在该领域的应用研究进行展望,指出几个需要重点关注的研究方向。

1 强化学习简介

RL基本结构如图1所示,在每个时间步长内,Agent感知环境状态st,并根据既定的策略采取行动at,得到执行at所获得的立即奖赏rt,同时使环境由状态st转换为st+1。RL的目的是让Agent学习到一种策略,实现状态到动作的映射,Agent在该策略的指导下行动,获得最大的奖赏[10]。

图1 RL的基本结构

RL主要用于解决序贯决策问题,根据外部环境是否完全可知,可分为基于模型(Model-Based)的RL算法和无模型(Model-Free)的RL算法[1]。基于模型的RL核心思想是动态规划,其实质是从过去的经验中学习并建立环境模型,再依据模型计算出值函数,根据值函数的迭代方式不同,又可将其分为值迭代以及策略迭代算法;基于模型的RL还包括GPS(Guided Policy Search)[11]和PILCO(Probabilistic Inference for Learning Control)[12]等算法。无模型RL直接与外部环境进行交互和试错,以此达到学习的目的,它主要分为基于值函数的RL和基于直接策略搜索的RL两大类:其中基于值函数的RL包括基于表格型的算法(主要有Q-学习[13]、蒙特卡罗(MC)[10,14]以及时序差分法(TD)[15]等)和值函数近似的RL,而值函数近似又可分为线性近似和神经网络近似两种,其中深度RL(Deep Reinforcement Learning,以下简称DRL)[16]主要有DQN[3,4](Deep Q Network,以下简称DQN)和RUDDER(Return Decomposition for Delayed Rewards)[17]等。而基于直接策略搜索的RL主要包括REINFORCE[18]、演员-评论家(AC)[19]以及异步演员-评论家(A3C)[20]等算法,RL算法分类如图2所示。

图2 RL算法分类

2 基于强化学习的运筹学研究框架

传统运筹学的研究方法通常分为两步:首先建立待求问题的数学模型,包括目标函数和约束条件等;其次设计算法求解该模型,如分支定界[21]、禁忌搜索[22]以及遗传算法[23,24]等。对于大规模复杂系统来说,传统运筹学研究方法存在以下几个方面的问题:(1)难以建立精确有效的数学模型,或者即使建立了数学模型,也是对实际问题的理想化处理;(2)无法解决较大规模问题,因为随着问题规模的增大会出现“组合爆炸”现象,计算的时间和空间复杂度呈指数级增长;(3)只能求解静态确定性问题,难以考虑动态及随机因素。

马尔可夫决策过程(MDP)[25]是解决多阶段序贯决策问题的重要方法,马尔可夫特性是指系统的下一个状态只与当前状态信息有关,而与更早之前的状态无关。RL将运筹学领域的序贯决策问题建模为MDP并进行求解。MDP将待求解问题定义为一个六元组(S,A,P,R,γ,π),其中:S代表Agent的状态集合,st∈S表示Agent在t时刻所处的状态;A代表Agent可取的动作集合,at∈A表示Agent在t时刻采取的行动;P代表状态转移概率,P(st+1|st,at) 是Agent在st∈S状态下,执行动作at后,转移到下一状态st+1的概率;R代表奖赏函数,rt代表t时刻采取行动at获得的立即奖赏;γ代表折扣因子,用来计算累计奖赏,其中γ∈[0,1];π表示策略,RL学习的目标是让Agent学习得到一个最优策略π*,使其累计奖赏最大;RL用状态值函数V(s)或动作值函数Q(s,a)来衡量策略的优劣,采用动态Bellman公式对V(s)或Q(s,a)进行求解,如公式(1)和(2)所示。

Vπ(s)=Eπ[rt+1+γVπ(st+1)|st=s]

(1)

Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)|st=s,at=a]

(2)

RL能较好地克服传统运筹学建模方法的缺点:(1)在建模难、建模不准确的问题方面,RL可以通过Agent与环境的不断交互,学习到最优策略;(2)在传统方法难以解决高维度的问题方面,RL提供了包括值函数近似以及直接策略搜索等近似算法;(3)在难以求解动态与随机型问题方面,RL可在Agent与环境之间的交互以及状态转移过程中加入随机因素。RL的这些优点使得其适合求解运筹学领域的大规模动态、随机决策问题,如库存控制、路径优化、装箱配载以及车间作业调度等问题,为运筹优化的研究提供一个新视角。

3 强化学习在运筹学中的应用

3.1 库存控制

库存控制的核心内容包括订货时间、订货数量以及库存水平等,其目的是在降低库存的同时保证较高的客户服务水平。实际库存控制存在很大的不确定性,如客户需求或订货提前期动态变化,特别地,在多阶段供应链库存决策中,由于供应链不协调容易造成“牛鞭”效应,传统的运筹优化方法难以优化这类动态随机型库存控制问题。

库存控制是一个典型的多阶段序贯决策问题,在两阶段供应链库存决策方面,Van Roy[26]等早在1997年就将RL运用于两阶段单一产品零售商库存问题,并利用近似策略迭代算法与TD算法进行求解,结果显示该算法比传统启发式算法减少了10%左右的平均库存成本。在此基础上,Kim[27,28]等提出两阶段供应链的自适应库存控制模型(集中式控制模型与分散式控制模型),并设计了同步和异步奖赏学习算法,结果表明该算法在两种模型中均比传统算法花费更少的库存成本,并且在运行速度方面,异步算法要比同步动作奖赏学习更快。Kwon[29]和Jiang[30]等将基于案例的推理技术与RL结合起来,用于处理较大状态空间非稳定需求的库存控制问题;Giannoccaro[31]更进一步将两阶段库存决策模型扩展至包括供应商、制造商及分销商的三阶段模型,假定需求服从指数分布,同时考虑了订货成本、持有成本、缺货成本及渠道成本,提出了一种名为SMART的平均奖赏算法来求解模型;随后Chaharsooghi[32]、Tongeren[33]以及Mortazavi[34]等以“啤酒游戏”为背景,构建了由零售商、分销商、批发商以及制造商组成的四阶段供应链模型,考虑动态交货期以及非稳定客户需求,利用Q-学习方法来求解最优库存控制策略,结果表明该算法能更好地解决复杂环境下的库存决策问题。

特别地,Oroojlooyjadid[35]等将最新的DQN算法引入“啤酒游戏”并开发了一种反馈机制下的合作框架,并利用迁移学习[36]实现Agent之间的知识转移,仿真结果显示当零售商、分销商、批发商和制造商中的一种角色使用DQN算法,其他角色使用strm-BS策略时,基于DQN算法的库存成本都低于strm-BS策略,并且在DQN算法中引入迁移学习时,运行时间可缩短94.6%,这表明DQN算法在库存控制应用中的有效性,特别是加入迁移学习的DQN算法求解效率更高。在此基础上,Gijsbrechts[37]等将A3C算法应用于双源采购库存决策问题,并引入具有实际订单大小及成本参数的真实数据集进行测试,结果显示在不需要任何启发式算法的情况下,A3C算法计算得到的库存成本与最优成本的差距在6%~7%,接近于最优解。

此外,Valluri[38]和Sun[39]利用RL研究了由客户、零售商、批发商、分销商和供应商构成的五阶段供应链模型,在此基础上,Kim[40]等将供应链模型由多阶段扩展至N阶段,其中第一阶段为零售商,其余阶段均为供应商,提出了一种多主体协同需求估计协议和分布式的动作奖赏学习技术。另外还有学者研究了供应商管理库存(VMI)模式下库存控制问题,Kwak[41]等提出了收敛速度更快的回顾性行动奖赏算法,Yang[42]等用Q-学习算法选择合适的安全库存以应对非稳定性需求,同时还对需求预测过程中的牛鞭效应进行了分析。Zheng[43]等基于RL研究了一种由供应商保留零售商库存所有权,在零售商销售商品之前库存成本由供应商承担的VMI补货策略。此外,Katanyukul[44]等基于GARCH(1,1)库存模型对Sarsa[45]算法与rollout策略[46]进行了比较分析,结果表明在持有成本与缺货成本比率较高时,rollout策略更适用于该类问题的求解。值得注意的是,Kara[47]等运用RL解决了考虑产品寿命的单阶段库存决策问题,以总库存成本最小化为目标,分别用Sarsa、Q-学习算法与遗传算法进行比较分析,实验表明在客户需求变化大、产品寿命短的情况下,使用RL进行学习可以获得更好的结果。典型的基于RL的库存决策文献统计如表1所示。

总的来说,RL在供应链库存控制问题的研究成果丰硕,RL可充分考虑库存决策过程中的多阶段序贯决策和不确定性,进而求解非平稳需求下库存控制问题。但目前大多数文献仍然采用Q-学习、TD算法等传统表格型算法求解,此类算法在收敛速度以及收敛性方面都表现得很不稳定,特别是在问题比较复杂或规模较大的情况下,会出现“维数灾难”而无法求解,需研究可自动提取库存系统关键特征的高效算法。

表1 RL应用于库存决策文献汇总

3.2 路径优化

路径优化主要包括旅行商问题(TSP)和车辆路径问题(VRP)[48],都是经典的NP-hard组合优化问题[49],传统的运筹优化方法难以求解不确定性路径优化问题,路径优化问题的“不确定性”主要体现在信息演变和信息质量变化[50]这两个方面。信息演变是指决策者掌握的某些信息有可能会在实际中随时间发生变化,比如车辆旅行时间受实时交通路况影响随时发生变化以及在配送服务时可能有新的顾客产生新的需求等;而信息质量变化是指某些信息存在不确定性,比如决策者只能得知顾客的实际需求是按照某种概率分布存在但无法明确预知客户的需求。学者们将前者称为动态路径优化问题,后者称为随机路径优化问题,路径优化问题也是典型的多阶段序贯决策问题,可以利用RL进行求解。

3.2.1 旅行商问题(TSP)

已有学者运用RL对动态随机型TSP问题进行研究,Secomandi[51]将基于启发式的rollout策略应用于考虑随机旅行时间的TSP问题,仿真表明该策略的求解结果优于循环启发式算法,Toriello[52]等研究了随机成本的动态TSP问题,将其建模为近似动态规划模型,提出了一种价格导向的rollout策略。然而,一般RL算法只能解决特定的具体问题,Bello[53]等指出可以用神经网络与RL结合的框架来求解TSP问题,并提出了基于策略梯度的两种变体方法:一种是带提前训练的RL,利用期望回报作为目标函数,使用与A3C[20]相类似的训练算法对指针网络[54]进行优化,另一种是主动搜索,不需要提前训练,仿真测试结果显示该方法在三种不同规模下的TSP问题均优于监督学习算法以及启发式算法,并且该方法的求解结果与最优解的差距均在1%以内。在此基础上,Dai[55]等进一步指出同一类型的组合优化问题具有相同的结构,只是在具体问题中的数据表现不同,于是提出了一种利用RL与图嵌入网络相组合的端到端的学习框架,具体来说,以图形嵌入网络来表示优化策略,并运用NFQ(Neural Fitted Q Iteration)[56]与多步Q-学习[10]组合的方式来学习,以最小顶点覆盖问题、最大切割问题以及TSP问题为例进行实验,结果表明该框架可以应用于各类组合优化问题,并且该框架在求解1200个节点的TSP问题时,与最优解的差距在10%左右,具有较好的泛化能力[57]。随后Emami[58]等又提出了一种基于Sinkhorn[59]策略梯度和AC结合的RL算法来求解TSP问题。值得关注的是,Kool[60]和Deudon[61]等在文献[53]的基础上进一步进行研究,将深度学习中的注意力机制引入了RL算法用于求解TSP问题,利用REINFORCE[18]算法对确定性最优策略进行训练,该方法在TSP20/50/100问题的测试结果与最优解差距分别为0.32%、1.71%和4.43%,求解质量很高,并在同等条件下比文献[53]更快收敛。总的来说,利用RL研究TSP问题具有很大的潜力。典型的RL在TSP问题中的应用文献统计如表2所示。

表2 RL应用于TSP问题文献汇总

3.2.2 车辆路径问题(VRP)

与传统运筹优化方法相比,RL更适合求解不确定的动态VRP问题,动态VRP问题主要包括:(1)随机客户需求VRP(VRPSD),指的是在服务之前无法得知客户真实需求量,只有到达客户的位置,才可得知需求量;(2)随机客户请求VRP(VRPSR),指的是在服务的过程中,可能会出现无法预期的潜在客户请求,这些客户可能在不同的时间和地点出现;(3)随机服务时间VRP(VRPST),指的是客户服务时间的不确定性。传统运筹学方法在求解VRPSD时一般采用两阶段先验路径的方法[21,62],首先在未知顾客需求的情况下设计好预定路线,然后在顾客需求逐渐已知的过程中,再进一步调整该路线。鉴于传统的方法难以考虑问题的实时性,诸多学者开始用RL来求解VRPSD,Dror[63]最先将VRPSD建模为MDP,但并未给出计算实例。由于rollout策略可在基本启发式算法的基础上得到最优值函数,学者们更多地利用该策略来求解VRPSD,Secomandi[64]以最小化最短距离期望为目标函数,分别比较了乐观近似策略迭代与rollout策略这两种策略的RL算法在单一车辆VRPSD中的表现,结果表明后者比前者更为健壮。Novoa[65]等将rollout策略由一步更新拓展至两步更新,在保证解的质量前提下,用MC算法来计算更新后的基策略的期望成本,以此大幅减少计算时间。为进一步减轻rollout策略的计算量,Goodson[66]和Bertazzi[67]等将前向动态规划以及可变邻域搜索技术(VNS)[68]嵌入rollout策略,Fan[69]则提出以先验路径与rollout策略相结合的方式来求解多车辆VRPSD。

还有学者利用其它RL算法对VRPSD进行求解,娄山佐[70]等构建了径向基网络模型,利用最小二乘时序差分法(LSTD)确定权系数,交叉熵确定隐含层参数的方法来求解VRPSD问题,Zhang[71]等以基于有界表格查找的改进Q-学习算法来求解VRPSD,结果表明该算法在求解质量与计算时间两方面都要优于rollout策略。值得一提的是,Nazari[72]等将文献[53]提出的RL优化框架推广应用于需求可拆分VRP问题,并以循环神经网络结合注意力机制的方式代替指针网络来增强该框架的鲁棒性,通过与Clarke-Wright节约法以及Google’s OR工具比较发现,该算法求解结果接近于最优解,其中在VRP10以及VRP20问题中,该方法与最优解的差距分别处于10%和13%以内,在此基础上,Kool[60]等继续改进带注意力机制的DRL算法,并将其应用于上述问题,所得结果与最优解差距均处于5%以内,且均优于文献[72]的测试结果。

也有学者利用RL研究VRPSR和VRPST问题,Meisel[73]等以固定时间内最大化服务客户数量为目标,将客户分为必须服务的客户和随机出现的客户两部分,利用RL求解VRPSR。Ulmer等[74,75]将rollout算法用于求解VRPSR,还有学者利用基于动态表格查找的RL算法研究VRPSR,文献[76]将动态表格查找的方法运用于多周期的VRPSR中。RL在VRPST中的应用主要集中在紧急医疗领域,这类VRP问题的随机服务时间主要是指救护车到达救护现场对病人进行预处理的时间,譬如文献[77,78]研究了考虑随机服务时间的救护车调度部署问题。典型的RL在VRP问题中的应用文献统计如表3所示。

综上所述,相对传统的运筹优化方法,RL在解决随机、动态的车辆路径问题具有一定的优势。但是当前研究也存在一些问题,比如RL对考虑单一随机因素的动态VRP问题的研究较多,但是对考虑多重随机因素的VRP问题的研究较少,此外大多数文献并未考虑车辆的异质性,并且在算法方面,大部分文献局限于采用rollout策略或基于表格型的RL算法进行研究。

表3 RL在VRP问题中的应用文献汇总

3.3 装箱配载

有关背包问题[79]和装箱配载问题[80]的研究成果颇丰,但大多都集中在精确算法[81]以及启发式算法[82]。背包和装箱配载也可视为序贯决策问题,Kleywegt[83]等定义并研究了一类具有相同物品尺寸的动态随机背包问题,随后又将其拓展至物品大小随机的背包问题,并将其建模为MDP,在以最大化价值为目标的情况下,分别研究了该算法在有限时域和无限时域下随机背包问题的表现,并得到了最优装箱策略[84]。Mastin[85]通过对rollout策略与基策略在背包问题的表现进行比较分析,发现rollout策略严格优于基策略,Bello[53]等还利用基于指针网络与RL结合的框架求解三种规模的背包问题,结果显示基于预先训练的RL的算法与最优解的差距在1%以内,且基于主动搜索的RL算法可求得最优解。Kong[86]等尝试构建基于RL求解线性组合优化问题的统一框架,并以背包问题为例求解,结果与最优解差距小于5%。值得一提的是,Bertsimas[87]等以多维背包问题为背景,提出了参数化及非参数化的近似值函数的RL方法,并检验其在大规模整数规划问题上的可行性,实验表明其能在较短时间内得到比遗传算法、CPLEX求解器更好的解。Perry[88]等利用随机动态规划来求解动态随机多重背包的多周期资源配置问题,Hua[89]等利用RL研究了二次背包问题,并引入两种启发式算法来近似值函数,另外,Goodson[90]等提出了一种基于rollout的策略框架,并利用随机动态多重背包问题验证了框架的有效性。

经典装箱问题以最小化箱子数量为优化目标,而Hu[91]等以最小化箱子表面积为优化目标,首次将DRL引入三维装箱问题,考虑物品的装入顺序、装入方向以及箱子的空余空间等因素对表面积的影响,设计了一种启发式算法来对物品的装入方向及箱子的剩余空间进行遍历搜索,并用基于指针网络[54]的DRL框架选择物品的装入顺序,该方法计算得到箱子表面积该比启发式算法少5%左右,且与最优解的差距在6%以内。在此基础上,文献[92]进一步提出一种基于多任务选择学习的框架,并引入了深度学习的注意力机制,在BIN10和BIN12的仿真实验中,求解结果优于传统DRL和启发式算法。最近,Laterre[93]等设计了一种基于奖励排序(Ranked Reward)的算法应用于二维装箱问题,并以最小化装入物品边界为优化目标,利用深度神经网络以及蒙特卡罗树搜索(MCTS)[94]进行策略评估与策略改善,该算法的核心思想在于使用最近的奖赏进行排名,只有超过最新的最优解才能获得奖赏,以此自我提升训练的难度,在一定程度上缓解了对训练数据的需求,求解结果优于MCTS、监督学习和A3C等算法,并在排序比例为75%时,测试效果最优。典型的RL求解装箱配载问题的文献统计如表4所示。

尽管很多文献利用RL研究经典0-1背包、多维背包以及多重背包等更复杂的背包问题,但是较少考虑物品的重量、价值和尺寸等随机因素对装箱问题的影响,并且较少文献利用RL解决装箱与车辆路径协同优化问题。此外在算法方面,大多文献仍使用传统的值函数近似算法对问题进行求解。

表4 RL在装箱配载问题中的应用文献汇总

3.4 车间作业调度(JSP)

JSP问题也是典型的序贯决策问题,根据调度环境的不同,JSP问题可分为静态JSP问题和动态JSP问题。Zhang[95]等很早就将RL引入到NASA航天飞机的生产调度JSP问题中,提出了一种新的基于迭代修复的方法,利用TD(λ)对状态值函数进行估计并使用随机贪婪策略选择动作。然而工件和机器的多样性以及机器故障等随机因素导致实际调度环境是实时动态变化的,因此相对于静态JSP问题,RL更多被用于求解这类动态随机的JSP问题,Riedmiller[96]等利用基于神经网络的RL来求解最小化总延迟的JSP问题,结果表明该方法能够在短时间内得到较为满意的近似解;在此基础上,Aydin[97]等应用改进的Q-学习算法来求解由仿真环境和Agent两部分组成的动态JSP问题。此外,还有学者将Q-学习与其它方法相结合来研究动态JSP问题,魏英姿[98]和Chen[99]等分别提出了多目标多机器的组合调度规则,随后魏英姿[100]又研究基于遗传算法与Q-学习机制相结合的RL方法,来平衡RL学习过程中的“利用”与“探索”。特别地,Shahrabi[101]等将VNS[68]引入考虑作业随机到达与机器故障的动态JSP问题,利用Q-学习算法来得到合适的VNS参数以更新优化策略。由于单Agent方法难以求解大规模复杂JSP问题,学者们又将基于多Agent分散决策融入JSP问题的研究中,在分散化决策的前提下,每个Agent都遵循各自的策略求解一部分子系统调度决策,再通过Agent之间的沟通机制协调各部分决策,以达到整体最优,研究表明分散式决策可应对调度过程中的突发情况,大大提高了JSP调度系统的健壮性[102~104]。

值得注意的是,Mao[105]等利用DRL框架对计算集群中的JSP问题进行了研究,并以最小化迟交率(Job Slowdown)为优化目标,利用改进的REINFORCE算法对神经网络进行训练,仿真结果显示,当平均集群负载率为190%且作业规模为10时,基于DRL框架的平均迟交率为5左右,远低于其它算法;此后有许多学者在此基础上进行改进,拓展DRL框架在JSP问题上的应用研究,Chen[106]等将其拓展为多资源多机器JSP问题,并在奖赏的设置以及特征提取这两个方面对模型进行了改进,该模型所得的平均迟交率相较于文献[105]又降低了8.57%,并当输入层使用卷积神经网络进行特征提取时,虽然平均迟交率降低幅度有所减少,但算法收敛速度有所提升。Waschneck[107]等也尝试利用DQN优化半导体制造企业的生产调度问题,为缩短训练时间以及保证训练的稳定性,采用两阶段的训练方式对Agent进行训练。最近,Chen[108]等提出将JSP问题表述为重写(rewrite)问题,其思路是通过不断迭代现有解决方案以至最优,用A3C算法对重写器进行训练,结果显示基于重写的DRL求解得到的平均迟交率比文献[105]中的算法减少50%以上。

此外也有学者利用Q-学习对单机JSP问题进行研究,Wang[109]等以最小化平均延迟时间为优化目标对单机JSP问题的选择调度规则进行研究。在此基础上,王世进[110]等利用Q-学习研究了的三种调度规则的动态JSP问题,结果表明Q-学习方法能提高Agent的适应能力,Xanthopoulos[111]等利用RL研究了随机加工时间和完工时间的JSP问题,并对15种调度规则进行了测试。针对Q-学习方法在“维数灾”问题上的局限性,王国磊[112]提出一种基于系统状态聚类的Q-学习方法来求解动态单机JSP问题,结果表明该算法可有效地降低系统状态的维数并提高收敛速度。典型的基于RL的车间作业调度问题中的文献如表5所示。

利用RL的JSP问题研究成果颇丰,已有的文献充分考虑了JSP问题的随机性与动态性,并从单机调度逐渐向动态、多目标和多机器调度发展;从Agent角度来看,研究也由单Agent向多Agent协同优化逐步发展,但目前大多数文献都是采用Q-学习方法进行模型求解,并且在基于Agent协作的RL方面的研究较少。

表5 RL在车间作业调度中的应用文献汇总

3.5 基于DRL的运筹优化

传统RL在只能求解简单、小规模的运筹优化问题,但现实中的运筹优化问题往往都比较复杂,其状态空间和动作空间维数很大,传统RL难以求解。近年来,随着深度学习的兴起,深度学习与强化学习的结合研究也受到了很多关注,深度强化学习(DRL)将深度学习的强大感知能力融入传统RL算法,形成了人工智能领域新的研究热点,相比于传统低维度表格型的RL,DRL融合了深度学习的优点:(1)深度学习可自动提取高维度问题的特征,可让RL直接在更原始的状态下进行学习;(2)深度学习可利用其强大的拟合能力对值函数或策略函数进行近似;(3)深度学习为RL增强了泛化能力[57];(4)高级别的API(如Keras和Tensor Flow等)和仿真环境(如Openai等)为DRL提供了很多优秀的实验平台,并辅助一些强大的硬件设施,这使得DRL能在可以接受的时间内取得更为显著的优化效果。近年来学者们已开始将DRL运用于运筹优化领域,在一些经典的运筹优化问题上取得一定的研究成果,DRL与传统算法的优化效果分析如表6所示。

表6 基于DRL算法的应用对比分析

传统RL一般采用离线学习策略,利用神经网络来近似值函数,并自举采样数据来训练神经网络,由于在训练神经网络要求数据是独立同分布,而自举采样得到的数据之间存在时序和状态关联性,导致训练神经网络的数据不是独立同分布,在训练神经网络会出现模型不收敛、不稳定的现象,会极大地影响RL学习的效率、稳定性和收敛性。DRL本质上是深度神经网络和Q-学习强化学习的结合,它利用经验回放的方法来训练神经网络,即Agent先将收集得到的数据存储到一个临时数据库中,再利用均匀随机采样的方法从该数据库中抽取数据来训练神经网络,这种经验回放可以打破数据之间的关联性,最大限度地保证数据独立同分布,提高学习的稳定性;此外传统RL中在利用神经网络进行值函数近似时,计算TD目标的动作值函数所用的网络参数与梯度计算中要逼近的值函数所用的网络参数相同,也容易导致数据之间存在关联性,使得训练不稳定,DRL则利用一个单独的目标网络来计算目标Q值,并且用于动作值函数逼近的网络单步更新,而用于计算目标Q值的网络则每隔固定的步数更新一次,来减少目标值与当前值的相关性,进一步提高模型的稳定性;最后DRL可以利用图嵌入等技术来自动提取特征,这种自动特征提取技术可以减少对专业领域知识的依赖,实现一种端到端的学习,大大提高了学习效率。

4 研究展望

RL理论研究开始较早且已取得了丰硕的成果,但国内基于RL的运筹优化应用研究起步相对较晚。本文仅对RL在库存决策、路径优化、装箱配载以及车间作业调度等经典问题中的应用进行综述,可以看出,RL在求解随机动态型多阶段序贯决策问题方面具有一定的优势,但是相对于日益复杂的生产、物流及管理系统来说,基于RL的研究仍处于起步阶段,为推进RL在运筹优化领域的应用研究,提出以下几点值得深入探讨的研究方向。

(1)逐步提升基于MDP模型的精准度,使模型更加符合日趋复杂的动态系统的需要。可以从以下两个方面进行考虑:1)由于RL是基于交互和奖赏的学习方式,奖赏的定义对其至关重要,为避免人为主观规定的不确定性,可以研究如何以更加科学的方式来定义奖赏,如可以增加稀疏奖励来评估中间的成就;2)在随机动态模型下,需要综合考虑多重而非单一随机性因素对系统的影响,即考虑多种随机因素的协同优化,以此为实际生产运营提供理论支撑和实践参考。

(2)与其它各类算法的结合。RL算法的优势在于通过交互获取环境的动态信息,从而解决大规模复杂系统性的问题,但其存在收敛效率不高、速度过慢、不稳定等问题。因此,可以考虑用其它启发式优化算法指导RL进行更有效率的学习,如遗传算法等,也可考虑在RL中加入人类专家领域的知识、经验和高质量数据等,以此来提高RL的学习效率以及降低学习难度,从而使得RL在处理具体问题时更具准确性与稳健性。

(3)加强DRL算法在运筹优化中的应用。传统的表格型RL不足以解决更为复杂的运筹学领域序贯决策问题,DRL本质上属于值函数近似中非线性近似的一种,其优势在于利用深度神经网络对状态的特征进行自动提取,在很大程度上避免了人工定义特征的不准确性,并且能够提取系统关键特征,使得Agent可以在更加原始的状态上进行学习,能够求解更为复杂的运筹优化问题。另外,随着序列的不断增长,可考虑在DRL中加入深度学习中的注意力机制,让其聚焦于与求解问题密切相关的信息上,提高运筹优化问题的求解质量。

(4)增强RL在不同运筹学问题上的泛化能力。可考虑进一步将元学习[117]、迁移学习[36]、多任务学习[92]以及终生学习等方法引入RL并应用于运筹优化领域,使其能在面对新问题时能快速发现问题的本质,并能迁移以往的学习经验来加速RL的学习进程。同时,由于许多运筹学问题都是多目标决策问题,可考虑将多任务学习机制引入RL,同时求解多个目标的优化决策问题。

(5)扩大RL的应用范围。很多运筹优化问题都可以视为序贯决策问题,如物流选址、自动仓库的货物拣选、客户需求量预测以及物流网络布局等问题,这类问题也是典型的随机型动态决策问题,可以考虑如何利用RL的方法进行优化求解。

5 结束语

RL作为一门有较长发展历史的机器学习方法,在现代计算机计算能力极大提升的背景下,已成为人工智能领域的研究热点,RL在求解随机型动态序贯决策问题方面具有一定的优势,特别适合运筹优化领域中各类问题的求解。近年来基于RL的运筹优化在国外已经形成了研究热点,并取得了丰硕的成果,而在国内,无论是理论研究还是应用实践,尚处于起步阶段,本文介绍了RL基本原理与算法分类,阐述了RL研究方法与传统建模方法的不同,重点介绍了RL在运筹优化领域的典型问题中的应用,如库存控制、车辆路径、装箱配载以及作业车间调度等。特别希望国内的学者能结合中国的生产、物流和管理的实际问题开展关于RL的应用研究,在解决实际问题的同时也为RL的理论研究提出新的挑战和问题,进一步丰富这一研究领域。

猜你喜欢

库存动态利用
国内动态
利用min{a,b}的积分表示解决一类绝对值不等式
国内动态
国内动态
乌克兰谷物和油料作物库存远低于2020年同期
利用一半进行移多补少
动态
利用数的分解来思考
Roommate is necessary when far away from home
一二线城市库存减少5.2%