APP下载

基于增强学习的航材二级库存优化配置研究

2019-09-02徐常凯周家萱杜加刚

兵器装备工程学报 2019年8期
关键词:航材仓库器材

徐常凯,周家萱,杜加刚

(空军勤务学院 航材四站系, 江苏 徐州 221000)

如何对航材库存进行科学的优化配置,寻求航材保障良好率与航材保障经济性之间的最佳平衡,是航材库存优化的重要问题。空军后方仓库编制体制调整后,航材库存从空军、战区空军、航材股三级变为器材仓库和队属仓库二级,解决二级库存体制下的航材库存优化配置,成为航材库存决策人员的现实难题。陈砚桥等[1]使用蒙特卡罗方法求解了允许横向供应的库存系统器材配置问题;刘少伟等[2]利用排队论系统,建立了可修件两级库存模型;Engin Topan等[3]通过分支与定价算法求解了多备件两级库存系统模型。本文提出一种基于马尔科夫决策过程建模,利用强化学习的策略迭代方法求解,寻求保障效率与保障经济性的平衡,最终得到在航材不断消耗过程中的库存优化配置模型。

1 MDP与策略迭代理论

1.1 马尔科夫决策过程

马尔科夫决策过程是描述动态系统决策优化的数学模型,通常由五元组{S,A,Psa,γ,R}表示,其中S表示状态空间,A表示行动空间,Psa为在状态s下执行行动a的概率,γ为折扣因子,R为奖励函数[4]。一个动态马尔科夫决策过程可表述为:从状态空间S中的某一状态s0开始,在行动空间A中选择行动a0执行后,马尔科夫决策过程的状态随机转移到状态s1,记为s1~Ps0a0,类似的,整个决策过程可表示如下[5]:

定义策略π是由状态到行动的映射,即π∶S→A,当决策过程处于状态s时,执行行动a=π(s)时,定义价值函数Vπ:

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+…|s0=s,π]

(1)

对于某一确定的策略π,其价值函数满足Bellman方程为[6]:

(2)

(3)

以及最佳策略π*:S→A:

(4)

即在达到式(3)最大值的策略。

1.2 策略迭代

从MDP的定义中可以看到,求解最优策略的目的是在状态空间S和行动空间A中,选择恰当的状态和行动序列,达到最优化价值函数的目的,即使V收敛至V*。显然,状态空间和行动空间的大小决定了MDP问题的求解难度,策略迭代方法用于解决有限状态的MDP问题,即|S|<∞,|A|<∞。策略迭代算法的描述如下[8]:

1) 随机初始化策略π

2) 重复至收敛{

b.对每一状态s,令

(5)

其中a过程可以通过Bellman方程求解,b过程通常称为策略迭代中的贪婪算法,经过有限次迭代后,最终V和π会收敛至V*和π*。

2 库存优化配置MDP模型构建

库存模型由基地级和基层级构成。一个基地级仓库可同时供应多个基层级仓库,基层级仓库之间具有横向供应能力,当基层级出现缺件时,可以根据实际需求,选择由基地级仓库供应,或是由其他基层级仓库横向供应,具有横向供应的航材二级库存模型结构如图1所示[9]。

图1 航材二级库存结构框图

2.1 模型假设

1) 为减少MDP求解的时间复杂度,模型简化为1个基地级仓库(D1)供应2个基层级仓库(B1,B2),基层级仓库间可以横向运输;

2) MDP按时间离散,以1天为离散单位时间,即各级仓库的消耗和供应按天计数;

3) 基层级仓库正常消耗获得收益(R1,R2),供应损失(L1,L2);

4) 各基层级对航材的消耗需求独立,服从泊松分布,参数分别为λ11,λ21;

5) 各基层级接受供应的航材数量独立,服从泊松分布,参数分别为λ12,λ22;

6) 各基层级仓库的最大存储数量(SMAX1,SMAX2),最大供应数量(MOVEMAX),整个系统内某器材的总数量(SMAX)有上限[10]。

2.2 MDP参数设定

状态空间S:2个基层级仓库各自的器材数量;

行动空间A:由基地级仓库的直接供应数量和基层级仓库的横向供应数量;

奖励函数R:正常消耗获得的收益与供应造成的损耗之差;

折扣因子γ:目前策略对后续策略的影响程度,根据具体需要设定;

状态转移概率Psa:状态转移行动共包括4种,分布是2个基层级仓库的消耗(C1,C2)和接受供应(S1,S2),其概率服从泊松分布,参数λ为消耗和接受供应数量均值的倒数,可由航材业务数据统计后得出。

步长:MDP系统的步长为1天,即所有数据按天计算[11]。

3 实例仿真分析

3.1 参数设定

系统内有1个基地级仓库,2个基层级仓库,基层级仓库间满足横向供应条件。基本参数设置如表1所示。

表1 算例参数

3.2 算法流程

算法分为策略评估和策略迭代两部分。首先,生成包含2个基层级航材股仓库所有器材配属情况的状态矩阵S,在状态矩阵S中的每一个状态s上,对每一个可能的行动进行策略评估,计算执行行动产生的最终奖励值,选择每一状态的所有横向供应行动中,结果最优的横向供应行动集合,作为下一次迭代的初始策略。算法退出的条件为两轮策略迭代的奖励值变化小于设定的阈值。算法流程见图2。

图2 算法流程框图

3.3 实例计算

3.3.1计算细节说明

本例需要迭代的次数过多,文章中无法将所有过程完整表示,因此本节选取第一次迭代过程进行计算细节说明。

1) 生成状态矩阵S和初始策略矩阵P

在本例的2个航材股仓库中,存放该器材的最大数量为10,即每个航材股的器材存储状态各有0-10共11种,则状态矩阵S为11×11维矩阵。

本例中每天横向供应的最大件数MOVEMAX为5,对于航材股1而言,有[-5,5]共11种情况,其中正数表示航材股1向航材股2横向供应,负数反之,0为该天未发生横向供应,航材股2亦是如此,为优化计算,只使用航材股1作为策略执行的主体,则策略矩阵同样为11×11维矩阵,但矩阵的每一行都相同。

2) 计算策略实际执行情况和下一状态

以状态矩阵S中的状态s=(8,6)为例,执行策略矩阵P的实际情况和执行后状态如表2所示。

3) 计算执行策略产生的回报

在本例中,执行策略的回报包含2个部分:横向供应造成的损耗和正常器材供应产生的收益。其中,横向供应的损耗可由表2中的实际执行数量与供应损失(L1,L2)求出;正常供应产生的收益也可由实际供应数量与供应收益(R1,R2)求出。在本例中,仓库正常供应和横向供应的数量是一个泊松过程,实际消耗值(C1,C2)分别服从参数为λ11,λ21的泊松分布,实际横向供应值(S1,S2)分别服从参数为λ12,λ22的泊松分布,即在状态s下执行行动a的状态转移概率Psa为:

(6)

表2 状态s=(8,6)执行后状态

根据Bellman方程(式(2)),执行行动后的奖励函数R可表示为(第1次迭代):

R=∑Psa×(C1×R1+C2×R2-L1×S1-L2×S2)

(7)

根据V*Bellman方程(式(4)),第2次迭代至收敛的奖励函数R可表示为:

R=R-1+∑Psa×(C1×R1+C2×R2-L1×S1-

L2×S2+γ×R-1(sB1,sB2))

(8)

式(8)中,R-1表示上一轮迭代得到的最优奖励函数;(sB1,sB2)表示在本轮迭代执行行动后,2个仓库的实际库存状态;R-1(sB1,sB2)表示在上一轮迭代后,执行最优策略得到奖励函数中,状态为(sB1,sB2)的函数值。将C1,C2组合,求得在状态s=(8,6)中执行行动a=2的奖励函数值为8.825。类似的,在状态s=(8,6)下,执行策略矩阵P的最终奖励函数如表3和图3。

表3 执行a=2奖励函数值

图3 执行a=2奖励函数值

得到在该次迭代下状态s=(8,6)的最优策略为a=2。

3.3.2计算结果

算例经过3轮迭代求得最优解,分别得到1个策略矩阵和对应的奖励函数值。第一轮迭代中经历10次迭代,奖励函数值从74.910 02至111.987 2,误差值从314.609 7至0。第二轮迭代中经历16次迭代,奖励函数值从314.273 132至475.865 417,误差值从959.625 916至0。第三轮迭代中经历14次迭代,奖励函数值从483.712 769至490.000 885,误差值从3.641 499至0,具体变化如图4所示,本轮迭代的奖励函数值差为0,得到最优策略矩阵P(1)为:

即矩阵P(1)为最优策略π*(s),其数值分别对应初始状态矩阵S中各状态的最优行动,例如在状态s=(8,2)时,行动为a=2,即从仓库B1向B2供应2个器材。从策略矩阵的分布来看,在状态矩阵S主对角线两侧附近的最优策略是0,即在两仓库的器材量接近时,不需要进行横向供应,在副对角线上附近的状态值基本对称,且左下角比右上角的横向供应量大,与假设的参数相符。

图4 第三轮迭代中的奖励函数值与误差值

3.4 模型对比

在上节算例的基础上,将器材在仓库B1、B2的最大库存值设为100,即初始状态矩阵和最优决策矩阵为100×100维。设定在平时保障状态下出现缺货时,该天无法完成正常保障,第二天从另一仓库横向供应后正常保障。两仓库的器材需求到达时间服从参数为λ11和λ12的泊松分布。设定库存系统的初始状态为s=(40,20),使用模型前后,各仓库库存情况随保障天数的变化分别如图5、图6所示。

图5 使用模型前的库存变化

图6 使用模型后的库存变化

从图5和图6的变化情况可知,使用模型前,两仓库没有器材横向供应,库存量随时间逐渐下降,B1仓库库存始终大于B2仓库库存,库存系统在第8天后无法进行保障;使用模型后,两仓库在第二天时就发生了横向供应,从第三天开始B2仓库库存大于B1仓库库存,最终在第10天时耗尽所有库存器材。使用模型后,同样的库存系统延长了25%的保障时间,有效提高了航材保障效率。

4 结论

本文利用马尔科夫决策过程建立了航材股仓库间允许横向供应的器材供应离散模型,使用增强学习的思想,对模型的进行策略评估和策略迭代,求解对应整个状态空间下所有状态的最优策略,即在不同器材配置方案下的最优横向供应方案,最终策略与算例假设情况相符,在对使用模型前后的保障情况进行仿真后,相同库存系统的保障时间提升了25%。该模型能够有效解决航材二级库存系统的器材配置问题,此外,还可以针对不同器材调整算例参数,扩展模型的适应范围,减小库存不平衡对航材保障能力的影响,提高部队整体的航材保障效率。

猜你喜欢

航材仓库器材
考虑航材共享的国产民机航材配置技术研究
AV TOP 100!2020-2021年度优秀影音器材推荐榜简评
填满仓库的方法
四行仓库的悲壮往事
AV TOP100! 2019-2020年度优秀影音器材推荐榜简评
从“人”的角度浅谈对航材管理的认识
航材供应链冲突诊断建模
小猫看仓库
浅谈我国通用航空航材共享业务
视听器材个股表现