基于多智能体强化学习的纺织面料染色车间动态调度方法

2023-02-14贺俊杰

计算机集成制造系统 2023年1期

贺俊杰，张洁+，张朋，郑鹏，王明

(1.东华大学机械工程学院，上海 201620；2.上海交通大学机械与动力工程学院，上海 200240)

0 引言

纺织产业是我国国民经济的支柱产业之一[1]，面对竞争日益激烈的市场环境和多品种小批量的个性化定制生产需求，通过生产调度优化提高产品准时交付率是提升企业竞争力的有效措施。纺织面料的生产由织造和染整两个阶段组成，其中染整阶段又包括前处理、染色和后处理等工艺。染色工序由于耗时长，通常被视为纺织品生产管控的关键环节，也是制约产品订单准时交付的瓶颈所在。通过对染色车间生产过程进行调度优化以降低产品的拖期交付，对提升企业的竞争力具有重要意义。

根据染色工艺特点，染色车间的调度问题可拆分为订单组批和排缸两个子问题，且需要考虑机器容量限制与不相容工件族等约束，该问题已被证明为NP-Hard问题[2]。此外，实际的染色生产以订单为驱动，染色任务随着订单动态到达。通过调研发现，染色车间存在染色回修、紧急订单、改色漂染等突发紧急任务，紧急任务的扰动会影响生产进程和降低生产效率。因此，本文将染色车间调度问题抽象为具有不相容加工族和不同的染缸容量约束，考虑任务动态到达的并行批处理机调度问题，并通过最小化总拖期时间来减少产品的拖期交付。

近年来，已有众多学者针对染色车间调度问题展开研究，且现有的研究以静态调度问题为主，主要方法包括数学规划方法和智能优化算法[2-7]。随着纺织企业向小批量个性化定制和面向订单驱动的生产模式转型，车间调度的动态事件频率增加，这对调度算法在动态生产环境下的自适应响应能力提出了更高的要求。动态环境下的调度策略主要包括鲁棒调度、预—反应式调度和完全反应式调度3类[8-9]。由于染色车间动态事件发生频率较高，频繁的预—反应式重调度不利于生产过程的稳定性，鲁棒调度以牺牲调度性能为代价提高鲁棒性，且不能对动态事件进行响应，而以各类启发式规则为代表的完全反应式调度方法更适用于染色车间动态事件频发的生产环境[10]。但现有的启发式调度规则均基于特定的动态场景设计，缺乏自适应调整能力。随着机器学习技术的快速发展，其中的强化学习方法可通过学习生成复杂的调度策略，具有较强的自适应和学习能力，被广泛应用于各类实际调度问题中。张东阳等[11]应用Q-Learning强化学习算法求解置换流水车间调度问题；肖鹏飞等[12]提出了基于深度强化学习的非置换流水车间调度算法并改进了网络输出层；WANG等[13]将Actor-Critic算法用于晶圆制造系统调度，对多目标采用加权的奖励函数；ZHANG等[14]将Q-Learning强化学习算法应用于小规模的批调度问题。近年来提出的近端策略优化(Proximal Policy Optimization, PPO)算法[15]是一种基于策略的深度强化学习算法，该算法交互的经验数据可重复利用，使得其采样效率更高，该算法独有的损失函数裁剪使得该算法学习稳定性更强，在交通[16-17]、机器人[18-20]、车间调度[21-22]等智能控制领域得到了实际应用，且明显优于策略梯度(Policy Gradient, PG)[23]、信任区域策略优化(Trust Region Policy Optimization, TRPO)[24]、优势动作评论(Advantage Actor Critic, A2C)[25]等深度强化学习算法。但在现有基于PPO的车间调度方法中均为独立的智能体，如何针对组批和排缸两阶段的染色车间调度使用多个PPO智能体协作调度，并提升任务动态到达的响应能力，是将PPO算法应用于染色车间调度问题的难点所在。

综上所述，当前研究以静态调度为主，无法满足生产转型带来的快速响应需求，传统的强化学习调度方法[26]在优化调度目标时只关注了车间的实时信息而缺乏对历史动态信息的考虑。因此，本文在现有染色车间调度研究和PPO强化学习算法的基础上，针对任务动态到达的染色车间调度问题，以最小化总拖期时间为目标，设计具有组批智能体和排缸智能体的多智能体循环近端策略优化(Multi-Agent Recurrent Proximal Policy Optimization, MA-RPPO)强化学习算法。针对车间复杂约束和调度目标，抽取车间关键参数并设计奖励函数，将染色车间调度问题转化为序列决策问题；为多智能体引入长短期记忆网络(Long Short Term Memory network, LSTM)的记忆与预测功能，实现车间动态信息的提取；针对组批和排缸的全局优化问题，设计组批智能体与排缸智能体协作调度机制，通过智能体与车间交互训练建立高效的调度策略。

1 问题描述与建模

1.1 问题描述

染色工序要求将素色坯布放置染缸中持续浸染，直至纺织品的颜色符合预定要求[27]。染色车间通常有多种不同容量的染缸且各染缸独立工作，染缸一旦开始染色，在工序完成之前无法被其他任务抢占。为提高染缸的利用率，相同幅宽的坯布可经首尾缝制连接后，组批进入同一个染缸进行染色，但多个染色任务的总质量不得超过染缸的最大容量。由于印染不同的颜色所需的染料和助剂不同，只有相同颜色的染色任务才能同时进入同一个染缸生产。因不同型号的坯布纱线原料比例不同，不同批次纱线的化学处理不同可能会导致染色差异，组批时还需是同一批纱线原料织造的同型号坯布。因此幅宽、颜色、型号和纱线批号均相同的坯布可归为同一加工族，仅同族的任务才能进行组批，组批完成后进行排缸，即选择批次指派到染缸进行染色，染色任务的生产调度过程如图1所示。

综上，染色车间调度问题可描述为：有n个染色任务动态到达，需在m台并行批处理机上进行加工，已知生产工艺和加工参数等，在满足相关约束的基础上，对订单任务进行组批和排序，以使得产品订单总拖期时间最小。

本文研究的问题基于以下假设：

(1)所有任务动态到达；(2)不存在撤单等特殊情况；(3)批处理机有不同的最大容量限制；(4)具有不同色系、色号、幅宽或布批号的任务不兼容；(5)同族任务加工时间相同，且可组批加工；(6)连续的批次加工之间存在由颜色决定的不同准备时间；(7)任务在任一时刻只能由一台机器加工；(8)任务在机器上非抢占式加工。

1.2 建立数学模型

进一步建立染色车间调度的数学模型：

1.2.1 符号与变量定义

表1 符号与变量

续表1

表2 决策变量

1.2.2 建立数学模型

将染色车间调度问题建立如下数学模型：

(1)

(2)

∀k∈[1,…,b],j∈[1,…,n]；

(3)

∀k∈[1,…,b],i∈[1,…,m]；

(4)

eif·xjki≤Ykif,∀j∈[1,…,n],k∈[1,…,b],i∈[1,…,m],f∈[1,…,o]；

(5)

tli≥tki+(Pf+Sfg)xjki,∀k∈Ff,l∈Fg,k

(6)

tki≥max{rj|∀Jj∈Bk}+Sfg,b

(7)

cki≥tki+Pf·xjbi,∀Ff,j∈[1,…,n],i∈[1,…,m]；

(8)

cki,tki≥0,∀k∈[1,…,b],i∈[1,…,m]；

(9)

Tj≥max(cki·xjki-dj,0),∀k∈[1,…,b],i∈[1,…,m],j∈[1,…,n]；

(10)

xjki，Ykif∈{0,1},∀j∈[1,…,n],k∈[1,…,b],i∈[1,…,m],f∈[1,…,o]。

(11)

其中：式(1)表示最小化总拖期时间；约束(2)确保一个任务只能匹配到一个批和一个染缸；约束(3)表示批的最大重量不得超过加工该批的染缸的最大容量；约束(4)和约束(5)表示加工族约束；约束(6)表示相邻两个批次的染缸切换时间约束；约束(7)表示开始加工时间约束；约束(8)表示完工时间约束；约束(9)表示起始时间和完工时间必须大于0；约束(10)表示任务的拖期时间约束，若未拖期则为0；约束(11)表示两个决策变量为0-1变量。

2 基于MA-RPPO强化学习的染色车间动态调度方法

染色车间调度问题可分解为组批和排缸两个子问题。组批是将同加工族的任务组合到一起形成批次；排缸是将组合好的批分配至染缸进行染色生产。在实际生产过程中，客户订单不断的下达，车间状态随时序演进，染色车间调度问题转化为包含组批和排缸的序列决策问题。本文研究基于多智能体强化学习的调度算法，设计动态调度机制，并驱动如图2所示的组批智能体和排缸智能体分别对两个子问题进行求解，以实现总拖期时间最小。

2.1 动态调度机制

基于完全反应式的动态调度方法的主要思想是根据车间的实时状态实时安排待加工任务的生产。随着新任务的到达和车间加工进度的变化，需要及时地安排新任务到空闲的染缸上进行加工，不断重复上述过程直至所有任务加工完成。如图3所示为本文提出的调度染色车间动态调度流程。在加工过程中依次执行如图3左侧所示的组批子循环和排缸子循环，在调度策略中考虑等待实现目标优化，并通过图3右侧所示的事件与时间窗结合的混合触发方法不断滚动。

染色车间以订单驱动生产，在未知未来订单的动态环境下需要考虑等待。如图4中无等待的调度甘特图所示，在t1时刻可对J1进行加工，但后续到达的任务J2到达时，由于J1已进行加工且无法中断，导致J3和J4的拖期时间均有增加。因此，在动态生产环境下对任务订单进行合理的等待能有效的减少任务的完工时间。

为提升动态环境下的响应能力，本文首先考虑了现有研究常用的事件驱动的调度。但因在调度策略中考虑了等待，等待成功与否同样具有不确定性，可能会发生因等待任务而导致染缸长时间空闲的情况，因此在其基础上引入时间窗口触发机制，可及时对不合理的等待方案进行修正。调度触发时间刷新表示如下：

t←min(thappen,t+tw)。

(12)

式中：thappen为下一事件发生时刻，tw为时间窗口长度参数。

2.2 MA-RPPO强化学习调度算法

基于强化学习的调度方法不同于传统调度优化方法的“建模、分析、优化”的思路，而是通过对调度交互数据进行学习，根据生产系统的反馈逐步调整调度策略实现调度策略的优化[28]。首先，针对问题特点进行了强化学习智能体的设计；然后，强化学习智能体与染色车间的调度交互过程采用马尔可夫决策过程(Markov Decision Processes, MDP)进行描述，包括调度状态空间、调度动作空间和调度奖励函数的设计；最后，在调度触发时智能体输入染色车间状态s，然后输出调度决策a，车间环境反馈奖励值r，随时序不断地执行如图5所示循环交互获得大量调度经验数据，智能体以数据驱动的方法更新模型，实现调度策略优化。

2.2.1 调度智能体

MA-RPPO强化学习多智能体结构如图6所示，模型包括组批与排缸两个PPO智能体，每个智能体有一个调度策略模块Actor，各自通过一个深度神经网络实现从车间状态到组批或排缸调度动作的映射。组批Actor和排缸Actor通过动态调度机制进行序列式调度，与染色车间环境进行交互并学习的调度经验优化调度策略。两个智能体共享一个全局Critic和一个全局LSTM网络。设计的全局的调度行为评价模块Critic用来逼近真实的系统反馈，通过一个深度神经网络建立从车间全局状态与调度决策到调度评价的映射。在PPO算法基础上，本强化学习多智能体针对问题动态性引入LSTM实现动态信息融合，针对组批调度和排缸调度两个子设计智能体交互机制实现智能体的协作调度。

(1)动态信息融合

LSTM模块输入车间的历史状态与调度记录进行编码和记忆，实现历史动态信息的融合，并输出一维矩阵对为智能体的调度提供关键的车间动态信息。如图7所示，全局状态向量和调度决策进行拼接后，输入至LSTM网络的内部通过隐状态h和c进行信息传递，LSTM单元的输入输出可表示如下：

mdc-1=LSTM(hdc-2,cdc-2,[sdc-1,adc-1];ψ)。

(13)

式中：LSTM输入包括车间状态sdc-1，上一时刻的调度决策adc-1，ψ为LSTM网络参数，hdc-2和cdc-2均为LSTM的内部隐状态，LSTM输出交互向量mdc-1是一维向量，该向量是历史车间状态记录的和预测信息的编码。交互向量输出后，作为调度智能体的输入，使得智能体调度时获得当前的车间调度关键动态信息。通过为智能体引入上述LSTM的记忆与预测功能，实现车间动态信息的融合，进一步提高智能体的动态自适应能力。

(2)智能体交互机制

通过LSTM为中心的调度决策输入和交互向量输出实现智能体之间的交互。智能体调度前，从LSTM获取交互向量作为智能体的部分输入，而交互向量编码了历史调度信息，实现了历史调度的智能体到当前调度智能体的调度信息发送；智能体调度后的调度动作返回给LSTM，将当前智能体的调度决策信息由LSTM记录，未来智能体调度时均可从LSTM获得本次的调度信息。以图6中的连续两次组批调度和排缸调度为例，在dc=0次调度时刻，组批智能体进行调度，本次调度的车间状态和组批调度动作发送到LSTM记录；dc=1次调度时，排缸智能体从LSTM获取输出向量m1，因m1中编码了dc=0次调度的组批信息，通过上述交互实现组批智能体和排缸智能体之间的交互，如图6中的红色路径所示。

两个不同的智能体功能不同，所需要观测的信息也不同，因此智能体调度时所输入的矩阵是全局状态的不同子集。具体的，组批智能体观察的状态包括待组批任务状态f1和批状态f2，而排缸智能体观察的状态则包括批状态f2和染缸的状态f3。设计组批智能体局部观测的状态矩阵如下：

sB=[f1,f2];

(14)

设计排缸智能体局部观测的状态矩阵如下：

sS=[f2,f3]。

(15)

2.2.2 调度状态空间

智能体进行调度决策依赖于车间的状态信息，通过状态信息感知车间环境动态变化。根据车间调度约束与优化目标相关的状态特征设计状态矩阵Fdye。染色车间调度主要包括任务、批和染缸3个对象，因此用Fdye=[f1,f2,f3]对车间状态进行描述，其中f1=[f1,1,…,f1,n]为待组批任务的状态，而f1,j=[f1,j,1,…,f1,j,8]表示任务Jj的特征向量；f2=[f2,1,…,f2,b]为批状态，其中f2,k=[f2,k,1,…,f2,k,9]表示批次Bk的特征向量，而f3=[f3,1,…,f3,m]为染缸状态，其中f3,i=[f3,i,1,…,f3,i,6]表示染缸Mi的特征向量。待组批任务、批和染缸3种特征向量中的参数含义及表达式分别如表3所示。

表3 染色车间状态参数表

2.2.3 调度动作空间

染色车间调度决策空间是在车间不同的状态下可执行的调度决策集合，主要包括组批调度决策空间和排缸调度决策空间。

(1)组批调度决策空间设定数量为q的组批缓冲区，组批调度决策将当前待组批任务加入某个组批缓冲区或暂缓组批，组批调度决策空间定义为：

调度决策1：选择第k个组批缓冲区

a=k(0≤k

(16)

调度决策2：等待

a=q。

(17)

组批调度决策时选择一个组批缓冲区则将当前待组批任务加入该组批缓冲区，选择等待则该任务暂缓组批。若组批智能体将任务加入的批不兼容或超出批最大容量则组批失败，结果等同于动作2。

(2)排缸调度决策空间排缸调度决策在组批缓冲区中选择一个组批缓冲区，并匹配到染缸进行加工，与组批调度决策空间定义相同。选择一个组批缓冲区则将该批进行染缸匹配并进行染色生产，并将该组批缓冲区清空；选择等待则表示不选择任何批进行加工。若染缸匹配失败，则等执行等待。为减少拖期，染缸匹配规则设为在满足容量要求的染缸集合中选择切换时间最小的染缸。

2.2.4 调度奖励函数

设计调度奖励函数，将目标函数按调度的步骤进行分解，实现分步奖励。

(1)组批调度奖励函数

(18)

(19)

(20)

(2)排缸调度奖励函数

(21)

(22)

spj(t)=

(23)

引理1最小化总拖期时间等效于最大化累积奖励。

证明对右式中的累积奖励进行如下变换：

步骤1将单次调度步骤的奖励转换为该调度窗口内拖期时间的积分：

步骤2将整个调度回合的奖励合并为拖期时间积分：

步骤3将组批拖期与排缸拖期时间积分合并：

由此得证：

其中sfj(t)为任务j已到达且未完工的标志位：

(24)

强化学习方法的学习过程即通过参数更新实现最大化奖励，最大化上述奖励与最小化拖期时间等价，为后续的强化学习模型更新提供有效的指导。

2.2.5 模型更新

本文的模型参数更新方法在传统的PPO算法[15]上进行改进。首先，将LSTM网络与Actor和Critic进行全局更新实现LSTM网络与智能体同步优化。LSTM网络输出是Actor网络和Critic网络的输入，将Actor网络和Critic网络更新时的梯度回传至前缀LSTM网络实现全局参数优化。然后，由于组批和排缸智能体优化同一目标，将组批和排缸的奖励值进行全局折扣，实现组批和排缸之间的相互关联与影响：

(25)

式中Q(sdc,adc)为在状态sdc下选择调度决策adc所获得的全局累计折扣奖励值。通过滚动事件和滚动时间窗驱动，不断进行调度，获取大量染色车间调度交互数据〈s,a,r〉并进行存储，直至所有任务完成，采用梯度下降法对参数进行更新，通过不断迭代实现车间状态到调度决策的策略函数优化。算法伪代码如算法1所示。

算法1基于MA-RPPO强化学习的染色车间调度算法。

1:初始化智能体参数θ1,θ2,φ,ψ

3:for each episode do:

4: 初始化决策时间dt=0，化决策次数dc=0

5: 初始化任务序列、交互向量mdc、经验缓存池、全局状态sdc

6: while not done do:

7: for job in waiting job:

13: dc←dc+1

14: While True：

20: dc←dc+1

21: If排缸结果为等待：

22: break

23: end while

24: 等待至下一次调度触发，刷新时间t

25: end while

26: 计算全局折扣Q(sdc,adc),∀k

27: for agent=组批智能体A0，排缸智能体A1do：

28: for epoch=1,2,…,N do:

29: 计算策略网络梯度∇L(θi,γ)和值网络梯度∇J(ω,ψ)

30: 更新策略网络(θi,ψ)←(θi,ψ)+αθ∇J(θi,ψ)

31: 更新值网络(ω,ψ)←(ω,ψ)-αω∇L(ω,ψ)

32: end for

33: θold,wold,ψold←θ,w,ψ

34: end for

35:end for

3 实例验证

通过对福建某纺织品企业染色车间的实际生产历史数据进行实验以验证所提方法的有效性。每条染色任务数据包括颜色、重量、色系、任务类型、布批号、加工时间、到达时间等参数。依次加工不同族批次所需准备时间sj1,j2取值如表4所示。实验使用Python 3.6进行编程，使用Pytorch机器学习框架搭建强化学习网络模型，计算环境为core i5, 16G RAM, Windows 10操作系统。实验包括训练和测试两部分，模型训练过程中染色任务按照任务数据中既定的时间到达，通过迭代训练获得最优模型并保存，最后将测试任务算例导入到保存的模型进行测试，并对比其性能。

表4 颜色切换准备时间表 h

3.1 数据预处理

原始数据部分特征为字符串或特殊含义的数字，例如布批号和颜色等，字符串无法参与运算，编号类数字直接参与运算会造成网络更新过程产生梯度消失或梯度爆炸等现象。因此，在进行实验之前应对数据中的以下特征首先进行编码处理，包括色号、色系和布批号。常用的编码方式有二进制编码、独热编码和整数编码。其中对同一色系内的色号按照颜色的深浅进行整数编码并归一化，对不同的色系和布批号进行独热编码，紧急任务类型参数本身为整数编码，对其进行0-1归一化。因部分观测的状态特征如等待时间等参数随时间变化而增长，导致梯度消失或梯度爆炸，采用比例因子法对与时间相关的状态参数进行缩放，减少各个特征维度的数量级差异，设缩放比例因子为bt。数据预处理示例如图8所示。

(26)

3.2 参数设置与优化

采用概率匹配[29]对候选调度决策按策略输出权重进行随机采样，避免智能体陷入局部最优并提高解集的多样性，实现调度的探索与利用之间的平衡。在状态矩阵后分别添加后缀0或1，实现全局Critic对组批和排缸的区分。搭建两个网络结构相同的智能体，对学习率、累积折扣因子、交互向量长度、组批缓冲区数量等进行参数优化，部分关键参数正交实验结果如图9所示；小批量样本数和经验缓存区容量上限则根据算法调度交互过程的交互数据情况进行确定，因PPO算法的交互数据在参数更新后可以重用，将经验缓存区容量设置成一个回合获取交互数据条数的3倍～5倍，提高智能体的调度交互效率，学习速度更快；时间窗大小、组批缓冲区最大数量和时间缩放因子bt则根据调度过程的情况进行设定；优化器、折扣因子和隐层神经元数量参数则根据经验进行确定；最终确定相关参数如表5所示，并且在该参数设定时算法的调度优化效果较好。

表5 实验参数

3.3 模型训练

根据表5所示参数对算法进行设定并在训练集上进行训练，在迭代过程中记录各项参数变化，并与改进前的PPO算法对比。对比算法为两个单独PPO智能体，没有LSTM单元、智能体交互与全局折扣，其余参数设置均相同。如图10所示为改进前后的算法在100个相同规模的算例上迭代训练的结果对比。每个算例有50个任务，由10台染缸生产，在每一代对所有算例进行调度后更新参数，训练过程参数变化如图10所示。

由图10a可知，MA-RPPO算法训练过程的全局累积折扣奖励值逐渐上升，同时图10b所示组批智能体和图10c所示排缸智能体的平均累积折扣奖励均表现出良好的上升趋势，表明两个智能体通过以LSTM单元为中心的信息交互形成了良好的协作关系，排缸和组批实现了全局优化，且其优化过程明显优于PPO模型。全局累积折扣奖励值上升的同时，图10d中的总拖期时间也随之逐渐降低，验证了本文设计的奖励函数与全局优化目标的一致性，进一步证明了模型改进的有效性。图10e中值网络损失逐渐收敛，表明全局Critic对两个智能体所作调度的评估误差逐渐减小，建立了染色车间调度全局评估体系。图10f中全局Critic对智能体的动作值评价逐渐升高，说明在评价误差减小的同时，智能体的调度性能越来越好。

综上可见，MA-RPPO算法在训练过程实现了对调度智能体的优化，智能体间的协作调度体系得以形成，对组批和排缸两种调度决策实现了全局评估，通过训练模型提升了动态环境下染色车间调度能力。训练过程整体表明MA-RPPO模型训练过程稳定，收敛速度较PPO模型快，全局求解能力更强，更满足动态调度的需求，验证了改进的有效性。

3.4 实例测试

通过测试算例验证训练所得模型解决调度问题的有效性。染缸数m=5或10，任务数n=50或100，对每一种m与n设置10个算例。MA-RPPO模型事先在包括100个相同规模算例的训练集上进行训练并对模型进行保存。表6展示的是训练后的算法与A1规则[30]和按到期时间排序组批(SortedbyDuedateandconstructBatches,SDB)规则[31]对测试算例的调度结果对比情况。结果表明，A1规则是解决染色车间调度问题的较优规则，因SDB规则考虑的仅是任务的到期时间而未考虑加工族的整体情况，而A1首先通过族的筛选然后在族内按照到期时间进行排序，其综合考虑了不同族任务的加工时间与到期时间的比值，调度结果更优。但实质上以上方法均为贪心策略，组批和排缸调度决策均为事件触发，本文提出的方法在所有算例上均优于以上两种调度规则，无论其规模大小都能通过学习获得比现有调度规则更优的策略。

表6 算法性能对比

续表6

由图11所示的较A1算法提升百分比可知，在规模为m=5,n=100的算例上提升最为明显，这是因为该算例染缸数较少且任务较多，染缸的负荷高，算例最大完工时间最长，通过合理的等待对目标的提升明显，本方法可实现考虑动态信息的等待，组批和排缸两阶段全局优化，动态调度能力更强。

如图12所示为其中一个m=5,n=100的算例经MA-RPPO算法求解后的甘特图，其中红色标记的任务(编号22，23，34，47，50)是通过延迟加工且等待到了新任务的批次，说明了智能体的调度策略可对动态环境下的任务等待实现批调度优化，通过等待新任务提高染缸的利用率的同时进一步降低了总拖期时间。

4 结束语

本文以纺织品的染色生产车间为背景，最小化总拖期时间为目标，针对任务动态到达的染色车间调度问题，提出了基于MA-RPPO强化学习的纺织品染色车间动态调度算法。考虑染色车间的复杂约束的基础上将调度问题转化为序列式决策问题，设计了考虑等待的调度流程，并提出了MA-RPPO调度多智能体结构，通过引入LSTM实现时间维度的车间动态信息融合，并作为组批智能体和排缸智能体的交互中心实现智能体的交互协作，进一步实现了组批与排缸的两阶段全局优化。根据染色车间的组批和排缸约束设计了状态矩阵对车间状态进行描述，并对设计的奖励函数与目标函数的等效性进行证明。经企业真实算例测试表明，本文提出的方法调度获得的结果优于现有两种启发式算法。

随着数字化技术的不断发展，制造业的生产车间数字化程度不断加深，为建立车间的数字孪生模型提供了可能。如何在建立数字孪生模型的基础上结合图网络自动提取出车间关键特征作为强化学习状态特征，实现车间的智能决策，是进一步的研究方向。