基于强化学习的动态物流中转对接点方法研究∗

2024-04-17徐伟斌余俊旸

计算机与数字工程 2024年1期

张超胡鹏徐伟斌宋伟全鹏余俊旸

（1.中国烟草总公司湖北省公司武汉 430030）（2.湖北省烟草公司十堰市公司信息中心十堰 442099）（3.武汉大学计算机学院武汉 430072）

1 引言

烟草物流是烟草行业的核心业务，是中国烟草面向未来提升核心竞争力的重要支撑。借助现代统计学方法及工具对物流资源进行整合，打造合理、高效、优质的配送网络是提高烟草企业核心竞争力的必由之路。当前卷烟物流市级配送网络主体呈二级配送模式：第一级是市级卷烟物流中心直接配送区域；第二级县（市、区）级中转接力配送区域。中转站一般选址在县城区内，如遇县域地形复杂、面积大、县城不在县域中部位置等情况，就会导致终端送货里程远、行车时间长、装载率低、客户服务时间短等问题，间接造成烟草物流配送费用居高不下、客户满意度低，如何合理优化中转区域网络布局，是烟草物流行业需要面对的一道重要课题。对此，国内外许多学者都进行了深入的探索和研究。

2 国内外研究现状分析

在卷烟物流中转站设置方面，国家烟草专卖局对中转站设置原则［1］进行了描述：中转站应以服务质量高、运行成本低为综合优化目标，合理设置卷烟物流配送中转站的数量和区位，在设置配送中转站的数量和区位时，应考虑配送半径，零售户数量等因素。

在中转站配送半径方面，国内学者石静等［2］提出物流中心中转站直配半径在60km 较为合适，60km 范围外的区域通过接力点接力配送更经济，而且随着中转站服务半径的逐渐扩大，接力配送模式的优势更加明显；华中科技大学在其对湖北烟草物流网络布局优化报告［3］中提出物流中心中转站直配半径在32km～48km左右为宜。

在中转站功能要求及“甩箱”模式方面，国家烟草专卖局对中转站的功能描述［1］：中转站宜具有暂存仓库、装卸月台、停车场、辅助功能用房、值班监控室等功能区；“甩箱”式配送［4］在烟草区域物流中具有明显优势：在出库装车环节，实现“车-箱”分离，烟包可装入集装箱暂存，兼具移动仓库作用，且集装箱的交换在任意满足车辆和吊装设备活动的空地即可完成，对仓库、月台、停车场的需求大为减少，能够大幅节省中转站基建投资；尹许程［5］等提出在中转区域内设置仅具有转运等功能的中转对接点可以有效缩短干线运输距离，降低中转暂存费用，提高配送服务水平。

在中转站规划选址方法方面，刘飞宇提出了基于元学习的多目标强化学习算法PG-Meta-MORL［6］，利用多个拟合后的预测模型选择得到的任务迭代求解，找到近似最优解集合；朱广胜［7］以总成本最低为目标，引入建站成本设计中转站设置的算法模型；王勇等［8］提出先对备选配送中心进行聚类分析而后在各聚类单元内进行选址排序的思想方法，并应用到多级物流配送网络的选址优化问题中；叶岚［9］提出通过对不同需求的大量离散卷烟零售客户按道路情况聚类分析，打破以往按区域划分的配送方式，运用覆盖模型从零售客户需求点集中寻找虚拟物流配送中转站；李存兵等［10］提出中转站配送资源优化模型、跨区域配送路线优化覆盖模型、遗传聚类算法的烟草物流配送优化模型，在配送区域的合理划分上取得了较好效果。

综上所述，国内外学者、烟草行业商业公司在优化中转区域网络布局方面做出了一些有益的尝试，有基于“硬件”层面的单元化集装货箱运输模式和新增中转对接点，有基于“软件”层面的中转站优化布局算法模型及各种数据模型测算服务半径的方法。但是目前综合“硬、软件”层面特点，根据外部条件变化，实现动态设置中转站点的研究还比较少，针对这一研究薄弱领域，本文提出了一种基于强化学习的卷烟物流动态中转对接点优化方法，应用强化学习、聚类、重心选址等算法建立动态卷烟物流中转对接点优化模型，优化卷烟物流中转网络，并结合“甩箱”运输模式和“站部所”资源，可根据订单配送数量、零售客户数量、送货里程、行车时间等因素的变化，科学计算并形成动态中转对接点的设置方案，能够有效解决中转配送区域大、中转站位置不合理导致的弊端，达到缩减送货里程和减少行车时间目的，进而提高卷烟物流运行效率、客户服务水平，降低物流营运成本。

3 动态卷烟物流中转对接点优化方法研究

3.1 动态卷烟物流中转对接点优化方法

如图1（a）所示，中转区域面积大、中转站位于配送服务区域边缘。在第2天、第3天配送时，所有终端送货车在固定中转对接点接货后需经过长时间、长距离驾驶才能抵达到对应配送区域，完成全部配送任务后又需原路返回。由此造成了终端车送货里程远、行车时间长、装载率低、客户服务时间不足等问题。

图1 动态中转对接点工作模式

基于对现有研究的分析和一线走访调研，论文提出一种动态中转对接点工作模式，通过设置动态中转对接点方式对卷烟物流网络进行优化，优化方法如图2所示。

图2 动态卷烟物流中转对接点优化方法技术路线图

第一步：建立优化模型，动态中转对接点优化模型是一个多目标优化问题，既要实现减少行车时间，提高物流运行效率；又要做到减少送货里程，降低物流营运成本。论文设计基于强化学习的动态中转对接点优化模型，根据零售客户数量、送货里程、配送任务的不同，科学设置动态中转对接点。

第二步：应用优化模型

1）形成动态中转对接备选点方案

在已有固定中转站基础上，应用优化模型，通过历史物流配送数据（订单数量、零售客户数量、终端送货车辆数量、送货里程、行车时间）测算出合适的动态中转对接备选点数量及坐标区域范围。

2）形成动态中转对接点方案

以动态中转对接备选点为中心，寻找备选点附近烟叶收购工作站、市场部、专卖管理所（下文简称“站部所”）资源，确定动态中转对接点选址。选址“站部所”，一方面能够最大程度减少中转对接点的建设及运营成本。同时方便对接点在旺季时启用与淡季时关闭。

第三步：形成配送方案

根据动态中转对接点方案和每日配送任务，应用“甩箱”配送模式，干线大型货车到对应的中转站或动态中转对接点将烟包转运到终端车上，由终端车进行零售客户配送。对比图1（a）和（b），采用“大车接力补，小车循环送”工作模式后，预期能够减少行车时间，提高物流运行效率，降低物流运营成本，提高服务质量。

3.2 建立优化模型

论文设计基于强化学习的动态中转对接点优化模型，根据零售客户数量、送货里程、配送任务的不同，科学设置动态中转对接点。强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，强化学习目标是使智能体获得最大的奖赏。智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。论文优化模型主要考虑两个优化目标：

优化目标1：降低物流营运成本的核心在于减少终端送货或干线送货里程。

优化目标2：提高物流运行效率的核心在于减少终端行车时间，且终端行车时长最大值不超过4h。

终端行车时长Tt定义如式（1），其中Tc为客户服务时长，Td为终端行车时长，To为其他工作时长：

终端工作日时长为一个工作日正常的工作时长，8h。

Tc代表在进行单个客户配送时，送货员完成取货、送货、点货、签收、返回车辆等环节的服务时长。经过数据统计，客户服务时长均值1.5min/户左右，终端车一天约配送120 户，所以，一天的客户服务总时长约为3h。

To包含车辆出行检查、转运工作、送货过程中的烟包整理、临时性问题处理等工作用时，均值为1h/天。

Td代表终端车的送货路上行驶时长。max（Td）=终端日工作时长（8h）-Tc-To=4h。如果行车时间超过最大值，客户服务时长、其他工作时长会缩短，间接造成客户服务品质下降、行车安全风险增高。

与离散空间的多目标优化问题相比，在具有高维连续状态空间的多目标强化学习优化目标求解更具有挑战性［6］。卷烟动态中转对接点设置是一个典型的连续空间多目标优化问题，论文借鉴PG-Meta-MORL［6］算法基于训练卷烟中转点优化模型。PG-Meta-MORL 算法使用具有不同优化目标偏好的任务迭代训练一个元策略，每一次迭代过程中，PG-Meta-MORL算法都会用历史数据训练得到一个优化分析模型，预测元策略沿各个优化任务方向的预期改进，然后PG-Meta-MORL 模型选择最好的优化结果作为下一轮元策略的迭代训练输入模型。

本优化模型在确保客户服务品质前提下，同时降低物流营运成本和提高物流运行效率，满足终端送货行车时间不超过4h、终端或干线送货里程数减少两个条件。因此，将物流营运成本最低和减少终端行车时间设定为优化目标，建立强化学习模型，具体如下：

1）设定动态中转对接点0～6 个，即n=（0，6）。一个访送周期最多有7天，除中转站配送的1天外，可以设置6个动态中转对接点。

2）设定中转区域物流营运成本（tc）=干线运输成本（mc）+终端线路运输成本（bc）+动态中转对接点营运成本（oc）+动态中转对接点固定投资成本（ic），其中：

mc=干线里程（km）×干线运输费平均值（元/km）

bc=终端线路总里程×终端线路运价平均值（元/km）

oc=中转对接点场地使用分摊费用（元）

ic=每动态中转站投资成本（元）

3）终端车行车时长均值（avg_time）=中转区域终端行车总时长/配送周期天数/终端车数量；

给定一个物流配送策略πθ和多目标偏好向量ω（ω1，ω2，其中ω1+ω2=1），我们通过式（2）最大化多目标期望奖励和来优化策略，即：

为了更好利用历史物流配送数据，本文采用强化学习方案对路径进行迭代优化。强化学习过程分两步迭代：配送策略调整步和策略训练步。

在配送策略调整步中，基于当前调度策略πθ针对各个优化子目标进行优化迭代得到相应的优化路径策略πθij（i 表示第i 个优化目标，j 表示训练轮次），优化步骤如式（3）所示：

在策略训练步中，算法上述配送策略调整步得到的中转对接点优化布局方案πθi与物流历史数据进行训练得到相应的优化选择，得到汇总的优化策略πθj：

3.3 应用优化模型

在强化学习模型中可以随机选择构造初始中转策略，利用上述强化学习模型得到针对多目标的优化中转路径规划策略，实践中为了加快模型收敛速度，提升模型时间效率，我们基于现有配送策略给出了一种初始中转对接点的选择方案，实际应用中可以根据实际需求选择是否采用下述方法。根据当前访销周期，计算形成初步方案，1 个送货周期有N天配送，就形成N套初步方案。

第1 个中转点方案，整个中转区域不作拆分，全都由中转站来配送。

第k（2 ≤k≤N）个中转点方案，中转区域拆分为k 个子区域，对应是中转站+（k-1）个动态中转对接点配送。采用K-means 聚类算法，计算出k 个子区域；中转站外的子区域，采用重心选址法计算出动态中转备选点；以动态中转备选点为中心，就近寻找满足条件的“站部所”资源，确定动态中转对接点；基于式（2）计算出行车时间、行车里程。

得到N 套初始中转点方案后，作为初始方案πθ0输入到上述强化模型中进行迭代优化分析。选择算法如算法1所示。

4 动态卷烟物流中转对接点优化方法实证研究

以湖北省烟草公司十堰市公司实例验证论文提出优化方法。十堰市位于湖北省西部，市境内多大山区，其中转区域有以下特点：1）市辖各县面积大、县域地理分割不规则，且因地形限制，交通线路少，跨县域调度难度大。2）部分县（市）城区位于县域边缘，中转站位于县城区内，以中转站为中心配送服务送货半径超过100km。3）区域内需配送的零售户多。以8h 工作制计算，终端配送车辆装载率极低、配送客户服务时间短。如提高装载率，则会出现无法当天返回情况。论文选择竹山中转区域，如图3 所示，其县域地理分割不规则，作为代表性区域进行实证研究。

图3 十堰市竹山县地图

图4 竹山中转区域（星号代表零售户）

4.1 实验环境搭建

为验证本文提出的动态卷烟物流中转对接点优化方法的有效性，设计实验将物流网络优化后效果与现行物流网络数据进行对比，实验采用JAVA编程语言实现动态中转点物流配送模型，使用Python3.7 和TensorFlow 2 来构建并训练模型，训练模型运行在一台配有Intel i9，RTX 3080 和32GB 内存的主机上。实验过程中设置每个epoch 处理256 个批次，迭代次数设置为50 次，在调度策略模型训练过程中设置学习率为0.001。

4.2 数据集准备

以湖北省烟草公司十堰市公司2020-2021 年的物流统计数据、网点资源数据集、卷烟配送数据集、终端车行车数据集、路网数据集输入模型进行训练及计算。

4.2.1 优化方法计算所需的物流统计数据

2021年干线运输费率平均值（元/km）=4.8；

2021 年终端货车运输费率平均值（元/km）=4.6；

动态中转对接点营运成本（oc），主要是使用“站部所”场地资源分摊费用，由物流中心预估一个值；

动态中转对接点固定投资成本（ic）=0，原因是动态中转对接点选址在“站部所”，不再新建场地和新增相应配套设施。

4.2.2 卷烟配送及终端数据集

2020-2021年两年的配送、签收数据共40余万条，包含：配送单位、配送车辆、配送线路号、零售客户许可证编号、签收时间（年/月/日时分秒）、签收地点经纬度。2020-2021 年两年的终端车定位系统行车数据共100 余万条，字段包含：配送车辆编号、采集时间（年/月/日时分秒）、车辆状态、车辆经纬度。

4.2.3 路网数据集

收集网点资源、零售客户的路网数据集共1，000 余万条，二点间距离采集电子地图的车行距离，字段包含：出发点编号、出发点经纬度、目标点编号、目标点经纬度、欧式距离、小型货车行车距离、小型货车行车时间。

4.3 数据测算验证

以竹山中转区域为例，按卷烟销售的淡季和旺季分别进行数据测算验证，中转区域情况如下：竹山县位于湖北省西北秦巴山区腹地，面积3586km2，竹山中转站距离十堰市物流中心118km，干线中转大货车单边行驶时间约为2.5h。中转站虽然位于配送区域的中部，但因配送服务区域不规则、县域地形类似“7”字，其西方向、南方向距离中转站有130 多千米（配送半径远超过60km，可以增加中转点［2～3］）。

4.3.1 淡季数据测算

5 月份为该区域烟草物流配送淡季。竹山中转站3 台终端送货车，一个周期送4 天（N=4），以2022 年5 月份第2 周（9 日至14 日）1 个周期的订单数据进行测算，统计数据见表1。

表1 十堰竹山中转区域5月份第2周送货周期统计数据

1）1个中转点方案

按照动态卷烟物流中转对接点优化方法提供的公式，代入数据，计算营运成本tc 及终端车行车时长均值avg_time。

1个中转点运营成本（tc）=干线运输成本（mc）+终端线路运输成本（bc）+动态中转对接点营运成本（oc）+动态中转对接点固定投资成本（ic）

终端车行车时长均值（avg_time）=终端总行车时长/配送周期N天数/终端车数量

终端车行车时长均值超过了终端行车时间长最大值。

2）k=2个中转点方案

将中转区域聚类划分为2 个子区域，按应用优化模型的使用方法，优化方案如图5。

图5 竹山中转区2个中转点方案图

图6 竹山中转区3个中转点方案图

按表2 数据及物流中心提供的动态中转对接点营运成本（oc）进行计算：

表2 十堰竹山中转区域2个中转点方案统计表

终端车行车时长均值3.8h，满足小于终端行车时间长最大值约束条件。

3）3、4个中转点方案

计算过程与2 个中转点方案相同，列出计算后的结果。

3个中转点方案tc=11，746.74，avg_time=3.5h。

4个中转点方案tc=12，510.15，avg_time=3.4h。

综合对比竹山中转区域，淡季1 个周期2 个中转点方案最优，详见表3。将1 个中转点方案与最优中转方案进行关键数据对比，详见表4。

表3 竹山淡季动态中转方案对比

表4 竹山淡季1个中转点方案与最优中转方案对比表

4.3.2 旺季数据测算

1 月份为该区域烟草物流配送旺季。竹山中转站3 台终端送货车，一个周期送7 天（N=7），以2022 年1 月份第2 周（7 日至11 日）1 个周期的订单数据进行测算，统计数据见表5。

表5 竹山中转区域1月份第2周送货统计数据

按照应用优化模型的使用方法，测算出旺季1～7个中转点方案，详见表6。

表6 竹山中转区域旺季动态中转方案

将1 个中转点方案与最优中转方案进行关键数据对比，详见表7。

表7 竹山旺季1中转站方案与最优中转方案（k=3）对比表

竹山中转区旺季最优中转方案——3 个中转点方案，较现行1 个中转点方案各指标优化率如下：终端送货时间减少了28.1%，终端送货里程减少了26.4%；干线送货时间和里程变化不大；一个周期运营成本节省约8.5%。中转区域年运营成本预测节省约7.9 万元（按1 年51 个周期测算），终端车日行车时长均值3.2h。

5 结语

卷烟物流中转网络布局问题一直以来都是配送优化研究中的重点对象之一，中转站点的布局不仅影响物流运行成本的高低，同时还影响物流运行效率、客户服务品质。论文针对现有固定配送中心导致烟草配送效率低下问题，提出一种卷烟物流网络的动态优化模型，能够根据订单、送货里程等情况的变化，动态设置中转对接点。论文设计了一种基于强化学习技术的中转对接点优化模型（软件层面）与“甩箱”运输模式（硬件层面）卷烟物流网络的优化方法。基于十堰市烟草公司的物流数据验证表明，本文研究的动态卷烟物流中转对接点优化方法达到了降低中转区域营运成本和减少终端行车时间的优化目标，可以有效提高卷烟物流运行效率。本文研究结果对于优化卷烟物流配送效率具有一定的参考意义，也为打破中转站行政区划、优化配送网络工作的开展奠定基础。