基于深度强化学习的停车位智能动态分配方法

2023-12-05冯毅彬裴祥静陈柱光黄星翔胡文豪陈向洋

科技创新与应用 2023年34期

冯毅彬，裴祥静，陈柱光，黄星翔，胡文豪，陈向洋

（1.华南理工大学土木与交通学院，广州 510641；2.广东省外语艺术职业学院财会金融学院，广州 510507）

停车位分配是由停车系统为每一个到达的车辆进行停车位分配，以避免车辆“低效寻泊”造成的时间损耗和能源损耗，并最大化利用停车资源。Mouskos 等[1]将停车问题刻画为有限资源的时空分配问题，利用混合整数线性规划模型求解了在最小化用户费用下的最优解。张水潮等[2]提出了基于用户预约信息的共享停车位分配模型，实现了用户端步行距离和平台端停车费收益的平衡。Kotb 等[3]以停车位时空利用率的最大化为目标，将停车需求分配与动态价格管理结合，设计了MILP 模型并用CPLEX 求解器进行求解。Zhao 等[4]提出了一种智能体数值仿真方法，考虑了停车需求到达和离开的不确定性，设计了具有鲁棒性的停车位分配策略。与传统基于模型和求解算法的方法相比，深度强化学习在处理复杂系统的决策问题上更具优势[5]。Ke等[6]在网约车派单问题上提出了基于深度强化学习的智能延迟匹配的策略，结果表明该策略可以有效减少用户的等待时间。Wen 等[7]提出了一种基于深度Q 学习（DQN）的共享汽车需求响应式的调度网络，该方法可有效减少车队规模和行驶距离。赵聪等[8]提出了基于多智能体深度Q 学习的停车系统智能延时匹配方法，智能体自主决策延时等待时间，进入分配池后由系统利用匈牙利算法进行泊位匹配，结果表明在停车供需相对平衡的环境下，可有效减少用户的停车时间和步行距离。基于此，本研究结合智能延时匹配策略，利用DQN 深度强化学习算法进行停车位的智能分配，以其智能性和自适应性强的特点，实现系统的“长视性”收益，进一步提升停车系统的周转效率和服务水平。

1 智能停车位分配系统

智能停车位分配系统的示意图如图1 所示。在系统准备阶段，以目标停车场的环境信息作为状态空间，构建基于DQN 算法的车位分配模型。通过历史数据提取停车行为特征，并据此设置停车需求分布参数，以建立停车场的数值仿真系统。模型通过仿真系统训练，输出智能分配策略，最后加载至停车系统服务器即可投入使用。在系统应用阶段，当用户到达停车场入口时，系统会根据实时状态信息，采取智能延时的决策，延时等待时间结束后，再为用户动态分配最优停车位。其中，智能延时匹配策略指车辆到达停车场后，通过适当的延时等待，以获得更优质的泊位资源。

图1 智能停车位分配系统示意图

2 马尔科夫决策过程刻画

2.1 智能体

将停车管理者设为智能体，为每个到达的停车需求分配一个最优停车位。

2.2 状态

为智能体每一时刻所能观测到的停车场环境信息和车辆信息。定义状态空间

式中：Xocc为车位占有状态，Xcha为充电桩分布信息，二者均采用One-hot 编码；treal为实际时间；车辆为第i辆车的能源类型，0 为油车，1 为电车为第i辆车的累计延迟时间。

2.3 动作

包含是否采取延时匹配和分配车位编号。定义动作空间

式中：n为智能体采取的动作值；N为停车场内的车位数；当at＜N，表示对该车辆进行延时匹配；当at＞N，表示直接匹配，且匹配对应的车位编号为（at-N）。

2.4 奖励函数

定义如下

式中：Rt表示奖励函数，rpar表示停车位距离对应奖励值，rcha表示充电需求对应奖励值，rdelay表示延时匹配对应奖励值。

式中：L为基准距离，使其距离越小，奖励值越大；ldri为从入口到停车位的驾驶距离，lwalk为停车位到目的地的步行距离；vdri/vwalk为车辆行驶速度与人步行速度的比值；α 为用户的步行意愿系数。

式中：β 为用户延时等待的惩罚系数；twait为用户延时等待的时间。

2.5 状态转移

由一个元组（s，a，R，s′）表示，可描述为：当车辆进入停车场时，智能体根据当前状态s，输出动作a为车位分配决策，并获得相应的奖励R，最后更新停车场环境到下一个状态s′。

3 DQN 深度强化学习算法框架

本研究采用全连接神经网络（FCNN）来逼近Q值函数，以有效处理高维度的状态和动作空间。每一步中输出最大Q值对应的动作为决策，训练后得到车位分配策略πθ（s，a），并以权重参数的形式储存在神经网络中。目标网络是一个与估计网络（主网络）结构相同的神经网络，但其参数按一定的间隔更新。估计网络用于估计当前状态下的Q值，而目标网络用于计算目标Q值。通过引入目标网络来生成目标Q值，减少训练中的目标值与估计值之间的相关性，以提高算法稳定性。其中Q值的计算公式如下

式中：Q（s，a）表示在状态s下采取动作a的Q值；R为采取动作获得的即时奖励；γ 为折扣因子，maxQ（s′，a′）表示下一个状态s′下所有可能动作的最大Q值，且由目标Q网络估计。

在动作选择过程中加入了ε-greedy 探索策略，以帮助智能体避免陷入局部最优解，更好地全面探索环境。其公式如下

式中：a为智能体选择的动作，argmaxQ（s，a）表示在当前状态s下选择Q值最大的动作；N为停车场中的车位数，randint（0，N-1）表示[0，N-1]间的一个随机整数，即对应车位的编号；p为选择概率；ε 为探索率，会随着训练逐渐减小。

损失函数是目标Q值与估计Q值之间的差异程度，通过最小化损失函数，可以使估计Q值逐步接近真实的Q值函数，用于指导模型在训练过程中的参数更新。本模型采用均方误差（MSE）来计算损失函数L（θ），其公式如下：

式中：θ 为模型参数，N为样本数量，si为输入状态，ai为模型选择的动作，Qe（si，ai；θ）表示模型对状态si所选择动作ai的估计Q值，Qti则为目标Q值。

由于状态和动作的维度较大，还需采取经验回放策略，将智能体所经历的经验储存在经验回放池中，并在训练时从中随机抽取一定数量的经验进行训练，从而提高数据利用率和训练稳定性。本研究的算法框架设计示意图如图2 所示。

图2 DQN 算法框架设计

4 停车场数值仿真系统

本研究通过提取停车场订单数据中的停车行为特征，建立数值仿真系统作为与深度强化学习智能体相交互的外界环境。仿真系统可实现车辆到达、充电需求、车位匹配和状态更新等重要环节，以模拟实际停车场中的环境变化与停车行为，为智能体学习提供训练材料。当一个停车需求产生时，系统会为其分配最优车位，该停车位的使用状态随即变为“占用”，其停车时长结束后则重新变回“空闲”。本仿真系统设定停车位数量为100 个，配有充电桩的停车位数量为50 个，到达车辆为电车的概率为50%。同时以现实中的1 s 作为仿真步长，且不同时段的停车行为特征具有差异。其中车辆到达服从泊松分布，参数λ 表示单位时间内平均到达的车辆数；停车时长服从正态分布，参数μ 和σ分别代表均值和标准差，具体参数设定见表1。

表1 停车行为仿真参数

5 算例分析

本研究采用PyTorch 框架对神经网络进行构建，并将模型代入数值仿真系统，选用Adam 训练器进行训练。其中DQN 算法超参数设置见表2。

表2 算法超参数设定

为了测试本研究提出的停车位智能动态分配方法的有效性和鲁棒性，本文设计了贪心算法、随机状态2种不同的分配策略作为对照，并将下述方法在数值仿真系统中进行同步测试，对不同评价指标进行对比分析。其中贪心算法是一种常用的启发式算法，以“先到先得”“用户最优”为原则，是最贴合人为逻辑的分配方法。贪心算法通过在每一步选择当前状态下的最佳选择，具有简单、高效的优点，但不能保证获得全局最优解。而随机状态是用户随机选择停车位，较符合日常生活中的停车行为特征，且反映了现实中普遍应用的由车辆随机停放的传统管理模式。

5.1 平均奖励值分析

本研究将DQN 算法、贪心算法和随机状态3 种方法输入到数值仿真系统，进行同步训练测试。平均奖励对比图如图3 所示，可见得虽然在训练前期贪心算法的平均奖励值最高，但随着迭代次数的增加，DQN 算法的系统平均奖励值要明显高于贪心算法和随机状态。由此可见，DQN 算法对时空资源占用及变化规律的掌握，能够有效学习到复杂状态与动作间的映射关系，在分配策略上更具远见性和鲁棒性。

图3 平均奖励训练对比图

5.2 停车场周转率分析

停车周转率是停车场中每天每车位的平均使用次数，是衡量停车系统效率的重要参考指标。将上述3 种方法在数值仿真系统中进行100 次同步测试，得到如图4 所示的停车场周转率对比图。由此可见在基于DQN 算法车位分配模式下的停车场周转率为5.27 次/天/车位，对比贪心算法和随机状态，分别显著提升了9.8%和6.7%。因此，停车位智能动态分配策略的应用，从系统层面显著提升了停车场的运行效率和停车位的利用率。

图4 停车场周转率对比图

5.3 平均停车总时间分析

对于停车用户来说，个人停车效率是用户最关心、提升用户满意度最显著的重点。平均停车总时间，包括到达目标车位的驾驶时间和到达商场出入口的步行时间，是用户停车效率最直观、最明显的评价指标。本文将采取延时策略的DQN 算法、不采取延时策略的DQN 算法、贪心算法和随机状态共4 种策略，在数值仿真系统中对平均停车总时间进行100 次测试对比，得到了如图5 所示的平均停车总时间对比图。由此可见，采取智能延时匹配策略的DQN 算法应用下的平均停车总时间最短，为67.45 s，低于不采取延时匹配策略的DQN 算法2.8%，低于贪心算法6.7%，低于随机状态15.9%。延时匹配策略虽然增加了一定的等待时间，但由于能够获得更优质的停车位，总体停车时间得以下降。因此，可认为DQN 算法框架下动态车位分配与智能延时匹配策略的结合，提升了算法性能和用户停车效率，对比其他策略更具有全局性和远视性。

图5 平均停车总时间对比图

6 结束语

本研究在DQN 深度强化学习算法框架下，实现停车位动态分配和智能延时匹配策略的结合。将停车场管理者抽象为智能体，通过数值仿真系统模拟不同的环境状态进行学习，训练得到停车位智能分配策略，能够为每一个用户实时选择匹配等待时间，等待后再动态分配最优停车位。仿真测试结果表明，停车位智能动态分配方法能够更有效减少用户的平均停车总时间，提高停车系统的周转率。本研究适用于诸多应用场景，如各大公共场所的配套停车场和自动化立体停车库，还顺应了智能代客泊车技术的发展趋势，为车辆自动停泊过程中的车位匹配问题提供解决方案，丰富现有研究。