基于SHAP-LightGBM的电动集装箱正面吊运起重机能耗分析和异常识别
2024-03-09郄永军周东才
郄永军, 任 杰, 孙 帅, 周东才, 张 凡
(1. 三一重工股份有限公司, 北京 102206; 2. 三一海洋重工有限公司, 广东 珠海 519050)
在碳达峰、碳中和背景下,低碳化是交通运输领域的重要课题[1]。港口作为全球贸易的重要枢纽,是现代交通运输领域中极为重要的一环,低碳化转型需求迫切。近年来,全球能源环境快速变化,在国家政策的大力支持下,纯电动汽车的发展取得了长足进步。同样,电动化也是重型装备行业的重要发展趋势。集装箱正面吊运起重机(以下简称正面吊)作为港口物流作业的关键设备,其电动化转型对港口低碳化运营具有重要意义。
目前,电池续航能力是制约电动化重型装备快速发展和普及的重要因素之一。虽然近年来动力电池技术快速发展,电池能量密度不断提高,但对于作业工况相对恶劣的重型装备来说,在寻找电池成本、整车质量、续航能力三者之间平衡点上仍面临较大挑战。现阶段,提升电动装备的能量利用效率(即降低单位能耗)是一种有效的解决方法[2]。因此,探究电动装备的能耗水平是重型装备电动化研究领域的热点。
现有研究表明,影响电动车辆能耗水平的因素可归纳为3类:车辆相关因素(车辆载重、配置和控制系统等)、环境相关因素(温度、天气和道路等)及用户相关因素(驾驶行为等)。目前,学者们针对电动车辆能耗水平与其影响因素的关系做了大量研究。在车辆层面,张树培等[3-5]通过优化制动能量回收策略来降低电动汽车的能耗;黄伟等[2,6-7]通过整车能量流分析来进行电耗分解,从而量化电动汽车各关键部件的能耗水平。在环境层面,Al-Wreikat等[8]基于车辆实际运行数据分析了低温环境以及道路工况对电动汽车能耗以及续航能力的影响;Yi等[9]研究了风速、滚阻等因素对电动汽车能耗的敏感性。在用户层面,赵佳伟等[10]研究了激进和保守的驾驶风格对电动汽车能耗的影响;Bingham 等[11]通过研究某款纯电动车型的能耗水平发现,温和与激进的驾驶行为可造成约30%的能耗差异。然而,上述文献大多针对道路型的纯电动乘用车或商用车,所得结论并不完全适用于电动正面吊等特种车辆。此外,除了上述3类常见的因素会对电动车辆的能耗产生影响外,部件老化或系统故障等均会对车辆能耗产生影响。但是,目前针对电动车辆能耗异常识别的研究仍较少。
为解决上述问题,笔者以电动正面吊为研究对象,通过收集客户侧的实际运行数据,并基于LightGBM(light gradient boosting machine,轻量级梯度提升机)模型,在微观和宏观两个层面对电动正面吊的行驶和作业过程分别进行能耗建模。然后,基于电动正面吊的实际运行数据,利用能耗模型和SHAP(Shapley additive explanations,沙普利加和解释)理论对不同作业工况、作业行为对电动正面吊能耗的影响进行量化分析并识别设备故障引起的能耗异常。
1 电动正面吊的能耗建模与分析方法总述
1.1 电动正面吊简介
电动正面吊(见图1)是一种用于集装箱装卸、堆码和水平运输的流动机械,其具有机动灵活、作业效率高和稳定性好等优点,适用于港口、码头、铁路中转站和公路中转站等场所。
图1 某型号电动正面吊Fig.1 A certain model of electric reach stacker
根据电动正面吊的用途,将其工况划分为空载行驶、负载行驶和负载作业三种。其中,行驶工况与一般电动车辆类似,由行驶电机驱动;作业工况较为复杂,包括臂架俯仰、臂架伸缩、吊具调整等过程,由作业电机驱动。图2所示为电动正面吊抓取集装箱的作业过程。
图2 电动正面吊抓取集装箱的作业过程示意Fig.2 Schematic of operation process of electric reach stacker grabbing container
电动正面吊的能耗包括电机能耗、空调能耗、电池热管理能耗和附件能耗等。考虑到行驶电机和作业电机是最主要的能耗源,本文将分别聚焦行驶过程和作业过程的能耗进行建模与分析。
1.2 电动正面吊能耗建模与分析方法的总体框架
目前,针对电动车辆能耗的研究方法主要包括数值仿真法、台架试验法、整车试验法和实车测试法[12-14]。车辆能耗建模方法包括统计分析法、机理分析法和机器学习法等。车辆能耗模型按计算方法和建模时间尺度可分为宏观能耗模型和微观能耗模型两种[15]。宏观能耗模型与微观能耗模型的主要区别在于模型的输入和输出不同:前者通常基于某段时间内车辆的行驶或作业特征来计算总能耗或平均能耗,时间尺度较大;后者通常基于某一瞬间车辆的行驶或作业状态来计算瞬时能耗,时间尺度较小。
不同的能耗研究方法各有优劣,需结合实际的应用场景来选择合适的方法。鉴于本文主要聚焦于电动正面吊的行驶过程和作业过程的能耗建模,结合已有研究的局限性,选择电动正面吊的实际运行数据作为数据源,并采用机器学习模型进行能耗建模与分析,以准确地量化多种因素对能耗的影响,从而保证能耗模型对不同作业场景的适应性。同时,分别建立宏观、微观能耗模型,以更加系统地分析电动正面吊的能耗波动以及识别能耗异常。电动正面吊能耗建模与分析方法的总体框架如图3所示。
图3 电动正面吊能耗建模与分析方法的总体框架Fig.3 Overall framework of energy consumption modeling and analysis method for electric reach stacker
2 LightGBM与SHAP方法介绍
LightGBM 是梯度增强决策树的一种变体[16],其主要思想是利用弱分类器(一般为决策树)进行迭代训练,且每次迭代时都会计算前一棵决策树的预测结果与训练样本真实值之间的残差,即通过弱分类器的组合来实现拟合效果的提升。LightGBM具有拟合能力强、训练速度快和准确率高等优点,被广泛应用于涉及多维变量拟合和预测的场景。
与其他机器学习方法一样,LightGBM 也是通过最小化损失函数来选择最优映射f(Θ)的,用于表征输入X=[x1x2…xN]与输出Y=[y1y2…yN]之间的关系。此外,最终的目标函数O(Θ)一般会在原始损失函数的基础上添加正则化项,以约束模型复杂度,可表示为:
式中:L(Θ)为原始损失函数,Ω(Θ)为正则化项,Θ为模型参数。
在LightGBM 中,每次迭代的目标函数均会保留上一次迭代的预测结果,迭代公式如下:
通过二阶泰勒展开对式(2)进行近似处理,具体如下:
其中:
区别于传统的GBDT(gradient boosting decision tree,梯度提升决策树)算法,LightGBM 在迭代求解过程中引入了以下改进:1)通过直方图(Histogram)对数据进行离散化处理,在提升速度的同时改善过拟合情况;2)使用GOSS(gradient-based one-side sampling,单边梯度采样)法,以减少只具有小梯度的数据;3)采用EFB(exclusive feature bundling,互斥特征捆绑)法,将多个互斥的特征捆绑为一个特征,以实现特征降维;4)使用带深度限制的叶子生长(leaf-wise)策略,以使分裂效益低的叶子不进行分裂。LightGBM 算法的具体改进详见文献[16]。
但是,包括LightGBM 在内的所有机器学习模型的显著缺点是可解释性较差。机器学习模型虽具有较高的预测精度,但使用者无法清楚、直观地了解不同输入特征对输出结果的贡献。为了解决上述问题,Lundberg等[17-19]提出了SHAP方法,旨在为机器学习模型及其输出结果提供解释。SHAP 是一种来自合作博弈论的方法[20],其主要思想是计算Shapley 值。SHAP 将Shapley 值的计算解释为一种可加特征归因方法,故基于SHAP 的LightGBM 模型预测值可表示为:
式中:y为模型预测值;为解释模型的常数,即所有训练样本的预测均值;φj为输入特征j对预测值的贡献,即该特征的SHAP 值,SHAP 值越大,表示输入特征对模型预测值的贡献越大。
3 基于实际运行数据的电动正面吊能耗建模与分析
3.1 实际运行数据采集
本文通过数据收集和传输装置实时采集真实作业环境下电动正面吊的CAN(controller area network,控制器局域网)总线信号,采样频率为16 Hz。由于CAN 总线信号几乎涵盖了电动正面吊的所有状态,本文只选取与能耗建模相关的参数,具体如表1所示。
表1 电动正面吊能耗建模所需的实际运行参数Table 1 Actual operational parameters required for energy consumption modeling of electric reach stacker
3.2 实际运行数据处理
考虑到数据传感器的精度以及数据长距离传输等影响,数据缺失、异常和波动在所难免。因此,须对采集的实际运行数据进行必要的缺失值填充、异常值筛选和滤波处理。车速信号是能耗建模所需的关键信号,且加速度和行驶距离等都可通过对车速信号进行微分或积分计算得到。因此,本文以车速信号为例来介绍数据处理方法。
针对车速信号的缺失值,本文采用线性插值法进行数据填充,这是因为车速信号在较小的采样间隔内的变化一般较为缓慢。针对车速信号的异常值,考虑到电动正面吊的作业场景和设备参数限制,其行驶速度一般不会超过20 km/h,故可将超过该限速的数据视为异常数据,剔除后再进行线性填充。针对车速信号的波动,若不进行滤波平滑处理,直接通过微分计算加速度,则会产生很大的误差。为此,本文采用低通滤波处理的方式来剔除高频的车速波动,以达到降噪、平滑的目的。如图4所示,滤波平滑处理后的车速信号的毛刺现象和噪声波动明显减少,且基于滤波后车速信号计算得到的加速度也均落在合理范围内。除了低通滤波处理之外,还有其他方式可以实现信号的降噪和平滑处理,例如小波变换、中值滤波等[21],在实际应用中可针对性地选择适用于具体场景的滤波处理方法。
图4 滤波平滑处理前后车速、加速度信号的对比Fig.4 Comparison of vehicle velocity and acceleration signals before and after filtering and smoothing processing
3.3 能耗模型特征选取
3.3.1 微观行驶能耗模型
电动正面吊的微观行驶能耗建模类似于传统电动汽车的微观能耗建模,一般是基于车辆的瞬时特征预测瞬时行驶能耗,主要是基于瞬时车速和加速度来进行瞬时行驶能耗建模[22]。不同于传统的电动汽车,电动正面吊在搬运集装箱的过程中,其行驶能耗会受到集装箱质量和臂架姿态(臂架角度和臂架长度会影响正面吊的重心位置)的影响。因此,电动正面吊的微观行驶能耗模型的输入特征包括瞬时车速、瞬时加速度、瞬时吊载质量、瞬时臂架角度和瞬时臂架长度,其输出为瞬时行驶能耗(功率值)。
3.3.2 宏观行驶能耗模型
在宏观行驶能耗建模前须对车辆的行程数据进行循环段划分,不同研究目的对应不同的划分维度和划分时间尺度。以传统电动汽车的宏观能耗建模为例,若要研究驾驶行为对宏观能耗的影响,则常见的划分方式如下:先将汽车的行程数据划分为多个运动学片段(定义为从一个怠速状态开始到下一个怠速状态开始之间的运动阶段[21]),再将运动学片段按起步、加速、匀速、减速和怠速划分为5个运动状态。基于运动状态的划分可计算得到每个运动学片段对应的宏观特征参数,如平均车速、平均加速度等。类似地,本文根据电动正面吊常见的作业场景,对其行程数据进行循环段划分:首先,将行程数据划分为多个吊箱循环段(定义为从一个集装箱完成落箱到下一个集装箱完成落箱之间的阶段);然后,将吊箱循环段按加速、减速、匀速、怠速附加是否空载来进行状态划分;最后,按照是否空载,分别计算不同吊箱循环段内的宏观特征参数。
为清楚地说明吊箱循环段的划分,截取部分电动正面吊的实际运行数据进行划分示意,结果如图5所示。
图5 吊箱循环段划分示意Fig.5 Division schematic of suspension box circulation section
综上,电动正面吊宏观行驶能耗模型的输入特征包括行驶距离、平均吊载质量、平均车速、最大车速、车速标准差、平均加速度、最大加速度、加速度标准差、平均减速度、最大减速度和减速度标准差,其输出为循环段内的行驶总能耗。
3.3.3 微观作业能耗模型
微观作业能耗模型与微观行驶能耗模型的建模思路一致,不同点在于输入特征和输出结果。根据电动正面吊的作业特点,可确定微观作业能耗模型的输入特征主要为臂架长度特征(臂架长度、臂架伸缩速度和臂架伸缩加速度)、臂架角度特征(臂架角度、臂架俯仰速度和臂架俯仰加速度)及吊具特征(吊载质量、吊具侧移速度、吊具旋转速度和吊具伸缩速度)三类,其输出为瞬时作业能耗(功率值)。
3.3.4 宏观作业能耗模型
宏观作业能耗模型在构建前也要进行循环段划分,划分方法与3.3.2节同。完成数据划分后,计算每个循环段内的宏观作业特征,主要包括与臂架长度和臂架角度直接相关的速度特征(平均臂架伸出速度、平均臂架缩回速度、平均臂架角度上升速度和平均臂架角度降低速度)以及反映作业任务的相关特征,如吊升高度(吊升绝对高度、吊升总上升高度和吊升总下降高度等)、前伸距(前伸绝对距离、总前伸距离和总后缩距离)和吊载质量等,其输出为循环段内的作业总能耗。
3.4 能耗模型的建立与精度分析
完成不同能耗模型的输入特征和输出结果选取后,基于LightGBM、SHAP 理论和实际运行数据,构建电动正面吊的4个能耗模型,并结合实际的电动正面吊应用案例,对所构建的4个能耗模型的预测精度进行分析。
选取某一台电动正面吊于某一个月的实际运行数据,从中筛选出500个吊箱循环段,并对能耗模型进行训练。筛选吊箱循环段时应遵循以下原则:1)确保吊箱循环段所覆盖特征的取值范围尽可能广;2)确保电动正面吊在所有吊箱循环段内均正常作业且无故障。完成模型训练后,选取该电动正面吊于另一月的实际运行数据,从中筛选100个吊箱循环段的数据作为测试集,以测试能耗模型的预测精度。
为了实现宏观和微观能耗模型精度的统一对比,采用吊箱循环段内的总能耗作为模型精度的衡量对象。即对于微观能耗模型,须对其输出的一个吊箱循环段内的瞬时能耗进行累加,以得到该循环段内的总能耗预测值。通过对比模型预测的总能耗与实际总能耗来分析各模型的预测精度。本文选择MAE (mean absolute error,平均绝对误差)、MAPE(mean absolute percentage error,平均绝对百分比误差)和R2作为衡量模型预测精度的指标。MAE和MAPE越小,表示模型预测精度越高;R2越接近1,表示模型预测精度越高。
利用4 个能耗模型对测试用的100 个吊箱循环段进行能耗预测,并统计其预测精度衡量指标的数值,结果如表2所示。由表2可以看出,微观行驶和作业能耗模型的预测精度要优于宏观行驶和作业能耗模型,这与预期是相符的。分析原因如下:宏观能耗模型是基于循环段内的统计特征来预测总能耗的,而统计特征仅能反映运行数据的总体特性,这会造成信息损失。但在实际应用中,这种精度损失是可以接受的。例如:客户在购买某款电动正面吊前希望评估其在特定作业场景下的续航能力,但此时大部分客户所能提供的工况信息极其有限,甚至只能提供部分宏观的行驶和作业信息(如行驶距离、平均行驶速度和平均吊载质量等)。在这种部分宏观输入特征缺失的情况下,可借助宏观能耗模型(LightGBM模型支持特征作为空值输入)来进行能耗预测,以评估电动正面吊的续航能力。虽然基于宏观能耗模型无法精准评估电动正面吊的续航能力,但足以满足该特定场景的需求。
表2 4个能耗模型的预测精度对比Table 2 Comparison of prediction accuracy of four energy consumption models
为了更直观地展示能耗模型的预测精度,对比4 个能耗模型在测试集上的预测总能耗与实际总能耗,结果如图6所示。由图6可以看出,4个能耗模型的预测结果均比较准确。
图6 4个能耗模型的预测总能耗与实际总能耗对比Fig.6 Comparison between predicted total energy consumption of four energy consumption models and actual total energy consumption
4 电动正面吊能耗影响因子分析与异常识别
4.1 能耗影响因子分析
基于SHAP理论对电动正面吊能耗模型进行分析,即可得到不同场景下各能耗影响因子对最终能耗的贡献程度。
首先,利用基于500个实际吊箱循环段数据训练完成的2个宏观能耗模型,分别对电动正面吊行驶和作业过程中总能耗影响因子的贡献度进行排序,结果如图7所示。由图7可以看出,平均吊载质量、最大加速度、平均车速和行驶距离是影响行驶总能耗的重要因素;吊升高度、前伸距、平均臂架伸出速度和吊载质量是影响作业总能耗的重要因素。然后,利用基于500个实际吊箱循环段数据训练完成的2个微观能耗模型,分析不同影响因子对电动正面吊瞬时能耗的贡献度,结果如图8所示。由图8可以看出,瞬时加速度和瞬时车速对瞬时行驶能耗的影响最大;臂架俯仰和伸缩速度对瞬时作业能耗的影响最大。最后,利用SHAP理论对不同影响因子之间的交互作用进行量化分析。以瞬时行驶能耗模型中的瞬时车速和瞬时加速度为例,其对电动正面吊瞬时行驶能耗的交互作用如图9所示。由图9可以看出,当瞬时车速较大时,瞬时加速度的变化对瞬时行驶能耗的影响很大。因此,在司机驾驶行为和车辆控制策略设计上,可考虑在高速区间尽量平稳驾驶或限制高速区间的车辆加速能力,以达到降低能耗的目的。在车辆减速阶段,瞬时车速越大,则瞬时行驶能耗越小,这体现了车辆的制动能量回收策略,即在减速阶段利用电机提供反向扭矩的方式可达到制动的效果。
图7 宏观能耗模型中各影响因子对总能耗的贡献度Fig.7 Contribution of various influence factors in macro energy consumption model to total energy consumption
图8 微观能耗模型中各影响因子对瞬时能耗的贡献度Fig.8 Contribution of various influence factors in micro energy consumption model to instantaneous energy consumption
图9 基于微观行驶能耗模型的瞬时车速和瞬时加速度的交互作用分析Fig.9 Analysis of interaction effect between instantaneous vehicle velocity and instantaneous acceleration based on micro driving energy consumption model
此外,为分析电动正面吊在某些场景下单个吊箱循环段能耗偏高的原因,随机截取单个吊箱循环段,利用SHAP理论量化分析各影响因子对电动正面吊行驶总能耗的贡献,结果如图10 所示(图中“+”和“-”分别表示影响因子对能耗的正向和负向贡献,数值表示贡献值,单位为kW·h)。由图10可知,在该循环段中,电动正面吊的行驶总能耗为0.716 kW·h,高于平均能耗0.574 kW·h;行驶距离和平均加速度是造成能耗升高的主要影响因子,两者共引起了0.1 kW·h的能耗提升。因此,在无法改变行驶距离的情况下,减小加速度有助于降低电动正面吊的能耗。
图10 单个吊箱循环段内各影响因子对行驶总能耗的贡献Fig.10 Contribution of various influence factors to total driving energy consumption during a suspension box circulation section
图11所示为某吊箱循环段内各影响因子对电动正面吊作业总能耗的贡献(图中“+”“-”和数值的含义与图10 同)。由图11 可知,在该循环段内,电动正面吊的作业总能耗为1.107 kW·h,高于平均作业能耗0.618 kW·h;吊升总上升高度、平均臂架伸出速度、总后缩距离、平均臂架缩回速度等是造成能耗升高的主要影响因子。分析原因在于:在操作电动正面吊的过程中,驾驶员可能进行了多余的臂架动作,导致上升高度过大以及臂架伸缩速度较快。因此,规范驾驶员的作业动作以及合理约束作业速度均有助于降低电动正面吊的能耗。
图11 单个吊箱循环段内各影响因子对作业总能耗的贡献Fig.11 Contribution of various influence factors to total operational energy consumption during a suspension box circulation section
4.2 能耗异常识别
基于正常实际运行数据训练完成的电动正面吊能耗模型可视作理论能耗模型或标准能耗模型,其可反映特定工况和驾驶条件下电动正面吊的正常理论能耗。在电动正面吊正常运行的情况下,其实测能耗与基于理论能耗模型的预测能耗之间的误差应符合均值为0的正态分布。若实测能耗与预测能耗产生较大的偏差或持续存在非随机偏差,则表明电动正面吊的某些部件可能出现了故障,从而对其能耗产生了影响。
如图12所示,在对某台电动正面吊进行持续监控的过程中发现,某天该正面吊的实际行驶能耗数据与基于微观行驶能耗模型的理论能耗之间产生了非随机的偏差,导致实际行驶能耗高于理论行驶能耗。通过对正面吊进行检查发现,其轮胎存在鼓包问题。更换轮胎之后,实际行驶能耗与理论行驶能耗之间的偏差消失。结果表明,所构建的能耗模型可用于识别电动正面吊的能耗异常,有助于及时进行故障预警和排查。
图12 实际行驶总能耗与理论行驶总能耗的对比与误差Fig.12 Comparison and error between actual total driving energy consumption and theoretical total driving energy consumption
5 结 论
本文利用实际运行数据对电动正面吊进行了能耗建模分析,得到以下结论。
1)基于LightGBM模型可以在宏观和微观两个层面上准确地建立电动正面吊的行驶和作业能耗模型,且建模精度较高,由此验证了建模方法以及模型特征选取的有效性。
2)结合所构建的能耗模型和SHAP理论可量化不同作业工况、作业行为对电动正面吊能耗的影响。各影响因子的能耗贡献度分析结果可为电动正面吊的节能设计、节能策略制定提供有效的信息输入,同时可为电动正面吊使用阶段的能耗基准构建提供参考,以有效指导驾驶行为以及降低电动正面吊的能耗。
3)所构建的能耗模型可作为理论能耗模型,当实际能耗与理论能耗产生较大偏差时,表明电动正面吊的某些部件可能产生了故障,及时识别并处理故障可避免后续造成更大的损失。
基于本文的研究思路和研究结果,未来可建立涵盖控制策略、驾驶行为和作业工况的电动正面吊的分层能耗模型,以确定最优的控制策略,从而实现特定场景下的能耗优化。