APP下载

基于PSO-LightGBM的能源管理系统数据分析

2023-12-06刘勇飞许麟彰

软件工程 2023年12期
关键词:能耗管理系统能源

汪 朗, 刘勇飞, 许麟彰

(广东粤港供水有限公司, 广东 深圳 518021)

0 引言(Introduction)

自1986年我国开始推行绿色节能策略以来,在理论与实践方面取得了一些重大的成果。但是,我国在能源和环境方面存在的问题依旧突出,节能环保、绿色发展的目标仍然是促进世界经济和社会发展的重中之重[1]。能源消耗主要包括工业能耗、建筑能耗以及交通能耗,温室气体主要排放量也是来源于此[2-3]。为减轻目前日益凸显的能源消耗问题,国家制定的“中华人民共和国国民经济和社会发展第十三个五年规划纲要”已将节能和绿色理念作为未来我国能源消耗领域的主体发展方向。

在全球能源转型发展的浪潮下,“互联网+”智慧能源已成为备受能源领域关注的热点,也成为解决当前能源问题和重塑全球能源格局的重要变革力量。在这一背景下,能源大数据[1]发挥着关键作用,它将海量的能源数据与大数据技术结合,成为构建“互联网+”智慧能源的重要手段[4]。能源大数据整合了多种能源(如电能、煤炭、石油、天然气等)的生产、传输、存储、消费、交易等数据,是实现能源监管、共享能源信息资源、促进能源体制市场化改革的基本载体[5-6]。目前,国内在能耗数据分析理论、技术与方法以及节能管理机制方面的研究工作的进展,与绿色发展需求和国际先进水平存在较大的差距。因此,基于数据分析的能源管理研究具有科学前沿性和重大的战略意义。

1 相关研究(Related research)

能源管理系统兴起之时,其研究主要集中在管理和控制企业能源数据的信息化系统,利用自动化和网络技术,实现能源的平衡、优化和节能降耗[7]。当时,能源管理系统的主要目标是实现能源消耗的实时监测和数据的自动采集,以便企业更好地了解能源使用情况和消耗模式。因此,社会各界在能源数据的采集、管理和存储方面进行了大量的研究和投入。在能源管理系统研发的初期阶段,社会各界对能源管理系统的发展非常关注,投入了大量资源和精力解决能源数据的采集、管理和存储等问题。

随着科技的进步和创新,能源管理系统的研究和应用不断取得新的突破。先进的信息技术、物联网、大数据分析、人工智能等技术的不断发展,为能源管理系统功能的完善和优化带来了更多的可能性和优势。能源管理系统利用物联网技术、传感器等实时监测和采集能源消耗的数据,涉及能源使用、能耗趋势、设备状态等信息。这些海量的数据成为优化能源管理、提高能源利用效率的重要资源。数据分析在能源管理系统中扮演了关键角色,应用数据分析技术能够从大量数据中挖掘出隐藏的模式、规律和趋势。数据分析可以帮助决策者识别能源浪费环节、定位能源消耗高峰,为节能工作提供科学的决策支持。随着数据分析技术的不断发展,能源管理系统可以更加精确地预测能源需求,优化能源分配和调度,实现能源的智能化管理。例如,黄震[8]针对校园能耗管理的现状和需求,提出了一种基于MQTT(消息队列遥测传输协议)和MVC(Model-View-Controller)的智慧能耗管理系统的设计方案,通过轻量级通信和模块化设计提高了系统的效率和可维护性,为校园能耗管理提供了一种新的解决方案。赵彦旻等[9]基于园区能源互联网电力信息管理系统对提高系统管理效率和吞吐性能的需求,提出了一种基于大数据分析的系统设计方案,包括系统架构、功能模块和关键技术等。吴波[10]针对造纸行业的高能耗问题,提出了一种基于大数据技术的能源管理系统(EMS),实现了对造纸过程能源转换、利用和回收的动态监控、改进和优化,提高了能源效率和节能水平。AL-ALI等[11]通过采用基于物联网(IoT)和大数据分析技术的智能家庭能源管理系统,实现监测、控制和节省能源消耗,达到降低成本的目的。BOURDEAU等[12]提出了基于数据驱动方法的建筑能耗建模与预测模型,通过数据建模分析达到节能减排的目的。由此可以看出,数据分析在能源管理系统中的重要性,为能源管理者提供了实时且全面的数据支持,使其能够做出合理的决策,优化能源调配,实现节能减排的目标,推动能源管理向更加智能、高效和可持续的方向发展。同时,研究人员开始采用机器学习和深度学习的方法进行能源数据分析。WANG等[13]针对主机油耗会受多种因素影响的问题,提出了一种基于小绝对收缩选择算子(LASSO)的能耗回归模型,用于对船舶主机油耗进行预测和分析。王文格等[14]针对现有城市轨道交通智慧能源管理系统在节能工作方面的局限性,提出精细化采集策略,构建多个系统协同管理能源数据的平台,通过多个系统协同控制,最大限度地节约能源消耗。黎启明等[15]提出一种智能能源管理系统,考虑到各种能源价格结构因素的影响,设计一种能源模块用于确定系统运行最佳策略;针对不同天气光伏发电的输出特性,提出了一种功率预测模块;描述了利用一个矩阵实数编码遗传算法处理模块,实现了能源的智能化管理。

能源数据分析往往涉及多个输入特征及多个影响因素之间的高度复杂和非线性关系。LightGBM是一种高效的梯度提升树模型,它的训练速度快、预测性能高,同时可以有效处理多维特征,提供特征重要性排序和非线性关系,并能够捕捉输入特征之间的相互作用,通过分析特征重要性识别对能耗影响最大的因素,从而指导优化策略的制订。PSO是一种基于群体智能的优化算法,它能够在搜索空间中进行全局搜索,有助于找到更优的模型参数组合,从而提高模型性能,并且PSO具有自适应性,可以根据问题的复杂程度和搜索空间的特性自动调整搜索策略,有助于更快地收敛到全局最优解。本文在总结前人对能源数据分析技术研究的基础上,提出了一种基于PSO-LightGBM的能源数据分析方法,用于预测电能耗的影响。

2 数据预处理(Data preprocessing)

本文采用某企业的电能耗数据进行实验,采集了近500条每日电能耗数据。因为数据在采集时有时间上的先后顺序,在模型学习时会被当作一种特征学习,从而导致过拟合,为了避免发生这种情况,本研究对数据进行随机化处理,使得模型能够学习到更多的信息,提高模型的准确性和稳定性。同时,在数据处理过程中发现数据的最大值与最小值相差非常大(如图1所示),数据的取值范围差异较大,数据的分布不均匀,对模型的拟和和评估效果都有影响,尤其是对模型的评估指标的影响。因此,为了使评估指标具有直观的意义,通常需要对数据进行标准化处理。

图1 数据分布直方图Fig.1 Data distribution histogram

采用Z-score标准化(Standardization)对数据做标准化处理,它基于数据的均值和标准差,将原始数据转换为具有均值为0、标准差为1的正态分布。具体而言,对于给定的数据集,Z-score的标准化过程如下。

计算数据的均值(mean)和标准差(standarddeviation,std):

(1)

(2)

其中:n是数据集的样本数量,X是数据集中的每个样本。

对每个数据样本进行标准化转换:

(3)

其中:X_scale是标准化后的值,X是原始值,mean是数据的均值,std是数据的标准差。通过Z-score进行标准化处理后,数据更具可比性和可解释性。

3 研究方法(Research method)

3.1 模型结构

本研究按照图2所示的研究方法流程进行。首先,研究人员收集企业的能源数据,并对数据进行整理,使其适合于数据分析。其次,对数据集进行清洗操作。将处理过的能耗数据用于PSO-LightGBM模型的训练、验证和测试。在此过程中采用了K-fold交叉验证技术以及粒子群优化算法优化模型的超参数,此外为了确保模型的泛化性能,使用了25%的测试集,防止过拟合或欠拟合的问题。再次,对PSO-LightGBM模型进行与其他能源数据分析模型的对比实验,验证了其相对优势。最后,将经过验证的PSO-LightGBM模型应用于企业实际的电能耗预测工作中。

图2 研究方法流程图Fig.2 Research methodology flowchart

3.2 LightGBM模型

LightGBM模型是一个实现梯度提升决策树(GBDT)的框架,支持高效率的并行训练,其主要原理是利用基分类器(决策树)训练集成,从而获取最优的算法模型。相同的模型还有XGB,但XGB模型在多维度的大数据集下,计算效率较差和可扩展性较低(主要原因是对于每个特征数据,它们都要通过扫描全部的数据样本评估所有能够取得分枝点的增益信息),为了解决这个问题,LightGBM模型采用了两个技术:互斥特征捆绑算法(Exclusive Feature Bundling,EFB)和单边梯度采样算法(Gradient-based One-Side Sampling,GOSS)。

LightGBM算法可以看做是梯度提升树的一种改进算法,它能够在保持较高计算效率的同时获取较高的准确率。通过给定输入一个数据集D={(Xi,yi)}(Xi∈m,yi∈R),其中m是特征数目。Xi=[Fi,xi1,xi2,…,xis],F={F1,F2,…,Fn}是实际电能耗值,n是样本量,s是参数数目,电能耗预测值为

(4)

公式(4)中,Γ={f(X)=ωq(x)}(q:m→T,ω∈T)是回归树数据空间;q是树结构,主要作用是将一个样本映射到对应的叶节点T;每个fk代表一个独立的叶子权重w和树结构q。

目标函数为

(5)

通过采用基于梯度的单边梯度采样方法(Gradient-based One-Side Sampling,GOSS)对损失函数值进行排序处理,以保留包含大梯度的样本,并随机挑选出一批小梯度的样本,从而对模型进行训练,这样能保证在不损失学习精度的条件下,加快模型训练的速率,并且对高维稀疏的一些数据来说,LightGBM利用直方图算法(Histogram)合并互斥的特征信息,保证既能缩减高维数据的特征数目,又能使得损失值最小,从而进一步提升模型的最终性能。

3.3 粒子群优化算法(PSO)

(6)

(7)

其中:k表示迭代次数,i为粒子数,d为搜索方向,w是权重的大小,c1和c2表示学习因素,并被视为常数,r1和r2表示在(0,1)中均匀分布的随机量,采用公式(6)和公式(7)求出最佳解。

3.4 评估指标

均方误差(Mean Squared Error,MSE)是一种常用的衡量统计模型预测结果与真实值之间差异的方法,可以计算预测值与真实值之间的误差平方平均值。MSE是一个非负的值,它的值越小,表示模型的预测结果与真实值之间的差异越小。

(8)

决定系数(R-Squared,R2)是一种用于评估模型拟合优度的标准化指标,便于不同模型之间的比较,它表示模型解释了因变量变异性的比例。R2的取值范围为0~1,越接近1,表示模型的预测效果越好。

(9)

解释方差(Explained Variance,EV)是一种用于评估模型预测能力的指标,它表示模型对因变量的变异性解释了多少,取值范围为0~1,越接近1,表示模型的预测效果越好。

(10)

4 实验与结果(Experiments and results)

4.1 模型参数设置

在开展能源数据分析实验时,采用了轻量级梯度提升机(LightGBM)作为模型,使用粒子群优化算法(PSO)找出LightGBM的最优超参数组合,并将其与其他常用的回归模型进行比较,例如多元线性回归(LR)、随机森林(RF)、轻量级梯度提升机(LightGBM)和极限梯度提升(XGB)等,以扩大实验的对比范围。首先对数据进行随机化处理,其次对数据进行标准化处理,通过PSO算法将以上5个模型的参数调整至最优值,最后采用5折交叉验证的方法输出均方误差、解释方差和决定系数,并对所有模型进行比较分析。表1展示了部分模型最优的超参数值。

表1 各模型最优超参数值

4.2 实验结果与分析

4.2.1 实验结果

将电能耗数据按0.75∶0.25的比例划分为训练样本集合与测试样本集合,训练集用来训练模型,并在测试集上对模型预测效果进行验证(每种方法均进行5折交叉验证)。PSO-LightGBM模型及其他对比模型的预测效果见表2,LightGBM的MSE为0.104,EV为89.20%,R2为89.13%。本文提出的模型PSO-LightGBM的MSE为0.083,EV为91.60%,R2为91.56%,各项指标明显优于其他模型。

表2 模型评估指标对比

4.2.2 结果分析

从表2的数据可以观察到,多元线性回归(Linear Regression,LR)的均方误差MSE显著高于0.15,表明模型表现较差。相比之下,XGB、随机森林(Random Forest,RF)、LightGBM以及基于粒子群优化算法优化的LightGBM(PSO-LightGBM)在MSE方面有更好的表现;LightGBM的MSE为0.104,大于0.1,而XGB、RF和PSO-LightGBM的MSE均维持在0.1以下,尤其是PSO-LightGBM的MSE仅为0.083,相比XGB和RF的MSE降低了约10%。此外,PSO-LightGBM的R2和EV评价指标值都稳定在约91.5%,而XGB、RF和LightGBM的R2与EV则集中在89%~91%,略低于PSO-LightGBM的R2与EV,差距为1.04%~2.43%。

从以上结果可以明显看出,PSO-LightGBM在电能数据分析领域表现出出色的性能,它不仅在MSE方面有了显著的改进,而且在R2和EV指标上也展现了相对更高的稳定性和准确性。此外。这些数据也表明,PSO-LightGBM是一种在电能数据分析中表现突出的方法,其在预测性能上取得了明显的优势。综合来看,PSO-LightGBM在这一领域的优异表现为其在实际应用中提供了更高的可信度和可靠性。

5 结论(Conclusion)

本文介绍了一种利用PSO-LightGBM方法进行能源数据分析的新方法。该方法首先在预处理阶段对数据进行Z-score标准化,确保数据具有统一的尺度。其次使用LightGBM模型进行训练和拟合,通过PSO算法对LightGBM模型进行参数优化,以最大限度地适应当前输入数据。最后,将经过处理的数据输入优化后的LightGBM模型中,用于对能耗数据进行预测。

为了验证该方法的性能,本文进行了一系列实验,并将其与其他方法进行了对比。实验结果表明,与其他模型相比,PSO-LightGBM表现出更高的预测精度、鲁棒性和稳定性,实验中使用的三种评估指标均达到最优水平(均方误差仅为0.083,决定系数达到91.56%,解释方差为91.60%)。证明该方法能够更准确地预测企业的电能消耗,具有重要的实际应用价值。

该模型在能源数据分析领域表现出色,但仍有提升的空间。例如,可以进一步探索影响能源数据的因素,以提高模型的综合性能。同时,可以通过研究更高效的数据预处理方法,进一步提升模型预测的稳定性和准确率。此外,随着实验数据量的增加,可以引入更多特征和优化算法,进一步提升预测性能。总之,该方法为通过机器学习进行能耗预测提供了新的思路,在能源利用方面具有较大的潜力。

猜你喜欢

能耗管理系统能源
120t转炉降低工序能耗生产实践
基于James的院内邮件管理系统的实现
能耗双控下,涨价潮再度来袭!
第六章意外的收获
用完就没有的能源
————不可再生能源
日本先进的“零能耗住宅”
基于LED联动显示的违停管理系统
海盾压载水管理系统
福能源 缓慢直销路
基于RFID的仓储管理系统实现