APP下载

基于LSTM的智能家庭用电预测模型研究

2022-03-09周游徐丹赵灿谭宇渲

软件工程 2022年2期
关键词:时间序列特征选择

周游 徐丹 赵灿 谭宇渲

文章编号:2096-1472(2022)-02-39-03

DOI:10.19644/j.cnki.issn2096-1472.2022.002.009

摘  要:家庭用电是能源市场的一个重要组成部分,预测家庭用电需求能够实现智能供电,可以有效地提高供给率,但目前预测方法大多效果不佳。针对此,提出了一种基于LSTM的面向家庭智能用电预测算法,建立了端到端的智能家庭用电预测模型。其在Boruta特征筛选的基础上设计了特征选择方法,对多个特征进行重要性计算,选取其中重要性高的部分进行建模,然后利用LSTM网络与全连接层对时间序列数据进行训练,得到预测模型。实验结果表明,所提方法的预测效果明显优于其他三种模型,能与真实数据较好地拟合。

关键词:智慧能源;用电预测;特征选择;时间序列;LSTM网络

中图分类号:TP399     文献标识码:A

Research on Smart Power Consumption Prediction Model of Smart Home based on LSTM

ZHOU You, XU Dan, ZHAO Can, TAN Yuxuan

(Suzhou Power Supply Branch, State Grid Jiangsu Electric Power Limited Company, Suzhou 215004, China)

542790714@qq.com; xudan19870725@126.com; 342677492@qq.com; 852901313@qq.com

Abstract: Household power consumption is an important part of the energy market. Predicting household power demand can effectively improve energy supply efficiency, but most of the current prediction methods are not effective. To address the problem, this paper proposes an LSTM (Long Short-term Memory)-based power consumption prediction algorithm for smart home, where an end-to-end smart home power prediction model is established based on LSTM. A feature selection method that utilizes Boruta feature screening is also designed. The importance of multiple features is calculated, the most important part of those features is selected for modeling, and then LSTM network and the full connection layer are used to train the time series data to obtain the prediction model. The experimental results show that the prediction effect of the proposed method is significantly better than the other three models, and it can fit the real data well.

Keywords: smart energy; power consumption prediction; feature selection; time series; LSTM network

1   引言(Introduction)

近年來,能源产业正迎来一个新的发展,智慧能源与能源互联网等概念越来越得到重视。智慧能源就是结合信息技术、人工智能技术、大数据技术的新能源模型形态,是能源互联网的基础架构。作为能源市场的主要组成部分,家庭用电的稳定关系着民生问题。对用电量进行全面的理解有助于减少家庭的电费支出,也有利于进行能源合理分配。

物联网与人工智能等技术的兴起,以及家庭传感器的广泛采用,积累了大量的时间序列特征数据,可以用来对家庭用电模式进行分析。长短时记忆网络(Long Short Term Memory, LSTM)在处理时间序列预测问题上有明显的优势,可以获得较佳的预测效果。

2   相关工作(Related work)

进行家庭用电预测常用的预测方法主要包括随机森林(Random Forest, RF)、极限树(ExtraTrees, ET)、差分自回归移动平均模型(Auto Regressive Integrated Moving Average Model, ARIMA)等。

2.1   常用预测方法

随机森林算法先使用T 个弱分类器分别对T 个由随机采样而来的训练集进行训练,然后对多个弱分类器进行组合,最后由投票或取均值得出最终结果。大量实验表明,随机森林算法通过这种方式使得模型整体的泛化能力及准确度明显优于其他Bagging算法。

极限树算法也称为极限森林,意为极其随机的森林。在随机森林算法中,为了对需要划分的节点进行选择,需要在特征子集上随机进行寻找,以找出最优划分特征。极限树算法直接使用随机的特征和阈值来进行划分,这样可以得到形状更随机、差异更大的决策树,可见极限树算法比随机森林更激进。

ARIMA是一种基于平稳时间序列来进行预测的算法,用于电力序列模型预测,可以使用三元组(p,d,q)来建模。在模型构建过程中,主要根据PACF图和ACF图来分别确定p和q的取值,其中的d代表使序列数据成为平稳时间序列所做的差分次数。

2.2   长短时记忆网络

LSTM是一种特殊的循环神经网(Recurrent Neural Network, RNN)结构,用来处理RNN面临的一个无法解决的长期依赖问题。在标准RNN中,内部是一种重复神经网络模块的简单链式结构。由于这种结构过于简单,因此在经过t 个时刻之后会导致0时刻的信息几乎被遗忘。

整体上看,LSTM与其结构相同,但LSTM中重复的模块结构与RNN不同。对比可发现,RNN中的神经网络层只有单一的一个,而LSTM中有四个,并且以一种非常特殊的方式进行交互。通过这种复杂的结构,可以使以前时刻的重要信息得以保存,避免发生遗忘。

3   数据处理(Data processing)

3.1   数据描述

本文实验采用美国某家庭从2016 年1 月11 日17 时到2016 年5 月27 日18 时之间,每隔10 分钟所记录下的共19,736 条数据作为训练样本。每个样本由时间(date)、气温(T)、湿度(RH)、天气(weather)、光线(lights)、随机变量(rv1、rv2)等共28 组特征数据所组成。其中,气温和湿度由该家庭所安装的9 个温度传感器所获取;天气由室外温度(T_out)、露点(Tdewpoint)、室外湿度(RH_out)、大气压(Press_mm_hg)、风速(Windspeed)、可见度(Visibility)组成。本文希望通过这28 组数据组成的特征来实现对某家庭用电量的准确预测。某家庭各时刻用电量详情如图1所示。

3.2   特征筛选

除日期和需要预测的用电量之外,采集到的数据共包括27 个特征数据。对于实际的模型构建来说,数据集中的变量太多,而大多数变量与目标问题无关。当数据集的特征过多时会有缺点:首先,特征过多会占用过多资源,导致算法速度慢,使用起来很不方便;其次,当变量的数量显著高于最优时,会导致很多机器学习算法的准确率下降,降低模型的性能。

针对上述问题,本文采用Boruta算法来对特征进行筛选,通过对各个无偏的弱分类器—决策树的投票来进行分类,对各个特征的重要性给出数值估计,并使用Z-Score来计算特征重要度,从而选择出对因变量影响较为重要的特征。

式中,avg_loss为平均损失,为标准差。

经过100 轮迭代,Boruta特征筛选模型成功地从28 个特征中筛选出21 个重要特征,分别为T1、T2、T3、T4、T5、T7、T8、RH_1、RH_2、RH_3、RH_4、RH_5、RH_6、RH_7、RH_8、RH_9、T_out、Tdewpoint、RH_out、Press_mm_hg、Windspeed。所选取的21 个特征重要度排名如图2所示。

4   预测算法(Prediction algorithm)

4.1   处理流程

为了建立面向智能家庭用电预测模型,在筛选完特征后,还需将样本数据序列化,以满足LSTM模型的训练要求。预测模型建立的主要步骤包括采集数据、选取特征、特征筛选、样本数据序列化、特征数据归一化、LSTM数据输入、模型参数调优、用电预测建模、训练并保存模型等,具体流程如图3所示。

4.2   算法

基于LSTM的面向家庭智能用电预测算法如下。

算法1 基于LSTM的面向家庭智能用电预测算法

输入:数据集I,特征矩阵X

输出:预测模型

1: Boruta_selector(X):

2: Repeat:

3:   shadow_features=shuffle(X)

4: new_features=shadow_features+real_features

5: Z_Score_real=score(real_features)

6:   Z_Score_shadow=score(shadow_features)

7:   Zmax=max( Z_Score_shadow)

8:   if Z_Score_real > Zmax then

選择该特征

9: series_to_supervised()

10: StandardScaler()

11: for k=1 to 70 do

12:   训练得到LSTM模型

13: Return 预测模型

5   实验及分析(Experiment and analysis)

5.1   模型训练

训练前,将样本数据集按7∶3的比例划分为训练集和测试集。模型训练过程中训练集损失值和测试集损失值的变化过程如图4所示。从图4可以看出在训练过程中,训练集损失值和测试集损失值不断下降,最终收敛于一个较低值,表明本文实验模型训练效果良好。

5.2   模型训练结果分析

训练结束后,在样本数据集中进行随机采样,获取6,000 个样本数据。将随机选取的数据传入最终预测模型,观察其预测结果的准确度。本文所提出模型的预测结果与实际数据拟合情况如图5所示。从图5可发现,本文所提出的预测模型可对真实值进行较好地拟合。

5.3   对比试验分析

为进一步对本文所提出的预测模型进行评估,另外选取了当前常用的随机森林算法、极限树算法、ARIMA算法对同一样本数据进行实验,并以R2_SCORE(R方值:取值范围为[0,1],越接近1表示预测效果越好)和RMSE(均方根误差)的值(越小表示效果越好)作为算法的评估指标。四种方法的评估结果如表1所示。

通过对实验数据对比发现,本文所提出的基于LSTM预测模型与随机森林、极限树、ARIMA算法预测结果相比,R2_Score最大并且RMSE值最小,表明该模型在面对本文所提供的数据进行预测时效果明显优于其他三种模型,可对真实数据进行较好的拟合,预测结果与真实值非常接近。

6   结论(Conclusion)

本文主要研究了单一家庭的用电模式与数据,并提出了一种基于LSTM的面向家庭智能用电预测算法。该算法希望通过由家庭传感器所采集的温度、湿度、天气、光线等数据来对该时刻家庭所需消耗的电量进行预测,并通过与其他三种常用的预测方法进行对比,展现出本文所提出算法的预测性能。本文所提出的算法可以与能源管理系统相结合,通过大数据来对每一时刻家庭所需电量进行预测,不仅可以降低各家庭电力成本,还有利于能源的合理分配,避免因能源分配不均而可能出现的问题。

参考文献(References)

[1] 曲朝阳,张率,刘洪涛.基于用电影响因素回归的小区用电预测模型[J].东北电力大学学报,2015,35(1):73-77.

[2] 王永伟,李新龙,田斐,等.基于人群搜索算法的电网短期用电负荷预测研究[J].电网与清洁能源,2020,36(12):35-40.

[3] 谷云东,马冬芬,程红超.基于相似数据选取和改进梯度提升决策树的电力负荷预测[J].电力系统及其自动化学报,2019,31(5):64-69.

[4] 范继锋,王瀚霆,薄宏斌,等.大数据技术在电力行业中的应用研究[J].电力设备管理,2020(12):55-59.

[5] 唐静,李瑞轩,黄宇航,等.基于多维特征分析的月用电量精准预测研究[J].电力系统保护与控制,2017,45(16):145-150.

[6] 邓婷,范润宇.远程电力抄表系统的网关通信设计与实现[J].软件工程,2020,23(3):60-62.

[7] 朱家贻,刘思蕊,潘楠,等.一种基于LSTM神经网络的短期用电负荷预测方法[J].中国新通信,2021,23(1):167-168.

[8] 李婉华,陈宏,郭昆,等.基于随机森林算法的用电负荷预测研究[J].计算机工程与应用,2016,52(23):236-243.

[9] 杜晓明,汤立,蔡李花,等.基于极限学习机与旋转森林相结合的栈式深度学习分类方法[J].江苏科技大学学报(自然科学版),2019,33(6):82-87.

[10] 王斌.基于时间序列ARIMA模型的电力负荷短期预测分析[J].石河子科技,2019(3):43-47.

[11] 郭冰楠,吴广潮.改进的随机平衡采样Bagging算法的网络贷款研究[J].计算机与现代化,2019,284(04):15-20.

[12] 杨永娇,肖建毅,赵创业,等.基于Isolation Forest和Random Forest相结合的智能电网时间序列数据异常检测算法[J].计算机与现代化,2020,295(03):103-106,130.

[13] 丰瑞,罗思烦,李前洋.基于特征選择的极限随机森林算法研究[J].计算机应用研究,2020,37(9):2625-2628,2633.

[14] SZUL T, TABOR S, PANCERZ K. Application of the BORUTA algorithm to input data selection for a model based on rough set theory (RST) to prediction energy consumption for building heating[J]. Energies, 2021,14(10):1-13.

[15] 陆冰鉴,周鹏,王兴,等.基于EEMD和LSTM的短期风速预测模型研究[J].软件工程,2020,23(3):43-48.

作者简介:

周  游(1987-),男,本科,高级工程师.研究领域:软件开发,能源互联网,工业互联网.

徐  丹(1987-),女,本科,工程师.研究领域:智能电力,信息研究.

赵  灿(1993-),女,硕士,工程师.研究领域:智能配电网运行.

谭宇渲(1995-),男,本科,助理工程师.研究领域:电力自动化.

2597500520254

猜你喜欢

时间序列特征选择
Kmeans 应用与特征选择
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于线性散列索引的时间序列查询方法研究
基于组合模型的能源需求预测
基于GA和ELM的电能质量扰动识别特征选择方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于特征选择和RRVPMCD的滚动轴承故障诊断方法