APP下载

基于PCA-LSTM神经网络的建筑空调负荷预测方法研究*

2021-12-30顾春锋罗其华奚培锋张少迪胡桐月

现代建筑电气 2021年10期
关键词:气象空调神经网络

顾春锋, 罗其华, 奚培锋, 张少迪, 胡桐月

[1.国网浦东供电公司临港能源服务中心, 上海 200120;2.上海电力大学 自动化工程学院, 上海 200090;3.上海电器科学研究所(集团)有限公司, 上海市智能电网需求响应重点实验室, 国家能源智能电网用户端电气设备研发(实验)中心, 上海 200063]

0 引 言

全国建筑在寿命周期内能耗总量达到21.47亿吨,占全国能源消费总量的46.5%[1]。在全国建筑能耗中,空调能耗占据了建筑总能耗的一半左右[2],准确的空调负荷预测对建筑空调系统的高效运行和减少能源消耗具有重要意义。

目前,国内外学者对空调负荷预测方法有两类:线性方法和非线性方法。线性方法主要有回归分析[3]、指数平滑法[4]、灰色理论[5]、时间序列[6]。由于空调负荷有很大的随机性和波动性,线性方法不能处理空调负荷与影响因素之间这种非线性关系。近年来,随着人工智能兴起,人工智能算法凭借着强大的非线性映射能力,逐渐被应用于空调负荷预测,提高预测的准确性少了。非线性方法主要包含支持向量机(SVR)、人工神经网络等智能算法。张峰等[7]提出了人工神经网络预测模型,对南京某办公建筑的空调负荷进行逐时预测;墨蒙等[8]采用BP神经网络作为空调负荷预测的主要算法,采用粒子群算法作为BP神经网络初始参数的优化算法,提高了模型的预测精度和速度;张梦成等[9]先利用模糊C均值算法对输入参数进行聚类,然后根据不同的类建立BP神经网络预测模型,最后利用决策树算法优化预测结果中不佳的部分;李琼等[10]采用高斯函数作为核函数,建立了支持向量机模型,对广州地区某办公楼空调负荷进行逐时预测;李峥嵘等[11]利用Pearson相关系数和随机森林算法对SVR模型的输入参数进行分析,删除与输出参数相关性低的影响因素,降低模型复杂度。但是上述方法存在的问题是无法对数据的时序关系进行考虑,需要人为添加时间特征来保证预测的准确性。

对于空调负荷数据有着很强的时序性和非线性的特点,为了提高预测的准确性,本文提出一种基于主成分分析(PCA)和长短记忆(LSTM)神经网络空调负荷预测方法,结果表明经过PCA的LSTM神经网络预测模型预测精度有了提高,LSTM神经网络比传统BP更适合处理时序性和非线性问题。

1 空调负荷的PCA

1.1 影响空调负荷的关键因素

影响空调负荷的影响因素有很多,可分为内部因素和外部因素。内部因素包括空调的类型、功率、使用年限等。外部因素指气象因素,包括温度、湿度、气压、风速等。空调内部因素存在着不确定性和难以测量性,因此本文不考虑空调内部因素对负荷造成的影响,仅把温度、湿度、气压、风速等气象因素作为空调负荷预测的主要影响因素。在众多的气象因素中,有些气象因素之间存在一定耦合性,过多的作为输入并不能提高预测的准确性,反而增加数据的冗余,导致收敛速度慢。基于此本文采用主成分分析法对气象因素进行分析,在众多的气象因素中,筛选出前几个主要成分因素,在不影响预测精度的情况下,降低输入变量数据的维度,提高收敛速度。

1.2 PCA

PCA的主要思想是将m维特征映射到k维上(k

假设有m个因素{x1,x2,…,xm},每个因素有n个观测数据,得到原始数据矩阵A。

PCA计算步骤如下:

(1) 对原来的m个因素进行标准化,得到标准化的因素变量

(3) 根据标准化的数据矩阵B求出相关系数矩阵R=(rij)m×m,其中

(4) 计算相关系数矩阵R的特征值λ1≥λ2≥…λm,及对应的标准正交化特征矢量u1,u2,…,um,其中uj=[u1j,u2j,…,umj]T,由特征矢量组成m个新的因素向量

式中:F1——第一个主成分;

F2——第二个主成分;

Fm——第m个主成分。

(5) 计算主成分贡献率及累计贡献率:

式中: Fj——第j个主成分的贡献率;

ηi——前i个主成分的累计贡献率。

一般取累计贡献率达到85%~95%的特征值λ1,λ2,…,λm所对应的第1、2、…、k(k≤m)个因素作为主要成分。

2 LSTM神经网络模型的原理

LSTM神经网络[13]是一种特殊的循环神经网络(Recurrent Neural Network,RNN)[14],可以学习短期和长期依赖性关系。与RNN不同的是,LSTM神经网络通过时间反向传播进行训练,克服了梯度消失和爆炸问题。由于LSTM引入了记忆单元,这些单元具备存储和计算能力,取代在隐藏层中的传统人工神经元,有了这些记忆单元,能够有效处理输入、输出门中的信息。LSTM神经网络单元结构如图1所示。

图1 LSTM神经网络单元结构

遗忘门的功能是根据特定情况对信息进行保留和丢弃。遗忘门的输入是来自上一时刻隐藏层的信息ht-1和当前时刻的输入xt,通过激活函数sigmoid将输出值限制在0~1之间,然后对输出值进行筛选,丢弃最接近0的值,保留最接近1的值。计算遗忘门的表达式为

ft=σ(WxfXt+Whfht-1+Wcfct-1+bf)

(6)

式中: σ——sigmoid激活函数;

Wxf、Whf、Wcf——遗忘门的权值矩阵;

bf——遗忘门的偏置;

ct-1——上一时刻细胞的状态。

输入门用于更新细胞状态。输入门的输入是由上一时刻的隐藏层的信息ht-1和当前时刻的输入xt,通过激活函数sigmoid和tanh,最后将sigmoid函数的输出值与tanh函数的输出值相乘,sigmoid函数的输出值决定tanh函数的输出值是保留还是丢弃。计算输入门的表达式如下:

it=σ(WxiXt+Whiht-1+Wcict-1+bi)

(7)

式中:tanh——激活函数,用于帮助调节流经网络的值,始终限制在[-1,1];

Wxi、Whi、Wci、Wxc、Whc——输入门的权值矩阵;

bi、bc——输入门的偏置;

计算细胞状态。首先将前一层的细胞状态与遗忘门输出的值相乘,然后再将该值与输入门的输出值相加,得到新的细胞状态ct。计算细胞状态的表达式为

输出门用来确定下一个隐藏层的值。输出门的输入由两部分组成,一部分是由上一时刻隐藏层的信息ht-1和当前时刻的输入xt,另一部分是新的细胞状态ct,通过激活函数sigmoid和tanh,最后将sigmoid函数的输出值与tanh函数的输出值相乘,以确定当前隐藏层ht应携带的信息。再将当前隐藏层作为当前细胞的输出,把新的细胞状态和新的隐藏层传递到下一个时间步长中去。计算输出门的表达式如下:

式中:Wxo、Who、Wco——输出门的权值矩阵;

bo——输出门的偏置。

3 基于PCA-LSTM神经网络空调负荷预测模型的建立

PCA-LSTM模型结构如图2所示。PCA分析法负责筛选出主要成分的气象因素作为LSTM神经网络的输入量,LSTM通过学习气象因素与空调负荷数据之间的内在联系与规律,并对未来的负荷进行预测。LSTM神经网络有2个LSTM神经网络层,在LSTM后面连接着1个Droupt层。为了减少模型过拟合,最后全连接层接着1个回归层,用于输出连续的空调负荷数据。

3.1 数据预处理

在使用智能监测装置进行数据采集的过程中会遇到很多不确定的因素,比如网络中断、采集终端故障、关口电能表故障等,这些因素都会给采集数据的设备带来干扰,导致采集到的数据丢失或异常。合理的训练数据有助于提高预测模型的精度,因此在使用历史数据进行训练之前,先要对数据进行预处理。

(1) 异常数据的识别。由于空调负荷每天的变化呈现着周期性,同一天不同时刻负荷有较大区别,但每天同一时刻的负荷变化却相似,因此本文将空调负荷按时间分成24个序列,时间为0∶00~23∶00。箱形图的结构如图3所示。由图3可以直观地看出对超出箱形图设定的上界或者低于设定的下界的数值为异常值[15]。

图3 箱形图的结构

箱形图对异常数据的评判公式为

(12)

其中,IQR=U-L。

式中:xi——待测数据按照从小到大排序后的第i个数据;

U——上四分位数;

L——下四分位数;

IQR——四分位距。

(2) 异常数据的处理。在对异常数据进行识别之后,需要对异常值进行处理,常用的方法有:删除含有异常值的记录,视为缺失值,平均值修正和不处理。基于本文采集的数据是小样本数据,直接删除会造成训练样本不足,不处理会导致模型拟合效果差,因此本文将缺失值和异常值用前后两天相同时间点负荷的均值来代替。

(3) 数据归一化。各个影响因素单位量纲不同,在数量级上存在很大差异,所以将各个影响因素和空调负荷进行归一化处理,采用Min-Max 标准化将其数值限制在0~1之间,从而避免陷入运算局部最优。归一化后的值表达式为

式中: X——原数据集;

Xmax、Xmin——原数据集中最大和最小值。

3.2 预测模型参数的设置

使用2015年8月7日的气象数据,时间0∶00~23∶00,每小时对温度、露点温度、湿度、气压、风速进行采样一次,共5维数据构成输入变量的初始序列。原始数据如表1所示。利用主成分分析法对气象因素数据进行分析,主成分分析结果如表2所示。

表1 原始数据

表2中,主成分1~主成分5的贡献率分别为56.053 4%、 426.983 1%、 8.595 4%、 8.323 3%、0.044 7%,前4个主成分累计贡献率为99.955 3%,已经达到了95%的目标,涵盖了主要信息,因此选取温度、露点温度、相对湿度、气压作为预测模型的输入。输入节点数设置为4,模型输出为空调负荷,所以输出节点数设置为1。经过反复试验隐藏层设置为2层,每层隐藏节点数设置为180个,迭代次数Epoch设置为700次,学习率设置为0.005,dropout设置为0.01,最后模型采用Adam算法进行优化。

表2 主成分分析结果

3.3 模型评价指标

本文采用平均绝对百分比误差Mape、平均绝对误差Mae和均方根误差Rmse来评估预测模型,Mape、Mae、Rmse越小,表明模型预测效果越好,各评估指标的计算表达式如下:

式中: n——预测样本总数;

Yact、Ypre——真实值和预测值。

4 实例分析

本文分析上海某建筑空调耗电情况,时间从2015年6月1日到2015年8月31日,每1 h进行采样一次,总共2 184条数据,其中工作日有1 560条数据,非工作日有624条数据。由于本文采集到的信息只有气象数据,从非工作日空调负荷的数据来看,空调负荷与气象因素的相关性比较低,且每天空调负荷的变化并不规律,模型输入因素的选择并不适用于非工作日。因此仅对工作日的空调负荷进行预测,划分训练集为1 536条数据,剩下的为测试集。利用MATLAB 2020b编程语言来建立PCA-LSTM神经网络空调负荷预测模型。

4.1 数据预处理

利用python中的pands和matplotlib工具包可快速实现箱形图对数据筛选的功能,异常数据分布如图4所示,异常数据共有25个,其中极端异常数据有1个,对异常数据的处理采用前后两天同一时刻的负荷数据均值来代替,然后将划分空调负荷的训练集和测试集进行归一化。

图4 异常数据分布

4.2 预测效果

不同预测模型的预测效果对比如图5所示。

图5 不同预测模型的预测效果对比

不同预测模型相对误差比较如图6所示。

图6 不同预测模型相对误差比较

由图5、图6可知,PCA-LSTM预测模型的拟合效果比LSTM预测模型以及PCA-BP预测模型好,预测相对误差范围在[-0.1,0.1]之间,比LSTM预测模型的相对误差低0~10%,比PCA-BP预测模型的相对误差低0~30%,具有较高的预测精度。

3种预测模型的预测效果对比如表3所示。表3中,从平均绝对误差的角度来看,PCA-LSTM相比于其他两种预测模型,Mae分别下降了35.135 2、8.056 9;从平均绝对百分比误差的角度来看,Mape分别下降了6.74%、2.01%;从均方根误差的角度来看,Rmse分别下降了59.612 9、7.932 5。PCA-LSTM预测模型在评价指标Mae、Mape、Rmse上均优于其他两种预测模型,说明本文所提预测方法具有良好的预测精度。

表3 3种预测模型的预测效果对比

5 结 语

本文提出PCA-LSTM神经网络预测模型,利用LSTM特有的门结构可以有效学习时序数据的特征,提高预测模型的准确性。在数据预处理阶段采用主成分分析法对输入变量进行剔除,减少数据的冗余,提高预测模型的数据处理效率。最后将PCA-LSTM神经网络预测模型与传统BP预测模型以及不进行主成分分析的LSTM预测模型在划分好的训练集和测试集上测试对比,结果表明LSTM神经网络能够很好处理时序性和非线性的问题,通过主成分分析法对影响因素进行分析过后,预测精度得到了提升,说明本文所提预测方法在对空调负荷预测上具有较高的预测精度和更好的泛化性。

猜你喜欢

气象空调神经网络
气象树
《内蒙古气象》征稿简则
神经网络抑制无线通信干扰探究
大国气象
美丽的气象奇观
空调病是怎么回事
奔驰E260车空调不正常
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
迈腾车空调不制冷