APP下载

基于生成对抗网络的深度Q学习能耗预测算法

2019-01-06刘青松戴大东章挺飞张大龙

电脑知识与技术 2019年32期
关键词:建筑能耗

刘青松 戴大东 章挺飞 张大龙

摘要:针对基于生成对抗网络的Q学習能耗预测算法中,将传统Q学习算法,应用于大状态空间存在收敛速度慢以及非线性条件下能耗预测性能较差的问题,提出一种基于生成对抗网络的深度Q学习能耗预测算法(DeepQ-LearningEnergy Con-sumption Prediction algorithm Based on Generative Adversarial Networks,DGQL)。该算法引入深度神经网络,通过构建深度Q网络作为非线性函数逼近器去近似表示动作值函数,并利用深度Q网络值函数近似的方法解决传统Q学习算法在大状态空间中算法收敛速度慢的问题。实验结果表明,在引入深度Q网络值函数近似方法后,能耗预测的精度显著提高。

关键词:深度Q学习;生成对抗网络;建筑能耗;函数逼近器

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2019)32-0069-03

1概述

近年来,由于我国经济的飞速发展,随之建筑业也快速发展,由此建筑高能耗带来的问题日益凸显,因此,进行以节能减耗为目标的能耗预测研究显得尤为重要。通过分析能耗预测的结果,能够有效地提高能耗管理效率,解决建筑高能耗带来的问题。中国是能源消耗最大的发展中国家,大型公共建筑单位能耗相对于居住建筑能耗要高出十多倍,所以在不断发展经济的同时,应该通过低碳转型以及节能减排等方式,寻求可持续发展道路。目前,我国建筑领域所造成的能源消耗已经占到了社会总能好的三分之一,是节能减排三大领域能耗占比做高的领域。因此,建筑领域的节能是实现节能减排的关键,而建筑能耗预测是实现建筑节能的重要前提。

大型公共建筑不断增加,由此带来的建筑能耗也快速增加,相比较工业领域和交通,建筑领域由于具有占地面积大、内部结构复杂等特点,所以其能源消耗总量更大。2017年方涛涛等人针对传统神经网络预测精度存在低的问题,提出了一种基于BP-Adaboost的能耗预测算法,该算法由多个训练神经网络所得的弱预测器组成,然后集合为强预测器,实验结果表明该算法预测速度快、预测精度高。YU z等人将传统Q学习应用与预测建筑物内部极为重要的能源系统,通过预测能源系统的能耗分布,然后在线控制各个子系统的能耗,从而使得整个能源系统处于高效、低能耗状态。但是,生成对抗网络的Q学习在解决能耗预测方面还有很多不足之处。

本文针对基于生成对抗网络的Q学习能耗预测中,传统Q学习应用与大状态空间收敛速度慢,且在非线性条件下能耗预测性能较差的问题,提出一种基于生成对抗网络的深度O学习能耗预测算法。该算法引入深度神经网络,构建深度Q网络作为非线性函数逼近器去近似表示动作值函数,用值函数近似的方法解决Q学习算法在大状态空间中算法性能较差的问题。实验结果表明,引入深度Q网络以及值函数近似方法后,能耗预测的精度显著提高。

2理论部分

2.1值函数近似

值函数近似是最常用、最重要的近似形式之一。由于其函数构造方式简单,计算量小,近年来,值函数近似在深度Q学习中得到广泛的应用。本文采用值函数近似来构造动作值函数(Q值函数)。如式(1)所示:

通过值函数近似的方法,可以表示出每个时刻的动作值函数,且不需要记录。通过神经网络来预测动作值函数即可,并通过反向梯度下降的方法来更新参数,从而实现逼近真实动作值函数,并且值函数近似方法针对未知的状态也有比较强的泛化能力。

2.2深度Q网络

神经网络最早在20世纪四十年代被提出,可以实现一些简单逻辑运算,直到2015年,Mnih等人将卷积神经网络和传统强化学习中的Q学习结合,提出了深度Q网络(DeepQ-Network,DQN)模型。

DQN模型为全连接层的神经网络,输人为若干时刻的能耗大小,然后经过全连接层的非线性变换,在输出层输出的值作为动作的动作值。通过训练神经网络的参数,将动作值函数用值函数近似方法表示,避免传统Q学习算法在大状态空间存在收敛速度慢,性能差的问题。

2.3生成对抗网络

生成对抗网络(Generative Adversarial Networks,GAN)是一种生成式模型,目前已经成为人工智能学界一个热门的研究方向。GAN灵感自于博弈论中的二人零和博弈,在GAN模型中,博弈双方为生成器模型G和判别器模型D。其中生成器G用于学习真实样本数据的分布,生成器G为接收随机噪声z,然后以此生成样本,目的是生成与真实样本分布相同的样本。

GAN的模型图如图1示:生成器模型G与判别器模型D利用可微分函数表示,各自的输入分别为随机噪声z和真实数据xo。G(x)表示由生成器模型G生成的尽量服从真实数据分布的样本。判别器模型D分别对数据来源进行判别,如果判别出输人的数据来源于真实数据,则给予标签1,如果输入数据来源于生成器G,给予标签0。通过学习,使得生成器与判别器相互对抗且迭代优化,最终可以认为生成器模型G已经学习到真实数据分布。

该算法具体流程如算法1所示,真实能耗数据储存于真实能耗样本池D1,真实能耗样本用于训练GAN,然后GAN生成的能耗样本储存于虚拟样本池D2,两个样本池共同提供样本给agent用于训练,每次从两个样本池中共抽取mini-match个样本,然后采用小批量梯度下降的方法训练深度神经网络,以此逼近真实动作值函数,寻找最优策略,最优策略是agent在每个状态采取的最优动作集合,即能耗预测值集合。

算法1基于生成对抗网络的深度Q学习能耗预测算法

4实验结果分析

为了验证基于生成对抗网络深度Q学习能耗预测算法,建筑能耗的实验数据来自美国巴尔的摩天燃气与电力公司,源数据的值域空间为[15,60],因此,在此能耗预测模型中,输人值与输出值的值域设为xiangto哪个的【15,60】,学习率为0.95,mini-batch=32。

图2为GQL算法与DGQL算法累积奖赏对比图。横坐标表示时间,纵坐标表示不同情节下的累积奖赏值。在实验过程中,每个算法都被独立执行20次,图中的数据即20次实验的平均值。从图2中可以看出,两个算法最终都能处于收敛状态,因此,两种算法稳定性都较好。同时,GQL算法在65个情节处于收敛,而DGQL算法在90个情节处于收敛,收敛奖赏分别为一75与47,这主要是由于DGQL算法需要训练深度神经网络,构造非线性函数逼近器去近似表示动作值函数,训练过程需要更多的训练时间,所以收敛更慢,但是DGOL算法通过训练神经网络来逼近动作值函数,可以避免迭代式求解带来的计算代价。同时,由于GAN生成经验样本,保证DGQL算法有充足的样本用于训练深度神经网络。所以,DGQL算法最终的收敛值比GQL算法更小,真实能耗值与预测能耗值两者之间的差距更小。综上所述,DGQL算法的整体性能更好,预测准确率更高。5总结

本文提出的一种基于生成对抗网络的深度Q学习能耗预测方法,该算法在传统Q学习的基础上引人深度Q学习,用值函数近似的方法构建非线性函数逼近器来近似表示动作值函数,解决Q学习在大状态空间中算法性能较差、甚至无法收敛的问题,实验结果表明,将DGQL算法应用于能耗预测是有效的,相比较于GQL算法,DGQL算法的能耗预测准确率更高。

猜你喜欢

建筑能耗
概述暖通空调系统节能设计
浅谈建筑节能工作
厦门地区公共建筑屋面对建筑耗能耗的影响及模拟分析
中央空调系统的节能措施研究