基于灰箱模型的设计阶段建筑负荷预测方法

2021-04-25贾文琦潘毅群

建筑热能通风空调 2021年3期

贾文琦潘毅群*

同济大学机械与能源工程学院

0 引言

设计阶段的负荷预测准确性对设备容量和供能方案的选择有较大影响，如何准确地计算设计阶段建筑负荷是建筑性能模拟的一大挑战[1]，国内外对于建筑负荷的确定方法，主要分为以下几类：面积负荷指标法[2]，数值模型预测法[3-6]与数据驱动法[7-9]。但这三种方法的模型输出数量都有限制，现有研究较少讨论全年逐时负荷。

因此，本文探索了灰箱模型在设计阶段建筑负荷预测的潜力：首先选取对建筑负荷影响较大的变量进行正交案例设计，得到大量建筑模型，在正演模拟的方法下得到负荷计算结果，即全年 8760 小时的逐时冷热负荷，然后在该结果的基础上使用数据驱动方法进行目标建筑的负荷预测。最后使用该方法得到的预测负荷与真实负荷进行对比与分析。结果表明，该方法可以较为准确、快速地得到设计阶段建筑全年逐时冷热负荷，提供了一种新的解决思路。

1 正演模型建立

1.1 初始变量设计

为了提取出预测建筑负荷所必需的、具有普适性的建筑变量，本文从前人研究中提取了对负荷影响较大的七个变量，充分全面地反映建筑变量对负荷影响的变量-负荷数据集，作为负荷预测的研究基础，表征了高维变量与负荷之间的复杂关系。

建立一个全面的变量-负荷数据集，应涵盖尽可能多的独立变量和变量水平，但受制于计算能力与数据集复杂度，又不能过多，综合考虑，本文选择了下表所示的七个独立变量，变量名、取值范围与对应水平数如表1 所示，需要注意的是，本文针对建筑负荷预测，故独立变量选取不涉及到空调系统，且各独立变量的取值范围均由业态标准的范围外扩10%得到。为了更多关注变量与负荷的关系，本文统一设置空调开启时刻表为周一至周五 6:00-18:00，天气参数则选为上海。

表1 变量选取

本文采用围护结构总传热系数（Overall Thermal Transfer Value，O TTV）的计算方法设计该变量，O TTV是包括墙体、屋顶、窗户热工性能的综合指标，为了提高设计的灵活性，最早由ASHRAE 通过考虑不同建筑的纬度、采暖日数、遮阳系数等，建立了OTTV 这样一个可计算的建筑围护结构热工性能评估参数，采用OTTV 作为独立变量可以减少总独立变量数（外墙传热系数、窗户传热系数、窗户太阳得热系数、窗墙比），在保证数据集的全面性的同时减少数据集的总量。

可以把这七个变量看作一个 7 维空间点，这个点完整地描述了一栋建筑的负荷特性，为了得到每个 7维空间点与负荷的映射关系，最理想的情况是对这所有的7 维空间点都计算对应的负荷，也就是次计算，这对于常用的建筑能耗模拟工作和科研工作来说，几乎是不可能的任务。

表2 抽样比例经验法则

因此，针对这一超大规模的数据集总体，本文采用抽样方法来代表数据集总体，现有抽样方法均为直接抽样，即采用抽样方法从总体中一次抽取所需的试验样本。在抽样调查中，样本容量的确定可以依据经验法则，见表2。就中等规模的总体（超过 1 万）而言，抽样比率为10%即可认为反映了总体特征。对于常用的建筑能耗模拟工具来说，计算时间与成本可以接受。

本文中生成 5000 个抽样点，抽样比率超过 10%，可以认为这 5000 个抽样点与其对应的负荷可以全面地描述变量与负荷之间复杂的映射关系以供后续的数据驱动方法学习。

1.2 数据集构建及计算实现方法

数据集构建过程是应用现有能耗模拟工具，采取批量生成和计算方法，按照每一个算例点的设计参数，规模化地建立和计算这5000 个抽样点，即 5000 个建筑负荷模型。并将模拟获得的建筑负荷结果作为每一个算例点的第8 维，与其对应的前7 维算例设计参数共同构成完整的变量-负荷数据集，如图 1 所示。本文选用应用广泛的建筑模拟工具 EnergyPlus 建立算例模型，并采用 python 语言，按照数据集的算例设计参数批量生成相应的建筑负荷模型，并进行规模计算。

图1 数据集构建流程

EnergyPlus 的建筑负荷模型格式为 idf，本质上是通过文本行的方式记录各模块信息，可以通过 Python编写代码，逐行读取idf 文件，找到 7 个变量对应模块进行参数修改，然后通过调用EnergyPlus 的 bat 文件调用天气信息进行模拟，将上述过程自动运行 5000次，便可得到5000 个算例点对应的负荷结果。表 3 为自动计算过程中编写的函数名称及功能介绍。

表3 自动化过程函数名称及功能

其中，G enerator 函数调用了序号 1～7 的函数，批量生成5000 个建筑负荷模型对应的 idf 文件，值得注意的是由于体形系数与建筑的几何尺寸有关，故使用代码编辑体形系数过于麻烦，本文中采用人工建立体形系数对应的 idf 文件，然后在以此文件为模板的基础上进行生成其他变量参数设计下的 idf 文件。RunWorker 批量调用 EnergyPlus 的 bat 文件，为了加快计算速度，使用了多进程计算，缩短了计算时间。由于每一个 idf 对应的结果都是8760 小时的冷热负荷，数据量较大，故使用 ResultWorker 自动逐个读取 idf负荷结果，并将结果保存在后续的数据库中。

1.3 变量-负荷数据库结构设计

由第1.2 节产生的结果数据量非常大，每一个算例点都包含了7 维建筑变量信息，与 8760 小时的建筑负荷结果，使用传统的 excel 电子表格存储数据比较低效，且不利于后续方法的集成，故本文采用数据库技术MySQL 来存储和管理数据集。

变量-负荷数据集在数据库中最理想的存储方式应当是每一行对应着一个算例点，包含了7 维建筑信息与8760 维冷热负荷，共计 17528 个字段，而 MySQL最大支持一行2048 个字段，故需要设计出新的数据架构用来存储变量-负荷数据集。

本文采用 split-table 方式，将最理想存储方式中的每一行转化为一张数据表，从而克服一行最多2048个字段的限制。该方式自动为 5000 个算例点的每一个都创建一张存储负荷的数据表，这张数据表存储着时间与该时间对应的负荷，维度为(3,8760)。综上所述，该数据库共包括了5000 张负荷数据表与一张总表，总表仅包括每一个算例点的建筑变量信息，维度为(5000,7)，且总表的每一个算例点都与对应的负荷数据表建立了外键联系，方便快速地通过总表中的某一行索引到对应的负荷数据表提取数据。数据库结构如图2 所示：

图2 数据库结构概览

2 预测算法

2.1 数据驱动任务设计

在正演模型建立后，本文需要再建立一个数据驱动模型来学习这 5000 组 7 维建筑变量与建筑负荷的对应关系，实现对任意7 维建筑变量的建筑负荷预测。需要注意的是，模型输入是7 维建筑变量，而模型输出的建筑负荷是一个长达8760 小时的长序列，这样的低维—高维数据的关系学习对于数据驱动模型是一个较难的任务，因此，需要从一个新的角度来看待变量与负荷的关系。

在一年的时间长度中，对于一栋特定的建筑，描述它的7 维建筑变量是固定的静态数据。随着外界天气的变化，建筑负荷也在发生着变化，两者都是时序数据，因此，建筑负荷可看作为静态数据的建筑变量作用于时序数据天气变量的结果，这样地，低维—高维数据的关系学习就转化为了高维—高维数据的关系学习，如图3，这是数据驱动模型更易于学习的任务。

图3 低维—高维任务到高维—高维任务的转换

2.2 数据驱动模型设计

本文选择 1 维卷积神经网络（1D CNN）作为建筑负荷预测的数据驱动模型，C NN 在计算机视觉问题上表现出色，原因在于它可以进行卷积运算，从局部输入图块中高效提取特征，并将其模块化，同样地，1 N CNN 对时序数据处理也特别有效，因为时间可以被看作一个空间维度，就像二维图像的高度或宽度，因此它可以很好地识别出具有固定长度周期的时序数据与抓取其中的特征，并且可以使用GPU 并行加速。1D CNN 的输入为天气变量（温度、湿度、太阳辐射）与 7维建筑变量，模型输出为建筑负荷，为了减小网络的复杂度，本文将8760 小时拆分为52 个168 小时（即一周）分别预测，最后将结果拼接起来，如图4 所示。本文使用Keras 构建1D CNN，使用前文所述的变量-负荷数据库存储的数据训练该网络学习天气变量，建筑变量与建筑负荷的映射关系，1D CNN 的网络构架如表4 所示。

图4 1D CNN 预测流程

表4 1D CNN 网络架构

3 结果分析

3.1 预测性能指标选取

当 1D CNN 训练好后，便可以输入 7 维建筑变量与天气变量到该灰箱模型中，得到建筑负荷预测值。为了更好地去判断预测性能的好坏，需要提出一个预测性能指标来计算建筑负荷预测值与真实值两个序列的相似性。对于长序列数据，最常见的指标有最近欧式距离：单纯地使用欧式距离来计算两个序列中的每一维，并将每一维的距离相加得到总距离。皮尔逊系数：评判两个序列的线性相关性。Dynamic Time Warping（DTW）：衡量两个长度不等的序列相似性，多用于语音识别。然而，这些指标是无法反映出全年逐时负荷的预测值与真实值的相似性的：欧式距离不能反映趋势的相似性。对于皮尔逊相关系数与DTW，由于建筑负荷不仅受天气、内热影响，也受建筑空调系统的开关影响。当空调系统关闭时，无论环境、内热如何变化，负荷都为0，故全年逐时负荷序列存在着大量的0 数据，这也意味着全年负荷序列并不是连续变化的自然序列，不适合使用评判自然序列相似性的皮尔逊相关系数与 DTW，故需要提出新的指标衡量全年逐时负荷预测值与真实值的相似性。

考虑到设计人员更多地关注峰值负荷与整体负荷的大小，而建筑逐时负荷曲线形状上的相似性并不是关注目标，故本文提出有效小时率用以评判预测值与真实值的相似性：全年N个小时中预测值误差处于±1 5%的总小时Nm比例，如式（1）：

其中，N为真实值不为0 的总小时数。与仅考虑长序列数据“ 量”相似性的欧氏距离，仅考虑长序列数据“形”相似性的皮尔逊相关系数与 DTW 相比，有效小时率不仅可以反映逐时预测负荷与真实负荷“量”的相似性，而且更反映了整体“ 形”的相似性，故本文使用有效小时率用于评价1D CNN 的预测性能。

3.2 测试点选取及预测结果

为了能够更有效地反映本文所提出的灰箱模型的预测性能，根据实际参数情况，选出贴合实际有代表性的5 栋建筑，即 5 个7 维测试点，测试点信息如表 5所示。

表5 测试点信息

5 个测试点的真实负荷则由 EnergyPlus 得出，本文为测试点建立 EnergyPlus 的建筑负荷模型，模拟后得到测试点对应的 8760 小时负荷，并将其作为真实值，与灰箱模型的预测值进行比较，各测试点下建筑负荷的有效小时率如表6 所示。

表6 各测试点有效小时率

由表6 分析如下：

1）从整体上来看，该灰箱模型的预测性能较好，即便是最差的 5 号测试点热负荷也达到了 85%以上的有效小时率，这意味着全年有 85%以上的小时的相对误差处于±1 5%之间。

2）各测试点的负荷预测性能也是有一定的差异性的，4 号测试点的平均有效小时率与 2 号测试点相差6%，这是因为，一些测试点都是处于灰箱模型的训练样本，即变量-负荷数据库的内部空间，故对于这些测试点，灰箱模型的预测性能表现良好。而对于一些处于训练样本空间边缘的测试点，灰箱模型的泛化能力略显不足，预测性能下降。

3.3 测试点结果展示

为了更好地展示本文灰箱模型的预测结果，绘制测试点1 的预测值/真实值的热度图，如图5 所示，该建筑冷负荷多集中于6 月至9 月的中午，而热负荷多集中于十二月至三月的上午与晚上。对比预测值与真实值的热度分布，可以发现两者在大部分时间段内分布相同，吻合性较好。根据上述分析，本文提出的灰箱模型预测方法在设计阶段建筑负荷预测上表现出了较好的快速性和准确性。

图5 1 号测试点负荷预测结果

4 结论

本文提出了基于灰箱模型的设计阶段建筑负荷预测方法：首先建立了变量 -负荷数据库，包含了各种使用情景下的建筑，并将负荷预测任务转换为了数据驱动模型易于学习的“序列对序列”任务，使用 1D CNN 作为具体模型，并提出了新的预测性能指标——有效小时率作为评价灰箱模型预测性能优劣的指标，选取了贴合实际有代表性的5 栋建筑进行测试，验证了该灰箱模型良好的预测性能。与软件模拟预测法相比，本文提出的灰箱模型预测时间短，不需要复杂的建筑建模过程，对使用人员的操作水平要求较低。该方法也可一次性预测8760 小时的建筑负荷，而不是典型日逐时负荷/峰值负荷，这对建筑用能规划有着较大的意义。需要注意的是，本文的变量 -负荷数据库中变量的选取范围由上海建筑设计标准得到，负荷计算中也选取了上海的气象参数，在未来，可为各个地区分别建立变量-负荷数据库，输入建筑的变量与所在城市，自动化进行建筑逐时负荷预测，为各地区建筑用能规划提供准确的依据。