基于聚类分析与SVR公共建筑能耗预测研究

2022-08-22叶永雪马鸿雁杨静俭

计算机仿真 2022年7期

叶永雪，马鸿雁*，2，3，杨静俭

(1. 北京建筑大学电气与信息工程学院，北京 100044；2. 建筑大数据智能处理方法研究北京市重点实验室，北京 100044；3. 智慧城市国家级虚拟仿真实验教学中心，北京 100044)

1 引言

随着我国城市化进程的逐步提速、人民生活水平也在不断提升，我国公共建筑的能耗占比也开始节节攀升。据统计，我国建筑能耗在总能耗中的占比已上升至35%左右，而其中公共建筑电能消耗十分严重[1]。因此，如何处理好公共建筑的能耗问题变得至关重要。通过探究公共建筑能耗的影响因素，并建立相应能耗预测模型对其进行预测，将有利于综合评估公共建筑能耗现状及其发展趋势，并为公共建筑实施能源管理计划提供有效依据。

随着影响预测的相关因素及其数据量的不断增多，一些传统的方式不足以解决相关预测问题。近年来，随着计算机科学的不断发展，各类机器学习技术的瓶颈也在不断被突破，基于数据驱动的公共建筑能耗预测研究越来越广泛。侯博文等[2]首先提出将基于支持向量机(SVM)用于建筑能耗预测。随后LI等人[3]采用支持向量机、GRNN神经网络、BP神经网络等方法对同一住宅的年总能耗量进行预测，该对比实验结果表明，支持向量机预测模型预测精度最高。但是他们对公共建筑的能耗均缺少相关的研究。本文基于Python采用聚类分析与支持向量回归算法，建立了能耗预测模型，对公共建筑能耗问题进行了研究。

2 基于支持向量机的公共建筑能耗预测理论

2.1 支持向量回归理论[4-6]

传统回归算法当且仅当回归f(x)等于y时，才被认为预测正确。而支持向量回归算法则只需回归f(x)与y偏离程度不要太大，即可认为预测正确。对于f(x)与y有偏离的，仅需设置阈值ε，计算|f(x)-y|>ε的数据点的损失。如图1所示，其中黑色数据点均认为预测正确，只需要计算白色数据点的损失。

图1 支持向量的标识图

2.2 公共建筑能耗预测模型[7-11]

随着信息科学技术的不断更新，各类仿真软件层出不穷，Python具有种类繁多的标准库，是一种十分精彩又强大的语言，有独特的优势。综上，本文基于Python采用聚类分析与支持向量回归算法建立公共建筑能耗预测模型。

图2为基于支持向量回归的公共建筑能耗预测模型的流程图[3]，该流程图主要由三大部分组成。

图2 基于K-Means与SVR的能耗预测模型流程

1)数据处理：将数据集进行相关性分析判断，去除数据的无关特征以达到数据集降噪的目的，然后对数据进行z-score归一化处理；将归一化后的数据投入到K-Means聚类分析程序中进行数据的二次分析与处理。

2)模型建立：将处理后的数据按照9：1的比例分为训练集和测试集。将训练集中的数据输入到支持向量回归模型中通过参数寻优得到预测模型。

3)模型输出与重利用：将输出的模型用于开发人机交互界面，以实现公共建筑能耗预测的可视化功能。

2.3 公共建筑能耗模型评价指标

2.3.1 R检验[12]

R检验即判定系数检验，该检验是用于检测样本回归对样本观测值的拟合程度，计算公式为

(1)

式中

R2——判定系数

对于判定系数来说，虽然其值越靠近1曲线拟合程度越高，但是当判定系数不断靠近1会出现过拟合的现象，所以比较优秀的判定系数值应该在0.85-0.95之间。

2.3.2 均方误差与CG参数

1)均方误差

均方误差可以评价数据的变化程度，其值越小，说明结果越能反映数据的连续性。其公式如下所示

(2)

2)CG参数

本文运用十字交叉验证的方法去进行参数寻优，用以获得最佳的模型参数。因此核函数参数gamma(G)与惩罚因子C对于基于支持向量回归的模型的预测结果有着十分重要的影响。

3 公共建筑能耗预测模型研究进展

3.1 数据样本的收集

本文以北京市某高校的图书馆为研究对象。选择该研究对象的原因主要有以下几点，第一：随着高校学生人数的不断增加，以人为本的理念导致越来越多的高校为学生提供更好的学习和生活环境，这造成了高校图书馆能耗急剧增加。第二：在模糊数学中，不同人群对于温度的感知和适应性不同，这导致部分使用者会因感觉过冷或过热而频繁开启门窗，从而造成能源浪费，因此高校图书馆能耗浪费较多。第三：许多高校在建校初期均以恶劣天气状况考虑，这导致电气设备预留量大，制冷、制热设备会出现“大马拉小车”现象，所以高校图书馆节能潜力大。本文通过实地调研，选取2018年上半年该高校1-5月份能耗参数数据进行模型训练测试。具体数据类型见表1。本文数据均为真实数据。

表1 数据样本示例

3.2 气象特征数据样本处理过程

3.2.1 气象特征数据特征分析

1)相关性分析方法

对数据集进行分析，通过一定的特征选择将高维度的样本转换到低维度，从而获得尽可能低维度的特征子数据集，通过该子集中的数据进行模型建立，建模的精度会显著提高，最终得到较好的预测结果[3]。

各类相关性分析方法见表2所示。

表2 相关性分析方法

首先对于图表相关分析方法来说，该方法无法对数据间相关性进行准确的度量，并且当数据维度超过2时也无法完成各组数据间的相关分析，本文数据集的维度为5，该方法不适用。其次对于多元回归分析方法与信息熵及互信息分析方法来说，此分析过程较为复杂，不适用于本数据集的预处理过程。最后对协方差分析方法与相关系数分析方法来说，协方差分析法只能分析数据之间的相关性，却不能分析数据间的相关程度。而相关系数分析方法则可以反映不同变量之间的相关程度。因此本文选用相关系数分析方法对本文气象数据的特征进行分析。

2)Pearson相关系数分析方法

在相关系数分析方法中，Pearson系数分析方法比较适用于等间距测度数据的相关性分析。而本文采集的数据集为每日气象数据与每日能耗数据，为等间距测度的数据，因此本文采用Pearson相关系数分析方法对数据进行相关性分析。所以本文最终采用Pearson相关系数分析方法对数据特征进行分析。

各变量间Pearson相关系数计算结果如图3所示。从图3中可以看出，逐日能耗与相对湿度的Pearson相关系数值为-0.00454，该值的绝对值位于0～0.2之间，表明相对湿度与能耗情况极弱相关或无相关，即相对湿度这个气象特征与能耗预测的结果不发生关系。所以将数据集中相对湿度这一气象特征去除，从而对数据集进行降维，使得最终预测结果更为精准。

图3 各气象特征与能耗的Pearson相关系数

3.2.2 气象特征数据标准化处理

数据标准化方法

数据的标准化是将数据按照某一算法进行缩放，使其落入某个指定区间内。数据的标准化中较为典型的处理方法为数据归一化处理。常见的数据归一化处锂的方法见表3所示。

表3 数据归一化方法表

本文经过后期各类归一化数据集的建模发现，z-score标准化后的数据集对于能耗预测模型的建立在其精确性上具有较好的影响，因此本文采用z-score标准化对数据集进行处理。

3.3 气象特征数据K-Means聚类分析[13-14]

1)K-Means聚类算法原理

K-Means算法是经典的基于原型的目标函数聚类方法。本文中的K-Means算法以欧氏距离公式作为其相似度测度，该算法对于接近高斯(正态)分布的数据集有良好的聚类效果。

2)K-Means聚类结果

本模型的数据集的维度为5维，首先将数据集以第1维(最高温度)与第5维(能耗参数)进行聚类(数据集样例见表1)，聚类的结果见图4所示。最终聚类结果以5维聚类为准。

图4 二维参数K-Means聚类结果

从图4(a)可看出类簇为2时，各个类别的参数数量较多，对模型训练有利，但是在第二类(三角形类别)中，明显有一部分数据不属于该类。从图4(b)可看出类簇为3时，分类结果十分成功，但是明显发现，该聚类结果下给个类簇数据量较小，对模型训练不利。综上所述，本文在现有数据情况下选用类簇为2的聚类分析结果作为参数，将第一类(X类别)的参数投入到能耗预测模型中进行训练。

3.4 仿真结果及结果分析

通过对全部预处理的数据集训练后SVR能耗预测模型的评价指标R2可达到0.89725，惩罚系数C值为6.85795，说明本文建立的模型在训练后既没有出现过拟合也没有出现欠拟合，gamma值为6.85795，说明训练与预测的速度较为适中。而通过在处理数据中增加聚类分析结果后，SVR能耗预测模型的评价指标R2为0.93645。测试集的结果如图5所示。

图5 模型测试集与实际数据集对比结果图

在图5中，绿色曲线代表基于能耗预测模型的预测曲线，黑色曲线代表实际能耗情况的数据曲线。从图中可以看到，拟合效果良好。

随机从1-5月份中每个月抽取3天对未聚类公共建筑能耗预测模型进行能耗预测，预测结果见表4。

表4 抽样预测结果

通过分析表4，通过分析发现未聚类能耗预测模型在二、三、四月份预测精度均超过90%，预测精度较高。但是在一月能耗的预测值上整体偏低，在五月能耗预测值上整体偏高，即在这两个月份预测能力不理想。分析原因认为是数据集仅有上半年的数据，在一月与五月份数据断层，所以预测能力不够准确。所以在公共建筑能耗预测时，训练数据应该具有连续性。

另外，聚类后的能耗预测模型在第一类数据训练中十分理想，但是在第二类预测结果较为不理想，考虑原因是在聚类分析时，由于聚类的类簇为2类，其中第二类中有一部分数据不属于第二类，影响到最终模型训练结果。所以对于连续一年的训练数据聚类分析的类簇至少为3类。

4 基于公共建筑能耗模型的人机交互程序开发

在人机交互程序开发软件的选择上，本文仍旧选择Python，其原因如下：首先Python不仅支持面向过程，同时也支持面向对象编程。这就说明，使用Python不仅可以做网络后端工作，也可以做网络前端工作。此外Python兼容众多平台，具有很大的包容性，所以对于开发者来说，他们不会遇到使用其它语言时常会遇到的问题。

本文基于公共建筑能耗模型的人机交互程序开发，是以训练好的公共建筑能耗预测模型为核心在Python中设计人机交互程序时，需要将在训练时的标准化数据集进行反标准化，具体公式如下所示

X=X*×σ+μ

(3)

从数据集中随机选取一天，用于验证人机交互界面功能的指导性。选取为2018年2月19日，该日具体数据如表5所示。

表5 2018年2月19日气象参数与能耗参数

将2018年2月19日的各项气象参数输入到“公共建筑能耗”预测界面内，点击预测按钮，得到图6所示结果。从图6可知本模型对2018年2月19日能耗预测的结果为4671.53kW，而实际能耗为4854.54kW，通过计算可得本模型在该日能耗预测估计准确率达到96.23%。

图6 人机交互预测界面

本文以训练的能耗预测模型为基准，在Python中开发能耗预测界面，即“公共建筑能耗”预测界面，该界面能够准确反映模型的预测结果，并且适用于基础操作人员。此外在数据集中任取一日，将其参数输入后，其估计结果准确率达到96.23%，对公共建筑在能源管理上起到十分好的指导作用。

5 结论

本文基于Python构建了基于聚类分析的支持向量回归公共建筑能耗预测模型，用以公共建筑能耗预测，对比分析了实际能耗曲线与模型预测曲线，并对比聚类后与未聚类的两类公共建筑能耗预测模型。仿真结果表明聚类后的公共建筑能耗预测模型R2提高了3.9%，说明聚类之后的预测模型较未聚类的模型在预测精度上有了较大的提高。而公共建筑能耗预测模型测试集的预测结果均方误差为0.151859，说明该预测误差波动较小，可以对公共建筑能耗进行连续预测。

展开全文▼