APP下载

基于住户差异性的住宅建筑在室行为预测模型

2021-06-04俞准刘竹清李郡周亚苹黄余建张国强

关键词:马尔可夫特征参数住户

俞准,刘竹清,李郡,周亚苹,黄余建,张国强

(1.湖南大学 土木工程学院,湖南 长沙 410082;2.湖南大学 建筑安全与环境国际联合研究中心,湖南 长沙 410082)

建筑在室行为是影响建筑能耗的主要因素之一[1].就住宅建筑而言,研究表明对其住户的在室行为,尤其是在室状态(即居民是否在室),进行合理定量描述和准确长期预测,是提升建筑能耗预测和模拟精度的有效手段[2].现有住宅建筑在室状态预测模型主要包括统计概率模型、数据挖掘模型、马尔可夫链(Markov Chain,MC)模型和Agent-based 模型,其中应用最为广泛的是马尔可夫链模型[3],该模型考虑了在室状态在时间上的关联性并能在一定程度上刻画建筑住户行为的随机性.例如,Richardson 等人[4]基于英国TUS 数据库,分别针对工作日及非工作日建立MC 模型以预测住户在室状态.结果表明该方法可以较好地预测在室状态,但其局限性也较为明显,主要体现在该方法是对数据库中所有住户进行统一预测,忽略了不同住户之间的差异性.考虑到不同特征住户的在室规律有所不同,该方法必然导致模型预测性能下降.对此,有学者在对住户进行分类的基础上进行在室状态预测.例如,Flett 等人[5]首先选取部分住户特征参数对英国住宅进行分类,然后对不同类住户在室状态进行分别预测.该方法可在有效降低计算量的同时提高模拟精度,但仍存在明显的局限性:一是所选取的住户特征参数受研究者自身经验和主观因素影响,容易忽略部分与在室行为相关的重要因素;二是没有考虑不同因素对住户在室行为的影响程度大小,限制了模型预测性能的提升.此外,部分学者尝试采用无监督聚类分析方法从住户在室状态信息中直接获取不同住户群体[6],再对不同群体住户在室状态进行预测.该方法可保证同一住户群体具有相似的在室作息规律,从而提升了模型预测性能,但由此获取的住户群体其社会经济背景等特征可能具有显著差异,导致在实际应用中对某一住户进行能耗模拟时难以确定该住户属于哪类群体,从而限制了该方法的实用性.

针对上述问题,本文通过引入Spearman 相关性分析及聚类分析对马尔可夫链模型进行改进,提出一种基于住户差异性的马尔可夫链在室状态预测模型(Resident-differentiated,Markov Chain Occupancy Prediction Model with Cluster analysis,RMCPMC).该模型综合考虑了不同特征参数对住户在室行为的影响差异,对住户进行合理的分类,在此基础上进一步建立在室状态预测模型.本研究采用英国2000 年TUS 数据库对模型结果进行验证,并与传统马尔可夫链模型进行了对比分析.

1 在室状态预测模型

本文提出的基于相关性分析和聚类分析的住户在室状态预测模型流程如图1 所示.

图1 住户在室状态预测模型流程图Fig.1 The flow chart of occupancy prediction model

由图1 可知,本研究所提出的模型主要包括以下步骤:

1)数据预处理.对数据进行清理、筛选和转换,并通过随机抽样选取80%数据作为训练集,20%数据作为测试集[7].

2)特征参数选取及赋权.通过Spearman 相关性分析,计算不同特征参数与住户总在室时长之间的相关系数,在此基础上选取合适的特征参数,并将相关性系数作为权值赋予各特征参数.

3)典型住户在室状态模式提取.将赋权后的特征参数作为对象特征,采用聚类分析将住户划分成若干类.

4)预测模型建立.确定各类住户初始时刻在室状态概率和状态转移概率矩阵,以分别建立马尔可夫链预测模型.

5)模型验证.对测试集住户进行在室模式匹配(即所属聚类类别),并采用各马尔可夫链模型分别进行预测,将预测结果与实际在室状态数据进行对比分析.

1.1 数据预处理

本文对原始数据的预处理过程主要包括数据清理、数据转换和无量纲化处理.

1)数据清理:由于不同因素影响(如调查对象漏填等问题),数据库存在部分住户数据不完整的情况.为避免缺失数据影响模型结果,本文剔除该部分数据.

2)数据转换:数据库中所测参数的类型包括数值型(如住户年龄)和分类型(如住户性别).不同类型的数据难以直接进行对比分析,因此本文将分类型参数转换为数值型参数,如住户性别为“男”则转化成数值1,反之则为2.

3)无量纲化处理:在应用过程中,取值范围小的参数易受取值范围大的参数影响而被忽略其重要性.为此,本文对参数进行无量纲化处理,将不同参数的取值范围转化为相同区间,如[0,1][8].

1.2 Spearman 相关性分析

由于住户不同特征因素对其在室行为的影响程度不同,有必要对其相关性进行分析,以确定不同影响因素对住户在室状态的影响程度.本文采用Spearman 相关性分析确定不同特征参数与住户总在室时长的关联程度.Spearman 相关性分析是衡量2个变量的依赖性的统计方法,它利用单调方程评价2 个统计变量的相关性.其中相关系数用符号ρ 表示,计算公式如(1)所示[9].

式中:xi、yi、及分别为2 变量原始值及均值.

1.3 聚类分析

聚类分析是一种根据研究对象相似性将数据集划分为若干类或簇的过程,目的是保证“类内相似性和类间排他性”[10].本文选用划分聚类分析中kmeans 算法对加权特征参数进行聚类分析以得到不同住户群体,其核心思想为指定初始聚类类别及质心,并重复迭代直至算法收敛.其最佳聚类数k 可通过Calinski-Harabasz(CH)指标和Davies-Bouldin(DB)指标确定.2 指标包含对类内相似度与类间分离度的计算,CH 指标越大而DB 指标越小,则类内相似度和类间分散度越高,说明聚类效果更优.本文采用开源数据挖掘软件RapidMiner[11]进行聚类分析,该软件是一个具有丰富数据挖掘分析和算法功能的开源软件,通过将不同功能的算子连接形成流程来实现其功能,简单易学且具有可视化特性.

1.4 马尔可夫链模型

马尔可夫链模型假定住户tn时刻在室状态仅与上一时刻tn-1的在室状态有关,其计算公式如式(2)所示[12-13].

式中:Xtn-1为随机变量;xtn-1为随机变量在上一时刻tn-1的状态,t1<t2<…<tn.

该模型可通过初始在室概率p0和状态转移概率矩阵(Transition Probability Matrices,TPM)这两个参数进行描述.将该模型应用于住户在室行为预测时,TPM 的大小取决于在室状态数目(文中为“在室”和“离开”2 种状态),如图2 所示.此外,考虑到在室状态具有动态变化特征,本文采用随模拟步长(即10 min)变化的不均匀TPM.计算p0和TPM 公式如下[14]:

图2 状态转移概率矩阵结构图Fig.2 The structure diagram of transition probability matrices

式中:p0为住户初始状态为xi的概率;N 为样本总数;xi为第i 个住户的初始在室状态.

式中:pij为状态i 转移到状态j 的转移概率;nij为tn至tn+1时刻状态i 转移到状态j 的数目.

式中:TPMtn为tn时刻的转移概率矩阵为tn时刻状态0 转移到状态1 的转移概率,余类推.

在确定模型参数之后,为对在室状态进行随机预测,本文基于初始概率和状态转移概率矩阵,通过生成0-1 之间的随机数并将其与相应累计概率分布比较推断出最可能出现的在室状态.

2 数据库与模型评价指标

2.1 数据库简介

英国国家统计局于2000 年在全国范围内开展了时间利用调查,建立了Time Use Survey(TUS)数据库[15],该数据库以问卷调查的形式收录了约2 万个住宅住户单人日志,且对所有月份及星期天数均有涵盖,其记录的详细日常活动信息能够提供丰富的住户行为数据.这些日志主要包含两部分内容:

1)与住户日常活动相关的影响因素,包含详细的个人信息(如年龄、性别、民族、职业、收入、住户与其他住户的关系等)和住宅信息(住宅类型、家用电器及车辆拥有权、家庭收入等).

2)住户24 h(从4:00am 到次日3:50am)具体的日常活动,包含一天工作日和一天非工作日,该信息是由住户主动记录每间隔10 min 其主要日常活动、次要日常活动、相应位置及是否有陪同人员等.

2.2 模型评价

为评估模型的整体性能,本文采用平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)两个指标对模型预测精度进行评价.MAE 和RMSE 反映预测在室状态概率的整体误差,计算公式如下:

3 结果与讨论

3.1 数据预处理结果

对TUS 数据清理后共有12 166 个住户日志数据完整且满足研究需求,本文选取这部分数据作为研究样本,并从样本中包含的日常活动分类中推断出在室情况,其具体信息见表1.此外,从数据库中选取了12 类可能对住户在室行为产生影响的因素,具体分类及内容见表2,其中表2 中的分类数值均根据其相应顺序转为有序数值,例如,工作状态共计4种,依次编码为1~4.

通过万能试验机(GP-TS2000)测试焊后铝合金对焊样品的拉伸强度,拉伸试样为Φ15 mm×40 mm棒材对焊件.焊后试样经切割、镶嵌、抛光,并用化学腐蚀液腐蚀后,制备成所需金相试样.腐蚀液配方为:V(HF)∶V(HCl)∶V(HNO3)∶V(H2O3)=2∶3∶5∶10.使用光学显微镜观察焊接接头的金相组织.

表1 住户日常活动分类和相应的在室信息Tab.1 Classification of resident daily activities and occupancy information

表2 在室行为相关的影响因素Tab.2 Influencing factors related to the occupancy

3.2 相关性分析

本文以住户总在室时长为目标函数,对影响因素进行相关性分析,结果见表3.由表3 可知,在12个影响因素中,工作状态、身份信息、经济活跃情况和年龄与住户的总在室时长正相关系数较大,这意味着住户的这四类因素与住户在室持续时长具有显著相关性.在分析和预测住宅建筑住户在室模式时,应重点考察这四种影响因素.此外,住户住宅类型以及生活状况与总在室时长的相关性几乎为零,这表明二者对在室行为的影响可忽略不计.因此在后续研究中将这两个因素剔除,最终选取10 个影响因素作为聚类特征参数,并根据相关性系数为各特征参数赋予相应权值.

表3 影响因素相关性分析结果Tab.3 Correlation analysis results of influencing factors

3.3 住户典型在室模式

在得到相关系数后,应以赋权特征参数为分类指标对训练集数据进行聚类分析.针对不同聚类类别数目(本文设定范围为2~10),分别计算CH 和DB指标,结果见表4.由表4 可知,在k=2 时,CH 指标最大,DB 指标最小,即在保证类内相似最高的情况下类与类之间的距离最远,聚类效果最优.因此,本文将样本住户分为2 类进行研究.

表4 聚类CH 指标和DB 指标结果Tab.4 The CH and DB results

表5 为对赋权特征参数进行聚类后,2 个聚类的聚类中心(即每个特征参数的平均值)、住户数量及占比情况.图3 给出了4 个重要特征参数在这2 个聚类的详细分布情况.结合表5 和图3 可看出,第1类住户的工作状态、身份信息、经济活跃和年龄均为最大,这表明该聚类多为不在工作且不在学校、退休、经济状态不活跃、年龄较大的人员;第2 类住户多为处于工作状态、拥有全职工作、经济状态活跃、年龄较小的人员.

表5 聚类分析结果Tab.5 Cluster analysis results

图3 4 个重要特征参数在聚类1 和聚类2 的分布Fig.3 Distribution of four important characteristics in cluster 1 and cluster 2

由上述结果可看出两类住户具有明显不同的特征,为进一步分析不同住户特征对在室行为模式的影响,图4 给出了两类住户的在室状态概率分布图.从图中可知,两类住户的在室模式存在显著差异.例如,在8:00—18:00 时间段,第2 类住户不在室概率明显高于第1 类住户,其主要原因是第2 类住户大部分为年龄相对较小的全职工作人员,白天通常处于外出工作状态;相反,对于第1 类住户(年龄较大的退休或无工作住户),其主要日常活动为个人护理、休闲娱乐等室内活动,外出活动时间较短.由此可知,两种在室模式与聚类所获取的住户特征较为吻合,表明基于住户典型特征参数能够合理划分住户并识别不同住户的在室行为模式,使得同一类住户的在室行为模式更为接近.

图4 典型住户在室模式Fig.4 Typical resident occupancy patterns

3.4 模型预测精度比较

在聚类分析所划分的两类住户的基础上,本文采用训练集建立了基于住户差异性的马尔可夫链在室状态预测模型(RMCPMC 模型).为验证模型的有效性,以测试集样本住户加权特征参数与两聚类中心的欧氏距离为依据评判住户归属典型类别,分别根据所建立的RMCPMC 模型进行预测.经分析测试集中有955 名住户(39.25%)属于第1 类,1 478 名住户(60.75%)属于第2 类.为保证验证结果的公平性与合理性,应以数据集样本数目为模拟次数进行预测[4].因此,本文以测试集中各个聚类的样本数量为模拟次数模拟住户在室行为.

图5 不同模型模拟结果对比图Fig.5 Occupancy prediction results based on different models

表6 给出了本文所提出的RMCPMC 模型与传统MC 模型的整体预测结果.从表6 中可知,相比于传统MC 模型,本文所提出的预测模型的MAE 和RMSE 分别减少了20.57%和15.35%.从总体预测结果来看,模型整体预测性能大幅提升.这一结果表明,通过合理识别相似的建筑在室行为模式,能够实现提升在室行为预测精度的目的.

表6 两种模型预测整体误差Tab.6 The overall prediction error based on two models

4 结论

本文主要结论如下:

1)住户特征差异与建筑在室行为具有较强关联,因此在研究住户在室行为时应对住户不同特征与在室行为进行相关性分析.就本文所采用的数据库而言,其中相关性较强的影响因素包括住户的工作状态、经济水平、年龄和身份信息.

2)本文方法能综合考虑住户差异性对建筑在室行为的影响,通过合理区分不同建筑住户特征以识别相应的典型在室模式.本次研究通过聚类分析获得2 类具有明显不同特征的住户:第1 类住户多为不在工作且不在学校、退休、经济状态不活跃、年龄较大的人员;第2 类住户多为处于工作状态、拥有全职工作、经济状态活跃、年龄较小的人员.且两类住户在室模式与聚类所获取住户特征较吻合.

3)与传统MC 模型相比,RMCPMC 模型整体预测精度显著提升,RMCPMC 模型可根据住户特征参数有效判别住户所属类别,获得更加合理的模型输入参数,预测结果更符合实际,模型预测误差MAE和RMSE 分别减少了20.57%和15.35%.

本文模型的建立和评估均是以英国2000 年TUS 数据库为例,将其应用于我国时应结合我国住宅建筑室内人员特征,从数据采集、模型参数选取和聚类分析参数权重分配等方面进行考虑.同时,就新建住宅住户行为预测而言,考虑到其住户特征难以获取,应基于其规划设计信息选择已有类似住宅并采用相关参数进行预测,在后期业主入住后再收集住户信息对模型进行校核和修正.

此外,本文研究主要针对建筑住户在室状态(即在室和不在室)的预测进行分析和验证,在此基础上,未来应进一步细化住户在室行为(如主动/被动在室状态、与能耗相关行为等)建立相应预测模型,以获取住户更全面且详细的在室状态,并将其与能耗预测模型相耦合,达到提高能耗模拟精度的目的.

猜你喜欢

马尔可夫特征参数住户
基于视频图像序列的船用雷达目标检测和目标特征参数提取
面向电力系统的继电保护故障建模研究
基于马尔可夫链共享单车高校投放研究
基于马尔可夫链共享单车高校投放研究
基于马尔科夫算法对预测窗户状态模型的研究
顶层住户的无奈——渗漏篇
简单的高招
事业单位财务风险预测建模及分析
说话人识别特征参数MFCC的提取与分析
民用飞机预测与健康管理技术与系统特征参数研究