基于深度强化学习的地面辐射供暖系统优化控制

2022-09-06唐明武张津育刘依然吴小舟

东北电力大学学报 2022年2期

唐明武，张津育，刘依然，吴小舟

(1.大连理工大学土木工程学院，辽宁大连 116024；2.大连理工大学经济管理学院，辽宁大连 116024)

建筑热环境控制对于提高人们工作质量和改善生活环境至关重要.各种外界因素变化将引起室内热环境发生剧烈变化，故建筑的热工调节是维持室内热环境的基本条件.而暖通空调系统运行是建筑能耗的主要方面，占比大约为50%[1].因此，为了降低能耗节约资源，暖通空调系统优化控制就显得尤为重要.

影响建筑热环境控制的因素可大致分为三个部分：暖通空调系统本身相关的因素、建筑物本身的环境因素、人为因素.虽然因为居住者的主观因素导致对环境的感受不同，但是研究的重点在于如何在满足大多数人的同时，让暖通空调系统在动态化多变的环境条件下调整系统中的状态设定值和运行策略，即如何去创造一个更先进更智能的控制器.

对于建筑热环境的优化控制，除了最早的基于规则的启停控制，目前的控制数学方法一般分为两类：一类是基于模型的控制，如PID控制、模糊方程控制、模型预测控制(MPC)等；另一类是基于学习的控制，如强化学习控制.其中MPC是受到广泛关注并被证明是有效的[2-4]，是通过一个建筑完整的热力模型，并在每个设置的时间步长内，通过对未来建筑的室内状况和室外环境情况进行预测，从而获得控制策略.但是MPC对建筑热力模型的依赖性很高，模型的完整性严重影响MPC控制的准确度，模型不完整，控制会表现出随机行为，而建造一个完整的建筑热力模型这对于一般的普通家庭不是经济可行的.此外，基于模型的方法难以精确地模拟热动力学的复杂性和各种因素的影响，并且受到特定建筑环境的限制，难以得到一个广义通用的模型方法.而采用强化学习控制，将免受模型的限制，通过数据自身驱动，经过不断尝试，获取环境反馈信息来不断更新和优化控制策略，降低了对先验知识的依赖.

近些年来，随着强化学习[5]和神经网络的不断发展，以及在其他工程优化控制以及工程预测[6]中的良好表现，采用基于强化学习控制方法被用到暖通空调控制系统中[7-11].Zenger等[12]采用了状态动作-奖励-状态动作与环境交互，在降低能耗的同时达到所需的舒适度.但是Liu等[13]在空调蓄冷装置中应用强化学习来进行系统优化控制时，发现Q-learning算法存在因为高纬度状态空间学习效率低下的问题.之后Wei等[14]采用基于神经网络的深度Q学习方法进行HVAC系统的控制，而Wang等[13]采用加入长短期记忆(LSTM)递归神经网络的强化学习方法增强神经网络对暖通系统环境状态之间的时间关联性和整体逻辑性的理解.最近Zhang等[15]提出了一种新的深度强化学习(DRL)框架，将边界元应用于暖通空调系统的运行中心，使其适用于建筑整体能量模型从而实现节能.因为控制过程中温湿度等参数都是连续变化的，Gao等[16]通过确定性策略梯度的方法来避免控制变量的离散化.

目前针对暖通控制的深度强化学习控制方法多数是应用在空调送风方面，针对地板供暖的研究相对较少[17].地板供暖作为一个慢热工控制系统，动作和状态之间存在大时间差，这意味着控制器要特别关注动作和状态之间的时间相关性和状态彼此之间的整体相关性.

总体而言，强化学习在暖通控制方面还有很大的发展前景和潜力，如何使控制效果更加的贴近实际生活以及优化和改善强化学习控制器是目前的重点.加入神经网络后的强化学习，解决了一般强化学习方法不适合大空间状态作用的问题，并提高了神经网络的泛化能力.但大部分的深度强化学习控制器还存在训练时间过长和实际生活中应用较少的问题.本文将加入神经网络的强化学习算法应用到地板供暖系统控制中，将综合考虑人体热舒适、工作效率及系统能耗，并分别与传统的PID和通断控制效果进行对比分析.

1 基于深度强化学习的模型算法设计

1.1 地板供暖系统的马尔可夫过程

根据当前室内温度和外环境太阳辐射、供水温度等的干扰，地暖系统需保持房间内的温度为目标温度.而下一步的房间温度仅由当前系统状态和环境干扰以及输入供水温度所决定.它独立于建筑物以前的状态.因此，地板供暖控制可以看作是一个马尔可夫过程[16]，如图1所示.

图1 强化学习过程图示

环境状态：依据对仿真环境当前状态的观测，确定下一步最优的动作.这一步考虑的是房间温度和外环境因素的干扰.为了更贴近实际情况，反应真实天气对调控的影响，选择国家气象局公布的权威数据，并按照时间序列逐步反映在仿真环境中.

控制方法：地板供暖的供水温度和阀门可调，阀门的状态有S={开、关}两种，供水温度可从多个离散级别中进行选取，可表示为T={t1，t2，…，tm}，那么整个输出空间n=2×m.如果房间数目过多且供水温度离散更加细致，动作空间的维数会迅速增加，从而增大训练时间难以收敛，降低控制性能.可将供水温度交由函数根据环境参数计算得出，或者通过连续控制水温的方法进行实验.

回馈奖励：目的是将房间温度控制在指定的目标范围内.根据我们的动作状态空间A={a1，a2，…}，在上一个状态St-1执行动作后，环境会变成新的状态St，准备进行下一个动作.而这个时候需要一个机制来对此次的动作的好坏进行判定，并给出奖励.

(1)

期望奖励机制设计对强化学习算法速度和控制结果有着重要的影响.

计算不仅包括对本次的动作，还包括之前所有动作奖励的累计，获得最佳训练效果.我们可以通过衰减因子γ[0，1]来表示当前动作对未来奖励的影响程度，γ=1就表示对未来奖赏和立即奖赏同样看重.上述公式(1)是状态价值函数，表示从某一个状态St开始采样直到所有奖励的衰减之和.但考虑动作的价值影响，目标Q值的计算公式为

(2)

建筑物的状态转换是随机的，受到环境干扰的影响，没法精确测量，于是将按照Q学习的方法来更新最佳Q值估计，如公式(3)所示.

Q(st，at)=Qt(st，at)+α(Q*(st，at)-Qt(st，at))，

(3)

公式中：α∈[0，1]为学习率，较大可加快收敛但效果不一定好，较小可以使算法稳定，但是会延长训练的时间[17].

具体控制，如图2所示[15].

图2 DRL算法控制建筑流程图

1.2 值函数逼近

Q-learning算法是通过将“动作-价值”对以表格的形式进行存储，它是关于离散状态和动作空间的马尔科夫决策过程，但实际问题中随着各种可能动作和状态的组合会形成大规模的状态和动作空间，这将对一般强化学习带来数据维度灾难，使计算难以进行.使用随机树、神经网络来逼近Q值的泛化方法通常有效.实验使用权重ω神经网络来逼近值函数Q(s，a，ω).函数逼近器都有着不稳定和发散的风险，特别是针对非线性逼近器神经网络而言.但通过经验回放和确定目标Q值的方法，证明神经网络是有效且稳定的.神经网络目的是解决如何在大状态空间下去更快速和更优的获得Q值，神经网络的一般结构如图3所示.

图3 神经网络结构

DRL的控制策略包括基于气候补偿的通断控制和变水温控制.但是两种策略使用的网络结构是相同的，输入的状态参数也是相同的，但是输出的动作Q值表格不同.变水温控制动作将会根据实际需要被离散为有限的动作，比如以0.5 ℃作为间隔，而通断控制只有开和关两个动作输出.实验考虑到的输入状态参数包括：太阳辐射、供回水温度、室内干球温度、室外温度、送风温度、风速等多个可观测参数，还有部分无量纲参数将通过标准化以及和目标状态通过向量距离算法得出.考虑到的状态参数越多且越接近于实际时，对DRL的挑战性也会更大，也更具实际意义.

根据神经网络结构，在状态S输入后经神经网络分级传递可直接获得所有控制动作的Q值，这可以大大提高贪心算法和softmax选择的效率.ReLU作为隐藏层的激活函数，在最后的全连接线性层输出.

深度神经网络需要大量的数据来进行训练，而且它要求样本之间是独立分布的.但通过强化学习智能体获取的样本量较稀疏且有一定的延迟，获得的样本也是连续的.

通过神经网络来完成值函数的逼近要解决神经网络和强化学习结合所带来的问题，总结为两个关键点：

图4 DRL与环境交互的算法流程图

图5 DRL算法模型的内循环流程图

(1)样本池(Experience Reply)：智能体采集的状态样本放入样本池，然后再从样本池中随机抽取样本进行训练，这种处理打破了样本间的关联性使得样本独立并解决了非静态分布的问题.而且通过样本池，学习当前以及之前经历过的状态，可提高神经网络学习效率.

(2)固定目标Q值网络(Fixed Q-Target)：相当于针对Q值的相关性打乱机制.计算网络的目标值要用到现有的Q值，而用一个更新较慢的网络提供该Q值，可以提高算法的稳定性和收敛性.Q-Target使得算法当中出现了两个Q值输出，它们使用相同神经网络，但输入的参数却不同.预测Q值输入当前状态量，而目标Q值输入旧状态量.通过损失函数均方差公式(4)去获取当前Q值和目标Q值的误差损失并更新权重参数ω.

(4)

(5)

1.3 深度Q网络算法

运行时地暖仿真环境根据动作指令不断进行状态反馈用以改进控制策略.环境的控制时间长度决定一次迭代的训练次数，算法内部则根据环境设置更新批次和时间步.

初始化设置：首先确定迭代轮数T，特征状态St的特征维度n，回报奖励R的算法和衰减因子γ，如果使用ε贪心算法还要确定探索率ε，Q网络结构，更新网络的频率C，随机初始化Q网络权重参数ω.还要注意对经验回放存储合集M，每次最近过渡的元组(St，At，Rt，St-1)都会被推入M中，并不断被抽出，将其初始化为空集并合理设置其大小.神经网络的总层数设置为3，算法过程描述如表1所示，流程如图4、图5所示.

表1 地板供暖系统的DRL算法过程表

地板供暖系统作为一个慢响应控制系统，在控制时会更加的考虑到动作对未来影响，所以将奖励折扣因子γ设置在一个较高的值，内部参数如表2所示.其中DRL算法的奖励政策考虑的是所控区域的环境温度.

表2 DRL算法的内部参数

图6 通断控制训练过程中Q值得分情况图7 变水温控制训练过程中Q值得分情况

确定参数后系统的训练过程如图6和图7所示，两种方法的DRL控制训练过程中，奖励评分逐渐随着训练次数的增加趋于平稳，这表明在DRL代理通过与环境不断进行状态、动作数据的交互过程中，学到了对该系统的控制方法和策略，也印证了内部参数调试的合理性.两种方法只在输出动作上出现差别，且发现二者在同一参数下有着良好表现，所以并未因为方法不同而去改变内部参数.

2 模拟仿真环境

2.1 仿真模型

基于深度强化学习的地板供暖系统运行控制模拟计算模块如图8所示.

图8 TRNSYS模拟计算界面

模拟计算模块主要包括五个模块：室外气象参数模块、湿空气计算模块、天空温度计算模块、供水温度调节计算模块(通断控制方式还包括气候补偿供水温度预测模块)和建筑热平衡计算模块.建筑热平衡计算模块是本模拟的核心，主要包括建筑房间及复合系统的能量平衡计算.前面四个模块都是为建筑热平衡计算所需提供边界条件.其中，室外气象参数模块提供各种辐射参数，湿空气计算模块提供相对湿度及干球温度，天空温度计算模块提供等效天空温度，供水温度调节模块通过室外温度及室内目标温度计算得出所需供水温度.

图9 典型办公房间

DRL与TRNSYS的通信通过内部的type155模块进行数据交互，根据控制算法的不同需要提前预编译type155模块所需调用的MATLAB的m文件.

2.2 房间热负荷计算及地暖系统设计

本模拟选取某一低能耗办公建筑标准层南向办公房间作为研究对象，房间总面积为18.8 m2，如图9所示.房间长×宽×高为(4.7×4.0×2.7)m，外窗长×高为(3.2×1.8)m，房间围护结构传热参数如表3所示.

表3 围护结构传热参数

针对冬天太阳对建筑供暖的有益贡献，不安装任何遮阳措施.对于冬季典型办公室，考虑到人体热舒适及人员工作效率，本文设定室内设计温度为19 ℃，房间设计负荷和地暖系统设计参数如表4所示.

表4 房间设计负荷和地暖系统设计参数

室内计算机功率为150W；工作日期间人员办公时间为9：00-17：00；供暖系统运行时间根据当地实际运行时间计算(实验中三个地区供暖时长不同).

2.3 地暖运行控制方法

为了跟DRL控制进行对比，TRNSYS仿真模型分别采用基于气候补偿的通断控制方法和PID变水温控制方法，具体如下所示.

(1)基于气候补偿的通断控制

基于气候补偿的地暖房间供水温度调节，如公式(6)所示.推导过程见参考文献[17].根据TRNSYS内置的通断算法启停水泵，具体为当室内空气温度低于19 ℃时启动水泵，而当室内空气温度高于19 ℃时停止水泵运行.

(6)

(2)PID变水温控制

水温变化范围为19.0 ℃～26.0 ℃，PID的具体参数如表5所示.

表5 PID参数表

图10 三个地区室内空气干球温度变化曲线

3 结果分析

根据上述搭建的TRNSYS仿真模型，采用基于气候补偿的通断控制方法和变水温控制方法进行地板供暖系统优化控制，并以室内温度、人体热感觉、人员工作效率及系统能耗作为评价参数.其中人体热感觉参考ISO 7730根据冬季标准办公室人员活动(1.2 met)及着装(1.0 clo)计算PMV得到，计算的地面辐射供暖系统供热量作为系统能耗，人员工作效率计算方法参考文献[18]中公式计算得到

(7)

公式中：P为平均人体工效(%)；top为室内操作温度；y0=

89.320 92，xc=19.933 61，w=0.129 55，A=70.756 91.

3.1 基于气候补偿的通断控制方法对比

采用传统通断控制算法与DRL通断控制算法分别对地板供暖系统进行优化控制，得到的结果如图10所示.

图10中三个地区的两种方法都是通过算法执行阀门通断来控制系统，设定的目标最低室内温度为19 ℃，可以看出，经训练后的DRL通断控制和传统通断控制在温度的保证方面有着相同的效应，都能保证室温在19 ℃附近或不低于19 ℃.而时间的后半段北京和哈尔滨地区因为太阳辐射加剧，导致室温增加，DRL挑选任何控制动作指令都难以避免太阳辐射所带来的副影响，状态回馈都会获得低评价奖励，从而导致错误的学习使得无端的开泵致使能耗增加，室温略微升高.

温度控制的目的是为了使得居住者更加舒适，根据图11和图12可知，两种通断控制方法针对三个地区的计算人体PMV值统计和对比可以看出，在人体舒适和人体工作效率方面DRL算法和传统通断控制二者具有几乎相同的效应.整体而言，DRL在人体舒适方面略微优于传统通断控制，而人体工作效率方面，北京和哈尔滨地区则因为后期太阳辐射影响温度剧增，DRL算法不能得到有效的奖励回馈而进行了错误学习，导致在室温在19 ℃时依旧选择开泵，而致使人体功效有所下降.这也表明，奖励政策制定的准确性对深度强化学习模型算法的重要性.

图11 传统通断控制与DRL通断控制室内人体热感觉分布

图12 传统通断控制与DRL通断控制室内人体工效分布

图13 传统通断控制与DRL通断控制能耗对比

图14 三个地区室内空气干球温度变化曲线

传统通断控制与DRL通断控制能耗对比，如图13所示.DRL通断控制总体能耗略高于传统通断控制，北京、哈尔滨、哥本哈根地区分别多消耗了7.5%、3.8%、5.1%的能量.但从室温控制效果来看，DRL优于传统通断控制，对系统供水的利用率更高，这也是是其能耗较高的原因.

总的来说，DRL在通断控制方面能满足室温控制和人体需求，但是在低温辐射供暖方面受环境影响严重，当出现环境状态严重影响室温的情况下，DRL在多种控制情况下可能都会收到负面评价导致动作挑选出现一定的随机性，这也是DRL能耗略高的原因，也表明DRL的奖励机制设置十分重要.

3.2 变水温控制方法对比

采用PID变水温控制算法与DRL变水温控制算法分别对地板供暖系统进行优化控制，得到的结果如图14所示.

图14中三个地区的室内空气干球温度变化曲线，都是PID和DRL都是对供水温度进行连续控制.就整体的控制效果而言，两种控制方法都使得室温都达到并高出设定的目标期望值19 ℃，虽然DRL控制会在某几小时出现低于19 ℃的室温波动情况，但是依旧在允许范围之内.可以看出，在控制室温方面，两种控制方法基本具有相同的效应.

图15 PID变水温控制与DRL变水温控制室内人体热感觉分布

图16 PID变水温控制与DRL变水温控制室内人体工效分布

在提供居住的舒适环境方面，根据图15中计算人体PMV值的统计对比可以看出，北京与哈尔滨地区的DRL变水温控制比PID变水温控制在人体舒适方面略占优势，哥本哈根地区的PID变水温控制比DRL变水温控制具有相同的人体舒适效益；而依据图16可以得出在人体工作效率方面，北京与哈尔滨地区的DRL变水温控制略低于PID变水温度控制、哥本哈根地区的PID变水温控制比DRL变水温控制略占优势.但总体而言，在人体舒适和工作效率方面，二者都能满足需求.

图17 PID与DRL的能耗对比

PID与DRL的能耗对比，如图17所示.北京、哈尔滨地区DRL控制的能耗相较于PID分别多消耗了21.0%、7.2%，而哥本哈根地区的DRL控制却相对节省了4.9%的能耗.哥本哈根地区的数据较其他地区有一定的差别，原因主要是相对于北京和哈尔滨地区，哥本哈根地区室外温度和太阳辐射的变化突变情况较少，相对比较稳定，且存在一定的过渡时间.

外扰急剧变化的地区会导致室温变化超出控制范围，会导致无论DRL算法挑选任何动作指令都会导致本次动作被奖励政策判断为负分，而这将影响到DRL模型的整体优化，会导致DRL算法经常出现动作误判，而使得控制效果下降.哥本哈根地区外扰(太阳辐射)波动小，DRL算法在进行训练控制时能经常挑选出最优控制动作，优化模型相对也更加彻底.而启停控制表现相对较差也是因为启停控制动作指令少，时常出现无论选择任何控制动作都得不到良好反馈的情况，难以进行有效的学习，从而导致一些无效的开泵行为.

总的来看，在应用变水温控制方法调节室内温度时，DRL变水温控制在室内舒适度略微优于PID变水温控制，而在能耗方面略逊于PID，但是可以看出DRL在地板辐射供暖系统控制方面的可行性和潜力.

通过以上两个对比实验可以看出，深度强化学习策略在地板辐射供暖系统控制方面具有较大的发展潜力.而且随着更多深度强化学习方面策略的开发和应用，及对其内部参数和奖励策略的调整修改，能使其达到更好更优的控制效果.

4 结论

本文以地面辐射供暖房间为研究对象并结合三个不同地区的天气变化进行实验，对比研究发现DRL控制在室内热舒适度方面优于传统通断控制及PID变水温控制，而人体工效和能耗方面相对略差一些.针对单区域控制的研究，状态动作空间相对较小，热惰性影响较小，DRL控制的优越性不够明显.若对多房间或多区域控制时，状态作用空间的复杂程度会增加，不同区域热惰性影响较大，传统通断控制及PID变水温控制很难保证每个区域人体热感觉及工作效率均处于最佳范围内，此时DRL控制也许会有不同的表现，这也是之后我们继续深入研究的方向，而且随着更多DRL策略的研究开发和应用，未来其在系统控制方面会有更加良好的表现.