APP下载

基于强化学习的中央空调系统温度控制与节能

2021-11-17李晓彤崔承刚

计算机仿真 2021年4期
关键词:冷水机组中央空调舒适度

李晓彤,崔承刚,杨 宁,陈 辉

(上海电力大学,上海 200082)

1 引言

为应对气候变化实现可持续发展,建筑节能已成为建设资源节约型社会的关键所在。目前基本的建筑空调系统节能方法包括三个方面:降低冷/热负荷、使用高效的设备和技术、系统设计优化与控制优化。其中系统的控制优化效果与建筑运行能耗紧密相关[1]。据统计,建筑的生命周期通常都是几十年以上,运行阶段能耗在全生命期内占比最高,此阶段节能潜力巨大[2]。系统控制器的作用是针对室外不断变化的天气情况和室内负荷变化情况,动态调整系统中的设定值或者运行规则,从而在满足被控区域内人员舒适度需求的前提下尽可能地降低空调系统能耗和运行费用。

中央空调系统的能效由于控制策略的不同而有显著的不同影响。空调系统的温度控制是楼宇自动管理系统的重要组成部分。

传统的方法中,文献[3]使用Fuzzy-PD控制建筑领域内的相关设备,但此方法收敛速度慢且稳定性差。文献[4]描述物理特征为主的模型,基于详细的物理特征,准确度高但参数多且比较复杂,难以建立精确模型。中央空调系统的复杂动态性是开发中央空调最优控制策略的主要困难之一。最常用的方法是模型预测控制(MPC),文献[5]使用MPC方法需要低阶系统动力学和目标函数,开发MPC的“模型”复杂。线性模型通常用于模拟建筑物温度响应,需要仔细选择控制变量,以确保中央空调能耗与状态和控制变量之间的低阶关系。文献[6]使用基于规则的控制方法确定中央空调系统的监督级设定点,例如各种温度/流速设定点。“规则”通常是静态的,并根据工程师和设施管理人员的经验确定。需要大量的先验知识以及系统模型。文献[7]中第二天的室外温度预测值,根据空调能耗与温度变化关系构建空调能耗模型,通过模糊聚类机制产生多空调机组优化组合序列,用遗传算法对空调在线节能控制模型进行求解,对系统模型仍然有较高的依赖性。文献[8]用强化学习控制器来获得灯光的最优控制策略,实现表明该方法与传统控制方法相比效果更佳。验证了强化学习应用的有效性。因此需要探索实用性更广泛的强化学习方法。人工智能技术现在不断发展,在复杂控制系统中也出现了越来越多的智能控制器,可以看出中央空调系统控制技术今后的发展趋势。

本文的创新在于将无模型的强化学习算法应用在建筑空调领域中,对中央空调系统房间温度进行控制。与上述方法相比,无需建立系统模型,适用性更加广泛;自动寻优策略,获得更好的优化效果。首先对冷水机组能耗进行建模,然后搭建基于强化学习的空调系统运行优化框架,最后在MLE+联合仿真平台上将强化学习算法与基准启停策略和模型预测控制策略比较,实验结果表明在满足被控区域舒适度要求的前提下本文提出的基于强化学习方法能更多的降低能耗,验证了该算法的有效性。

2 中央空调系统控制目标及被控对象建模

中央空调系统的运行优化是建筑节能的重要组成部分,建筑系统运行优化的基本目标是在满足被控区域舒适度要求的前提下尽可能的降低能耗。制冷机组是中央空调系统的核心部件之一,评价空调系统是否节能,可以用制冷性能指数COP来衡量,其运行原理如图1所示。

图1 冷水机组运行原理示意图

冷水机组的能耗主要受冷冻水系统及冷却水系统影响。在冷冻水系统中,由于空调负荷是不可控的,认为其为一定值,故冷却水温度为影响系统能耗的主要因素。本文在空调房间舒适性和空调系统节能基础上建立空调系统问题的数学描述,可以表示为

(1)

(2)

Q(t)=cmρΔt

(3)

式中,pch为系统运行总能耗,R为系统模型约束条件;冷水机组名义工况制冷性能系数(cop)是指在温度条件下,机组以同一单位标准的制冷量除以总输入电功率的比值,即单位能耗产生的冷量;Q(t)为制冷量,kW;c为水的比热容,kJ/(kg·℃);m为冷冻水流量,m3/s;ρ为水的密度kg/m3;Δt为供回水温差,℃;

在空调系统运行过程中,通过蒸发器和冷凝器的流量一般采用定值,所以冷水机组的能耗只要受冷冻水和冷却水进口温度的影响。将冷水机组的能耗拟合为冷冻水与冷却水进口温度的函数

(4)

中央空调系统中房间温度控制系统的时滞、惰性以及非线性等特点[9],被控对象的数学模型是不断变化的,中央空调系统的运行过程是热量不断传递并由室内向室外转移的过程。针对中央空调系统运行优化问题,本文选择强化学习控制器,使用Q-learning和SARSA策略,控制冷水机组的制冷量,目标是使得空调房间室内温度保持一定,同时降低冷水机组能耗。

3 强化学习原理简述

3.1 强化学习基本概念

本文对一个中央空调温度控制系统进行强化学习控制,希望提出一种合适的学习架构,该架构利用了许多能够随时间学习最优或接近最优控制策略的学习方法。图2为强化学习问题的一个简单图示。强化学习问题可以理解为智能体通过与环境交互,利用环境反馈回来的信息来达到具体的目标。智能体与环境的交互是指在每个环境状态下智能体选择一个动作,环境响应相应的状态和奖赏[10]。在强化学习中,智能体Agent在状态S下选择并执行一个动作a,环境接受此动作后变成S′,并把奖励信号r反馈给智能体,智能体再根据奖赏信号选择后续动作。强化学习任务的目的是不断提高智能体的决策能力,使得整个决策链路的累积奖赏最大化。

图2 强化学习原理示意图

在已知完整环境模型的特定情况下,该问题可以使用传统动态规划技术[11]来解决,例如值迭代。但是,在实际问题中,通常难以建立完整精确的模型。然而,对于完整的环境模型,奖励或转移概率的分布没有先验知识。因此,动态规划的解决方案(值迭代或策略迭代)不能用于为这些问题生成最优策略π。作为动态规划的替代方案,可以使用无模型强化学习方法(如Q-learning)在缺乏完整环境模型的情况下生成最优的控制策略。因此,将中央空调控制问题建模为马尔科夫决策过程(Markov decision process,MDP),设计出能够有效处理环境不确定性的解决方案。

3.2 马尔科夫决策过程

强化学习的学习过程是动态的、不断交互的过程,所需要的数据也是通过与环境不断交互所产生,可以解决大部分强化学习问题的框架叫做马尔科夫决策过程,将具体问题描述为马尔科夫决策过程后,即具有强化学习模型所需要的马尔科夫性。

st+1=P(st,at),∀t∈{0,1,…,T-1}

(5)

式(5)代表了智能体通过动作与环境的一次交互,交互结束后智能体达到新的状态st+1,同时环境会对智能体发送一次反馈信号。将这个反馈信号称为奖励函数rt,用下列等式表示

rt=ρ(st,at,st+1),∀t∈{0,1,…,T-1}

(6)

(7)

在保证人体舒适度同时计算能耗的过程中,使用了两个强化学习算法。

1)Q-Learning算法是一种可以求解具有不完全信息的马尔科夫决策问题的强化学习方法。该算法的目标是获取状态-动作对所对应的值函数,用Q(s,a)表示。表格型Q-Learning是指算法将有限个状态-动作对的Q值存储在一张表格中。智能体通过探索环境建立一张Q值表,冷水机组通过不断地跟房间和室外环境交互,得到环境反馈奖励,从而在Q值中形成状态-动作对对应的Q值,通过Q值更新规则不断的迭代修改Q值中的值,会使选择正奖赏的动作的概率不断增加,使智能体的动作最终趋于最优动作集,收集(s,a,γ,s′)元组形式的样本,使用式(8)对表格中的Q值进行更新。

(8)

式中,s′为执行动作a后到达的下一状态;学习率α∈(0,1)为Q值的更新速度;r为奖赏值。时序差分项ΔQ(s,a)表示的是实际值与估计值Q(s,a)的差值。Q-learning算法通过不断收集样本更新Q值使估计值越来越接近真实值,即冷水机组的动作达到预先设置的目标。

2)SARSA算法的决策部分与Q-Learning一样,使用Q表形式,选择值较大的动作施加在环境中来换取奖惩,也是每执行一步更新一次Q值,而SARSA算法与Q-learning算法不同的之处如式(9)所示,时序差分项中的下一状态的Q值中的动作采用实际发生的动作,而不是选择Q值最大的动作。应用在建筑空调系统时,表现出了更大的灵活性。

ΔQ(s,a)=α(r+γQ(s′,a′)-Q(s,a))

(9)

具体奖赏及动作的设置在下节中阐述。

4 基于强化学习的空调温度控制策略实现

4.1 强化学习控制方案设计

本文选择强化学习控制器,将中央空调运行过程视为马尔可夫决策过程,将空调系统房间温度控制问题合理地描述为强化学习问题,进而利用强化学习算法改进空调房间温度策略。

通过马尔科夫决策过程定义强化学习问题,即应用无模型强化学习算法解决强化学习问题时,则仅需定义马尔科夫决策过程中的状态、动作与奖赏,因此仅需合理地确定空调系统运行优化问题中的状态、动作和奖赏。

本文对于空调房间的温度控制过程如下图所示,建筑物中考虑了包括天气信息以及人员占用信息等可测因素,控制器部分选用强化学习控制器,以实现自动寻优,达到在舒适度要求的范围内使得能耗最低的目标。

图3 基于强化学习的空调系统运行优化框架

4.2 中央空调温度控制系统MDP元组描述

状态和动作二者皆可以影响控制目标的实现情况,其中动作为影响因素中的可控变量,即为空调房间温度控制中的被控对象。针对空调系统运行优化问题,动作通常为局部控制器的设定值,例如风量设定值,水流量设定值,温度设定值等。

4.2.1 状态空间

状态是一组有限的状态集,描述了任意时刻智能体在环境中所处的位置状态,是马尔科夫决策过程求解过程中至关重要的一个状态量。因此状态空间应该描述系统条件和允许决策所需的所有信息。但是,过大的状态空间会导致过多的信息量,这会导致Q表存储不足、遍历训练时间过长等问题。

因此本文设置3个状态量,状态S设置包括rt(室温)、t(时间信息)和ot(室外温度)三个部分。其中时间用于反映室内热扰等与时间相关信息。室外天气状况选取当前时刻室外温度,当前室外太阳辐射,以及未来一小时的温度变化的预测值。被控区域温度为室内空气温度。

4.2.2 动作空间

本文设定变量sp为目标温度设置。按照GB50736-2012《民用建筑供暖通风与空气调节设计规范》[13],夏季室内温度应保持在24-28℃之间,故取温度上限为28℃,下限为24℃。假设在正负2℃的设定点附近有一个阈值。因此,指定设定点温度sp为26℃。本文的被控变量为水温,设置控制时间步长为0.25h(15分钟)。

根据房间实际温度与设定温度的差值Δt=trt-tsp,当Δt>0时,需要的空调系统制冷量ΔQ>0,此时需要加大空调制冷量,当Δt<0时,需要的空调制冷量ΔQ<0,此时需要减小空调制冷量,当Δt=0时,保持空调制冷量不变。

每个时间步长上,强化学习智能体将动作区间离散为3个水平{a1,a2,a3},即a∈[-1,0,1]。其中a=-1表示减小空调制冷量,a=0表示保持空调制冷量不变,a=1表示加大空调制冷量。

4.2.3 奖励函数

奖赏为空调系统运行优化任务的短期目标,因此通常设定为空调系统能效或者当前控制步长的能耗或者运行费用与舒适度的加权等形式。

本文案例中将奖励计算为系统能耗与每个被控区域室内温度超出舒适度范围时的惩罚项。

rt-1=-pch(st-1,at-1)+penalty(Tt)

(10)

(11)

式中,tsp为温度设定值,假设在此温度下用户舒适度最高,由于室内温度在用户设定值范围内波动不会影响舒适度,因此当室内温度大于tsp+Δt时,室内温度过高,用户舒适度降低,当室内温度小于tsp-Δt时,室内温度过低,用户舒适度降低。

4.2.4 目标函数

本文中目标是在保证室内温度一定的同时使得能耗最低,在空调系统的温度控制过程中本文对系统能耗进行了分析,接下来引入舒适度指标,以更直观反应舒适度要求,夏季模式下时,该指标定义为

(12)

由此舒适度指标含义可知,Deg越小,用户的舒适度越高。

故优化控制模型如下

(13)

(14)

trt min

(15)

0

(16)

trt mintrt max表示用户能够容忍的室内温度的上下限值;qmax表示在一个步长内空调系统的最大容许电能消耗量,根据空调系统的铭牌数据确定。

5 仿真及实验结果分析

5.1 实验平台

本文是在Energyplus-co-matlab平台:MLE+上进行仿真验证的。

Energyplus与matlab联合仿真示意图如图4[14,15]所示。

图4 Energyplus与matlab联合仿真示意图

5.2 基准控制策略

基准策略RBC选取原则:

根据美国能源部推荐的固定室内温度运行策略,本文中设定室内温度为26℃。选取基准策略为启停控制(RBC)作为对比对象。当被控区域温度低于24.5℃时,关闭冷水机组,当被控区域温度高于27.5℃时,则,保持设定冷水机组按照最大制冷量运行。

(17)

模型预测控制MPC策略:

其目标函数和相应约束如下式所示

subjecttost+1=f(st,at,wt)

0≤Php≤Pmax

(18)

设置控制步长为15分钟,时间窗设置大小为三个小时,对时间窗内的控制变量进行滚动优化。本文中假设的模型预测控制方法是假设房间模型中央空调系统模型完全已知,即模型预测与实际系统运行完全吻合,不存在任何偏差,因此模型预测控制计算得出的控制策略可以被视为最优控制策略。

因此,将本文提出的基于强化学习的控制方法与基准策略相比较,并用实验验证仿真结果。

5.3 控制效果对比分析

5.3.1 三种策略的舒适度比较

图5描述了使用Q-learning方法、MPC方法以及基准策略RBC方法时的被控区域的舒适度曲线,即策略运行阶段室内温度变化情况,可以看出在使用强化学习策略后,室内温度基本保持在在设定温度26℃左右小幅波动,能够满足舒适度的需求,采用MPC控制策略时,被控区域温度可保持在25至27℃之间,也可以取得较好的控制效果,采用RBC控制策略运行时,被控区域在大部分在24至28℃间波动,基本满足舒适度的要求。因此执行强化学习策略时,可以取得最好的控制效果。

图5 执行不同策略时舒适度曲线

5.3.2 强化学习控制能耗比较

在本文提出的两个基准策略中,MPC表现出了更好的控制效果,因此本节选择MPC控制器作为对比对象。在进行强化学习策略选择时,选择SARSA和Q-learning两种控制策略。

图6是15天内被控区域总能耗及非舒适时长百分比比较。与MPC控制策略对比,Q-learning策略在小幅提升室内舒适度水平的同时,将运行能耗降低超过37.2%,SARSA策略将运行能耗降低超过43.3%,因此可以看到SARSA策略可以取得最优的节能效果。

图6 三种策略控制情况对比

6 结论

本文的创新是将中央空调系统温度控制问题通过马尔科夫决策过程建模成了强化学习问题,定义了状态空间、动作空间和奖励函数,并通过仿真实验验证了基于强化学习算法的空调系统运行优化方法的有效性。该方法不需要先验知识也不需要建立系统模型,尤其适合中央空调系统这种建模复杂的对象。

本文的实验结果可以表明:①在基于EnergyPlus和Matlab的协同仿真框架下,基于强化学习的空调房间温度控制方法能够很好地将室温保持在设定的范围内,保证用户舒适度;②与MPC控制策略相比,Q-learning策略能降低37.2%的能耗,SARSA策略能降低43.3%的能耗;③该基于强化学习的运行优化方法收敛速度快,稳定性强,具有广泛的应用性。

猜你喜欢

冷水机组中央空调舒适度
两种舒适度指数在海南岛气候舒适度评价中的应用及对比分析
间断吸唾技术对根管治疗患者舒适度的影响
纤维砂场地的性能及舒适度影响研究
海信Ai家中央空调亮相中国家电及消费电子博览会
心理护理在血液透析护理中对患者舒适度的影响
美的中央空调再度获评万科集团2019年度“A级供应商”
复工了,办公室的中央空调能开吗
冷水机组安装方法分析
分析地源热泵技术在中央空调系统中的节能应用
浅谈冷水机组机械式水流开关常见故障及解决对策