田 东,韦鑫化,王 悦,赵安平,穆维松,冯建英
(1. 中国农业大学信息与电气工程学院,北京 100083; 2. 北京市农业局信息中心,北京 100029)
食用菌温室温度具有时变、非线性、多耦合特性,准确预测对稳定食用菌生产具有重要意义。本研究从挖掘温室历史温度数据时序信息角度出发,提出一种MA-ARIMA-GASVR组合方法建立温度预测模型,利用移动平均方法将历史温度序列分解成线性序列和残差序列,然后采用移动平均差分自回归模预测线性序列的趋势,再将移动平均差分自回归预测值、历史残差数据、历史温度数据作为支持向量回归模型的输入,并结合遗传算法优化支持向量回归模型参数改善其性能,从而获得更符合实际情况的温度预测值。最后选取实测温度数据作为训练集,对未来2 d的温度进行预测验证。结果显示,MA-ARIMA-GASVR组合方法能更好地拟合原始温度数据,间隔1 h的均方误差、平均绝对误差和平均绝对百分误差分别为0.18、0.36和1.34,均显示本研究方法预测精度优于支持向量回归、遗传算法优化的支持向量回归单一模型,也优于未经移动平均以及未经遗传算法优化的组合模型;此外,间隔6 h的均方误差、平均绝对误差和平均绝对百分误差为0.29、0.52和1.95,说明本研究方法还能满足6 h以内的多步预测,为食用菌生产者预留更多调整时间。
0 引 言
国内外学者对温室内温度预测建模主要从2方面展开,一是机理模型,二是数据模型[5-6]。机理模型是基于流体力学和能量平衡建立温度预测模型[7-8],可以为温室环境系统提供清晰的物理解释,但存在建模复杂、未知参数众多、测量代价高和模型自适应性较差等问题[9-10]。数据模型也称为黑盒模型,以现代计算理论为基础,直接根据输入输出数据所提供的信息来建立过程模型[11-12],无需考虑温室耗散、热辐射等因素影响。一些学者将易于测量的温室外界环境参数同温室内部温度参数建立关联映射进行求解预测,主成分回归预测法、灰色预测法、支持向量机、极限学习机、模糊神经网络、递归神经网络等模型均在该领域有应用研究[13-18],但此类方法过于依赖外界预报参数的数量。左志宇等[19]和任延昭等[20]将温室温度历史数据看作是温室结构、天气影响等各类因素综合作用下的规律性表现,建立了基于ARIMA的温室温度时间序列预测模型,取得了不错效果。以上方法通过挖掘数据内在自相关特性以减少对外部参数的依赖,但传统时间序列分析法容易受到外部环境噪声影响、且需要大量历史样本。近年来,在非线性、非平稳场景下的短期时间序列问题研究上,一些学者提出将移动平均差分自回归(autoregressive integrated moving average model, ARIMA)和非线性模型如人工神经网络(artificial neural networks, ANN)或支持向量回归(support vector regression, SVR)进行组合[20-23],强调捕捉数据内部的不同模式特征,以改善单一模型的预测性能。此类组合方法在风速预测、室内环境气体预测、气象水文参数预报等领域研究上均表现出较高的准确性和适用性[24-27]。
本研究将食用菌温室内部温度看做是蕴含线性或非线性分量的动态叠加的时间序列,提出一种MA-ARIMA-GASVR组合方法建立温度预测模型。首先利用移动平均(moving averages, MA)将历史温度序列分解成线性序列和残差序列,然后采用ARIMA预测线性序列的趋势,再将ARIMA预测值、历史残差数据、历史温度数据作为SVR模型的输入,并结合遗传算法(genetic algorithm, GA)优化SVR模型参数改善其性能,从而获得更符合实际情况的温度预测值,提高温度预测的准确性与有效性。
1 预测原理和方法
1.1 MA-ARIMA-GASVR预测总体思路
温室可通过后墙、地面和围护等结构,实现白天的被动蓄热与夜晚的能量释放[28-29]。相较于一般的温室作物,大多数食用菌最适宜的温度范围在530 ℃、最适宜的湿度范围在75%~95%,并对空气流通有要求,但不需要进行光合作用,多在避光环境中生长[4]。在实际生产中,食用菌生产者通常会采用通风设备来降低夏季温室的温度,采用加湿设备来维持室内较高的湿度,通过预留通风口来保持室内空气流通,采用覆盖保温被的方式来避免太阳光的直射。外部温度、湿度、光照强度、风速、风向等环境因素、温室结构特性、覆盖材料、通风状态、加湿设施状态和人为管理操作状态等都会对食用菌温室内部温度造成影响[7,30-31]。但整体来看,内部温度是各类因素综合表现下的结果,是一个相对缓慢和稳定的累积过程,并与自身历史温度数据有较大的关联。因此,本研究将食用菌温室历史温度序列看作由线性部分和非线性部分构成的时间序列,利用ARIMA和SVR组合方法各自在线性关系特征提取和非线性动态系统辨识的优势,对历史温度序列先分解再进行预测,提高在不同环境条件影响下的温度近似模拟能力。
1.2 移动平均(MA)分解序列
1.3 移动平均差分自回归(ARIMA)模型预测
1)序列平稳化和差分处理。使用单位根检验(augmented Dickey-Fuller, ADF)判断温度线性序列l的平稳性,非平稳则需差分处理,ADF定义为
2)模式识别与参数估计。计算自相关系数(autocorrelation function, ACF)和偏相关系数(partial autocorrelation function, PACF)进行初步定阶,平稳序列的ACF与PACF定义如式(5)及式(6)所示。
式中α为偏相关系数。根据ρ和α的截尾性来确定模型的阶数。对不同的,,参数进行组合,通过最小信息准则(Akaike information criterion, AIC)得到最优的ARIMA模型,AIC如式(7)所示。
1.4 遗传算法优化的支持向量机(GASVR)组合预测
2 试验条件及数据采集
以北京市大兴区采兴食用菌种植基地中的秀珍菇温室温度作为试验对象。温室(39°6′N,116°6′E)长57 m,宽10 m,后墙高3 m,脊高1.5 m,后墙为水泥墙面,顶部为钢骨架,钢架上方覆盖聚乙烯棚膜,棚膜上方覆盖保温被,温室配备卷帘机、湿帘以及风机等设备。温室内部种植秀珍菇,试验期间温室内摆放约3万秀珍菇菌棒,且正处于秀珍菇的子实体生长阶段,该阶段具体时间为2019年6月中旬至2019年10月上旬,菌棒以纵向交错堆叠排放形成棒垛的方式进行出菇,棒垛高约0.7 m。试验数据采集装置使用威海精讯畅通电子科技有限公司所提供的JXBS-7001型温度监测传感器自动采集记录,试验在秀珍菇温室内部布设3组该类型传感器,考虑到后墙夜间散热、白天蓄热的效应以及钢架面长期揭起保温被保持通风,温室中部受外界干扰相对较小,为使传感器更好监测棒垛附近温度,因此试验将传感器放置于温室跨中位置以及两棒垛之间靠出菇一侧,离地面高约0.5 m处,各传感器之间相互间隔15 m。试验温室结构及传感器布局示意图见图2。
图2 日光温室结构示意图及测点布置
生产中食用菌的环境需要达到保湿、散热、光照和空气流通的平衡,因此在试验过程中,温室长期保持半封闭通风的状态,仅在出现大风天气会使用卷帘机将温室封闭,湿帘则长期保持开启,风机大多情况在夏季白天开启运行。试验期间,各设备都由生产人员手动开启关闭,保证实验处于实际生产的状态。取3个监测点的平均值作为温室温度的试验值。试验共采集到2019年7月1日至2019年9月30日的共2 208条实测温室温度数据,采样间隔为1 h,对于缺失值使用线性差值法进行插值补缺。
3 结果与讨论
3.1 移动平均(MA)分解结果
图3 不同窗口长度m值下移动平均曲线
3.2 MA-ARIMA-GASVR方法有效性验证
3.2.1 MA-ARIMA-GASVR模型的参数调优
对分解后的温度线性序列l分别进行ARIMA分析建模。利用ADF检验其平稳性,l通过了ADF的5%显著性检验,经过一次差分,l序列通过了ADF的1%显著性检验,满足平稳性要求。通过ACF和PACF对差分序列定阶,根据AIC的最小值-1 657.6,确定最优的ARIMA模型为ARIMA (2,1,2)。对该模型进行Ljung-Box 检验,prob值均大于0.05,认为所建模型合理。
图4 温度序列及移动平均分解的两条子序列
3.2.2 模型的拟合结果及分析
由图5可知,单独使用SVR、GASVR的预测结果误差相对较大,尤其在温度最低拐点、最高拐点以及温度变化波动较为剧烈附近误差较大,并且预测结果表现出一定的滞后。组合模型预测的准确性和精度不同程度提高,未经滤波的ARIMA-SVR模型预测值在温度变化较为剧烈处偏离实际值很大,主要因为ARIMA直接预测会受到原始数据噪声影响而导致组合预测精度下降,而经滤波后的MA-ARIMA-SVR、MA-ARIMA-GASVR组合模型提高了ARIMA线性预测能力,因此预测值与实际值之间的波动更小。MA-ARIMA-SVR、MA-ARIMA- GASVR模型趋势更相近,而MA-ARIMA-GASVR模型由于采用GA优化算法,在波动点处的预测误差小于未经GA优化的MA-ARIMA-SVR组合模型。从图5中可发现,几组预测模型在每日温度最高时段、最低时段以及温度变化波动较为剧烈附近均有不同程度的偏差。经分析认为该时段温度变化的耦合性和突变性较强,本研究仅考虑历史温度数据对未来温度的影响,温度残差拟合依靠历史信息,缺乏外界环境参数的修正,因此在该时段的预测准确度相对较低。
图5 2019年7月17-18日间不同模型的温度预测曲线
使用3种误差评价指标来衡量所涉及的预测模型性能,包括均方误差(mean squared error,MSE)、平均绝对误差(mean absolute error,MAE)以及平均绝对百分误差(mean absolute percentage error,MAPE),评价指标越小,模型性能越高,各个模型在预测误差如表1所示。本研究提出的MA-ARIMA-GASVR组合模型均方误差为0.18、平均绝对误差为0.36、平均绝对百分误差为1.34,相较未经GA优化的MA-ARIMA-SVR组合模型的3项误差分别减少0.04、0.02和0.07,与未经MA处理的ARIMA-SVR组合模型相比误差减少了0.06、0.06和0.24,3种组合模型预测结果均优于SVR、GASVR的单一模型。另外使用GA优化的单一模型或组合模型,预测误差均小于未经优化模型。误差结果显示,本研究方法相较传统SVR、ARIMA-SVR组合方法预测精有明显提高,并且避免了繁琐耗时的手动调参,具有更好的参数调优效率。
表1 不同模型的温度预测误差
Note: MSE (mean squared error), MAE (mean absolute error), MAPE (mean absolute percentage error). Same below.
3.3 基于MA-ARIMA-GASVR的多步预测
为了给温室管理人员留出更多的调整应对时间,以及验证本研究MA-ARIMA-GASVR组合模型的多步预测能力,分别对不同时间步长的温度数据进行了预测。当间隔为6 h时,在温度曲线波峰和波谷处的误差已经较大,因此最大时间步长确定为6 h。步长为2、4、6 h的温度预测结果见图6,平均预测误差见表2。可以看出,虽然预测精度随时间步长的增加而下降,但总体趋势仍与真实温度变化趋势保持一致,夏季食用菌温室温度通常在2:00-5:00之间达到最低,在12:00-15:00之间达到最高,预测时间步长在4、6 h均能够描述此时段内的温室温度走势,能帮助生产者及时掌握温室内极端温度发生的时间,并采取相应措施调整温室状态,因此认为本研究方法在时间步长为6 h以内的温室温度预测中均是有效的。
图6 2019年7月17-18日间不同时间步长下温度预测曲线
表2 不同时间步长下温度预测误差
4 结 论
Prediction of temperature in edible fungi greenhouse based on MA-ARIMA-GASVR
Tian Dong1, Wei Xinhua1, Wang Yue1, Zhao Anping2, Mu Weisong1, Feng Jianying1※
(1.,,100083,; 2.,100029,)
The temperature in edible fungi greenhouse has the characteristics of time-variant, nonlinear and multi-coupling, so accurate and effective temperature predictions can effectively help growers adjust the greenhouse environment and prevent edible fungus production and quality decline. Based on the perspective of mining the time-series information in historical temperature data. This paper described the specific steps to realize the MA-ARIMA-GASVR-based hybrid combination method to predict the temperature in the edible fungus greenhouse. Firstly, we assumed that the historical temperature series data of edible fungus greenhouse was a dynamic combination of linear and non-linear components, the historical temperature sequences were decomposed into linear sequences and residual sequences using the moving averages (MA) method. Then, time series analysis was conducted to established the model of the autoregressive integrated moving average (ARIMA) by using linear sequence after the decomposition of the moving averages, and the future trend of linear sequences was predicted by the established model. Afterward, to better fit the relationship between temperature trends and various noises in the environment, the autoregressive integrated moving average model prediction value, the historical residual data and the historical temperature data were employed as the input of the support vector regression (SVR) model, and the genetic algorithm (GA) was used to optimize the parameters of the support vector regression model to improve its performance, the parameters being optimized are penalty parameter and radial basis function kernel parameters in the support vector regression model. Finally, the hybrid model output was the temperature prediction value which was more in line with the actual situation. Moreover, the hybrid method was verified using the experimental data from the edible fungus greenhouse in Beijing. In this paper, a representative edible fungus greenhouse was selected as the experimental object according to the observation time requirements and the time-varying needs of edible fungus greenhouse temperature, which was located in the Daxing District of Beijing. A total of 2 208 measured edible fungus greenhouse temperature data were collected from July 1st, 2019 to September 30th, 2019 during the experiment. The experimental data acquisition device used the JXBS-7001 temperature monitoring sensor was used to automatically collect and record the experimental data. Three sets of sensors were deployed in the edible fungus greenhouse to record the experimental data set which included the average temperature data. We trained the proposed model by using data from July 3rd, 2019 to July 16th, 2019 and forecasted the temperature of the next two daysand compared temperature prediction experiments with different models and different time intervals. The results indicated that the MA-ARIMA-GASVR-based hybrid model could better fit the original temperature data, the mean squared error, the mean absolute error and mean absolute percentage error of an hour interval temperature were 0.18, 0.36, 1.34, and three error evaluation indexes all showed that the prediction accuracy of the hybrid method in this paper was better than the single models of support vector regression and support vector regression optimized by genetic algorithm, and it was also superior to the hybrid methods which were not processed by moving averages method or optimized by genetic algorithm. Besides, the mean squared error, the mean absolute error and mean absolute percentage error of 6hours interval temperature were 0.29, 0.52, 1.95. the hybrid method in this paper can satisfy the multi-step prediction within 6 hours, which could provide more time for edible fungus producers to adjust the temperature in the greenhouse.
greenhouse; temperatures; model; time series; support vector regression; edible fungus
田 东,副研究员,博士,主要从事农业信息智能处理研究。Email:td_tiandong@cau.edu.cn
冯建英,副教授,博士,主要从事农业信息智能处理研究。Email:fjying@ cau.edu.cn
S625.5; TP301.6