长短期记忆神经网络(LSTM)模型在低能见度预报中的应用
2022-11-05方楠谢国权阮小建任晨平姜舒婕张玮玮
方楠 谢国权 阮小建 任晨平 姜舒婕 张玮玮
(1.浙江省预警信息发布中心,浙江杭州 310052;2.浙江省气象服务中心,浙江杭州 310052;3.浙江省人工影响天气中心,浙江杭州 310052)
引言
大气能见度一般是指近地面水平能见度,表示具有正常视力的人可以识别到目标物轮廓的最大水平距离,度量单位一般为米(m),是气象观测中的一项基本要素,也是反映大气透明度和空气质量的重要指标[1]。当能见度过低时,容易造成航班延误、交通事故增多以及影响人体呼吸道健康[2-3],因此能见度的变化受到交通、航空、航海、城市大气环境等诸多领域的关注。学者一直致力于研究能见度的可预测性,为交通安全和城市大气污染治理提供科学的参考依据。倪江波等[4]通过分析华北地区低能见度的天气形式,利用NCEP再分析资料构建了低能见度天气自动识别系统;魏春璇等[5]利用观测数据通过多元线性回归初步得到了合肥霾日和霾日能见度的预报方程。
现阶段,用于行业服务的大气能见度预报产品往往依赖于数值天气预报模式,但数值天气预报模式对尺度小、持续时间短的天气过程很难准确刻画。加之大气能见度变化受到局地地形、地表特征以及空气污染等影响较大,而这些参数目前还难以在数值天气预报模式中得到良好体现[6],所以在使用数值模式预报大气能见度时,往往精度不高难以满足行业需求,需要人工订正来调整预报结果。对预报产品的人工订正是依靠预报员的经验储备,形成针对当地大气能见度变化特点的知识记忆库,这与机器学习的核心概念类似,也就为机器学习技术应用到大气能见度预测提供了思路。此前学者已在该方面做过一些尝试,如王恺等[7]利用风险神经网络进行了逐日能见度的预测;王勇[8]基于XGBoost算法研发了上海市能见度预测模型。
过去20 a,随着观测数据的扩充和计算资源成本的降低,机器学习方法算法受到广泛关注并取得长足发展,成为统计学中的重要方法[9]。近年来,机器学习方法在各领域中被广泛应用,这些方法都仅依赖历史数据,通过数据间的关系拟合,得到过去和未来数据间的关系,进而完成预测。在气象领域也有诸多尝试。孙全德等[10]利用LASSO回归、随机森林和深度学习3种方法对ECMWF数值天气预报的风速产品进行了订正;毛亚萍和房世峰[11]将支持向量机方法引入到参考作物蒸散量的估算中。
在时间序列的预测问题中,循环神经网络(Recurrent Neural Network,RNN)因其能够更好地捕获时间序列中的数据特征被广泛运用[12]。然而,RNN也有其缺陷:传统的RNN难以捕获数据时间序列的长期关系,其新的变种模型长短期记忆模型(Long Short-term Memory Neural Network,LSTM)则能有效克服这些问题,如能有效地避免在时间序列预测问题计算中的梯度消失现象[13]。因此,近年来LSTM模型被有效地应用到诸多领域的预测问题中,如自然语言识别[14]、气温预测[15]、风功率预测[16-17]、降水量预测[18]和空气质量预测[19]等。
义乌市位于浙江省中部金衢盆地边缘,气候湿润多雨,三面环山,冬春季容易形成雾天。义乌市是中国小商品生产基地,拥有全球最大的线下市场,形成了“海陆空、铁邮网、义新欧、义甬舟”多位一体的综合物流服务体系和全国最大的零担物流中心,对不利物流运输的气象条件预报信息需求旺盛。义乌在城市化快速发展的过程中,建筑扬尘、汽车尾气、工业烟尘等大气污染物排放量快速上升[20]。因此,本研究以义乌地区作为研究区域,探索长短期记忆模型在义乌地区低能见度预测的适用性,为衔接区域气象数值预报模式,建立大气能见度精细化动力统计模型提供参考。
1 资料与方法
1.1 研究区域
义乌市位于(119°49′~120°17′E、29°02′~29°33′N),南北宽为58.18 km,城市总面积为1105 km2,占浙江省土地面积的1.2%。义乌市地貌以丘陵为主,东、南、北三面环山,构成一个南北长,东西短的长廊式盆地。由于小盆地与外界大气交换条件差,极易产生逆温层,大气污染滞留在低空,不利于义乌地区大气污染物的扩散。义乌的气候类型是亚热带季风型气候,因为地处盆地东部,也具有一定的盆地气候特点[21]。历年平均年日照时数为1910.7 h,平均无霜期为249 d(3月13日至11月16日)。年平均气温为17.2℃,根据气象部门记载,最高气温是1966年8月6日,达到40.9℃,最低气温是1977年1月6日,为-10.7℃。年平均降水量为1403 mm,降水量在年内分配不均匀,历年最大年降水量为1843.2 mm。历年最多风向为北向,频率为10%,其次东南风、东风[22]。
1.2 资料来源
所用气象数据来源为义乌市国家基本气象站。义乌国家基本气象站(29°20′N,120°05′E),海拔高度为90 m,位于义乌市福田街道联平村(图1),周围5 km内未有明显的工业排放源,用于观测常规气象要素,如气温、地面温度、相对湿度、风速、能见度和降水等。从2011年1月1日开始,能见度由原来的每日8次整点人工观测改为逐小时整点仪器自动观测,能见度自动观测仪器的传感器为HY-35P,属于前散式能见度仪。其他气象要素也均为仪器自动观测,数据时间分辨率为小时。本文选用的气温和相对湿度数据,观测设备为HMP45D型温湿度传感器,该传感器采用铂电阻感应元件测气温,采用电容式薄膜聚合物感应元件测相对湿度。风速数据的观测设备为ZQZ-TFD型测风传感器,其感应元件为三杯式回转架,信号转换电路为霍尔开关电路。地面温度数据的观测设备为QMT103型温度传感器,为Pt100型铂电阻感应元件。
图1 义乌气象观测站位置Fig.1 Location of Yiwu meteorological station
空气质量指数AQI(Air Quality Index)数据来源于义乌环境监测站(29°20′N,120°02′E),海拔高度为65 m,位于义乌市北苑街道,与义乌国家基本气象站相距2.4 km。义乌市国家基本气象和环境监测站的选址均满足国家及行业相关标准,具有较好的区域代表性。空气质量指数AQI是定量描述空气质量状况的无量纲指数。计算空气质量指数通过5个主要污染物:地面臭氧、颗粒物污染(也称颗粒物)、一氧化碳、二氧化硫、二氧化氮,AQI是一个能够综合反映当地空气质量优劣的指标[23]。其中,臭氧监测采用TE—49i型臭氧分析仪,监测方法采用紫外光度法;颗粒污染物监测采用5030型颗粒物同步混合监测仪,应用β射线吸收法和光散射法对颗粒物进行实时监测;一氧化碳监测采用TE-48i型一氧化碳分析仪,采用气体滤光相关技术检测一氧化碳浓度;二氧化硫监测采用TE-43i型二氧化硫分析仪,应用脉冲紫外荧光法;二氧化氮监测采用TE-42i型氮氧化物分析仪,仪器采用化学发光法对氮氧化物浓度进行分析。
空气质量指数AQI的具体计算方法[24]:首先计算空气质量分指数IAQI(Individual Air Quality Index),污染物项目P的空气质量分指数公式为
式(1)中,IAQIp为污染物项目P的空气质量分指数;Cp为污染物项目P的质量浓度;BPHi为表1中与Cp相近的污染物浓度限值的高位值;BPLo为表1中与Cp相近的污染物浓度限值的低位值;IAQIHi为表1中与BPHi对应的空气质量分指数;IAQILo为表1中与BPLo对应的空气质量分指数。
表1 空气质量分指数及对应的污染物项目浓度限值Table 1 Individual Air Quality Index(IAQI)and concentration limits of different air pollutants
空气质量指数AQI公式为
式(2)中,IAQI为空气质量分指数;n为污染物项目。
因为义乌国家基本气象站和环境监测站数据质量相对较高,且义乌本地属于雨雾天气和灰霾天气均有发生,当地对低能见度预测技术需求旺盛,本研究选取2015—2019年逐小时观测的能见度、常规气象要素(气温、地面温度、相对湿度、风速)以及空气质量指数(AQI)作为模型数据。
1.3 研究方法
1.3.1 长短记忆神经网络(LSTM)
LSTM模型是RNN的一个变种,由Hochreiter和Schmidhuber于1997年提出[25],一方面其保留了神经网络输入、隐藏、输出的三层架构,并可通过反向传播进行参数迭代更新。另一方面其隐藏层结构由一个或多个记忆核组成,每个记忆核包括三个“门”,即遗忘门(forget gate)、输入门(input gate)和输出门(output gate),使其在继承了RNN的大部分特性之外,优化了RNN在反向传播时的梯度消失或梯度爆炸问题,更适用于模拟样本中的时序特征。
LSTM记忆核结构如图2所示,ht-1为上一层的输出;Ct-1为上一个LSTM记忆核的特征信息;ht为输出;Ct为当前记忆核的特征信息。相关方程为
图2 LSTM单元结构Fig.2 Structure of LSTM unit
式(3)~式(8)中,σ为激活函数;通常为tanh或sigmoid函数;U,W为模型权重矩阵;b为模型偏置项。
在LSTM计算流程中,每一时刻LSTM记忆核通过三个门接收当前状态xt和上一时刻LSTM的隐藏状态ht-1。此外,每个门还接收一个内部特征信息Ct-1。接收输入信息后,每个门将对不同的输入来源进行运算,由其逻辑函数决定其是否激活。输入门的参数经过激活函数更新后,与遗忘门处理过的记忆核参数进行叠加,形成新的记忆核状态Ct。最终,记忆核状态Ct通过激活函数的运算和输出门的动态控制形成LSTM的输出ht。
LSTM模型在训练过程中权重矩阵和偏置项的确定是通过反向传播不断更新损失函数的最小值来优化的。本文选用Adam作为参数优化方法,因其相较于其他优化算法在实际应用中具有更优的表现[26]。
1.3.2 对比试验设计
(1)数据归一化
使用神经网络模型进行多变量预测时,因为不同变量量纲不同,数值差异大,会影响模型中激活函数的输入输出范围,容易造成损失函数无法正常工作,所以需要平等考虑各变量对能见度的影响作用,对变量和能见度时间序列进行归一化处理。本研究选用极值归一化,将各参数数值归算到区间[0,1]内,公式为
式(9)中,x′为归一化后的样本数据;x为原始样本数据;xmin,xmax分别代表样本时间序列的最小值和最大值。
(2)对比试验
根据数据资料,设逐小时能见度序列为vis={vist},t=1,2,3,…,n。其中t为时间序列长度或称为神经网络的窗口长度。相同的还有相对湿度序列h,风速序列w,空气质量指数序列a,地气温差序列ta-g。第一组对比试验用于验证历史能见度作为输入变量时,对模拟效果的影响,即对比LSTMt{h,w,a,ta-g}=vist+1与LSTMt{vis,h,w,a,ta-g}=vist+1。第二组对比试验通过划分不同模拟时段(11月至翌年2月,3—6月,7—10月)来训练模型,分析在不同天气条件主导下LSTM模拟能见度的精度。第三组试验通过不断增加预测步长,来评估模型的模拟性能。
(3)模拟效果评估
为了能够客观准确地反映模型模拟性能,本研究选用均方根误差(root mean square error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和拟合优度(R2)作为模型性能评价指标。均方根误差RMSE和平均绝对误差MAE越小,说明模型模拟结果越接近实际值。拟合优度0≤R2≤1,值越接近1说明模拟结果的变化趋势越接近实际。具体计算公式如下
式(10)~式(12)中,xt为观测值;x′t为模拟值;ˉx为观测数据的平均值;N为观测样本时间序列长度。
2 结果分析
2.1 观测能见度特征分析
在能见度分析中,定义能见度小于10 km的为低能见度天气,为便于分析再将低能见度天气分为四个等级:轻微低能见度(5~10 km),轻度低能见度(3~5 km),中度低能见度(2~3 km),重度低能见度(<2 km)。如图3a所示,义乌地区低能见度天气每月都有发生,冬季(12月至翌年1月)最频繁,发生频率接近80%,1月为79.18%,12月为80.93%,重度低能见度天气占比分别为12.31%和9.10%;夏季(7—8月)低能见度天气发生频率最小,占比不到30%,重度低能见度天气占比均为1.36%。2—6月各月情况相似,低能见度发生频率在55%~60%,重度低能见度发生频率在5%~6%。9—12月低能见度天气和重度低能见度天气发生频率逐月升高。2015—2019年义乌地区低能见度天气总体呈下降趋势(图3b),低能见度天气发生频率分别为62.1%、53.6%、46.6%、44.9%、49.6%。
图3 义乌地区2015—2019年月平均(a)和逐年(b)低能见度天气出现频率Fig.3 Monthly and annual mean occurrence frequency of low visibility in Yiwu from 2015 to 2019
2.2 影响要素特征分析
为了能突显低能见度天气过程的气象特征,统计了2015—2019年逐月逐小时的低能见度天气出现时长,以及相对湿度、风速、空气质量指数(AQI)和地气温差(Ta-Tg)的逐月逐小时平均值。由图4可以看出,低能见度天气过程主要出现在冬春季节的早晨和晚上,下午时段(12—18时)以及夏秋季(7—10月)很少出现低能见度天气(图4a)。相对湿度具有明显的日变化特征,总体呈现为白天干燥夜晚湿润(图4b)。风速的特征主要为下午(12—18时)风速较大,其中夏季下午平均风速最大,平均风速低值区出现在凌晨(00—06时)(图4c)。空气质量指数(AQI)季节变化明显,冬季最高,夏季最低,下午时段(12—16时)空气质量较好(图4d)。地气温差(Ta-Tg)也有明显的日变化特征,白天(08—16时)气温低于地表温度,夜晚则相反(图4e)。通过对比可以看出,低能见度天气总出现在高相对湿度(>80%),平均风速较低(<3 m·s-1)的条件下,这与之前研究结论一致[27]。此外,气温高于地表温度时(Ta-Tg>0℃),容易出现低能见度天气。11月至翌年2月,空气质量较差的时段往往对应低能见度天气,但春季(3—6月)清晨即使空气质量较好也会出现低能见度天气。因此,冬季(11月至翌年2月)低能见度天气受空气质量影响较大,春季(3—6月)低能见度天气受空气质量影响较小,雾天气占主导。
图4 义乌地区低能见度发生时长(a)、相对湿度(b)、风速(c)、AQI(d)和地气温差(e)变化Fig.4 Characteristics of monthly and hourly mean duration of low visibility(a),relative humidity(b),wind speed(c),AQI(d),and ground-air temperature difference(e)in Yiwu
综上所述,义乌地区低能见度天气对应的气象条件是高湿、高污染、气温高于地温和低风速。除此之外,6月表现出明显的高湿、低风、低地气温差的特征,这与6月为浙江地区梅雨季节有关,缺少太阳辐射容易在近地面形成上述气象特征[28]。
2.3 全时期模拟分析
设计一组对比实验,实验方案一:选用相对湿度、风速、空气质量指数(AQI)和地气温差作为固定输入变量,2015—2018年逐小时观测数据作为训练集,2019年逐小时观测数据作为模拟集,样本时间序列长度L设定为12 h,预测步长为1 h。实验方案二:在方案一的基础上,输入变量增加观测能见度。为便于展示,对模拟结果作日平均处理,如图5所示。选用均方根误差RMSE、平均绝对误差MAE和拟合优度(R2)作为模型性能评价指标,其中方案一RMSE=2.82 km,MAE=2.14 km,R2=0.73(图5a),方案二RMSE=0.63 km,MAE=0.51 km,R2=0.99(图5b),模拟结果明显优于方案一,说明当训练参数中加入过去时刻观测能见度将大幅提升整体模拟水平。
图5 全时期两种方案一(a)和方案二(b)模拟结果对比Fig.5 Comparison of visibility simulation during the whole period using Scheme 1(a)and Scheme 2(b)
2.4 不同时期模拟结果分析
不同时期低能见度天气的形成原因并不相同,所以本研究中设计了分时期模拟实验,将全时期数据分为11月至翌年2月、3—6月、7—10月3个时期(图6)。根据上文分析,11月至翌年2月出现低能见度天气概率最大,且受空气质量因素影响明显。3—6月也有低能见度天气发生,但以雾现象为主,这时期受空气质量影响不大,所以该时期设计两组实验,一组加入AQI作为输入变量,另一组则不加入。7—10月属于能见度普遍较好的时期。因为低能见度天气更受关注,加入观测能见度小于10 km时的均方根误差(RMSE_10km)和平均绝对误差(MAE_10km)作为评价指标。由于输入变量有显著的日周期性特征,因此选取了4 h、8 h、12 h、24 h、48 h和72 h作为样本时间序列长度来对比误差大小。模拟结果显示,在全时期模拟中(图6a),当样本时间序列长度为12 h时,对低能见度天气模拟效果最好,RMSE_10km=2.35 km,MAE_10km=1.41 km,R2=0.85。在样本时间序列长度等于48 h时,对整体能见度模拟效果较好,RMSE=2.50 km,MAE=1.54 km,R2=0.86。通过分时期模拟,在11月至翌年2月模拟期可以得到更好的模拟效果(图6b)。当样本时间序列长度为4 h时,对低能见度天气模拟效果最好(图7),RMSE=2.35 km,MAE=1.46 km,RMSE_10km=1.81 km,MAE_10km=1.13 km,R2=0.83。这说明本次研究选用的气象要素在刻画义乌冬季低能见度天气时最为有效。3—6月模拟期的两组对比试验中(图6c和图6d),变量中不加入空气质量指数(AQI)反而效果会更好,这说明在训练神经网络模型时,并不是变量越多越好,低影响的变量反而会导致模型精度下降。7—10月属于能见度最好的时期(图6e),模拟中首次看到RMSE_10km,MAE_10km整体大于RMSE、MAE。一方面是由于这一时期能见度小于10 km的样本量不大,模拟异常值会导致评价指标变大;另一方面也说明该时期的低能见度可能受到其他因素影响而非本研究选用的要素。
图6 全时期(a)、11月至翌年2月(b)、变量中加入(c)和不加入(d)AQI的3—6月以及7—10月(e)模拟结果评价指标Fig.6 Evaluation indicators in the whole period(a),from November to February(b),with(c)and without(d)AQI as an input member from March to June,and from July to October(e)
图7 分时期(11月至翌年2月)能见度模拟结果趋势图(a)和散点图(b)Fig.7 Temporal variation of observed and simulated visibility from November to February(a)and their scatter plot(b)
2.5 预报时长试验分析
选定相对湿度、风速、空气质量指数AQI、地气温差、观测能见度5参数,样本时间序列长度为12 h,预测步长为1 h的模拟结果作为参照组,分别对比预测步长为2—6 h的模拟结果,如图8所示。随着时间步长的增加,R2逐步减小,RMSE、MAE、RMSE_10km、MAE_10km逐渐增大。当预测步长大于3 h,R2<0.71,预测结果已不具备实际应用的能力。
图8 不同预测步长模拟结果Fig.8 Simulation results with different prediction steps
3 结论
(1)高相对湿度、高污染、气温高于地温和低风速是义乌地区出现低能见度天气的主要气象条件。
(2)LSTM模型对单站点能见度有较好的模拟效果,当训练参数中加入观测能见度时,能大幅提高模拟准确度,日均能见度模拟结果RMSE=0.63 km,MAE=0.51 km,R2=0.99。
(3)分时期进行模拟能得到更精准的模拟结果,本研究中选用的参数在冬季(11月至翌年2月)模拟效果最好,RMSE=2.35 km,MAE=1.46 km,RMSE_10km=1.81 km,MAE_10km=1.13 km,R2=0.83,这说明本次研究选用的气象要素在刻画义乌冬季低能见度天气时最为有效。
(4)3—6月的模拟中,变量中不加空气质量序列在低能见度预测中效果更好,这意味着3—6月义乌地区的低能见度天气以雾天气为主导,加入过多变量并不能使模型更为准确。
(5)随着预报步长增大,模型预报效果变差,预测步长等于3 h,拟合优度R2=0.71,预测结果已不具备实际应用的能力。