基于集成学习的沿海低能见度天气分类预报方法

2024-01-12陈锦鹏林辉吴雪菲黄奕丹程晶晶庄毅斌

热带气象学报 2023年5期

陈锦鹏，林辉，吴雪菲，黄奕丹，程晶晶，庄毅斌

(1.福建省灾害天气重点实验室，福建福州 350001；2.数字科学与统计重点实验室，福建漳州 363005；3.漳州市气象局，福建漳州 363005；4.福建省大气探测技术保障中心，福建福州 350001)

1 引言

气象能见度作为气象观测的基本要素之一，容易受到各种因素的影响。当出现雾、霾、降雨、降雪等天气现象时，能见度往往转差；另外边界层变化、大气低频振荡也能造成能见度下降[1]。沿海低能见度天气会对交通、运输和作业等产生不利影响，因此其预报预警技术研究具有重要的实践意义。

多年统计来看，造成闽南沿海地区低能见度事件的主要原因分别是霾和雾，且上半年的持续时间和发生频率高于下半年[2]。分析发现，在爆发性浓雾过程中除了由海风和地面长波辐射提供的主要冷却条件外，还存在来自平流和蒸发的充足水汽条件以及贴地强逆温[3]。近年来，关于低能见度天气客观预报的研究工作日渐增多。王楠等[4]以相关性为依据筛选预报因子，分别采用基于Poly、RBF 核函数的支持向量机（SVM）方法建立能见度预报模型，发现在检验样本中预报准确样本的误差整体较小，而在漏报样本中有能见度越低误差越大的特点。谢超等[5]通过训练神经网络模型来获得能见度集合预报，试验显示模型预报的误差与TS 评分均优于模式预报。黄辉军等[6]尝试将近地层温差因子作为GRAPES 模式的预报变量因子以改进海雾预报，引入后海雾区域预报的准确率、TS 和HSS 评分都有明显提高。黄健等[7]在海雾历史观测资料和再分析资料的基础上，采用分类与回归树（CART）方法对海雾发生发展的海洋气象条件进行分类分析，建立了决策树预报模型，对广东沿岸海雾的预报准确率可达到73%以上。俞涵婷等[8]从统计角度验证了温差是大雾形成的重要因素，同时运用决策树模型进行海雾预报试验，在测试集数据中成功率为0.8，可用于业务中对海雾的判别。

总体来看，目前对于海雾的预报方法主要包括天气学方法、统计预报方法和数值预报方法，天气学方法对预报员的主观经验依赖性较高，预报准确率和可靠性较低；单纯的统计预报方法缺乏对海雾过程物理规律的描述，多依赖于历史观测资料或数值预报资料的质量和数量[9]。而数值预报方法作为气象预报的主流发展方向，离不开客观化、自动化的后处理订正技术。轻量梯度提升机（Light Gradient Boosting Machine，LightGBM）作为目前集成学习代表性算法之一，面对结构化数据时具有比较出色的普适性、准确性和可解释性，在各大数据挖掘竞赛与各个行业领域中的应用相当广泛。如何将LightGBM 算法更好地应用于低能见度天气预报预警业务之上，是非常值得探究的问题。在上海区域的能见度预报试验中，基于WRF 模式的LightGBM 订正模型在验证集上的平均绝对误差相对于原始预报提升比例可达47.2%[10]。但交叉验证中的数据集来自于同分布随机采样，缺乏时间相关性，不足以体现模型在实际业务中面对未知数据的预测能力。

此外，福建漳州地区现有的沿岸、岛屿和浮标自动站过于稀疏，探测范围也极为有限，过少的观测样本不利于模型训练与测试。本试验尝试引入远距离无线电（Long Range Radio，LoRa）探测数据，与自动站观测数据进行融合以扩充数据集。LoRa 是一种窄带物联网通信技术，其信号衰减对天气要素变化敏感，尤其是与相对湿度、风速存在一定的相关性。目前漳州沿海及海上地区已部署LoRa 观测组网，通过能见度反演算法得到高时空分辨率的LoRa 海雾探测数据[11]，可在一定程度上弥补传统观测手段的不足。

本文提出的低能见度天气分类预报技术本质是应用集成学习对数值预报进行统计订正，融合了数值模式擅长环流形势预报与集成学习擅长统计规律挖掘的优势来进一步推导低能见度天气的可能性。试验中应用2020年数据集进行建模和训练，以2021年数据集进行测试，充分考察模型的拟合能力和泛化能力，验证了该模型具有优于模式原始预报甚至传统统计方法的预测能力。同时也探究了试验过程中遇到的样本不均衡、特征构造和模型融合等问题，为集成学习在能见度预报方面的应用和数值模式订正技术的发展提供参考。

2 资料

本文采用2020 年3 月—2021 年7 月漳州地区沿海与岛屿自动站的逐小时能见度观测数据作为实况资料，共包含10 个站点（图1）。由于沿海自动站分布过于稀疏，难以精细体现能见度要素的空间分布，故将相应的LoRa 探测数据与其进行融合作为补充（详见3.3.1 节），最后得到网格化的能见度实况资料。

图1 漳州地区沿海与岛屿自动站（红色）以及LoRa探测格点（黑色）分布

另外，采用EC-thin 历史数据作为预报资料。其时间分辨率为3 h，空间分辨率为0.125 °×0.125 °。预先根据业务经验挑选出与能见度关联较强的预报因子作为模型的待选特征，具体包括2 m 露点（d2）、2 m 相对湿度（rh2）、2 m 气温（T2）、10 m 风场U分量（u10）、10 m 风场V分量（v10）、海平面气压（msl）、925 hPa比湿（q925）和1 000 hPa比湿（q1000）、925 hPa 气温（T925）和1 000 hPa 气温（T1000）、低云量（LCC）、总云量（TCC）等共计12 类预报产品。这些变量均来自于模式的直接输出产品，基本反映了边界层内的气象环境条件。

从逐小时、逐格点的角度制作样本数据集：对于每个实况融合后的格点而言，在预报资料中选取以其为中心的16 点平均值（覆盖边长为0.375 °的矩形区域）作为该点的特征变量。建模的目的在于挖掘特征变量与格点水平能见度级别之间的映射关系。定义水平能见度小于500 m 的样本为正类样本，反之则为负类样本。观察样本分布（表1）可发现正负类样本数量悬殊，如2020 年正负比率不足0.6%，属于极小概率事件，严重的样本不均衡问题会导致模型训练出现显著偏离，试验中需加以解决。分别将2020 年和2021 年数据集作为训练集和测试集，避免由于打乱时间顺序而出现数据信息泄露，充分考察模型面对完全陌生的“未来”数据的预测能力。

表1 2020年与2021年正负类样本分布

3 研究方法

3.1 低能见度天气的日变化特征

漳州沿海地区低能见度天气具有鲜明的日变化特征。从2020年不同程度的低能见度天气频次统计可以发现，无论是能见度在3 000 m以下或是500 m 以下的天气均以下半夜最多见(图2)。具体来看，前者在05 时(北京时间，下同)频次最高，06时以后频次急剧下降，在00—12 时之间呈现单峰型分布；而后者在04 时频次最高，在08 时频次次高，在下半夜至上午时段亦呈现单峰型分布，且04—08时发生频次显著高于其他时间。这表明了夜间的冷却条件极为重要，也反映了引入日变化的时间参数作为模型的特征变量是很有意义的。

图2 3 000 m以下（蓝色柱状）和500 m（红色折线）以下的低能见度时刻发生频次的日变化

3.2 LoRa探测数据的可用性

在使用LoRa 探测数据之前，需要初步评估LoRa 探测数据的准确性和可用性。以上述10 个沿海和岛屿自动站的能见度观测资料为参照标准，对空间分辨率为1 km 的网格化的LoRa 探测数据进行检验。考虑到所选自动站的能见度观测仪可能存在偏差以及实际业务中更加关注能见度在3 000 m以下的天气，故只筛选出同一小时内至少存在相邻两个自动站能见度小于3 000 m 的时次样本进行检验。

根据能见度要素在空间分布上具有一定的连续性，采用邻域检验法进行检验，即假设自动站周边一定范围的区域内能见度等级与该站点一致。随着邻域半径增大，参与检验的格点数也越多；但当领域半径过大时，上述假设可能会失效。以能见度分类阈值为500 m、邻域半径为2 000 m 的检验为例，参与检验站点的平均结果如表2 所示，其TS 评分和准确率分别接近60%和94%以上，漏报率略多于空报率，但均未超过1/3，表明了具有较理想的可用性。

表2 LoRa探测数据的检验指标（能见度分类阈值为1 000 m、邻域半径为2 000 m）

3.3 数据预处理

3.3.1 实况资料合成

单纯使用自动站的能见度观测资料在范围和数量上都会受到较大的限制，不利于模型的训练和测试。在LoRa 探测数据可用性较好的基础上，将相距3 km 内的自动站观测数据与LoRa 探测数据进行指数权重合成以获得网格化的实况数据。该合成方式的优点在于权重随着距离快速减少，又始终保持正值[12]。具体公式如下：

对于某一格点而言，V为融合能见度，Vd为LoRa 探测能见度，Vo为自动站能见度，R为该格点与最邻近站点的距离，即距离自动站3 km 以外的格点值只取LoRa 探测值，反之则根据与自动站的距离进行指数权重合成，离自动站越远则LoRa 探测值的权重越大。

3.3.2 新特征构造

模型的输入特征好坏在很大程度上决定了模型的预测能力上限。虽然来自于模式直接输出产品的特征变量足以描述边界层内大气环境条件，但是与低能见度天气过程之间的映射关系还不够显著，诸如水汽、冷却、弱风和稳定层结等气象条件可以通过构造新的特征变量以得到更好地描述。

在水汽和弱风条件方面，分别增加2 m 温度露点差（T2-d2）和10 m 全风速（uv10）作为新的特征变量。此外，增加925 hPa 与2 m 温差（T2-T925）、925 hPa 与1 000 hPa 温差（T1000-T925）、1 000 hPa与2 m 温差（T2-T1000）等三个特征变量。由于低能见度天气具有日变化规律，还可以引入样本所属的时刻作为时间参数特征。将原先的特征称为初始特征，加入6个新特征后称为全特征。

3.4 建模方法

梯度提升决策树（Gradient Boosting Decision Tree，GBDT）的基本原理是不断通过拟合残差（真实值与预测值的偏差）来迭代学习新的决策树，再将所有决策树的单独预测进行相加即得最终结果，因此可以由如下公式表示：

其中X代表输入特征，F代表决策树，Θn为决策树的超参数（如最大深度、叶子节点数等），N为决策树的个数。LightGBM 每次选择能够带来最大信息增益的节点进行切分，即保证切分前后的信息熵差值为最大。特征种类越多、样本数据量越大时，LightGBM 越有计算成本上的优势，这主要由于LightGBM 采用的两种创新技术：基于梯度的单侧采样（Gradient-based One-Side Sampling）和互斥特征捆绑（Exclusive Feature Bundling）。前者的目的是缩减用于计算信息增益的样本数量，后者则能够减少用于参与分裂点筛选计算的特征数量[13]。在几乎相同的精度上，LightGBM 可以使传统GBDT的训练过程加速20倍以上[14]。

逻辑回归（Logistic Regression，LR）算法也是一种用于解决二分类问题的算法。该算法基于数据服从伯努利分布的假设，在给定条件概率分布的基础上运用极大似然估计求解最优参数。具体是使用Sigmoid 函数将线性回归的预测值映射为(0, 1)上的概率值，最终公式如下：

其中θ为LR 模型超参数，可用梯度下降法寻找最优解。LR 算法的运行效率高、可解释性强，适合作为基准算法进行对比。

本研究依靠LightGBM 模型来挖掘同一时刻内某点能见度V与该点附近的气象条件X之间的映射关系，即认为存在V=f(X)。此外，LightGBM能够从信息熵和信息增益[15]的角度来考察各类特征重要性，后续将据此对特征变量的贡献大小进行排序。

3.5 评估指标

LightGBM 模型的输出是预测概率值，在应用命中率、TS 评分等传统分类指标时需要事先确定分类概率阈值，不同的阈值所对应的指标也有所不同，如此不利于全面跟踪和评估模型性能的变化。本试验引入受试者工作特征曲线下面积（Area Under ROC Curve，AUC）评分[16]对模型表现进行跟踪检验，受试者工作特征曲线（Receiver Operating Characteristic Curve，ROC 曲线）是指遍历模型所有分类概率阈值后，在以伪阳性率（False Positive Rate，FPR）为横坐标、以真阳性率（True Positive Rate，TPR）为纵坐标的坐标系中由一系列不同阈值的点组成的曲线，其中FPR、TPR计算公式如下：

NA 为预报和实况均出现低能见度天气的次数，NB 为漏报次数，NC 为空报次数，ND 为预报和实况均未出现低能见度的次数。AUC 为0.5 时说明预测完全是随机的；AUC在0.5以上才能说明模型具有正向预测价值；AUC 越接近1，则模型预测效果越趋于完美[17]。

3.6 试验设计

根据时空对应关系将实况融合资料与模式预报资料制作成数据集。空间上，以预测点为中心、边长为4×4 格点的矩形区域内物理量平均值作为特征变量；时间上，选取起报时间为20 时、预报时效包含15～36 h 的预报产品进行处理。由于2021年部分时段资料缺失，总共整理出约18万个样本。

为了尽量减小样本极端不均衡对训练过程带来的影响，试验中运用自助聚合（Bootstrap Aggregating，Bagging）技术进行采样和建模：在负样本远多于正样本的数据集中，对大量负样本进行随机采样50 次，每次可得到与正样本数量接近的负样本以组成子训练集，即每一份子训练集中的正样本相同而负样本不同。在50份子训练集的基础上可训练出50 个不同的基模型，将每个基模型的预测概率进行平均处理，则为融合模型。预先统一设定基模型的超参数，其中关键超参数如最大树深度为7、叶子节点数为2、学习率为0.06。

试验共划分为四组：(a) 基于初始特征的基模型预测（RAW-BASE）；(b) 基于全特征的基模型预测（ALL-BASE）；(c) 基于初始特征的融合模型预测（RAW-MIX）；(d) 基于全特征的融合模型预测（ALL-MIX）。此外，以基于全特征的LR方法作为参照试验，称为ALL-LR，在该方法中设定根据样本数量来调整样本权重以缓解数据不均衡的影响。根据AUC 评分对各类方案的结果进行评估和对比。

4 对比与分析

4.1 特征重要性分析

LightGBM 建模方法可通过计算每类特征在分割点产生的信息增益总和来对特征重要性进行排序，这有助于深入了解低能见度天气发生发展的气象环境条件。如图3 所示，d2的重要性高达3 000以上，远远超过其他特征，这表明了近洋面高度的水汽绝对含量对低能见度天气过程非常关键。其余特征重要性之间的差异相对较小，第二为T2-T1000，包括T2-T925也排行第六，可见近地层温差的作用亦不可忽视。往后从大到小分别为v10、u10、T925、T2-T925、msl、q1000等，主要与弱风条件有关。同时注意到，uv10和T1000参考意义并不是很大。

图3 基于LightGBM的预报模型输入特征重要性排序

4.2 不同方案在训练集和测试集上的对比

分别对五种建模方案进行训练。其中四种基于LightGBM 的方案中均包含50 个基模型，每个基模型迭代训练1 200 次。RAW-BASE 和ALLBASE方案是对逐个基模型进行检验，故存在虚线和阴影区以表示其AUC 评分的平均值和95%置信区间。而RAW-MIX和ALL-MIX方案则是对融合模型的概率进行检验。

在训练集上，主要对比RAW-BASE、ALLBASE 和LR 方案的差异。如图4 所示，在经过30次迭代训练后，基于LightGBM 的两种方案就表现出比LR 更高的拟合精度，最终AUC 评分均达到了0.9 以上。RAW-BASE 和ALL-BASE 方案的训练曲线比较相似，开始时AUC 评分的提升率较大，在30～40 代之间后者逐渐与前者拉开差距，中后期提升率逐渐减小，AUC评分处于较高水平，模型存在过拟合的风险，需进一步考察其在测试集上的表现。这表明了引入新特征能够让模型更快更好地学习到低能见度天气的发生规律。

图4 模型在训练集上的AUC评分对比

在测试集上，EC-thin 模式对于样本能见度的原始预报均在3 000 m以上，难以捕捉低能见度天气发生的征兆。从图5 可以看到，经过LR 方法订正后提升微弱，AUC 评分仍不足0.71，参考性较差。整体来看，基于LightGBM 的建模方案订正效果显著优于LR 方法，前者AUC 评分均能超过0.85，在800 次迭代训练后基本趋于收敛，稳定性较好，反映了基于LightGBM 的建模方法具有优秀的非线性拟合能力。

图5 模型在测试集上的AUC评分对比

在四组基于LightGBM 的订正方案中，模型拟合稳定后的AUC 评分由高到低分别为：ALLMIX、ALL-BASE、RAW-MIX、RAW-BASE。基于全特征的订正方案（ALL-MIX 和ALL-BASE）相比于原始特征（RAW-MIX 和RAW-BASE）具备更优越的改善作用，前者在1 000 代之后集中于0.94附近，后者仍分布在0.87 上下。新特征的构造和引入也缩小了基模型的振荡区间，有效削弱模型随机性，也使得200 代之前的AUC 评分提升更加迅速和平滑。

模型融合与否也会小幅影响其预测能力。经过平均处理后的融合模型（RAW-MIX 和ALLMIX）表现基本与50 个基模型（RAW-BASE 和ALL-BASE）中的最优者相当，更重要的是融合模型可以解决实际业务中我们难以提前得知哪个基模型为最优的问题。与基模型相对平稳的能力提升不同，融合模型在测试集上的AUC 变化曲线呈现阶跃式上升，且在接近1 200代时再次超过基模型，甚至还存在继续优化的潜力。这些现象说明了融合模型能够逼近甚至超越最优基模型，既避免了基模型选择困难，还可以加速模型优化过程，提高模型学习效率，使其更早进入稳定收敛状态。总之，对比试验验证了LightGBM 模型相对于传统订正方法具有更大的潜力，而新特征引入和模型融合的技巧能够对订正效果产生正贡献，尤其是构造合理的新特征对模型的提升幅度更为突出。

4.3 最优建模方案在测试集上的分析

由上述对比可知，最优建模方案为ALL-MIX方案，现对ALL-MIX 模型和LR 模型作进一步评估。对于第1 200 代的ALL-MIX 模型而言，通过搜索TPR 与FPR 之差的最大值可以确定其最佳概率阈值a为0.999 7 左右，即当模型输出概率P≥a时判断为水平能见度低于500 m，反之则在500 m以上。同时计算ALL-MIX 模型和LR 模型的交叉矩阵（其最佳概率阈值约为0.953 6）以做进一步对比（表3 和表4）。可以发现，两者的预报准确数和漏报数基本一致，命中率都在98%左右，这是订正模型对模式原始预报改善作用最突出的方面。与此相反，两种建模方案的空报数差距很大，LR 模型的空报数约为ALL-MIX 模型的8.5 倍，故前者空报率超过93%，后者则控制在61%左右，表明了融合模型相对于传统模型的优势在于显著降低了空报率。因此，ALL-MIX模型的TS评分可以达到38.71%左右，比LR模型提升了5倍以上。

表3 ALL-MIX方案在测试集上的交叉矩阵

表4 ALL-LR方案在测试集上的交叉矩阵

5 结论

本文从逐小时逐格点的角度出发，在2020 年3 月—2021 年7 月漳州地区融合实况资料与ECthin模式历史预报产品的基础上制作数据集，将能见度是否低于500 m 作为分类预测目标，应用集成学习中的LightGBM 算法建立了分类预报订正模型，利用Bagging 技术和AUC 评分指标在一定程度上克服样本极端不均衡带来的影响，并根据新特征构造和模型融合划分为四种训练方案进行试验，同时设定基于LR（逻辑回归）方法的预测模型作为基准试验。经过对比分析得到如下结论。

（1）所有订正方案对于EC-thin模式原始预报能力均有不同程度的提升。在所有表征气象环境条件的特征中，d2在建模过程中产生的信息增益总和最大，即d2对判断低能见度天气发生发展最为重要，T2-T1000的重要性次之。

（2）基于LightGBM 方法的订正模型总体效果优于LR 模型。两者的命中率基本接近，但前者通过削减空报率而进一步优化了预测能力。其中ALL-MIX（基于全特征的融合模型）建模方案在测试集上的AUC 评分相比于LR 模型增加了0.387 7，TS 评分也提升了7 倍以上。表明了LightGBM 模型在搜寻非线性复杂规律方面具有比较优秀的拟合能力和泛化能力。

（3）合理构造新特征以及对基模型进行平均融合有助于优化订正模型。在四种基于LightGBM 的训练方案中，ALL-MIX 方案可以使模型在测试集上取得最高的AUC 评分。对比试验表明了合理构造新特征对模型的提升幅度更为突出，而模型融合则能够甚至超越最优基模型，既避免了基模型选择困难，也保持了模型的稳定性。

不可忽视的是，本文提出的分类预报模型仍然存在空报率较高、分类过于简单等不足，下一步将通过调整超参数和增加分类试验等方法继续优化和改进。