APP下载

基于决策树的雷暴天气短临预报

2017-12-15徐全军谢志敏李峥蒲军王学志林青慧

数据与计算发展前沿 2017年2期
关键词:雷暴天气预测

徐全军,谢志敏,李峥,蒲军,3,王学志,林青慧*

1.中国人民解放军海洋环境专项办公室,北京 100081

2.中国科学院计算机网络信息中心,北京 100190

3.中国科学院大学,北京 100049

基于决策树的雷暴天气短临预报

徐全军1,谢志敏1,李峥2,蒲军2,3,王学志2,林青慧2*

1.中国人民解放军海洋环境专项办公室,北京 100081

2.中国科学院计算机网络信息中心,北京 100190

3.中国科学院大学,北京 100049

雷暴天气是指伴有雷电、冰雹、大风和强降水的局地强对流性天气,它对航空运输、电力设施、通讯设备与建筑物等均可造成不同程度的破坏,严重时甚至造成人员伤亡。开展雷暴天气过程的短临预报具有重要的科学意义与实用价值。本文对我国 2010~2015年雷暴天气事件的时空分布特征进行了统计分析,结果表明:雷暴天气事件集中分布于国内少数区域夏季 7~8月份的14:00~18:00 点。在此基础上,基于 2010~2015年的地面气象观测资料建立决策树模型,预测未来3~4 小时雷暴天气的发生概率。模型对雷暴事件的漏报率和误报率均低于 10%,这一结果表明:本文所建立的模型能够较为准确地进行雷暴天气短临预报,能够为保障飞行安全提供较为可靠的决策支持。而对特征的相对重要性排序结果表明:测站的地理环境特征和气象条件对雷暴天气过程的发生具有显著的影响。

雷暴;时空分布;短临预报;决策树

引言

气象条件对于航空安全有着十分重要的影响,其中雷暴天气过程能够决定飞机是否能够正常起降。雷暴天气是一种常常伴随雷击和闪电的局地对流性天气,属于强对流天气系统的一种且时常在生活中发生。随着我国航空事业的不断发展和服务水平的逐步提高,雷暴天气对航空等领域的安全性和实效性构成了极大的威胁。雷暴天气不仅直接影响航空器和乘客的安全状况,并且也会对航空公司的服务水平以及机场的治安稳定造成巨大影响。近来世界各国已发生多起因气象原因导致的航空事故,以及航班延误致使乘客影响机场秩序的社会事件,对社会稳定和治安造成了十分恶劣的影响。

目前,雷暴天气预报已成为了航空预报中的重要工作,雷暴天气的准确预测对社会经济特别是航空领域具有十分重要的指导意义。但是,短时且有效的雷暴天气预报方法仍然亟待研究,以方便对各类事件进行提前的规划和防范,以减少因雷暴气象造成的不必要损失,对提高航空业飞行安全系数和服务水准具有十分积极的影响。

1 相关工作

1.1 雷暴天气的影响因素

雷暴天气的具体形成受到多方面因素的影响。从气象学角度出发,文献[1,2]中均指出,雷暴天气主要是在不稳定的大气层,充足的水汽和强大的冲击力下三个条件下形成的。

不稳定的大气主要是因为垂直气流而产生的,较重的空气垂直运动到较轻的空气之上,再加上太阳的辐射使得不稳定能量增加[2],不稳定的能量使得大气之间碰撞进而形成雷暴。其次,充足的水汽也是雷暴形成的一个关键因素,充足水汽不仅有利于形成积雨云,同时会因为与干燥不饱和空气融合进而限制上升运动。最后,强大的冲击力也是雷暴天气形成的必不可少的关键,只有强大的冲击力才可以推动空气进行不断的位置转移,通过这样强大的能量使得空气能够上升到自由对流的高度,从而形成强雷暴天气。

同时一些科研工作者研究了雷暴形成的其他因素:胡艳[3]等人利用经验正交函数 (EOF) 分析了上海地区雷暴的气候变化及可能影响因素,其表示雷暴的发生不仅与大气背景相关,同时局地的气候变化也对雷暴的形成具有深远的影响。郑永光[4]等人对强对流天气的发展条件机理进行了研究,分析了极端降水与地面露点因素的关系,同时提出了对极端强对流天气各类概念的认识和理解。

1.2 雷暴天气的预测方法

在此之前,各级气象部门对雷暴预报的研究投入了大量的精力,业内各方均提出了很多种对于雷暴天气的预测模型。传统方法多是基于气象学方法,联合判别指标进行雷暴的预报,例如,孔德兵[5]等人提出了一种基于逐步回归分析的雷暴概率预测方法,其在天气分型的基础上通过利用事件回归方法建立了雷暴概率预测方程,并取得很好的预测效果。秦春明[6]等人采用了天气分型、物理因子判别以及数值预报产品释用等方法对葫芦岛地区的雷暴进行了较好的预报。郭睿君[7]通过对历史数据的组合计算,探索出一系列密切影响雷暴的因子,利用多因子综合相关法建立预报方程进行雷暴预报。胡富泉[8]通过对上海市历史强对流天气个例的统计以及对典型个例成因机制的分析,提出了特型法用于强对流天气的短期预报。张星辰[9]等人分析了河西走廊东部地区近 40年的强雷暴天气的气候规律,探究出雷暴发生时主要的环流状况和天气条件,并以这些发现进行了雷暴的短期预报。

近来,很多学者开始通过利用机器学习以及数据挖掘的方法对雷暴进行预测,例如袁野[10]等人通过朴素贝叶斯分类器和贝叶斯判别准则建立了“雷暴有无”的预报模型并取得了很好的预报效果。将雷暴预报问题转化为雷暴有无的分类问题,证明机器学习的方法在雷暴预报领域有着较好的应用前景。赵旭寰[11]等人首次尝试将人工神经网络用于雷暴天气预报,使用探空资料计算出一系列与雷暴形成有关的因子,从而建立神经网络模型对雷暴天气进行预测,实验结果令人满意并初步证明了神经网络在雷暴天气预报中的可行性。之后,陈勇伟[12]等人提出另一种基于 BP 神经网络的方法,选取了与雷电发生关系较好的 7 个对流参数作为 BP 神经网络的输入层神经元,以期待解决了雷电潜势预报中经常出现的非线性问题,实验结果表明该 BP 模型预报准确率较高,效果十分突出。

2 研究方法

2.1 数据

本文对雷暴天气事件记录进行统计分析和建立预测模型,该记录来自 2010年1月至2015年2月的国内航空危险天气资料。该资料记录了每次危险天气事件的发生日期、时间、站点,气温、气压、湿度、风向、风速、云量、能见度、天气现象等气象要素观测结果。

模型构建使用 2010年1月至2015年2月的地面气象观测数据,用于预测雷暴天气事件的发生概率。该资料记录了观测站点、日期、时间,气温、气压、湿度、风向、风速、云量、云底高、能见度、降水、天气现象等气象要素的观测结果。

2.2 历史数据分析

本文对 2010年1月至2015年2月的雷暴天气事件记录进行统计,分析该天气事件的时空分布特征,主要包括:站点分布,年、月、时的发生时间分布,以此辅助数据集构建、特征选择和预测模型的建立。

2.3 预测模型

本文建立决策树模型,使用地面气象观测数据预测未来 3~4 小时目标站点的雷暴天气发生概率。使用的气象特征包括测站经纬度、高度等,气温、气压、湿度、风向、风速、云量、能见度、天气现象等气象要素。

建立预测模型所使用的数据中,全部雷暴天气事件记录作为正样本,对非雷暴记录进行比例为 1% 的抽样后作为负样本。二者合并作为样本数据集,其中90% 作为训练数据集用于模型的训练,10% 作为验证数据集用于验证预测模型的性能和准确度。

3 结果与讨论

3.1 历史数据分析

雷暴天气事件的站点分布特征如图1所示。13%的国内地面气象站记录了雷暴天气事件,并且集中于其中的少数站点。可以推测,雷暴天气过程与站点所处地域的地理特征具有较高的相关性。站点信息反映了所在区域特定的地形、地貌、土壤、植被等地理信息,以及地面与大气之间的热量和水分交换等陆面过程,从而影响气象条件和雷暴天气形势的发生和发展。

雷暴天气事件的年分布特征如图2 所示。全部数据集记录了2010年1月至2015年2月的雷暴天气事件。2011~2014 记录了绝大部分雷暴天气事件。可能由于数据记录不完整的原因,早期的记录 (如:2010年) 数量较少。而2015年的数据仅2个月,因此数据记录也很少。

雷暴天气事件的月分布特征如图3所示。6~9月份为雷暴天气事件的高发时段,其中 7~8月份最多,是夏季强对流天气多发的时段。这一时段的气象条件,有利于雷暴天气的产生,并且常伴有大风、冰雹、短时强降水等天气过程。

雷暴天气事件的发生时间分布特征如图4所示。这一天气事件的高发时间段是 14:00~18:00 点,可能与该时间段的大气状况,以及地面和大气的温度差异与水汽交换等过程有关。

3.2 雷暴天气预测

雷暴天气预测模型一的训练结果 ROC 曲线如图5所示。训练集的 AUC 值约 0.96,雷暴事件和非雷暴事件的预测正确率分别约 90% 和 92%,表明模型在训练集上具有较好的性能和预测正确率。使用训练完成的模型在验证集上测试模型性能,AUC 值约 0.97,雷暴事件和非雷暴事件的预测正确率分别约91% 和 94%,表明所建立的预测模型能够以很高的准确度进行雷暴天气事件的短临预测。

图1 雷暴天气事件的站点分布Fig.1 Station distribution of the thunderstorm event

图2 雷暴天气事件的年分布Fig.2 Annual distribution of the thunderstorm event

图3 雷暴天气事件的月分布Fig.3 Month distribution of the thunderstorm event

图4 雷暴天气事件的发生时间分布Fig.4 Temporal distribution of the thunderstorm event

使用训练完成的预测模型,对输入特征的相对重要性进行排序,结果如图6所示。特征的F分值越高,其对预测结果的重要程度越大。最重要的前5个特征依次为:测站纬度、经度、高度、气温、露点。这一结果说明:测站的地理信息对于雷暴天气的形成具有最为显著的影响。

为了验证测站地理信息对于雷暴天气的影响,将测站经纬度和高度从输入特征中排除,使用其他特征建立预测模型二,其训练结果 ROC 曲线如图7所示。与模型一相比,模型二对雷暴事件的预测准确率显著下降。训练集的 AUC 值约 0.91,雷暴事件的预测正确率约 65%。使用训练完成的模型在验证集上测试模型性能,AUC 值约 0.86,雷暴事件的预测正确率约 55%。

图5 模型一的训练结果Fig.5 Training results of model 1

图6 模型一的特征重要性排序Fig.6 Feature importance of model 1

图7 模型二的训练结果Fig.7 Training results of model 2

图8 模型二的特征重要性排序Fig.8 Feature importance of model 2

在不使用测站地理信息进行预测的情况下,模型二对雷暴事件的预测正确率显著下降,这一结果表明:测站地理信息对于雷暴天气事件的正确预测具有显著的影响,是影响雷暴天气发生的重要特征之一。

预测模型二对输入特征的相对重要性排序结果如图8所示。最重要的前5个特征依次为:气压、海平面气压、露点、气温、3 小时变压。这一结果说明:气象要素中的气压和温度对雷暴事件的发生具有较为重要的影响。

4 总结

本文对 2010~2015年国内气象台站的雷暴天气事件记录进行了统计分析,分析结果表明:雷暴天气事件集中分布于国内少数区域,夏季 7~8月份为多发时段,14:00~18:00 点为高发时间段。说明:特定区域的地理特征与雷暴天气过程的发生具有重要的关联。

本文针对 2010~2015年国内气象台站的雷暴天气事件记录,建立决策树模型,使用地面气象观测资料预测未来 3~4 小时的雷暴天气发生概率。模型训练和验证的结果表明:对雷暴和非雷暴事件的预测准确率均在 90% 以上,漏报率和误报率均低于 10%。对特征的相对重要性排序结果表明:测站所处区域的地理特征和气象条件对雷暴天气过程的发生具有显著的影响。

由于雷暴天气对于航空安全具有十分重大的影响,因此对雷暴天气进行准确的预测具有十分重要的现实意义。目前业务使用的雷暴预测技术主要是基于数值天气预报结果进行人工判别,而本文基于机器学习方法所建立的模型能够较为准确地进行雷暴天气的短临预报,为保障飞行安全提供较为可靠的决策支持,对于民航运输和空军执行任务来说具有十分广阔的应用前景。

[1]徐达.雷暴天气分析及其对飞行的影响[J].科技风,2014(24): 17-17.

[2]陈嵩.夏季雷暴的形成过程以及影响飞行安全的因素[J].科技展望,2015(15).

[3]胡艳,端义宏.上海地区雷暴天气的气候变化及可能影响因素[J].中国海洋大学学报(自然科学版)自然科学版,2006,36(4): 588-594.

[4]郑永光,陶祖钰,俞小鼎.强对流天气预报的一些基本问题[J].气象,2017,43(6).

[5]孔德兵,尚可政,王式功,赵文婧,叶伟.基于逐步回归分析的西北地区东部雷暴概率预报方法研究[J].干旱气象,2016,34(01): 181-187.

[6]秦春明,尚可政,王式功,李艳,杨德保,陈亿.辽宁葫芦岛 1~10d 雷暴天气预报方法[J].干旱气象,2012,30(02): 192-201.

[7]郭睿君.伊宁机场雷暴的统计预报方案[J].新疆气象,2000,(03): 9-10.

[8]胡富泉.一种强对流天气短期预报方法的研究和试报[J].高原气象,1996,(03): 99-105.

[9]张星辰,陈雷,把多辉,刘贤.河西走廊东部强雷暴天气分析与预报[J].气象科技,2003,(05): 280-283.

[10]袁野,胡邦辉,刘丹军,等.基于贝叶斯分类判别方法的雷暴预报研究[C].中国气象学会年会.2009.

[11]赵旭寰,王振会,肖稳安,等.神经网络在雷暴预报中的应用初步研究[J].热带气象学报,2009,25(3): 357-360.

[12]陈勇伟,郑涛,王汉堃,等.基于 BP 神经网络模型的雷电潜势预报[J].干旱气象,2013,31(3): 595-601.

Thunderstorm Short-Term Forecast Using Decision Tree Model

Xu Quanjun1,Xie Zhimin1,Li Zheng2,Pu Jun2,3,Wang Xuezhi2,Lin Qinghui2*

1.Marine Environment Special Of fice of the Chinese People's Liberation Army,Beijing 100081,China
2.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China
3.University of Chinese Academy of Sciences,Beijing 100049,China

The thunderstorm is local strong convection weather with light,hail,strong wind and heavy precipitation.It can lead to different degree of damages to air transportation,electric power facilities,communication equipment and buildings,even serious casualties.It is of important scientific significance and practical values to the thunderstorm forecast.This study analyzed the temporal-spatial distribution of the civil thunderstorm event in 2010~2015,indicating that the thunderstorm event mainly located in limited regions at 14:00~18:00 in July to August of the summer.The decision tree model was built based on the civil surface meteorological observations in 2010~2015,to predict the probability of the thunderstorm event in 3~4 hours.The model predict the positive and the negative samples with the error lower than 10%respectively,showing that the model was capable of the correct thunderstorm short-term forecast,and can provide reliable decision support for flight safety.Moreover,the feature importance shows that the local geographical characteristics and meteorological conditions have signi ficant influence on the thunderstorm event.

thunderstorm; temporal-spatial distribution; short-term forecast; decision tree

10.11871/j.issn.1674-9480.2017.02.008

国家重点研发计划项目 (2016YFB0501900,2016YFB1000600)

*通讯作者:林青慧(lqh@cnic.cn)

2017年1月20日

徐全军:中国人民解放军海洋环境专项办公室,高级工程师,研究方向为海洋环境监测与数据管理技术。

E-mail:zcqxjxqj@126.com

谢志敏:中国人民解放军海洋环境专项办公室,参谋,研究方向为气象水文预报保障。

E-mail:xie1981minyue@sina.com

李 铮:中国科学院与计算机网络信息中心,助理研究员,研究方向为大数据分析与挖掘。

E-mail:lizheng@cnic.cn

蒲 军:中国科学院计算机网络信息中心,硕士研究生,研究方向为时空数据挖掘与机器学习。

E-mail:pujun@cnic.cn

王学志:中国科学院与计算机网络信息中心,副研究员,研究方向为大规模时空数据处理与分析。

E-mail:wxz@cnic.cn

林青慧:中国科学院与计算机网络信息中心,副研究员,研究方向为科学数据管理与共享。

E-mail:lqh@cnic.cn

猜你喜欢

雷暴天气预测
无可预测
新德里雷暴
选修2-2期中考试预测卷(B卷)
选修2-2期中考试预测卷(A卷)
天气冷了,就容易抑郁吗?
谁是天气之子
盛暑天气,觅得书中一味凉
阜新地区雷暴活动特点研究
Weather(天气)
广西富川县雷暴气候特征分析