强对流天气人工智能应用训练基础数据集构建

2021-09-03熊安元刘雨佳战云健刘一鸣

应用气象学报 2021年5期

刘娜熊安元张强刘雨佳战云健刘一鸣

(国家气象信息中心，北京 100081)

引言

近20年，随着气象观测技术和数值预报技术的快速发展，天气预报水平取得了明显进步，欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,ECMWF)和中国的全球环流形势预报可用时效(以500 hPa位势高度距平相关系数高于0.6为标准)已分别达到8.5 d和7.2 d，中国24 h晴雨预报准确率已稳定在80%以上。强对流天气由于具有持续时间短、空间尺度小等特点，常规气象观测系统监测难度大，数值天气预报模式也难以准确描述其物理过程。中国中央气象台对雷暴大风和冰雹的6～24 h预报2010—2015年TS评分(threat score,风险评分)为0.01～0.07[1]，预报水平远不能满足服务需求，且6年间预报水平提高幅度有限。美国强风暴预报中心对雷暴天气6 h预报TS评分仅为0.155～0.213[2-3]。因此，中尺度灾害性天气预报问题是目前亟待攻克的科学难题。

随着高性能计算能力不断提升，基于数据驱动的机器学习技术在多个领域取得突破性应用成果。机器学习是人工智能的一个分支，是计算机在一定的数学模型框架下，自动学习大量输入样本的数据结构和内在规律，建立输入数据与标签数据间的数学关联，从而对新样本进行智能识别，实现对未来预测。因此，机器学习技术被认为在基于数据驱动的天气预报领域具有广泛的应用前景[4]，特别是数值天气预报尚不能解决的一些中小尺度的强对流天气预报问题。一些基于传统的机器学习算法，分别利用地面、高空等各类观测数据和中尺度数值预报产品对雷暴[5]、直线型强风[6]、冰雹[7-8]、龙卷[9]、对流初生[10]等强对流天气过程均表现出较强的预报能力。基于时序记忆特征的循环卷积神经网络模型也在天气预报领域表现出较好的应用潜力[11]，如利用二维或三维雷达反射率因子预报未来0～2 h雷达回波强度(或降水)的深度学习模型ConvLSTM(convolutional long short-term memory,卷积长短期记忆力模型)[12]、TrajGRU(trajectory gated recurrent unit,轨迹门控递归单元模型)[13]和MLC-LSTM(multi-level correlation long short-term memory,多层次相关长短期记忆力模型)[14]，表现出较传统雷达外推技术更高的预报水平。利用数值预报模式产品导出物理量预报雷暴、短时强降水、冰雹和雷暴大风等强对流天气的深度CNN(convolutional neural networks,卷积神经网络)模型，预报的TS评分也较高[15]。

机器学习的核心过程主要包括训练数据集构建和算法的优化调整。其中，训练数据集的数量和质量是关键，高质量的标签数据是核心[16]。美国普林斯顿大学研发了1400多万幅、包含21841个类别标签的图像数据集ImageNet，并成为自2010年以来国际历年目标物识别大赛的基准数据集[17]。美国斯坦福大学、普林斯顿大学和德国慕尼黑工业大学联合研制的ScanNet[18]数据集包含了250万个视图和1513个场景的三维相机姿态、曲面重建和语义注释的三维RGB-D视频，同ImageNet在二维图像识别中的价值相似，被应用于基于监督分类的深度学习算法模型训练，自动识别室内三维物体类别。ImageNet和ScanNet的建立，有力促进了国际上目标物智能识别领域的发展。

利用人工智能技术对灾害性天气进行识别和预报，就是利用大量历史样本数据，寻找各种观测数据与灾害性天气过程的关联关系，建立机器学习模型，实现灾害性天气的智能识别和预报。其中，训练数据的多样性和大样本是关键。强对流天气人工智能应用训练基础数据集(Severe Convective Weather DataSet for AI application,SCWDS)，尽可能收集与强对流灾害性天气发生发展有关联的多种类型气象数据，包括2012—2019年中国大陆区域雷暴、雷暴大风、短时强降水、冰雹、龙卷等历次强对流天气过程及其对应时空窗口范围的地面观测数据、探空探空数据、闪电地位数据、雷达基数据、卫星多通道数据和再分析产品等。

1 数据及处理

1.1 数据来源

本文选取2012—2019年中国大陆区域雷暴、雷暴大风、短时强降水、冰雹和龙卷5种强对流天气类型，研发面向人工智能识别和预报应用的训练基础数据集，包括历次强对流天气过程及其对应的地面观测数据、探空数据、闪电定位数据、雷达基数据、卫星多通道数据和再分析产品。强对流天气过程来源于国家气象信息中心存档的2413个国家级地面气象站的强对流天气过程记录、中国气象局灾情直报系统收集的气象灾情信息以及互联网媒体采集信息。雷暴、雷暴大风、短时强降水和冰雹台站观测记录占比分别为99%，98%，97%和79%；龙卷天气过程通过中国气象局灾情直报系统和互联网媒体采集获取，未收集到有效台站观测记录。地面观测数据来源于2413个国家级地面气象观测站，探空数据来源于120个高空气象探测站，闪电定位数据来源于中国气象局闪电定位系统以及中国科学院电工研究所三维雷电定位系统监测的地闪和云闪数据，雷达基数据来源于全国201个天气雷达站，卫星多通道数据来源于气象卫星FY-2E(2012年1月1日—2019年12月31日)、FY-2D(2012年1月1日—2015年6月30日)、FY-2G(2015年7月1日—2019年12月31日)的可见光通道反射率数据以及红外和水汽通道亮温数据，再分析产品用于记录天气过程发生前后环境条件，来源于ECMWF的逐小时ERA5再分析产品[19](https:∥cds.climate.copernicus.eu/)。

1.2 强对流天气过程

强对流天气过程定义为由于中小尺度对流性天气系统导致地面可观测到雷暴、雷暴大风、短时强降水、冰雹和龙卷等天气现象的深厚湿对流天气过程[20]，这些天气现象依照中国地面气象观测规范[21]进行定义(表1)。雷暴、雷暴大风、冰雹和龙卷是通过人工观测并记录的天气现象，短时强降水是基于地面分钟观测降水统计的连续60 min降水超过20 mm阈值的天气过程。对于由非对流性天气系统产生的数据，在数据清洗过程中尽可能剔除。数据集记录的强对流天气过程均包括开始时间、结束时间、发生位置、发生强度以及过程影响描述信息。

1.3 过程时空窗口定义

由于机器学习更关注多元数据之间的联系，是基于多种输入数据和标签数据组成的大量样本进行学习，因此，SCWDS是以观测到的强对流天气发生时间点和空间点为中心，由基于单站(或单点)发生的强对流天气过程，以及对应时间窗口和空间窗口范围内的反映天气过程发生发展特征的天气条件数据组成，天气条件数据时间窗和空间窗定义见表2。如果一次影响范围较大的强对流天气过程同时被多个台站(或地点)记录，则数据集定义其为基于多个站点的多次过程。如果一次天气过程包含若干种强对流天气现象，则数据集定义其为多种不同的强对流天气过程。图1给出2018年6月28日06:21—08:49(北京时，下同)发生在安徽省合肥市长丰县的一次短时强降水天气过程及其所对应的各类天气条件数据的空间窗范围，该过程对应的时间窗口为2018年6月28日04:21—10:49，样本数据包含该时间窗和空间窗范围内的地面观测数据、探空数据、闪电定位数据、雷达基数据、卫星多通道数据和再分析产品。

表1 强对流天气类型定义Table 1 Definition of severe convective weather events

表2 强对流天气过程对应的天气条件数据时间窗和空间窗定义(时间窗的负数表示过程开始前时长，正数表示过程结束后时长)Table 2 Temporal and spatial window definition of weather condition for severe convective weather events(negative represents hours before the event beginning，positive represents hours after the event ending)

图1 一次强对流天气过程的空间窗定义及所包含观测数据示例(蓝色圆圈表示200 km半径范围，红色圆圈表示500 km半径范围，填色表示FY-2E气象卫星长波红外通道亮温)Fig.1 An example of spatial window definition and corresponding observation composition for a severe convective weather event(the blue circle for 200 km and the red circle for 500 km are spatial windows，the shaded denotes FY-2E long-wave infrared channel brightness temperature)

1.4 数据质量控制

高质量数据是应用的基础，为确保训练数据集的质量，本数据集收集整编的地面观测数据、探空数据、雷达基数据均经过质量控制。地面观测气温、气压、风速(平均风速、最大风速、极大风速)、降水数据经过界限值检查、时间一致性检查、内部一致性检查及空间一致性检查[23-26]。高空标准等压面的温度、露点、位势高度、风观测数据经过界限值检查、内部一致性检查、垂直一致性检查、对流层顶合理性检查、温度超绝热递减率检查、风切变检查、时间一致性检查和综合静力学检查[27-28]。雷达基数据经过噪点(孤立点)滤除、径向电磁干扰回波消除、地物/超折射回波消除、晴空回波消除、海浪回波消除、速度退模糊等质量控制[29-34]。经过质量控制后的地面数据共17567032站次，高空数据共2832164站次，雷达数据共21084605站次。

1.5 数据清洗

数据清洗在对观测数据进行质量控制后，从数据集应用角度对数据进行重新审查和校验，从数据完整性、数据一致性、时间连续性、逻辑关系合理性、非对流性天气过程过滤以及互联网数据验证等角度对5种强对流天气过程进行数据清洗，剔除重复信息、时空属性不完整信息、要素间逻辑关系错误信息、时间不连续信息以及非对流性因素引起的天气过程信息，确保数据集多源训练样本的有效性和正确性，数据清洗方法见表3。

表3 强对流天气过程数据清洗方法描述Table 3 Description of data cleaning methods for severe convective weather events

1.5.1 雷暴过程数据清洗

雷暴过程数据清洗包括不完整数据清洗和不连续数据清洗：①若雷暴发生时间、发生位置缺失，按缺失数据剔除处理。②若雷暴持续时间不超过5 min，按缺失数据剔除处理；若同一地点两次雷暴过程时间间隔不超过15 min，按同一过程进行合并处理，否则按两个或多个独立过程处理[21]。

1.5.2 雷暴大风过程数据清洗

雷暴大风过程数据清洗包括不完整数据清洗、不一致数据清洗、不连续数据清洗、逻辑关系错误数据清洗和非对流性天气过程清洗：①若雷暴大风发生时间、发生位置缺失，按缺失数据剔除处理。②若雷暴大风过程的极大风速或最大风速缺失，按空间一致性统计方法，利用最邻近台站同一观测时间极大风速或最大风速补充极大风速或最大风速属性值。③多源雷暴大风过程对风力强度属性的描述方式不同，中国气象局灾情直报系统和互联网收集的雷暴大风最大风速、极大风速单位为风力等级，参照《地面气象观测规范》[21](2003)风力等级对照表，按照风力等级对应的风速中数作为风速值进行统一转换。④若雷暴大风过程持续时间不超过1 min，按不连续数据剔除处理；若同一地点两次雷暴大风过程时间间隔不超过15 min，按同一个过程进行合并处理，否则按两个或多个独立过程处理。⑤若极大风速低于17.0 m·s-1，按逻辑关系错误数据剔除处理。⑥若大风过程发生地200 km空间窗、±2 h时间窗内无闪电发生，按非对流性因素影响引起的大风过程剔除处理，由于闪电观测数据在空间覆盖上的不完整性，可能剔除了一些真实的雷暴大风过程，本研究共剔除10099个被认为是非对流性因素引起的大风过程(图2)。

图2 剔除非对流性因素引起的雷暴大风个例数量(a)及占比(b)Fig.2 Number(a)and proportion(b)of eliminated gale caused by non-convective weather factors

1.5.3 短时强降水过程数据清洗

短时强降水过程数据清洗包括不完整数据清洗、不连续数据清洗、非对流性天气过程清洗以及针对互联网收集数据的验证。①若短时强降水过程时空属性或过程降水量缺失，按缺失数据剔除处理。②若同一地点两次短时强降水过程时间间隔不超过60 min，按同一个过程进行合并处理，否则按两个或多个独立过程处理。③距离台风路径400 km以内的短时强降水过程按剔除处理，共剔除5576个短时强降水过程(图3)。④互联网收集的114个短时强降水过程，共101个过程通过真实性验证，其中《中国气象灾害年鉴》记录71个，国家级地面观测站记录30个。

图3 剔除台风造成的短时强降水个例数量(a)及占比(b)Fig.3 Number(a)and proportion(b)of eliminated short-time heavy rain caused by typhoon

1.5.4 冰雹过程数据清洗

冰雹过程数据清洗包括不完整数据清洗、不连续数据清洗以及针对互联网收集数据的验证：①若冰雹过程时空属性缺失，按缺失数据剔除处理。②若同一地点两次冰雹过程时间间隔不超过60 min，按同一个过程进行合并处理，否则按两个或多个独立过程处理。③互联网收集的388个冰雹过程，共265个过程通过真实性验证，其中《中国气象灾害年鉴》记录228个，国家级地面观测站记录33个，中国气象局灾情直报系统记录4个。

1.5.5 龙卷过程数据清洗

SCWDS收集到的龙卷过程共37个，均通过中国气象局灾情直报系统、中国气象灾害年鉴或互联网收集，未收集到国家级地面观测台站的龙卷天气过程有效记录。本数据集收录的龙卷过程均包含发生地点和精确到小时的起止时间。龙卷过程数据清洗包括不完整数据清洗、不连续数据清洗以及针对互联网收集数据的验证：①若时空属性缺失，按缺失数据剔除处理，大量龙卷过程记录，由于缺少具体发生时间，无法收录于本数据集。②若同一地点两次过程时间间隔不超过5 min，按同一个过程进行合并处理，否则按照两个或多个独立过程处理。③对从互联网收集的19个龙卷过程进行真实性验证，共14个过程通过真实性验证，均为《中国气象灾害年鉴》记录。

2 数据集描述

为便于机器学习模型训练的应用，SCWDS以每种强对流天气过程为单元，每个天气过程数据由该过程对应时间窗口范围内的若干样本组成。经过清洗的强对流天气过程数据共包含2012—2019年中国大陆区域范围内的雷暴、雷暴大风、短时强降水、冰雹、龙卷5种强对流天气共184865个个例(9256405个样本)，其中雷暴83259个个例(4162581个样本)，雷暴大风10426个个例(545359个样本)，短时强降水82896个个例(4175946个样本)，冰雹8247个个例(370281个样本)，龙卷37个个例(2238个样本)。

每个样本包含用于模型输入的天气过程发生地点、发生时间、发生强度等标注数据以及发生过程时间和空间窗范围内的地面观测数据、探空数据、闪电定位数据、雷达基数据、卫星多通道数据和再分析产品，数据集个例组织结构见图4。其中地面观测数据包括气温、气压、2 min平均风速及其风向、最大风速及其风向、极大风速及其风向、降水、相对湿度要素；探空数据包括标准等压面的位势高度、温度、露点温度和风观测数据；闪电定位数据包括云间闪、云地闪的雷电地理位置、电流强度和电流陡度数据；雷达基数据包括描述反射率因子、径向速度和速度谱宽的数据；卫星多通道数据包括逐30 min可见光(0.55～0.75 μm)通道反射率数据以及中红外(3.5～4.0 μm)、长波红外(红外1：11.5～12.5 μm；红外2：10.3～11.3 μm)和水汽(6.3～7.6 μm)通道亮温数据。

图4 强对流天气人工智能应用训练基础数据集个例组织结构Fig.4 Case structure of severe convective weather training dataset for artificial intelligence

3 强对流天气的时空分布特征

基于SCWDS收集的2012—2019年强对流天气过程对中国强对流天气的时空分布特征进行初步分析。由于龙卷样本量不足，有关龙卷的分析结果仅作为参考。

3.1 时间变化特征

3.1.1 季节变化

受东亚季风影响，中国大陆区域的强对流天气过程具有明显的季节变化特征(图5)。本数据集收集的各类强对流天气过程主要集中在3—10月，其他月份较少。雷暴、短时强降水、冰雹发生以夏季6—8月最为集中，雷暴、短时强降水、冰雹累计发生(总站次占比)分别为51081站次(61%)、57382站次(69%)、4669站次(57%)。雷暴大风以春季的4—5月发生最多，累计发生(总站次占比)为4435站次(43%)。龙卷以夏季6-8月和春季4月发生较多。

图5 强对流天气过程发生站次年变化Fig.5 Annual frequency variation of severe convective weather events

续图5

3.1.2 日变化

统计5种强对流天气过程日变化特征(图6)，短时强降水白天和夜间发生站次基本相当，平均为3454站次·h-1，略呈现03:00—04:00和15:00—16:00时段偏多的双峰特征。雷暴、雷暴大风、冰雹、龙卷呈现相同的日变化规律，一日之内发生雷暴、雷暴大风、冰雹、龙卷的高频时段是午后至傍晚时段(13:00—19:00)，14:00—16:00时段出现站次最多，该时段内雷暴、雷暴大风、冰雹出现站次(总站次占比)分别为30990站次(38.1%)、3703站次(35.6%)、3441站次(41.7%)，20:00后大幅减少，夜间较少发生。分析其原因，考虑大气环境条件，午后到傍晚是一日中热力条件和不稳定条件最佳时段，有利于风暴的形成和发展，夜间至凌晨，热力条件不足，风暴多难以形成和发展；考虑观测业务规定影响，2413个国家级台站中，838个原国家基准和基本站昼夜守班，全天有天气现象人工观测记录，其余1575个一般气象站20：00—次日08:00时段可不进行天气现象人工记录，但统计分析表明，838个原国家基准基本站和2413个国家级台站的雷暴、雷暴大风和冰雹天气过程日变化规律基本相同(图略)，图6反映的日变化规律未受人工观测时间的影响。

图6 强对流天气过程发生站次日变化Fig.6 Daily frequency variation of severe convective weather events

3.2 空间分布特征

受气候、地理、地形等因素影响，强对流天气过程发生次数具有较大的空间变化特征。5种强对流天气过程的空间分布特征如图7所示。雷暴发生南北差异较大，自南向北逐渐减少，主要分布于华南、江南地区以及青藏高原、云贵高原区域，单站发生普遍超过40次，局地超过100次。雷暴大风主要分布于华北北部以及江南沿海区域，单站发生普遍超过10次，其他区域大多低于6次。短时强降水主要分布于西南、华南、江南以及黄淮江淮地区，单站发生普遍超过100次，青藏高原以及西北地区较少，不超过20次。冰雹主要分布于青藏高原、云贵高原以及华北北部等地，单站发生普遍超过6次，黄淮、江淮、江南、华南以及西南地区北部冰雹发生较少，普遍低于2次。龙卷主要分布于江苏、广东以及琼州海峡等地。

图7 强对流天气过程发生次数空间分布Fig.7 Frequency distribution of severe convective weather events

4 数据集应用

随着机器学习技术在气象领域中的深度应用，利用人工智能技术挖掘多源观测数据和数值模式预报产品中尚未被认识的强对流发生发展有效信息已成为必然趋势，SCWDS将是利用机器学习技术进行强对流天气智能识别和预报的基础数据支撑。强对流天气识别和预报的应用场景千差万别，不同研究人员对影响强对流天气发生发展因素的认识各不相同，在进行机器学习模型训练时，可能选择不同的数据作为模型的输入样本，可利用SCWDS研发针对不同应用场景的有监督机器学习专项应用训练数据集。

有监督机器学习模型包括浅层学习模型和深度学习模型。浅层机器学习模型(如决策树、支持向量机、随机森林等分类算法)，需要根据专家经验在模型训练前确定输入特征，模型只负责分类或预测。如利用数值模式产品进行冰雹潜势预报，可从SCWDS中选择冰雹个例(是否出现，冰雹直径大小)作为标签数据，基于数值模式产品计算对冰雹发生发展有指示意义的天气环境物理量作为输入特征参数，组成训练数据集，通过机器学习模型训练获得预报冰雹是否发生及发生强度的智能预报模型。端到端的深度学习模型，主要基于多隐层机器学习网络结构和海量训练数据，自动抽取刻画数据信息的有用特征，进而进行分类或预测。如利用雷达产品、卫星产品和再分析产品开展有限区域雷暴大风0～2 h 短时临近预报，可从SCWDS中选择雷暴大风天气过程对应时空窗口范围的雷达基数据、卫星多通道数据、再分析产品分别计算对雷暴大风有指示意义的雷达特征、卫星特征及天气环境物理特征二维网格数据，并选择SCWDS中雷暴大风天气过程对应时空窗口范围的地面极大风数据生成标签二维网格数据，组成训练数据集，采用多隐层深度学习模型进行训练，获得该区域范围内雷暴大风的短时临近智能预报模型。

5 小结

围绕基于机器学习的强对流天气识别和预报对训练数据集的需求，构建中国大陆区域强对流天气人工智能应用训练基础数据集SCWDS。数据集研制过程中从数据完整性、数据一致性、时间连续性、逻辑关系合理性、非对流性天气过程过滤以及互联网数据验证等角度进行数据清洗，对表征天气条件的气象观测数据进行质量控制。数据集主要特征如下：

1)SCWDS以天气过程为单元，每个天气过程数据由该过程对应时间窗口范围内的若干样本组成，每个样本包含用于模型输入的天气过程发生地点、发生时间、发生强度标注数据以及发生过程对应时空窗口范围的地面观测数据、探空数据、闪电定位数据、雷达基数据、卫星多通道数据和再分析产品。

2)SCWDS共包含2012—2019年中国大陆区域的雷暴、雷暴大风、短时强降水、冰雹、龙卷5种强对流天气共184865个个例(9256405个样本)，其中雷暴83259个个例(4162581个样本)，雷暴大风10426个个例(545359个样本)，短时强降水82896个个例(4175946个样本)，冰雹8247个个例(370281个样本)，龙卷37个个例(2238个样本)。

3)SCWDS强对流天气过程发生具有明显的季节变化特征和日变化特征。雷暴、短时强降水、冰雹以6—8月最多，雷暴大风以4—5月最多，龙卷以6—8月和4月较多；短时强降水发生时间呈15:00—16:00和03:00—04:00时段偏多的双峰特征，雷暴、雷暴大风、冰雹、龙卷的高频时段是午后至傍晚时段(13:00—19:00)，以14:00—16:00时段最多。

4)SCWDS强对流天气过程发生次数呈现较大的空间变化特征。雷暴主要分布于华南、江南及青藏高原、云贵高原区域，单站发生普遍超过40次，局地超过100次；雷暴大风主要分布于华北北部及江南沿海区域，单站发生普遍超过10次；短时强降水主要集中在西南、华南、江南及黄淮江淮地区，单站发生普遍超过100次。冰雹主要分布于青藏高原、云贵高原及华北北部等地，单站发生普遍超过6次；龙卷主要分布于江苏、广东及琼州海峡等地。

训练基础数据集的样本数量和质量是影响机器学习模型性能的关键因素。由于大量强对流天气未被有效观测，同时为保证训练样本准确性，数据清洗过程过滤了大量不确定的训练样本，造成SCWDS部分强对流天气样本量不足。此外低涡、切变线天气尺度系统造成的强降水过程可能未被剔除，进而影响SCWDS短时强降水样本准确性。后续将通过丰富样本数量、优化数据清洗技术，提高训练样本完整性和准确性，不断提升数据集的科学和应用价值。