青岛沿海海雾决策树预报模型研究
2016-10-25高荣珍任兆鹏王建林青岛市气象局山东青岛266003
高荣珍,李 欣,任兆鹏,王建林(青岛市气象局,山东青岛266003)
青岛沿海海雾决策树预报模型研究
高荣珍,李欣,任兆鹏,王建林
(青岛市气象局,山东青岛266003)
利用青岛2006—2013年4—8月地面观测资料以及FNL再分析资料,采用分类与回归树(CART)方法建立了青岛沿海海雾决策树预报模型,并根据2014年4—8月海雾预报空报情况,调整了预报模型中部分判别流程及预报指标阈值。2015年5月预报结果表明:修订后的青岛沿海海雾决策树预报模型72 h内海雾预报准确率可达70%—75%左右,表明修订后的海雾决策树预报模型可基本满足常规业务预报需求。青岛沿海海雾决策树预报模型中2 m相对湿度和海表温度最为关键,另外850 hPa风向在海雾判别中也很重要,而且随着季节的不同判别阈值也明显不同。
CART;决策树预报模型;海雾;青岛沿海
1 引言
海雾是青岛沿海地区主要灾害性天气之一。随着社会的不断发展,海雾对人们日常生活的影响日趋明显,不仅直接影响海上的各类活动,而且对沿海地区交通的正常运行、空气质量、人类健康等均有重要影响。与其他灾害性天气相比,海雾的业务预报水平还远不能满足业务需求[1]。
海雾的预报方法主要有天气学方法、数值预报方法以及统计预报方法。天气学方法即基于天气形势利用天气学原理做出的天气预报方法,是目前沿海海雾预报的主要方法之一。近年来,海雾数值预报研究成果丰硕,部分成果进行了业务转化[2-3]。使用结果表明,数值预报对大范围海雾预报效果较好,对于局地性的、小范围海雾预报效果稍差[3]。统计预报方法在我国沿海地区海雾的业务预报中也取得了一定成效[4-7],常见的建模方法有逐步回归、模糊和神经网络、支持向量机(Support Vector Machine,SVM)以及分类与回归树(Classification and regression tree,CART)等,可实现未来是否有雾的判别。关于青岛沿海海雾有模式输出(Model Output Statistic,MOS)统计预报方法[4]、SVM统计预报方法[6],由于建模基于数值预报产品,所以随着数值预报模式的更新换代,上述预报方法已不在业务中使用。为此,需要重新建模。在统计预报方法中,分类与回归树方法是近年来普遍采用的一种数据分类方法[8],在医疗判断、气象预测等方面得到了很好的应用[8-11]。
本文旨在采用CART方法建立青岛沿海海雾预报模型,为海雾预报提供新方法。利用2006—2013年4—8月青岛沿海观测站(54857)地面观测资料,以及同期FNL再分析(Final Operational Global Analysis)资料,采用CART方法建立海雾决策树预报模型,并依据2014年4—8月空报情况对其进行修订,获得最终的青岛沿海海雾预报模型。
2 资料与方法
2.1资料
本文所用资料包括2006—2013年每年4—8月每天02、08、14、20时(北京时,下同)54857站地面人工观测资料和2014—2015年能见度仪观测资料。54857站为国家气象基本观测站,位于36.1°N、120.3°E,海拔76 m,距离海边2 km左右。本文以2006—2013年能见度、地面风向和天气现象作为挑选海雾记录的依据,并以“0、1”二元变量表示无雾和有雾。当能见度低于1 km、且天气现象记录为雾时,记为1;当能见度大于1 km,或能见度小于1 km,但天气现象为降水时记为0。另外,由于沿海地区的雾有可能混杂了辐射雾等其他不同性质的雾,考虑到青岛沿海海雾多出现在偏南风情况下,因此删除了在上述大雾记录中地面风向范围为270°—360°以及0°—90°记录。经上述预处理后,54857分类记录数3 462组,其中海雾记录291组。由于中国气象局2014年起取消了人工夜间观测,所以2014—2015年海雾日以能见度仪监测为准。
图1 地面观测站(*,54857站,36.1°N、120.3°E)与预报参考点(*,35.5°N、120.5°E)地理位置(文中预报参考点
表1 用于CART方法的预报变量
另外,本文使用FNL再分析资料作为分析青岛沿海海雾与海洋气象条件关系的预报变量。FNL资料空间分辨率为0.5°×0.5°,时间分辨率为逐6 h。预报参考点的位置选在54857站正南方海上一点(见图1),资料为周围四点平均。在预报变量的选择上,考虑到海雾发生条件,选取了海上低层大气风温湿要素以及海表温度、近海面层气温与海温差作为预报变量,共计52个(见表1),包括海表温度、2 m气温、海气温差、2 m相对湿度、行星边界层厚度(PBL)、2 m比湿、10 m风向风速和U、V分量,1 000—850 hPa各层相对湿度、云水、气温、U、V、风向、风速。
本文以实测海雾记录作为分类分析的目标变量,1为有雾,0为无雾,上述FNL资料中要素为预报变量。在分类记录构成上,海洋气象要素时间与海雾记录同时,因此将数值预报产品直接代进预报模型,即可预报未来是否有雾。
2.2 CART方法
CART方法是对数据进行分类,分类结果表现为结构简洁的二叉树(见图2),可以揭示数据中的结构化信息。决策树由节点和连线组成,每个节点会分成2个子节点,在树形结构末端的节点为终节点。CART算法核心是根据目标变量(本文中即有雾/无雾变量)从众多的预报变量中选择一个当前的最佳分支变量,从当前分支变量的众多取值中找到一个当前的最佳分割阈值,将数据分为两部分,重复这个过程,直到数据不可再分或人为指定结束。对于数值型预报变量,将记录的值从小到大排序,计算每个值作为临界点产生的子节点的Gini系数[8-9],最小的Gini系数即是最佳的划分点。通过比较每个预报变量的最小Gini指数值,确定最后的分类及阈值,使在该阈值下的分裂能最大化的将节点上的样本分类。Gini指数表示一个随机选中的样本在子集中被分错的可能性,即为这个样本被选中的概率乘以它被分错的概率[8-9]。
2.3决策树预报模型修订方法
基于CART方法建立的海雾预报模型,采用2014年4—8月FNL资料,即可实现青岛54857站海雾有无的预报。根据空报情况,对该模型的部分判别流程和阈值进行调整,以减少模型的空报率。首先确定空报时次以及预报有雾正确时次的终节点,对同一终节点的记录进行汇总;根据该终节点的判别流程,分析其中判别变量空报时次以及预报有雾正确时次的取值分布,以不影响无雾预报准确率、少增加漏报率为前提,对该判别变量的阈值进行调整,达到减少模型空报率的目的。另外,结合空报时次、预报有雾正确时次气象要素取值以及海雾形成气象条件(如海雾形成时风速不能太大、风向分布等),在部分终节点的判别流程中增加了相应的判别流程。
3 结果与分析
3.1海雾预报决策树的建立
以54857站海雾记录作为目标变量,以预报参考点上52个海洋气象要素作为预报变量,采用CART方法进行分类分析,得到误分率最小的分类树含有9个终节点(见图2)。图中最上端为节点1(根节点),红色框为终节点。每个节点框内信息依次为节点名称、类名称、分类变量及阈值、当前节点下0/1类别记录数及所占比例以及总记录数,其中某节点类名称取决于0/1类记录百分比。节点1类名称为0(表示无雾类),包含全部样本共3 462个记录,其中无雾记录数为3 171,占当前节点样本数的91.6%,有雾样本记录数为291,占8.4%。分类变量为2 m相对湿度,分裂阈值为88.5%,依据节点1的判别条件(左侧为是,右侧为否)分裂出节点2和节点6。其中节点2表示当2 m相对湿度小于等于88.5%时,包含样本2 437个记录,其中无雾记录数为2 343,占当前节点样本数的96.1%,有雾样本记录数为94,占3.9%,节点2类名称也为0;节点6表示当2 m相对湿度大于88.5%时,包含样本1 025个记录,其中无雾记录数为828,占当前节点样本数的80.8%,有雾样本记录数为197,占19.2%,类名称为1(表示有雾类)。以此类推,终节点类别为0的均可作为无雾判别,类别为1的则可作为有雾判别。
图2 青岛沿海海雾决策树模型
该决策树预报模型中,终节点2、终节点7以及终节点9为预报有雾分支。终节点2分支是当2 m相对湿度在77.5%—88.5%时,海表温度低于22.52℃,900 hPa相对湿度≤46.5%,若850 hPa风向<225.5°,则判断有雾。终节点7分支是当2 m相对湿度>88.5%时,海表温度低于23.67℃,若1000 hPa U风速>-6.21 m/s,则判断有雾。终节点9分支同样是在2 m相对湿度>88.5%条件下,但海表温度高于23.67℃时,若850 hPa风向>205.5°则判断有雾。以往研究表明,青岛沿海的海雾多出现在地面偏南风流场下[5],海雾与850 hPa风向的关系研究较少,而本文通过分类回归获得的决策树预报模型中,终节点2和终节点9两个海雾预报分支均与850 hPa风向有关,2 m相对湿度相对低、海表温度相对低时要求850 hPa风向<225.5°,而高温高湿情况则要求850 hPa风向>205.5°,这还需要进一步验证,表明今后分析青岛沿海海雾不仅要考虑地面风还需要考虑到850 hPa风。
如上所述,与青岛沿海海雾相关性较大的预报变量有2 m相对湿度、海表温度、900 hPa相对湿度、850 hPa风向、1000 hPa U,这与广东沿海海雾以及韩国Kunsan附近海雾预报变量均有所不同[10-11]。对于决策树而言,高层节点上的判别变量和阈值比低层节点上的判别变量和阈值更有价值[8]。可见,2 m相对湿度以及海表温度在青岛沿海海雾预报中最为关键,强调了水汽以及海温在海雾形成中的重要性。
3.2修订决策树预报模型
为检验该模型的预报准确性,本文利用2014年4—8月153 d资料进行了检验。预报模型基于图1预报参考点上GFS每日20时起报预报结果,时间间隔逐6 h,预报时效72 h。每日20—次日20时5个时次,一个时次判别有雾则预报当日有雾。2014年4—8月,54857站能见度仪监测雾日35 d,预报员主观预报以及决策树客观预报结果见表2。其中,主观预报有雾正确19 d,漏报16 d,空报12 d,预报无雾正确81 d,预报准确率为78%,TS评分为0.4;决策树预报TS评分0.43,预报准确率为70%。两者TS评分相当,决策树预报略好于主观预报,但由于决策树空报较多,漏报较主观预报明显偏少,所以对决策树预报模型进行消空是非常必要的。
表2 2014年4—8月海雾预报结果对比
为解决决策树空报问题,本文对空报记录进行了详细分析,其中终节点2分支空报12次,终节点7分支空报21次,终节点9分支空报2次。通过对空报记录气象要素的分析对该预报模型进行了修订。
由图2可见,终节点2预报有雾流程中900 hPa湿度限制条件是小于等于46.5%,但对于下限没有要求。图3为终节点2分支空报时次以及预报有雾正确时次900 hPa相对湿度,一天当中多个空报时次或预报有雾时次选取最小相对湿度。分析后发现900 hPa相对湿度基本>20%,只有3 d是<20%的,其中2 d属于空报日,1 d属于预报有雾正确,在终节点2流程中将RH900 hPa≤46.5增加下限改为20%≤RH900 hPa≤46.5%条件,可以减少空报2 d,由终节点4分支可知也不会影响无雾预报准确结果,但有可能导致漏报,由图3中黑线右侧有1 d 900 hPa相对湿度<20%却是有雾的,就2014年情况而言更改条件后增加1 d漏报,即2014年4月8日。
图3 900 hPa相对湿度
另外,终节点2流程中最后一步对850 hPa风向的限定条件也是没有下限。图4给出了终节点2空报有雾时次以及预报有雾正确时次850 hPa风向分布,可见850 hPa风向多处于一、四象限,其中空报中部分时次850 hPa风向为东北向;对于预报有雾正确情况,其中4 d里有3 d是部分时次为东北风部分时次偏南风,所以若去除850 hPa东北风预报有雾时次并不影响模型预报当天有雾,但有1 d是完全东北风,所以这天会漏报。漏报的这一天与上述900 hPa湿度增加限制条件下的漏报日相同,2014年4月8日,850 hPa为东北风,地面为偏南风,当天20时探空曲线上湿层非常浅薄(图略),表明海雾厚度较薄。总而言之,从终节点2这个分支来看,850 hPa为东到东北风情况出现的海雾一般持续时间不长,海雾强度不大,如图5所示。由此,在流程中增加对850 hPa风向的限定,即东到东北风不考虑海雾,105°≤wd 850≤225.5°,这样可减少空报3 d,增加漏报1 d,且不影响预报无雾正确日数。
图4 终节点2空报时次()以及预报有雾正确时次
图5 不同日期下54857站能见度演变
图6 54857站2014年4月8日20时—10日20时天空状况、能见度、地面风以及850 hPa高空风演变
另外,在空报时次中,有两天东南风情况下,分别为2014年4月25日和2014年5月10日,地面处于倒槽或江淮气旋前部,1000 hPa U分量风速达到了-7到-10 m/s。黄斌等[10]指出黄海海雾形成时风速增强到10 m/s以上时,海面的动量交换增强,混合层增厚,水汽不能聚积在近水面,海雾易于消散或抬升为低云。结合终节点7限定条件,考虑在该流程中增加1000 hPa U分量风速限制即u1000>-7.0 m/s,东风分量不能太大。本文中为U分量,并非为全风速,所以CART方法确定的U分量阈值要略小于全风速。这样通过修订终节点2流程中部分判别条件可减少空报6次,仅增加漏报1次,即近地层比较薄的海雾过程被漏掉。
终节点7流程基本是指2 m湿度>88.5%、海表温度低于23.67℃时,以1000 hPa U分量风速来判断是否有雾。借鉴终节点2流程,考虑增加850 hPa风向限定条件,即90°<wd850<360°,对850 hPa东北风时次模型预报有雾情况进行消空,可减少空报9 d,而且没有增加漏报、也不影响无雾预报准确(图略)。与终节点2稍有不同的是,终节点7中850 hPa西北风时次预报有雾时次有所增多,所以风向上限设为360°。这种情况多为850 hPa低槽刚过境,西南风转西北风,而地面仍为偏南风,前期海雾形势以及海雾仍存在,待地面冷空气下来后,北风逐渐加大,海雾逐渐消散,2014年4月10日即为这样的情况。图6为54857站2014年4月8日20时—4月10日20时天空状况、能见度、地面风的演变以及850 hPa高空单站图演变。为此,保留了850 hPa西北风时次预报的海雾情况,这也是符合天气学原理的。
终节点9流程为高温高湿条件下,依据850 hPa风向预报是否有雾。就终节点8、9而言,850 hPa风向均为西南到西北风向(图略),根据风向分布情况若将流程中850 hPa风向阈值稍微调整到210°,则可减少空报1 d,不增加漏报。由此可见,850 hPa风向与青岛沿海海雾的关系还是比较复杂的,还有待于今后进一步研究。
修订后的决策树预报模型流程图如图7所示。基于GFS数据,利用修订后模型做2015年5月海雾预报,24 h、48 h、72 h海雾预报准确率分别为70%、69%和76%,高于预报员主观预报准确率66%,基本可以满足海雾日常业务预报的需求。
图7 修订后的青岛沿海决策树预报流程
4 结果与讨论
本文利用2006—2013年4—8月青岛沿海观测站(54857)地面观测资料,以及同期FNL再分析资料,探讨了采用CART方法建立青岛沿海海雾预报模型的可行性,并依据2014年4—8月试报及空漏报情况,结合海雾形成时气象条件,调整了流程中部分判别条件和阈值,显著的减少了模型的空报率,从而提高了模型的预报准确率。修订后的预报模型对2015年5月的预报结果表明,72 h内海雾预报准确率最高可达76%,与采用MOS方法作青岛海雾判别预报的预报准确率基本相当,表明CART方法对于海雾预报是切实可行的方法。当然,不同海域海雾的判别条件是不同的,韩国西海岸Kunsan附近海雾预报判别变量主要为露点与海表温度之差、海表温度以及850 hPa温度[10],同属广东沿岸的3个站海雾判别条件也是存在较大差异的[11],因此,将CART方法推广使用到其他海域仍需要重新建立模型。
青岛沿海海雾决策树预报模型中2 m相对湿度和海表温度最为关键,基本反映了青岛沿海海雾形成的水汽条件和下垫面条件,物理意义比较明确。另外,850 hPa风向在青岛沿海海雾决策树预报模型中也很关键,而且随着季节的不同判别阈值也明显不同,这是以往研究中尚未提及的,今后需要加强这方面的研究。
[1]张苏平,鲍献文.近十年中国海雾研究进展[J].中国海洋大学学报,2008,38(3):359-366.
[2]高山红,齐伊玲,张守宝,等.利用循环3DVAR改进黄海海雾数值模拟初始场Ⅰ:WRF数值试验[J].中国海洋大学学报,2010,40(10):1-9.
[3]黄彬,陈涛,陈炯,等.黄渤海海雾数值预报系统及检验方法研究[J].气象科技,2009,37(3):271-275.
[4]胡基福,郭可采,鄢利农.应用模式输出统计作海雾出现判别预报[J].青岛海洋大学学报,1996,36(4):439-445.
[5]王厚广,曲维政.青岛地区的海雾预报[J].海洋预报,1997,14(3): 52-57.
[6]江敦双,张苏平,陆惟松.青岛海雾的气候特征和预测研究[J].海洋湖沼通报,2008,(3):7-12.
[7]胡波,杜惠良,郝世峰,等.一种统计技术结合动力释用的沿海海雾预报方法[J].海洋预报,2014,31(5):82-86.
[8]Breiman L,Friedman J H,Olshen R A,et al.Classification and regression trees[M].Wadsworth,Belmont,CA,1984:358.
[9]Benz R F.Data mining atmospheric/oceanic parameters in the design of a long-range Nephelometric forecast tool[D].Dayton:Air Force Institute of Technology,2003:42-47.
[10]Lewis D M.Forecasting advective sea fog with the use of classification and regression tree analyses for Kunsan air base[R]. AFIT/GM/ENP/04-08,2004.
[11]黄健,黄辉军,黄敏辉,等.广东沿岸海雾决策树预报模型[J].应用气象学报,2011,22(1):107-114.
[12]黄彬,毛冬艳,康志明,等.黄海海雾天气气候特征及其成因分析[J].热带气象学报,2011,27(6):920-929.
Study of the sea fog prediction by classification and regression tree(CART)analyses in Qingdao coastal area
GAO Rong-zhen,LI Xin,REN Zhao-peng,WANG Jian-lin
(Qingdao Meteorological Bureau,Qingdao 266003 China)
Using surface observation data and FNL reanalysis data during the period from April to August in 2006—2013,a forecast decision tree for sea fog in Qingdao coastal area was produced based on the CART tree method.The flow path and threshold were adjusted partly based on the sea fog forecasting results from April to August,2014.A final sea fog forecast tree for Qingdao coastal area was developed.The final forecast decision tree produced an accuracy rating of about 70—75%for application in real-time sea fog forecasting 72 h in advance in May,2015.Relative humidity at 2 m and sea surface temperature were considered important predictors in the forecast decision tree model of Qingdao coastal sea fog.Moreover,850 hPa wind direction also had a close relation with Qingdao coastal sea fog,and the threshold changed with the seasons.
CART;forecast decision tree;sea fog;Qingdao coastal area
P732
A
1003-0239(2016)04-0080-00
10.11737/j.issn.1003-0239.2016.04.010
2015-10-12
山东省气象局气象科学技术研究项目青岛专项课题“青岛沿海海雾及能见度精细化预报技术研究”(sdqd2013-03)。
高荣珍(1974-),女,高级工程师,博士,从事中短期预报业务以及海雾研究。E-mail∶gaorz0@163.com