基于集成学习的风云四号遥感图像云相态分类算法
2020-05-25田晓宇
高 军,陈 建,田晓宇
基于集成学习的风云四号遥感图像云相态分类算法
高 军1,2,陈 建1,田晓宇1
(1. 上海海事大学 信息工程学院,上海 201306;2. 西藏自治区经济和信息化厅信息化推进处,拉萨 850033)
云相态分类在气象预报和气候研究中具有重要的地位。我国新一代气象卫星风云四号的成像仪在光谱通道数量和空间分辨率较上一代风云二号有较大提升,这为云相态的研究提供了新的遥感数据。本文首先对风云四号相隔15min的遥感图像进行分析,然后提出亮温云相态指数,该指数可以进行初步云相态分类,最后在此基础上提出基于集成学习的云相态分类算法。实验结果与风云四号官方云相态分类结果进行比较,水云的一致率达到91.69%,冰云的一致率达到76.10%。
云相态;集成学习;风云四号;遥感图像处理
0 引言
云相态是指云所处的热力学状态,分为液态或固态。云相态变化对地球大气辐射系统收支平衡、天气系统的形成与演变都有不可忽视的影响,因此研究云相态对探究全球大气变化机理,预测飞机积冰和反演云微物理性质等都具有现实意义[1–3]。
卫星遥感技术具有观测范围广、不受时空限制的优点,越来越多的人利用卫星遥感数据进行云相态分类。根据卫星成像仪观测数据特性的不同,国内外研究者提出了许多云相态分类算法。主要的云相态分类方法分为2种,一种为光谱阈值法,另一种为机器学习算法。光谱阈值法一直被广泛使用,包括经典的热红外波段三光谱法[4],以及后来经过三光谱法改进的双光谱法[3],还有仅利用热红外单通道的单光谱阈值法[5]。除了使用热红外波段,可见光和近红外波段也被用来进行云相态分类,包括光谱比值[6]和光谱对应的云微物理特性[7]等方法。单独使用热红外波段或者可见光和近红外波段有一定限制,研究者渐渐联合使用可见光,近红外和热红外波段[8]来提高云相态分类的准确性。刘建[9-10]等人结合云微物理特性在风云一号和风云二号上使用多光谱阈值法进行云相态分类。Himawari气象卫星官方[11]也使用多光谱阈值法进行云相态分类。光谱阈值法中,无论是三光谱法,双光谱法,多光谱法等,阈值选取上都有一定的主观性且阈值的大小与具体的遥感数据有关,易受经纬度,季节,气候等影响。
随着机器学习的快速发展,许多研究者使用机器学习相关算法进行云相态分类[12],神经网络算法由于非线性拟合性突出被大量使用。从参数优化的反向传播神经网络[13]、经过特征筛选的BP神经网络(Back Propagation Neural Network,BPNN)[14-15],再到经模拟退火算法改进的BP神经网络[16],还有自组织映射网络[17]。神经网络的使用降低了建立云相态分类模型所需的成本,减少了云相态分类所需的时间。但是BP神经网络属于有监督学习范畴,训练该神经网络需要大量有标签的数据,大部分研究者对BP神经网络训练时都使用了官方已经标注的云相态数据。自组织映射网络属于无监督学习,训练时不需要使用标签数据,但是训练数据量很大时,自组织映射网络神经元数量也随之增加,计算复杂度较高。
风云四号A星(FY-4A)属于新一代静止气象卫星,其搭载的多通道扫描成像辐射计(Advanced Geosynchronous Radiation Imager,AGRI)为云相态分类提供了新的数据来源。相比风云二号辐射成像仪,AGRI的观测性能有显著提高,其中,辐射成像仪观测通道从5个扩展到14个(6个可见/近红外波段、2个中波红外波段、2个水汽波段和4个长红外波段),观测时效从半小时提高到15min,最高空间分辨率从1.25km提高到500m。AGRI的观测通道数量与国际同类卫星相比水平相当[18–22]。
本文针对风云四号成像仪的多通道和相对于观测区域静止的特性提出一种基于集成学习的云相态分类方法,此方法包括两步:
1)根据风云四号特性提出亮温云相态指数,并应用该方法建立云相态数据集。
2)使用基于集成学习的云相态分类算法,应用云相态数据集进行训练,实现云相态分类。
1 数据集建立
1.1 数据来源
本文实验数据主要源于风云四号AGRI成像仪的数据。表1列出了风云四号AGRI成像仪的通道设置。
风云四号AGRI的数据可以从国家卫星气象中心数据服务网获取。截止到目前,风云四号A星的数据产品包括一级数据产品,大气产品和辐射产品等。本文需要用到的风云四号产品包括成像仪全圆盘4KML1数据(以下简称:L1数据),云检测实时产品(以下简称:云检测数据),云相态实时产品(以下简称:云相态数据)。
1.2 数据集建立
1.2.1 亮温云相态指数
风云四号属于静止轨道气象卫星,具有对同一片区域持续观测的优势。15min成像间隔可以忽略太阳高度角对亮温和反射率的影响,比较此时刻卫星云图和15min前的卫星云图,可以得到每个云像素点前后15min反射率和亮温的变化量。反射率只有光照时有效,亮温不受昼夜变化的影响,使用亮温进行云相态分类可以在昼夜间平滑过度。结合风云四号A星的通道特点,本文提出亮温云相态指数(Brightness temperature Cloud Phase Index,BTCPI),亮温云相态指数用公式(1)表示:
BTCPI=BTnow-BTpast(1)
式中:BTnow为当前图像云像素点对应的亮温值;BTpast为15min前图像云像素点对应的亮温值。当云层移动时,遥感图像中的云区域从水云变成冰云,或者从冰云变成水云。因为冰云和水云在不同波段下的亮温值不同[10,13],相同波段下前后15min两张遥感图像的亮温值相减结果与0比较即可检测出云相态。该公式只针对15min前后都有云且云相态发生变化区域。若某区域15 min前后从无云变成有云、有云变成无云或云相态不变,亮温云相态指数则无法检测出该区域的云相态。
表1 AGRI通道成像设置
为了减少噪声对亮温云相态指数的影响,人为设置一个常数(>0),使分类结果更加准确,公式(2)如下:
当冰云的亮温值低于水云时:15min前图像Result<0的云区域为的冰云,Result>0的云区域为水云。
风云四号A星亮温云相态指数的示意图如图1所示。
图1 亮温云相态指数示意图
图1中(a)和(b)分别为风云四号卫星15min之前和15min后去除非云像素区域的亮温图,黑色区域代表无云。(c)为亮温云相态指数得到的15min前云相态数据,为了方便观察,上色处理后,红色代表水云,蓝色代表冰云。可以看出,利用亮温云相态指数能够清楚分类出部分冰云和水云。
1.2.2 建立训练和预测数据集
选取L1数据过程中,考虑昼夜和四季的变换对遥感影像遥感卫星云图的影响。本文选取不同季节、昼夜下的数据,以丰富数据集共计48个时刻。
L1数据并不能直接用于云相态分类,需要对该数据进行预处理。预处理有2个目的:第一个利用云检测数据去除遥感图像中无云区域的数据;第二个是对遥感图像有云的数据进行辐射定标。云检测是云相态分类的基础和前提,一般先进行云检测,标记出卫星云图中有云和无云的部分,然后再进行云相态分类。风云四号云检测方法可以参考高军等人的研究[23],风云四号官方也给出了云检测的结果,本文直接使用官方云检测数据。云检测完成后需要根据给定的辐射定标表进行辐射定标。根据官方辐射定标表,表1中,FY-4A卫星1到6号通道定标为反射率,7到14号通道定标为亮温。
利用亮温云相态指数,对L1数据进行处理,构建云相态数据集。为了弥补数据集较少的情况,消除训练数据集和预测数据集选取的偶然性,利用6折交叉验证[24]的方法,将构建好的云相态数据集分为6组,5组为训练集,1组为预测集。
2 集成学习
随机森林(Random Forest,RF)是集成学习代表算法之一。随机森林由多棵决策树[25]构成,决策树是一种重要的分类方法,单一的决策树可能会发生过拟合。随机森林中的决策树引入了随机属性选择,传统的决策树在当前特征中选取最优的特征开始进行划分,在随机森林中决策树的每个结点都是从特征集合中随机选择个特征子集,然后从特征子集中选择最优的特征进行划分[26]。随机森林算法能够解决过拟合等问题,还可以获得优越的泛化性能。集成学习示意图如图2所示。
图2 集成学习示意图
2.1 特征选取
特征选取对训练机器学习算法有重要作用,特征选取不同可能影响最终建立模型与预测结果的好坏。水和冰的折射率虚部[27]能够表示水、冰粒子吸收辐射的能力,也是云相态分类的一种重要参考因子[14-15],如图3所示。
图3 冰和水的折射率虚部随波长变化图
风云四号成像仪中有波长为6.25mm、7.1mm和12mm、13.5mm通道,从图3可以看出,6.25mm和7.1mm连线斜率与12mm和13.5mm连线斜率在水态和冰态下有差异,因此可以根据斜率来区分冰云和水云。定义水汽指数7.1和热红外指数13.5来描述折射虚部的斜率不同,如公式(4)和公式(5)所示:
结合其他云相态分类算法所使用的波段,本文将8.5mm和10.7mm的亮温差BT8.5_10.7,10.7mm和12mm亮温差BT10.7_12也作为分类的特征。集成学习特征选取如下表2所示。
表2 云相态分类特征提取
2.2 实验过程
实验使用scikit-learn机器学习库进行随机森林的平台搭建,使用10棵决策树进行集成学习。随机森林通过训练集形成云相态分类模型,再利用分类模型对预测集进行预测,得到云像素点为水云和冰云的概率,选取概率较大者为预测的结果。
3 结果与讨论
本文对云相态分类结果从两方面进行比较。一方面从视觉上进行比较,另一方面从数据上进行比较。
3.1 视觉对比
视觉对比法是直接通过人眼观察结果图像,该方法可以很直观地看出云相态分类的结果和每种云相态的轮廓。
选取2018年10月23日7时(北京时间2018年10月23日15时)的FY-4A遥感图像作为代表,使用本文算法对该遥感图像进行云相态分类,得到的云相态分类结果图和风云四号官方云相态产品图像、FY-4A通道合成图、Himawari-8云产品图像进行比较。
图4为3种云相态分类算法的结果图和官方云相态图。其中(a)为FY-4A官方云相态图,(b)为本文算法得到的云相态分类结果图,(c)为BP神经网络分类结果图,(d)为阈值法分类结果图。由图4(b)可以看出,本文算法能够将大部分的冰云和水云正确分类。FY-4A官方云相态产品把云分为液态水云、过冷水云、混合云、冰云。本文将液态水云和过冷水云都归为水云。官方云相态产品中有混合云,所以混合云部分在云相态分类结果(b)中被冰云或水云代替。
图4 不同算法云相态分类结果图
图5为本文算法结果与FY-4A通道合成图。FY-4A通道合成图是利用通道2,通道3和通道5进行图像合成。3个通道的差异能够反映水体,云和地物信息,由于水云在这3个通道的反射率接近,在合图像中为白色,而积雪和冰云的信息在通道5的反射率远远高于水,图像中为蓝色调[19],为了提高人眼的观测性,提高了亮度,通道合成图像如图5(a)所示。利用本文算法得到的云相态分类结果如图5(b)所示,水云用红色标出,冰云用蓝色标出。从整体看,本文算法的云相态分类结果在不同下垫面检测区域表现良好。
图5 整体对比图
为了比较细节,选取中国区附近,澳大利亚附近区域进行比较。针对中国区的云相态情况如图6所示。可以看出在水云中的细小冰云也被识别出来。针对澳大利亚区域附近云相态分类结果如图7所示。一些细小薄云也能区分出云相态。
图6 中国区域附近的云相态情况
图8为本文算法结果与Himawari-8云产品图像。Himawari-8监控范围与FY-4A有部分重合,该卫星在2015年已经业务化,对应的各种气象产品已经发布。气象产品中的云产品包含了云分类产品,但Himawari-8的云分类产品没有明确指出具体的云相态。在ISCCP的云分类标准中[5],层云、层积云和积云属于低云,云相态以水云为主,本文把这类云归为水云;雨层云、高层云、高积云为中云,归类为冰水混合云;深对流云或高云、卷云为高云,归类为冰云。
图7 澳大利亚附近区域的云相态情况
中国南部及周边区域Himawari-8卫星的云分类产品与云相态分类结果如图8所示。从图中可以看出,由于多了混合云的存在,一部分冰云和水云被归为了混合云,但云相态分类的大致轮廓相似,存在的水云基本都被检测出来。
图8 中国南部及周边区域的云相态情况
3.2 数据评估
本文使用准确率、错误率、灵敏性和特效性4个度量对云相态分类模型进行评估[28],对比使用官方云相态数据作为真实云相态数据。设水云为正元组,冰云为负元组,准确率、错误率、灵敏性和特效性计算公式如下:
式中:TP、TN、FP、FN、P、N分别表示真正例、真负例、假正例、假负例、正样本数和负样本数。本文算法,BP神经网络,阈值法云相态分类模型6次交叉验证评估均值详情如表3所示。
表3 云相态分类模型评估详情
从表3评估结果可以看出,本文算法结果准确率超过了其他两种分类算法,分类模型效果良好。
4 结论
本文提出的基于集成学习的云相态分类算法,针对FY-4遥感图像,该算法可以提供相对良好的云相态分类结果。该算法的关键是利用亮温云相态指数构建云相态数据集。相对于传统的人工标注法和阈值法为数据贴标签,亮温云相态指数对L1数据进行初步云相态分类进而产生大量标签且该方法对使用者先验知识要求不高。分类特征的提取主要利用不同波段之间对应冰云和水云的亮温值差异。随机森林利用训练集训练最后建立云相态分类模型,经过评估,该模型的分类准确率较好,可以进行快速云相态分类。云相态结果图在视觉上和官方结果图大致相当,能够反映不同区域、水云冰云交界处的云相态特征,对于一些细小的薄云也能够正确分类,总体分类效果良好,能为后续其他云数据反演工作提供参考依据。同时,本文算法对云相态只划分为水云和冰云,下一步工作中,将针对混合云相态的划分进行研究。
[1] Shupe M D. Clouds at Arctic Atmospheric Observatories. Part II: Thermodynamic Phase Characteristics[J]., 2011, 50(3): 645-661.
[2] Knap W H, Stammes P, Koelemeijer R B A. Cloud Thermodynamic-Phase Determination From Near-Infrared Spectra of Reflected Sunlight[J]., 2002, 59(59): 83-96.
[3] 任建奇, 严卫, 叶晶, 等. 云相态的卫星遥感研究进展[J]. 地球科学进展, 2010, 25(10): 1051–1060.
REN Jianqi, YAN Wei, YE Jing. Advances in Satellite Remote Sensing of Cloud Phase State[J]., 2010, 25(10): 1051-1060.
[4] Ackerman S A, Smith W L, Revercomb H E, et al. The 27–28 October 1986 FIRE IFO Cirrus Case Study: Spectral Properties of Cirrus Clouds in the 8–12 μm Window[J]., 2009, 118(118): 2377-2388.
[5] Rossow W B, Schiffer R A. Advances in understanding clouds from ISCCP[J]., 1999, 80(11): 2261-2287.
[6] King M D, Platnick S, Yang P. Remote Sensing of Liquid Water and Ice Cloud Optical Thickness and Effective Radius in the Arctic: Application of Airborne Multispectral MAS Data[J]., 2004, 21(6): 857-875.
[7] WANG J, CHAO L, MIN M. Effects and Applications of Satellite Radiometer 2.25-μm Channel on Cloud Property Retrievals[J]., 2018, 99: 1-10.
[8] Arking A, Childs J D. Retrieval of Cloud Cover Parameters from Multispectral Satellite Images[J]., 2003, 24(4): 322-333.
[9] 刘健, 董超华, 朱元竞, 等. FY-1C资料在云顶粒子热力学相态分析中的应用研究[J]. 大气科学, 2003, 27(5): 901-908.
LIU Jian, DONG Chaohua, ZHU Yuanjing. Thermodynamic Phase Analysis of Cloud Particles with FY-1C Data[J]., 2003, 27(5): 901-908.
[10] 刘健, 李云. 风云二号静止气象卫星的云相态识别算法[J].红外与毫米波学报, 2011, 30(4): 322-327.
LIU Jian, LI Yun. Cloud phase detection algorithm for geostationary satellite data[J]., 2011, 30(4): 322-327.
[11] MOURI K, IZUMI T, SUZUE H. Algorithm Theoretical Basis Document for Cloud Type/Phase Product[EB/OL]. http://www.data. jma.go.jp/mscweb/technotes/msctechrep61-2.pdf. 2016.
[12] 郭洪涛, 谢欢欢, 马英, 等. 基于支持向量机的云相态分析[J]. 解放军理工大学学报: 自然科学版, 2012, 13(2): 226–231.
GUO Hongtao, XIE Huanhuan, MA Ying. Analysis of Cloud Phase Based on Support Vector Machine[J]., 2012, 13(2): 226-231.
[13] 熊贤成, 杨春平, 敖明武, 等. 基于BP神经网络的云相态检测方法研究[J]. 遥感技术与应用, 2015,30(4): 714-718.
XIONG Xiancheng, YANG Chunping, AO Mingwu. AResearch on Cloud Phase Detection Based on BPNetural Network[J]., 2015, 30(4): 714-718.
[14] 李锡祥, 麻金继, 梁晓芳. 基于BP神经网络进行云相态识别方法的研究[J]. 大气与环境光学学报, 2010, 5(4): 299-304.
LI Xixiang, MA Jinji, LIANG Xiaofang. Retrieving Cloud Phase Based on BP Neural Network[J]., 2010, 5(4): 299-304
[15] 靳泽群, 张玲, 刘神聪. 基于BP神经网络的云检测和云相态识别[J]. 光学与光电技术, 2016, 14(5): 74-77.
JIN Zequn, ZHANG Ling, LIU Shencong. Cloud Detection and Cloud Phase Retrieval Based on BPNeural Network[J]., 2016, 14(5): 74-77.
[16] 盛夏, 孙龙祥, 郑庆梅. 模拟退火优化BP神经网络进行云相态分类[J]. 解放军理工大学学报: 自然科学版, 2008, 9(1): 98–102.
SHENG Xia, SUN Longxiang, ZHENG Qingmei. Simulated Annealing Optimized BP-ANN Method for Cloud Thermodynamic Phase Retrieval[J]., 2008, 9(1): 98-102.
[17] 郭晶, 杨春平, 叶玉堂, 等. SOFM神经网络的FY-3A/VIRR多光谱图像云相态反演方法[J]. 光电工程, 2015, 42(12): 20-24.
GUO Jing, YANG Chunping, YE Yutang. A Cloud Phase Retrieval Approach Based on SOFM Neural Network Using FY-3A/VIRR Multi-channel Images[J]., 2015, 42(12): 20-24.
[18] 张鹏, 郭强, 陈博洋, 等. 我国风云四号气象卫星与日本Himawari-8/9卫星比较分析[J]. 气象科技进展, 2016, 6(1): 72–75.
ZHANG Peng, GUO Qiang, CHEN Boyang. The Chinese Next-Generation GeostationaryMeteorological Satellite FY-4 Compared with theJapanese Himawari-8/9 Satellites[J]., 2016, 6(1): 72-75.
[19] 陆风, 张晓虎, 陈博洋, 等. 风云四号气象卫星成像特性及其应用前景[J]. 海洋气象学报, 2017, 37(2): 1-12.
LU Feng, ZHANG Xiaohu, CHEN Boyang. FY-4 geostationary meteorological satellite imaging characteristics and its application prospects[J]., 2017, 37(2): 1-12.
[20] 董瑶海. 风云四号气象卫星及其应用展望[J].上海航天, 2016, 33(2): 1–8.
DONG Yaohai. FY-4 Meteorological Satellite and its Application Prospect[J]., 2016, 33(2): 1-8.
[21] 华建文, 毛建华. “风云四号”气象卫星大气垂直探测仪[J].科学, 2018, 70(1): 24-29.
HUA Jianwen, Mao Jianhua. "FY-4" MeteorologicalSatellite Atmospheric Vertical Detector[J]., 2018, 70(1): 24-29.
[22] 王淦泉, 沈霞. 风云四号辐射成像仪及其数据在卫星气象中的应用[J]. 自然杂志, 2018, 40(1): 1-11.
WANG Ganquan, SHEN Xia. The FY-4 Radiometer Imager and The Application of its Data in the Satellite Meteorology[J]., 2018, 40(1): 1-11
[23] 高军, 王恺, 田晓宇, 等. 基于BP神经网络的风云四号遥感图像云检测算法[J]. 红外与毫米波学报, 2018, 37(4): 477-485.
GAO Jun, WANG Kai, TIAN Xiaoyu. A BP-NN based cloud detection method for FY-4 remote sensing images[J]., 2018, 37(4): 477-485.
[24] 范永东. 模型选择中的交叉验证方法综述[D]. 太原: 山西大学, 2013.
FAN Yongdong. Overview of cross-validation methods in model selection[D]. Taiyuan: Shanxi University, 2013.
[25] 栾丽华, 吉根林. 决策树分类技术研究[J]. 计算机工程, 2004, 30(9): 94-96.
LUAN Lihua, JI Genlin. The Study on Decision Tree Classification Techniques[J]., 2004, 30(9): 94-96.
[26] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
ZHOU Zhihua.[M]. Beijing: Tsinghua Press, 2016.
[27] Strabala K I, Ackerman S A, Menzel W P. Cloud properties inferred from 8-12μm data[J]., 1994, 33(2): 212–229.
[28] HAN Jiawei, Micheline Kamber, PEI Jian. 数据挖掘概念与技术[M]. 3版, 北京: 机械工业出版社2012.
HAN Jiawei, Micheline Kamber, PEI Jian.[M]. Third Edition, Beijing: China machine press, 2012.
Ensemble-learning-based Cloud Phase Classification Method for FengYun-4 Remote Sensing Images
GAO Jun1,2,CHEN Jian1,TIAN Xiaoyu1
(1.,,201306,; 2.,,850033,)
Cloud phase classification plays an important role in meteorological forecast and climate research. The image of meteorological satellite FengYun-4 (FY-4) has more channels and better resolution than FY-2. So it provides new remote sensing data for the study of the cloud phase. This study uses a brightness temperature cloud phase index to obtain cloud phase data. Thereafter, using the cloud phase data and ensemble learning algorithm, we develop a cloud phase classification model. By applying the cloud phase classification model, the predicted classification accuracy of water cloud and ice cloud are 91.69% and 76.10%, respectively.
cloud phase, ensemble learning, FY-4, remote image processing
TP389.1
A
1001-8891(2020)01-0068-07
2019-04-08;
2019-12-15.
高军(1979-),男,浙江嘉兴人,博士,主要从事遥感信息处理、网络通信方面的研究。E-mail:jungao@shmtu.edu.cn。
国家自然科学基金项目(61602296)。