基于CALIOP和MODIS的北极地区海雾检测研究
2022-04-20陈标吴东
陈标,吴东,2∗
(1中国海洋大学信息科学与工程学院,山东 青岛 266100;2青岛海洋科学与技术试点国家实验室区域海洋动力学与数值模拟功能实验室,山东 青岛 266200)
0 引 言
雾是一种分布比较广泛的灾害性天气,世界气象组织定义水平能见度小于1 km时为雾,但这一概念很难在卫星探测中使用。在科学研究中通常把与海面相接触的云看作海雾。此外,由于MODIS只能看到云的云顶,又把云顶高度小于指定高度的云定义为海雾。海雾能造成社会和生态问题,尤其是对航行、捕捞、海水养殖具有重要影响。极地地区海雾探测比较困难,首先极地地区地面站较少,人类活动较少,没有足够的海雾测量信息;其次,海雾在遥感影像中比较抽象,无法用人眼进行辨别;最后,极地海面存在大量浮冰,给极地海雾检测造成困难。正交偏振云-气溶胶激光雷达(CALIOP)可以提供精确、高分辨率的大气散射层垂直剖面测量,在确定光学薄云的位置和探测多层云的发生方面具有优势[1],其长期观测数据可为云雾检测提供更多有价值的信息。极地地区具有更高频次的海雾分布[2],给北极航行和勘察进度造成挑战,根据我国第三次和第四次北极考察记录显示,海雾环境下开展科学考察的概率均超过50%[3]。卫星影像探测云雾的机制是通过探测云顶的被动红外辐射或散射。Ellrod[4]通过评估10~12µm和3~4µm的窄带亮温来检测夜间海雾,两者的差异随着云的厚度的增加而增加。在白天,来自太阳的反射信号超过了发射信号,会使该方法失效。然而,低液态水云的近红外反射率比地表或卷云的反射率要亮得多,通常会产生一个大的幅亮度差异,对于白天探测雾和低层云非常有用[5]。Lee等[6]发现短波红外通道图像上有较好的低云轮廓,这是因为水滴产生的反射率比云层或地面积雪高得多。Zhang和Yi[7]使用云顶亮温和海表温度差,再通过统计得到合适的阈值来检测海雾,Yi等[8]将该方法应用到MODIS极地地区数据,并取得了不错的效果。王峥等[9]使用蓝光和近红外反射率的差值再辅以统计分析的阈值来检测海雾。Heo等[10]将双通道差分法、基于拉普拉斯算法的雾纹理和风速综合考虑用于海雾监测,与双通道差分法相比,该组合方法的Heidke预测分数提高了5%~6%,误检率降低了10%。Lee等[11]提出了基于太阳天顶角的动态阈值法来解决连续海雾观测问题,尤其是黎明和黄昏,结果显示除了被薄卷云覆盖的高纬度地区,该方法可以对海雾的形成到消退过程进行比较好的检测,估算的雾面积与地面结果相吻合。
估计云的厚度和高度也是一种常见的检测雾和低云的方法[12-14],通过先检测云雾的高度,再判断是低云或雾。而通过高度随温度的变化关系,就可以根据云顶的亮温来估计云高,然后再估计云的厚度。由于MODIS检测薄的卷云和多层云的能力有限,且不同的传感器之间检测的结果有很大的差异[15],因此高精度的云雾顶高度的检测仍然是一个挑战[16]。在海雾的遥感检测中,云顶高度的估计是其重要的一环。一些检测方法需要首先将目标分类为高云和低云,再从低云中识别雾;另一种方法直接将云顶高度低于某一高度认为是雾。云顶高度除了应用在海雾检测中,同时也是气候学中海雾检测的辅助参数[17]。MODIS的云产品数据MOD06是通过CO2切片技术来反演云顶压力,而云顶高度和云顶压力相关,已有研究证明MODIS云产品的云顶高度和CALIOP有明显差异,原因是CALIOP对薄云更敏感[16]。神经网络被应用于云的属性反演,Hakansson等[18]使用多层感知机网络对云顶高度和云顶压力进行反演,结果表明神经网络具有良好的中心性,误差分布范围窄,检索量大,误差小。Kox等[19]使用BP神经网络检测卷云的高度和光学厚度。孟恒等[20]使用神经网络采用“葵花8”的数据进行云高反演,结果显示BP神经网络与循环神经网络(RNN)对于传统云顶高反演误差较大的缺点有着明显的改善,BP神经网络的结果最优。此外,为了准确地描述辐射和能量平衡,云顶高度也是必须的基本参数[16],因此云顶高度的高精度遥测方法具有很高的研究价值。
机器学习逐渐被应用到海雾检测中来[21-23],为海雾检测提供了新的途径。Daegeun等[21]提出了一种结合无监督学习技术的夜间海雾检测算法,并采用CALIOP进行了验证,结果表明该算法在局部域内的检出率为0.753。Zhu等[22]将语义分割的方法应用到MODIS的海雾检测中,在16幅影像中海雾检出率为0.92。
与其他地区相比,极地地区海雾检测的研究更少,主要由于极地地区地面观测数据缺乏,观测区域被限制在海岸线附近,无法对大洋进行观测。而2006年升空的CALIOP绕地球沿轨道飞行,不受地理条件的限制。CALIOP还具有探测光学厚度可达0.01左右的非常小的积云和薄卷云的能力[24]。Liu[25]将一种特征检测方法应用到CALIOP上来检测云和气溶胶的顶部和基底。Wu等[1]使用该传感器给出了CALIOP观测的一年内全球云层发生频率、云发生频率的水平和垂直分布、全球云顶高度统计及其季节变化。Weisz等[16]利用主动传感器CALIOP获得的综合性云分布信息,正确地评价了AIRS和MODIS云顶压力反演的云顶高度。CALIOP传感器能够对全球的大气进行垂直剖面的测量,其探测值可以得到保证,已证明可以用来检测海雾[26-28]。自2006年以来,CALIOP已经积累了大量数据,可以探测海雾的CALIOP在高纬度地区能够进行更密集的观测[2],可以满足机器学习对数据量的要求。而深度神经网络(DNN)是一种强大的特征提取算法,能够更全面地处理MODIS各波段信息。本研究基于MODIS和CALIPSO卫星数据,在已有的云雾检测方法基础上,利用DNN神经网络模型反演极地地区云高,进而识别海雾,可用来解决极地地区现场观测数据匮乏的问题。并且分析了云顶高检测结果,统计了极地地区海雾和云信息,对比了不同波段对云顶高度检测的影响。
1 研究区域与数据
1.1 研究区域
研究区域选择范围如图1所示,其中的线是由CALIOP的众多测量点连成,从CALIOP的观测轨迹可知其在该区域进行了较为密集的观测。而且,自从2006年以来,CALIOP积累了丰富的海雾观测数据,足以进行极地海域的海雾研究。
图1 2015年5月1–31日CALIOP观测路径图Fig.1 The Measuring Path of CALIOP from May 1 to 31,2015
1.2 数据介绍
CALIOP是世界上首个星载云和气溶胶激光雷达,它的水平分辨率为333 m,垂直分辨率为30~60 m,能够提供全球气溶胶和云的垂直廓线信息。CALIOP有三个通道,分别是532 nm平行通道、532 nm垂直通道和1064 nm通道,可以用来区分气溶胶的颗粒大小和检测云的相态(冰云或水云)。本研究使用的垂直分类特征(VFM)数据产品为CALIOP官方发布的分类产品,其根据观测到的后向散射和偏振态信息,将观测目标分类为晴空、云、平流层和对流层的气溶胶、表面、下表面、无信号、不可测区域,如图2所示。
图2 2015年5月6日CALIOP的VFM数据Fig.2 VFM of CALIOP on May 6,2015
MODIS具有较高的光谱分辨率和空间分辨率的特点,这大大提高了其观测云雾的能力。其波段范围为0.4~14µm,共36个波段,空间分辨率为250、500、1000 m。MODIS以垂直于飞行轨迹的扫描方式对地球进行观测,刈幅宽度为2330 km。图3是绘制的MODIS真彩色影像,其中线条是CALIOP同步观测点,可以看到MODIS具有很广的观测范围。MODIS可以获得来自大气、海洋和陆地表面的信息,因为其数据产品较丰富,受到了广泛关注和使用。
图3 2015年5月6日MODIS真彩色影像Fig.3 True color image of MODIS on May 6,2015
CALIOP和MODIS同属于A-Train系列卫星,A-Train是美国宇航局及其国际合作伙伴联合研制的卫星编队,目的是为了实现对同一区域进行高空间、高时间分辨率的同步观测,A-Train提供了对同一目的区域不同传感器的同步观测数据。CALIOP和MODIS观测时间间隔在80~200 s范围内,在该时间间隔内,云雾有可能会发生形成、消散和漂移等现象,导致引入错误的匹配数据到训练数据集中,而且无法通过人工来对MODIS影像的云高进行判读,这都给数据处理带来了挑战。为了应对该问题,本研究对同步数据的匹配做了比较严格的限制。MODIS和CALIOP时间差大约为73 s,可以认为是准同步观测。在同步观测位置匹配的过程中,为了保证CALIOP和MODIS测量的是同一个目标,并消除观测时间差带来的影响,对同步观测位置做了比较严格的限制。在时间维度上,CALIOP比MODIS的观测时间晚73 s左右,因此限制最大观测时间差为120 s;在空间维度上,CALIOP在地面点上的光斑直径为70 m左右,同样为了保证两传感器同步观测的观测中心足够小,限制测量距离小于80 m。选取研究区域内2015年5–6月13540条数据作为训练集,2016年5–6月14986条数据作为测试集,共28526条数据。
2 研究方法
使用云高法来检测海雾,第一步检测云高,第二步根据云顶高度确定是否为海雾,并分析了不同通道对海雾检测的贡献度,详细流程如图4所示。
图4 技术路线图Fig.4 Technology Roadmap
由于极地地区地面观测数据缺乏,而不受地理条件限制的CALIOP获得的高分辨率大气垂直剖面信息可以帮助我们更好地了解大气中的云雾。CALIOP从上方测云顶不存在遮挡问题,有天然的优势。CALIOP还具有很强的云雾检测能力[24],国内外有很多学者也基于该卫星对全球的云雾分布进行研究[1,16,25]。本研究使用CALIOP观测数据作为真值,对海雾检测模型进行优化。首先使用MODIS数据和CALIOP数据经过回归分析,来反演云顶高度,然后根据云顶高度确定海雾。使用CALIOP VFM数据统计研究区域内的雾顶高度,结果如图5所示。由图可知,在检出的236853个海雾样点中,雾顶高度小于1.5 km的占94.5%。Zhang和Yi[7]的统计研究表明海雾的顶部高度一般小于1.5 km,因此本研究将云顶高度小于1.5 km的云认为海雾。人工神经网络也被应用在大气科学中,例如云检测、云光学厚度和云顶高度。借鉴Hakansson等[18]和孟恒等[20]提出的神经网络检测云高的方法,对MODIS所有波段数据进行分析,然后再进一步探究不同波段对海雾检测的贡献程度。
图5 2018年研究区域的雾顶高度分布图Fig.5 The fog top height distribution of the study area in 2018
近年来涌现了一系列深度学习方法,在数据特征提取和模型过拟合方面取得了非常高的成效,该方法能够从数据中提取复杂的特征,无需进行大量的特征设计工作,使用未经过波段运算的数据也可以取得较为优秀的结果。因此,下面使用MODIS所有波段进行分析,然后再进一步探究不同波段对海雾检测的贡献程度。
2.1 模型选择
近年来,机器学习凭借着其特征提取能力被应用到很多领域,如经典的BP神经网络、卷积神经网络(CNN)和RNN。Hakansson等[18]使用BP神经网络对云顶高度和云顶压力进行了反演,并与MODIS相关产品进行对比。孟恒等[20]使用BP、CNN、RNN三种方法对葵花卫星的云高进行了估计,研究表明BP神经网络的结果优于CNN和RNN。CNN精度不高的原因是其会将周围未观测区域的观测数据输入到模型,由于CALIOP只能和MODIS在一条线上形成同步观测,将周围未观测区域引入到模型会降低数据集质量。RNN常被用来处理序列问题,但是MODIS和CALIOP在行进过程中的观测序列为不同目标,且差异较大(MODIS水平分辨率1 km),而RNN不能很好地处理这种在时间和目标同时改变的测量序列。因此本研究使用BP神经网络反演云顶高度,考虑到BP神经网络模型比较小,还使用了更多层的深度神经网络DNN对云高进行反演,并与MODIS的云高产品进行比较分析。
2.2 模型介绍及训练
2.2.1 BP神经网络
BP神经网络能够对复杂非线性系统进行建模。输入层为MODIS各波段信息,共有36个节点,输出为云顶高度,有一个隐藏层,共有128个节点。使用整流线性单元(ReLU)作为中间层的激活函数,优化器为Adam,损失函数为均方误差(MSE)。
2.2.2 深度神经网络
DNN也能够为复杂非线性系统提供建模,其多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。本研究使用的网络结构如图6所示,首先,模型的第一层是具有36个节点的输入层,与MODIS多波段数据对应,然后串联了三个模块(Block),每个模块内的结构如图6(b)所示,每个块含有两个全连接层,第一层的参数为64,第二层为32。DNN存在退化问题,即随着层数的增加,DNN的近似能力逐渐增加,训练的难度也逐渐增加,甚至得到精度更差的模型,使用残差网络可以解决退化问题[29],因此本研究在每个块的起点和终点使用残差结构连接起来。此外,在每一层后添加批归一化层,使每层输入数据的分布相对稳定,加快模型学习速度[30]。最后,为了使模型具有更好的非线性能力,在批归一化后添加ReLU,输出层为没有使用激活函数的单个线性层,这是因为ReLU激活函数会限制输出范围为整数。除了模型的结构外,初始化方式为Kaiming初始化,优化器选用了Adam,损失函数是均方误差函数(MSE)。
图6 DNN网络架构(a)和Block中的详细结构(b)Fig.6 The network of DNN(a)and the detailed structure in the block(b)
2.3 不同波段对云高检测的贡献率分析
为了验证不同波段对海雾检测的贡献度,使用部分波段缺失法研究了不同波段对云高检测的影响。为了研究某波段对海雾检测的贡献度,首先构建缺失了该波段的缺失数据集,并对该缺失数据集训练一个模型,如果模型精度降低,证明该波段对海雾的检测有贡献。
MODIS有36个波段,如果对每一个波段缺失后构建数据集,那么将会训练36个模型,计算量较大,并且由于很多波段具有相同或相似的物理性质,可能缺失该波段后其他相似波段也能提供足够的信息,进而无法确定不同波段对模型精度的贡献度。因此,将MODIS 36个波段分成5组,分别对每组数据进行缺失对照,使用的分组情况如表1所示。
表1 根据波长将波段进行分组Table 1 Bands are grouped according to wavelength
3 结 果
3.1 云顶高度检测结果对比分析
分别对MODIS的云高产品、BP神经网络反演的云高和DNN反演的云高进行对比分析,其中MYD06使用的数据为2016年5月和6月采集的数据,BP神经网络和DNN使用2015年5月和6月的数据作为训练集,2016年5月和6月的数据作为测试集,其反演结果的平均误差和均方误差如表2所示。从结果可以看出,使用DNN反演云顶高度的平均绝对误差约为701.140 m,优于MODIS云高产品的结果(低约1774.280 m),优于BP神经网络的结果(低约781.005 m),无论是平均绝对误差还是平方根误差,DNN都表现出了比较优异的性能。
表2 MODIS云高产品、BP神经网络和DNN的反演云顶高度结果对比Table 2 Comparison of the inverted cloud top heights of MODIS production,BP neural network and DNN
模型的训练过程如图7所示,其中横轴为训练的迭代次数,共对整个训练集迭代了300次,纵轴为平方损失值。从BP神经网络和DNN训练集的曲线可知,经过250次迭代后损失值都不再下降,没有出现比较大的波动,说明模型很好地提取了MODIS数据各个波段的信息。
图7 BP(a)和DNN(b)损失曲线Fig.7 Loss of BP(a)and DNN(b)
从BP神经网络和DNN测试集的曲线可知,随着训练次数的增加,训练集和测试集的损失值逐渐下降并趋于稳定,无明显的跳变,说明模型很好地拟合了云顶高度的真实反演函数,没有过拟合。在训练的过程中,BP和DNN在训练集上都将损失降低到了0.012,但是在测试集上BP的损失值为0.024,DNN在测试集上的损失值为0.015。
模型的好坏不仅与整个测试集的均方误差有关,误差在不同海拔高度的分布也是比较重要的一点。CALIOP激光雷达是第一个也是唯一一个能够获得全球云层高分辨率垂直剖面的激光雷达系统,它能够帮助研究人员更好地了解大气中的云雾信息,具有较高的水平分辨率和垂直分辨率,并且在大洋区域也能提供丰富的大气观测信息,因此使用CALIOP对其模型的反演精度进行验证。如图8所示,其中横轴为CALIOP测得的云顶高度,纵轴为模型反演的云顶高度,色标是落在该区域的频数,斜线为CALIOP和反演结果完全相同的点,BP神经网络和CALIOP对比结果[图8(a)]斜线呈圆柱状分布,对于7~10 km的高云反演精度较好,但是对于0~3 km的低云会有明显的高估,偏差为1 km;DNN和CALIOP对比结果[图8(b)]沿斜线呈纺锤形,DNN反演结果与CALIOP实测结果比较接近,并围绕着实测值上下波动,无显著的估计偏差。
图8 模型反演的云顶高度和CALIOP的实测结果对比图。(a)BP反演结果;(b)DNN反演结果Fig.8 Comparison diagram of cloud top height inversion result and measured by CALIOP.(a)Inversed by BP;(b)inversed by DNN
3.2 极地地区海雾和云顶高度统计分析
使用2016年5–6月共83199条数据对研究区域的海雾云顶高度的统计直方图如图9所示。由图可知,随着海拔的升高,云呈下降趋势,将云顶高度小于1.5 km的云粗略地定义为海雾,其占比约为13.6%。使用该结果对极地地区的云顶高度进行统计,43.6%云的云顶高度低于4 km,50.26%云的云顶高度在4~10 km,仅有6.1%的云顶高度高于10 km,这一研究结果与Wu等[1]给出的极地地区云顶高度随海拔高度的分布基本吻合。
图9 极地地区的云顶高度统计直方图Fig.9 Statistical histogram of cloud top height in polar regions
3.3 不同波段对DNN云顶高度检测结果的影响
对缺失不同波段信息的数据集的训练结果如表3所示。缺失一些波段信息后,模型精度都有不同程度的下降,尤其是缺少了中红外波段和远红外波段的数据,与全波段相比,平均绝对误差分别增加了837.022 m和731.169 m,均方根误差分别增加了1061.803 m和909.705 m。
表3 缺失数据集训练结果与全波段训练结果对比Table 3 Comparison between manually missing datasets and full-band datasets
同样使用CALIOP对缺失后的模型的反演精度进行验证,结果如图10所示,其中横轴为CALIOP测得的云顶高度,纵轴为模型反演的云顶高度,斜线为CALIOP和反演结果完全相同的点。从图中可以看到,缺失了一系列通道后,精度都有了不同程度的下降,其中缺失可见光通道对精度的影响最低,整体趋势沿斜线上下分布。缺失了中红外通道的数据精度降低最大,在0~2 km的低云区域出现估计值偏高,7~10 km的高云出现估计值偏低的状况。
图10 在缺失数据集上模型反演的云顶高度和CALIOP的实测结果对比图。(a)全波段数据;(b)缺失可见光;(c)缺失近红外;(d)缺失短波红外;(e)缺失中红外;(f)缺失远红外Fig.10 Comparison diagram of cloud top height measured by CALIOP and inversed by DNN in manually missing datasets.(a)Full band;(b)without visible;(c)without near infrared;(d)without short-wave infrared;(e)without middle infrared;(f)without far infrared
4 结 论
1)DNN的云高反演结果最好,BP神经网络次之,DNN和BP神经网络反演结果比MODIS云高产品有明显改善。DNN反演云顶高度的平均绝对误差约701.140 m,优于MODIS云高产品(低约1774.280 m),优于BP神经网络的反演结果(低约781.005 m)。DNN能够很好地对云顶高度进行建模分析,对海雾检测提供依据。
2)从训练结果可以看出,DNN能够很好地反演云顶高度。随着训练的进行,测试集Loss曲线逐渐降低,无明显的过拟合现象,表明DNN的云高反演结果比较稳定。并且,减少输入数据的波段数会导致模型精度都有不同程度的降低,证明这种深层次的DNN能够有效地将各个波段的特征提取出来,将没有经过特征设计(波段选择和波段运算)的数据直接输入到DNN中进行运算是可行的。
3)从缺失数据集训练的模型结果可知,可见光和红外的缺失都导致云顶高度反演精度有一定程度的下降,其中可见光对精度的影响最低,中红外数据对云顶高度的反演影响最大,这是由于太阳天顶角较大,卫星获得的辐射也相对较低,从而可见光通道提供的信息较少。相对于波段较少的传感器,具有更多红外通道的高光谱传感器在DNN反演云顶高度的应用上具有更高的精度。