基于HY-2B波形特征的北极海冰分类算法
2021-04-25朱艺洵孟俊敏
朱艺洵,张 晰*,孟俊敏
(1.山东科技大学 测绘与空间信息学院,山东 青岛 266590;2.自然资源部第一海洋研究所,山东 青岛 266061)
海冰影响着全球的气候变化,并通过与大气的相互作用反馈于全球环境系统[1]。随着全球气候变暖,北极海冰的剧烈变化对全球影响已不容忽视。海冰类型是描述海冰状态的重要参数,因此海冰类型的研究分析对全球气候、极地环境与安全监测均有着重要意义[2]。
早期海冰类型只能通过实地调查测得,耗费大量人力物力[3-4]。随着遥感技术的发展,基于光学和SAR遥感影像的分类方法得到了应用[5],但该方法受限于遥感影像成本且空间覆盖范围较小,难以实现大尺度的海冰分类。与SAR相比,微波辐射计和微波散射计虽然空间分辨率低,但覆盖范围广,能满足极地海冰类型大尺度观测需求[6-7]。与微波散射计和辐射计类似,高度计因其具备大范围观测的优势,近年来逐渐得到了人们的重视,已成功应用于海冰类型识别方面[8]。同时,人们研究发现,利用卫星高度计进行海冰分类能更准确地估算海冰厚度。这是因为在利用高度计反演海冰干舷和估算海冰厚度时,均需要提供海冰类型信息。以往的海冰类型信息取自于其他传感器,在时间上与高度计并不同步,从而引入反演误差[9]。所以为获取更高精度的海冰厚度数据,当前的高度计卫星均需具备海冰类型分类能力。
传统的卫星高度计数据的获取主要依赖于国外卫星,如ERS-1/2、ENVISAT、CryoSat-2(CS-2)和Sentinel-3A等。随着我国航天技术的进步,截至2020年,我国已发射了HY-2A/B/C3颗卫星高度计,未来还将发射HY-2D卫星高度计,形成四星组网观测,以实现对北极地区的全覆盖、高精度监测。HY-2高度计的出现不仅为北极海冰监测提供了新的数据源,也使我国利用自主生产的高度计监测极地成为了可能,同时缓解了对国外高度计卫星数据的依赖。
在卫星高度计海冰类型识别算法研究方面,可分为三大类,一是区分海冰和开阔水域(Open Water,OW),二是区分海冰类型,三是对海冰与冰间水道(LEAD)进行区分。
在区分海冰和OW方面,Jiang C等[10]使用阈值分割、K最近邻法(K-Nearest Neighbor,KNN)和支持向量机(Support Vector Machine,SVM)3种算法对双波段HY-2A/B数据的自动增益控制(Automatic Gain Control,AGC)和脉冲峰值(Pulse Peakiness,PP)2个波形特征进行处理,用来区分海冰和OW区域,OW分类精度最多可以达到98.36%,海冰的分类精度最高为92.84%,但文章未对海冰类型进行进一步地细分。在对海冰类型进行识别方面,Zygmuntowska M等[11]在格陵兰岛和加拿大北部海域利用CS-2高度计数据,采用贝叶斯分类器和波形功率最大值(Maximum Power,MAX)、后缘宽度(Trailing Edge Width,TEW)和PP3个波形特征对一年冰(First-year ice,FYI)与多年冰(Multi-year ice,MYI)进行了识别。Rinne E等[12]利用CS-2高度计数据,采用KNN算法和前缘宽度(Leading Edge Width,LEW)、PP、栈标准差(Stack Standard Deviation,SSD)和后缘比(Late Tail to Peak Power Ratio,LTPP)4个波形特征,对北极区域的OW、薄一年冰(Thin First-year ice,TFYI)、FYI和 MYI进 行 了 识别,与同期冰况图相比,该算法的识别精度约为82%。Shen X等[13]提出了基于LEW、TEW、后向散射系数(Sigma0)、MAX和PP6种波形参数的组合进行对北极区域FYI、MYI和OW的分类,平均分类精度达到了91.45%。Aldenhoff W等[14]结合SAR与CS-2数据,选取PP、SSD与比例逆平均功率(Scaled Inverse Mean Power,IMP)识别MYI、FYI与LEAD,进而对各参数进行敏感性分析实验。在检测LEAD方面,Laxon S W等[15]利用PP和SSD两种波形特征进行LEAD和海冰的识别。Lee S等[16]提出了一种波形混合算法来检测来自CS-2数据中的LEAD。王立伟等[17]结合PP、SSD等3个波形特征参数和海冰密集度,基于CS-2高度计完成了对海冰和LEAD的有效识别。焦慧等[18]结合波形SKEW、KURT特征与SSD、PP、左脉冲峰值(Left Pulse Peakiness,PPL)等5个波形参数对CS-2进行LEAD识别。
综合国内外学者的研究可知,目前海冰分类研究主要是围绕国外卫星高度计数据开展的,鲜有学者基于我国国产HY-2高度计进行研究。目前仅有Jiang C等[10]使用HY-2A/B数据的PP与AGC特征进行海冰和OW的区分,但仍未实现对海冰类型的精确识别,且仅分析了PP和AGC两个特征在冰水区分中的作用,未对更多的波形特征进行对比分析[10]。因此与国外高度计海冰类型识别的工作相比,利用国产HY-2卫星高度计进行海冰分类还需克服以下几方面的问题:(1)目前基于HY-2进行海冰分类研究使用的波形特征参数比较单一,较少的波形特征无法对波形信息进行全面的表征,并且缺少对单个波形特征进行定量分析的工作;(2)目前已有的研究并未对海冰类型进行精确的分类,仅完成了冰和水间的区分,缺少了对不同的海冰类型间的划分;(3)目前的工作仅使用了单个的波形特征进行分类实验,未尝试结合多波形特征进行海冰类型识别。
探索国产卫星高度计在海冰类型识别中的可用性,有利于缓解对国外数据源的依赖。同时基于以上3个问题,本文利用HY-2B卫星高度计数据,通过提取PP、LEW、Sigma0及MAX共4种典型的波形特征,开展对TFYI、FYI、MYI、LEAD和OW共5类地物的识别研究。进而详细分析和评估HY-2B卫星的海冰类型识别能力。
1 数 据
1.1 HY-2B雷达高度计数据
HY-2B高度计是我国发射的脉冲有限型雷达高度计,于2018年10月25日6时57分在太原卫星发射中心顺利升空。HY-2B为双频雷达高度计,工作在Ku和C波段,中心频率分别为13.58 GHz和5.25 GHz。空间覆盖范围达到南北纬80.69°,轨道倾角为9.34°,运行重复子周期为14 d,脉冲有限足迹优于2 km。因此,HY-2B覆盖整个北极地区大约需要14 d。表1记录了HY-2B高度计的几个重要参数[10]。HY-2B高度计可公开提供L1B、L2和L33种级别的产品。其中L2级产品又分为临时地球物理数据产品(Interim Geophysical Data Records,IGDR)、遥感地球物理数据产品(Sensor Geophysical Data Records,SGDR)和地球物理数据产品(Geophysical Data Records,GDR)。三种产品中仅有SGDR数据包含有波形信息。在本研究中,使用的是L2 SGDR产品中的20 Hz Ku波段数据,数据获取自国家卫星海洋应用中心(https://osdds.nsoas.org.cn)。
表1 HY-2B高度计部分参数
本文使用的数据为2019年12月和2020年3月北极地区的HY-2B雷达数据,分别代表了北极冬季和初春的冰情,每月约可提供约500万左右的点元数据进行研究。为控制数据质量,避免错误的波形信息对分类算法产生负面影响,本文对HY-2B数据进行了预处理:首先选择大于60° N的北极地区,并使用SGDR文件自带的标志位对陆地进行去除;然后去掉了所有波形信息为空的错误波形;最后去掉所有Sigma0值为NAN的数据。其余数据筛选步骤参照HY-2B高度计用户手册[19]。图1为预处理后的2019年12月的HY-2B数据覆盖范围,值得说明的是,拉普捷夫海、东西伯利亚海附近海域在预处理后存在数据缺失现象,绝大多数是由于波形数据缺失导致的。其它月份的数据也存在相似情况。
图1 2019年12月北极HY-2B覆盖范围
1.2 AARI冰况图产品
本文在海冰类型识别时使用的训练和检验辅助数据为俄罗斯北极和南极研究所(Arctic and Antarctic Research Institute,AARI)提供的北极冰况图数据。除北半球夏季外,该数据每周提供一次全北极的海冰类型产品。该海冰类型产品是通过综合光学、近红外、SAR等卫星数据以及船舶走航观测得到的[20]。AARI提供的冰况图产品为Shapefile格式,包含有6种冰类型:尼罗冰、初生冰、FYI、MYI、固定冰和OW,空间分辨率为12.5 km。
在选用与HY-2B数据时间相对应的北极区域2019年12月和2020年3月的AARI数据进行训练和检验样本提取时,参考了世界气象组织(World Meteorological Organization,WMO)制定的海冰分类标准,主要开展TFYI,FYI,MYI和OW4种类型的识别,其中TFYI为厚度<70 cm的海冰(对应AARI中的尼罗冰和初期冰)。
需要说明的是,AARI冰况图无法提供尺度较小的LEAD样本,因此本文将另外选用冰间水道产品对LEAD信息进行提取。
1.3 MODIS冰间水道产品
本文在进行LEAD识别时使用的训练和检验辅助数据来自Hoffman等利用MODIS数据公开发布的冰间水道检测结果[21],该产品目前提供了从2002—2020年的北极地区最小时间间隔为1 d的LEAD分布,产品分辨率为1 km。
本文采用的MODIS冰间水道产品中包含两大类数据,其一是每日的LEAD信息,以NC格式存储,其二是标准的经纬度对照表。为此,将冰间水道产品的NC文件与其自带的标准经纬度文件进行匹配,得到北极LEAD分布信息。
2 HY-2B高度计波形特征和分类器确定
为 成 功 识 别 出 OW、MYI、FYI、TFYI及LEAD 5类地物,本文方法可分为如下几步:(1)进行训练样本的提取,通过输入AARI北极冰况图和MODIS冰间水道产品提取相对应的5种地物类型,并以向量的形式对样本进行存储;(2)是提取HY-2B的波形特性,选取了4种经典的波形特征对波形进行描述;(3)使用柯尔莫哥洛夫—斯米尔诺夫检验(Kolmogorov-Smirnov test,K-S test),即KS检验对以上4个波形特征进行可分离性测试,并得出波形特征重要性初步的结论;(4)选取经典的KNN分类器对各波形特征组合进行分类,同时对分类器最优参数设置进行分析;(5)最终与AARI冰况图和MODIS冰间水道产品相比,得到分类精度,进而确定最优的波形参数组合。图2为本文算法流程。
图2 本文算法流程图
2.1 训练样本选择
第一步,进行LEAD样本的提取。MODIS冰间水道产品提供时间间隔为1 d的LEAD产品,选取对应日期的HY-2B数据与其进行匹配,提取经纬度相同的数据为本文的LEAD训练样本。但由于LEAD的数量较少,在这里每月选用了3 000样本,其中训练样本2 100个,验证样本900个,训练样本与验证样本相互独立。
第二步,进行MYI、FYI、TFYI和 OW 4种类型的海冰样本提取。选择这段时间内与AARI冰况图时间间隔小于1 d的HY-2B数据,通过完成HY-2B与AARI冰况图的位置匹配,提取海冰类型的样本。需要说明的是,上述的样本选择都是随机选取且在空间上均匀分布。
另外,当LEAD样本与海冰类型样本在空间上重叠时(这种概率非常小),采用的为冰间水道样本,因为MODIS冰间水道产品与HY-2数据的时间间隔最小。MYI、FYI、TFYI和OW 4类样本每月各10 000个,其中训练样本7 000个,验证样本3 000个,两者相互独立。
第三步,以向量的形式对5类样本进行存储,形式为某地物及与之相对应的波形特征。
2.2 波形特征提取
来自HY-2B雷达高度计的返回信号被采样到128个bin的范围窗口中,该信号通常称为回波波形。利用高度计回波波形进行海冰类型识别重要的任务之一就是提取波形的特征参数。为了能够定量地描述波形的形状并考虑信号强度和宽度的差异,结合前人研究结果,本文选择了MAX、PP、LEW和Sigma0共4个经典的波形特征进行海冰分类实验。PP、LEW与Sigma0可实现对ENVISAT与CS-2高度计波形的较好分类[23]。MAX 是 Zygmuntowska M 等[11]、Rinne E等[12]、Shen X等[13]均使用过的波形特征。因此以上4个经典的波形特征被选用于本文实验。其中,LEW、PP和MAX需要从波形中计算得到,Sigma0可以从HY-2B数据中直接读取。图3展示了归一化后五类地物的典型波形。
MAX:特征1(F1),它是波形功率的最大值。式中,Pi为波形在第i个距离门处的功率,Pmax为波形的最大功率,下同。
PP:特征2(F2),它是雷达波形最大峰值功率与同一采样波形里的所有波形总功率的比[22]。
LEW:特征3(F3),它是回波波形在波形前缘处最大功率值的5%和95%点位间的距离门数(从第一个大于最大功率5%的距离门开始到第一个大于最大功率95%的距离门结束)[23]。A1为波形前缘处最大功率的5%,A2为波形前缘处最大功率值的95%。
Sigma0:特征4(F4),它是HY-2高度计接收到的地物的表面后向反射系数,在HY-2B中,该值已校正了大气衰减和仪器误差。
图3 归一化后5类地物典型波形
结合图3可以看出,通常LEAD的表面较平缓,雷达信号多为镜面反射,PP值较高,且LEW较小;对于OW和海冰则以发生漫反射为主,PP值低于LEAD。5类地物的PP从高到低排序分别是LEAD、FYI、TFYI、MYI和OW。对于MAX来说,LEAD要远高于其余地物,5类地物的MAX值由高到低排序为LEAD、FYI、MYI、TFYI及OW。对于LEW来说,OW的LEW要大于其他4类地物。毫无疑问,通过HY-2B的波形特征的差异,可以初步实现对各地物的分类。
2.3 KNN分类器
KNN是机器学习算法之一,常被用于分类处理。该方法的思路是:在测试实例中,基于某种距离度量找出训练集中与其最靠近的k个实例点,然后基于这k个最近邻的信息来进行预测。在分类任务中可选用“投票法”,即选择这k个实例中出现最多的标记类别作为预测结果。因此,KNN分类器效率的关键要求如下:(1)训练集必须很好地代表要分类的数据;(2)必须确定k值;(3)测量之间的距离必须是适当的度量。
KNN目前已被应用于高度计海冰分类实验中[10,12],并有着较好分类精度,因此本文也选择此分类器进行试验。另外,针对KNN分类器参数设置不同产生的分类精度不同,本文将通过实验确定最优的分类器参数设置,并在文章最后给予推荐。
A Summary of the Research Achievements of Mongolian Folk Songs Published
3 分类结果比较
3.1 特征可分离度
本文应用KS检验定量评估单个波形特征对海冰类型的区别能力,KS检验的统计量(KS距离)D的计算方法如下:
式中:F(x)为波形特征1的累计概率,S(x)为波形特征2的累计概率,KS距离D于两者间距离最大时取得。
在统计学中,KS检验可以通过量化两个样本的经验累积分布函数之间的距离来判断两个数据集是否存在显著差异。KS距离是重要的可分离性标准,用于测量两个累积分布函数之间的最大绝对差。它可以取0至1之间的值。一般来说,KS距离大于0.5证明可以将地物进行分类。KS距离处于0.5~0.7时,说明具有部分可分离性;KS距离处于0.7~0.9之间说明有较好的分离性;KS距离大于0.9时,说明具体极好的分离性。选定的0.7和0.9值是定义上述3个组的合理阈值[24]。
结合2019年12月和2020年3月的HY-2B数据,对各地物类型中的4个参数进行KS距离计算,表2定量表示了KS检验后的定量结果。由表2可知,MAX值对OW和LEAD的区分度较好,OW与3种海冰间的KS距离均大于0.5,但难以区别OW与LEAD。同时还发现MAX对海冰和LEAD之间有着较好的区分度,在LEAD与TFYI和MYI间的KS距离均为0.5以上。但MAX对于海冰类型间的区分度较低,KS距离基本处于0.5以下。
表2 4种特征参数间的KS距离
PP对OW的区分度最好,KS距离均达到了0.7以上,充分证明了PP对OW有着较好的可分离性。同时可以看出,PP能对FYI与LEAD进行较好的区分,KS距离达到了0.812。但是也可以发现,仅使用PP难以对海冰类型进行精确的区分,PP在识别其余地物类型之时的区分度就远低于OW。
LEW对OW与FYI的区分较好,也能区分FYI与TFYI,KS距离均达到了0.7以上。除FYI外,仅使用LEW无法对OW和其他海冰进行分离,KS距离均在0.5以下。还可以看出,LEW对LEAD具有一定的区分能力,除难以对OW与LEAD进行识别外,KS距离均达到了0.5以上。
Sigma0对于OW的区分度较高,尤其可将OW与TFYI进行较好的分离,KS距离达到了0.7以上,但对海冰间的区分能力较低。在对MYI与LEAD的区分时,其KS距离达到了0.758,为4个参数中最优。但也可以看出,仅使用Sigma0对海冰间的区分效果不佳,MYI、FYI及TFYI间的KS距离均处于0.5以下。
3.2 分类性能比较
3.2.1 最优波形组合分类结果 文中使用了4个特征对Ku波段HY-2进行分类,这意味着KNN分类器需对应处理(24-1)个即15种特征组合,表3列举了全部特征的15种排列组合。为定量的比较分类效果,本文使用KNN分类器对不同的特征组合的分类性能进行了测试,设KNN采用欧氏距离衡量地物间的距离且k=3,这部分将在3.2.2节进行描述。最后,将分类结果与AARI北极冰况图和MODIS冰间水道产品进行对比,最终求得分类精度。为尽量削弱季节及气候变化对本文实验造成的误差,本文选用了2019年12月(冬季)和2020年3月(初春)两个季节开展实验。
图4为上述两个月数据的分类结果对比。纵坐标为15组波形特征组合,横坐标为平均分类精度。图5展示了使用本文算法的最终海冰分类结果。表4至表5是15组数据中分类精度为前三的波形特征组合对应的海冰分类精度。
结合图4与表4可知,对于2019年12月数据来说,最好分类结果的波形组合分别为组合15、组合14及组合9。组合15为MAX、PP、LEW及Sigma0的组合,组合14为PP、LEW及Sigma0的组合,组合9为PP与LEW的组合。
结合图4与表5可知,对于2020年3月数据来说,最好分类结果的波形组合分别为组合14、组合9及组合11,组合11为MAX、PP及LEW3个波形特征参数的组合。
对比表4和表5可知,对于2019年12月和2020年3月,组合14和组合9均能得到较高的海冰分类精度。只是2019年12月,组合14的平均分类精度较组合15略低(仅相差0.52%)。但组合14也有其自身的优势,例如对于FYI的检测,组合14的探测精度为89.21%,高于组合15的88.45%。因此从冬季(2019年12月)和初春(2020年3月)两个月份的结果上看,组合14(即PP、LEW及Sigma0的特征组合)可能更为普适。值得一提的是,组合14也是Paul等的实验中所选择的[23]。
在2019年12月中,组合15的平均海冰分类精度略高于组合14的原因,可能在于组合15引入了MAX这一波形特征。由表2和3.1节的论述可知,MAX对OW和LEAD有较好的区分度。相比于3月,北极12月份处于初冬季节,存在较多的开阔水和冰间水道,所以在这个月份MAX的引入能够帮助提高OW和LEAD的识别精度。从表4中也能看出相较于组合14,组合15对OW和LEAD的识别精度确实有一定的提高。
图4 2019年12月与2020年3月海冰平均分类精度
图5 2019年12月和2020年3月海冰分类结果图
表4 2019年12月海冰分类结果
表5 2020年3月海冰分类结果
综合图4与表4、表5可知,对于2019年12月和2020年3月,本文算法的最高平均精度均可以达到90%以上,尤其是对于OW来说,最高分类精度可以达到93%以上。组合1至组合4为仅使用单个波形特征进行海冰分类实验,若将其设为对照组,可以发现其分类精度均低于结合众参数进行实验的其他组合,证明多特征识别海冰的优越性,这里的结论也与3.1节的结论是一致的。图6统计了表4、表5中4项波形参数出现的频次,由高到低对其进行排列,分别是PP、LEW、Sigma0以及MAX。
图6 4项波形参数出现的频次
3.2.2 最优分类器参数设置 为确定最优的KNN分类器参数设置,进一步提升海冰分类算法的准确率,本文拟采用经典的欧式距离和曼哈顿距离来衡量各目标间的距离,同时取用k=1, 2, 3, 4, 5进行实验(这也是较为常见的k值选择)[12]。使用表3中波形组合14进行分类实验。对分类器参数设置的评价标准是,五项地物的平均分类精度越高,则认为分类器的参数设置最优。表6展示了使用欧氏距离与不同k值组合的海冰分类精度,表7展示了基于曼哈顿距离的海冰分类精度。
统计表中结果可知,使用欧氏距离进行海冰分类计算时的精度均略高于曼哈顿距离,平均分类精度约提高了1.3%。在k值的测试中可以看出,经测试,当k=3时分类效果最佳,当k<3或k>3时,分类精度均呈现下降趋势。最终,根据本文实验,推荐选用欧氏距离作为KNN分类器的度量,且k值设置为3。
表6 欧式距离与不同k值组合下的海冰分类结果
表7 曼哈顿距离与不同k值组合下的海冰分类结果
4 结论与讨论
4.1 结 论
利用高度计数据监测极地海冰是当前研究的热点,本文选用国产HY-2B高度计进行极地海冰分类实验,通过结合KNN分类器与MAX、PP、LEW与Sigma04个波形特征,实现了对MYI、FYI、TFYI、LEAD及OW5类海冰类型的识别分类,这也是国内外基于HY-2B进行精确的海冰分类工作的首次尝试,本文研究结论如下:
(1)本文通过使用KS检测定量评估单波形特征在海冰分类中的能力。MAX对海冰和OW之间有着一定的区分能力,PP对OW的区分度最好,LEW对FYI有着较强的识别能力,Sigma0可用于MYI与LEAD的区分;
(2)使用不同波形特征的组合可实现对海冰的精确分类。通过使用AARI冰况图产品及MODIS冰间水道产品对分类结果进行精度检验,对2019年12月的数据来说,最优波形特征组合为PP、LEW、Sigma0及MAX,对于2020年3月的数据来说,最优的波形特征组合为PP、LEW及Sigma0。两个月份的海冰分类的最高平均精度均可以达到90%以上,尤其对OW的分类效果最佳,达到了93%以上;
(3)综合KS检验与海冰分类结果对波形特征的重要性进行评估,特征的重要的排序从高到低,分别是PP、LEW、Sigma0与MAX;
(4)本文对分类器的参数设置进行了实验,对于本文数据来说,推荐选用欧氏距离作为KNN分类器的度量,k值设置为3,此时海冰的分类精度最高。
4.2 讨 论
本文研究目的是评估HY-2卫星在海冰分类应用中的可行性,因此采用了4个波形特征PP、LEW、Sigma0及MAX进行分析,4者均为已在其他国外高度计卫星中成功应用过的波形特征[11-13,23]。后续研究将引入TEW、SSD和LTPP等其他波形特征,开展对波形特征在海冰分类中应用的全面分析,以进一步完善波形分类算法。受限于目前可获取的数据,本文的研究仅使用了2019年12月和2020年3月冬季和初春共两个月的HY-2B数据。为进一步提高算法的普适性,未来将会利用大量的北极HY-2B数据继续开展海冰分类分析,以求得适用于不同季节的海冰分类需求的普适性组合方式。对海冰分类产品的精度评价同样是后续研究方向,例如不仅可开展HY-2与CS-2、Sentinel-3等其它卫星海冰分类对比。还可开展高度计卫星与微波辐射计或散射计等海冰类型产品的对比。