基于支持向量机的色林错湖冰提取及时空分布
2019-12-24琼王君波郭俊钰梁
王 琼王君波郭俊钰梁 继*
(1.湖南科技大学地理空间信息技术国家地方联合工程实验室,湘潭411201;2.中国科学院青藏高原研究所青藏高原环境变化与地表过程重点实验室,北京100101;3.湖南科技大学资源环境与安全工程学院,湘潭411201)
1 引言
在过去的20年里,研究发现几乎全球范围内的冰川继续退缩[1]。近年来由于气候变化,青藏高原区在冰川与降水共同作用下正不断扩大着高原湖泊面积[2-3]。湖冰作为气候变化的指示器,由于其显著的季节性特征,能够直观反映出气温的变化,有时甚至相较于气温更为明显地反映出气候的年际变化,尤其是在高原气候区具有相当的敏感性。另一方面,湖冰在受气候明显影响的同时,也能给予气候系统明显的反馈,从而影响局部地区的小气候,进而影响大尺度的气候系统。因此,对湖冰进行研究具有意义与价值。
目前,国内外对于湖冰的研究主要采用遥感手段,这得益于遥感全天候、全天时、长时间序列、大空间尺度等众多优点。邱玉宝等[4]基于微波对冰水相变的敏感度高、时间分辨率高等特点,利用搭载于GCOM-W1的AMSR-2亮温数据,通过阈值判别法,实现了青藏高原地区亚像元级中大型湖泊冻融信息的获取;Qi等[5]基于MODIS遥感影像利用阈值法,通过设定红光波段阈值与红光、近红外2波段反射率之差的阈值进行湖冰提取,讨论了青海湖湖冰物候变化特征,发现青海湖一般在每年12月中旬开始封冻,并于1月上旬实现完全封冻,消融期则是每年3月中旬至4月;勾鹏等[6]基于MODIS数据,利用单波段阈值法对纳木错2000~2013年的湖冰冻融日期进行探究,发现随着全球气候变暖,纳木错的湖冰消融速度加快,封冻期逐渐缩短;曲斌等[7]基于纳木错气象站观测数据与MODIS数据,发现湖泊封冻期与气温、风速显著相关,同时基于MODIS数据计算结果对完全冻结日期的反演精度较高,而对完全解冻日期反演结果不佳。
国外对于湖冰提取技术较为成熟,许多原来应用于海冰研究的方法经调整之后应用于湖冰提取。Nonaka等[8]基于MODIS数据对湖泊的表面温度进行反演,并对表面温度设定阈值来进行湖冰提取,将预测结果与实际观测结果对比,发现湖泊开始消融时间误差小于3天,且消融日期逐年不断提前;Garrity等[9]基于 SSM/I传感器85.5 GHz波段对北极地区的夏季海冰密集度进行探究,发现低浓度海冰区由于对云层的不透明度更加敏感,容易低估实际上的冰浓度;Yu等[10]基于MODIS数据对青藏高原58个湖泊进行湖泊冻结开始与破裂结束日期的提取,发现冰盖持续时间既受气候因素影响,也受湖泊特有物理、化学因素的影响。
支持向量机(Support Vector Machines,SVM)是一种建立在统计理论基础上的机器学习方法,可以自动寻找对分类有较大区分能力的支持向量,由此构造出分类器,可以将类与类之间的间隔最大化,因而有较好的推广性和较高的分类准确率[11]。朱玲玲[12]通过结合SVM与迭代法分割实现了对影像道路网的提取,总体识别精度达到了90%以上;程灿然[13]基于GF-1数据对比SVM与传统方法,对兰州市绿地景观做出评价,发现基于SVM的提取方法精度高达98.3931%,相较于植被指数法的73.1418%精度值与最大似然法的93.8254%精度值具有明显优势;樊彦丽[14]基于SVM对怀柔区雁栖湖的GF-2数据实现了土地利用分类,SVM的总体分类精度达到了95.67%,优于最大似然法与卷积神经网络。
本文基于天宫二号影像,通过构建湖泊边界并使用支持向量机的分类方法,对色林错湖冰进行了提取,同时结合该地区气象数据分析了色林错湖冰时空分布与变化特征。
2 研究区域与研究数据概况
2.1 研究区域
色林错(31°29′-32°08′N,88°33′-89°23′E)是中国第二大、西藏自治区第一大湖(图1),是青藏高原形成过程中产生的一个构造湖,为大型深水湖,同时也是世界海拔最高的第一大微咸水湖[15],位于西藏自治区那曲市,冈底斯山北麓,平均海拔4530 m,流域属高原寒带半干旱季风气候区,太阳辐射强、日照时间长、冬春寒冷、夏秋温凉、干湿季分明。色林错的主要入湖河流有扎加藏布、扎根藏布、阿里藏布、波曲藏布等,年日照时2910~2970 h,年降水量290~321 mm,年平均气温0.8~1.0℃,年平均最高气温5.5~6.9℃,年平均最低气温-6.6~6.0℃,年大风日数103~132 d。色林错流域年平均气温以0.40℃ /10a的速度显著升高,流域年降水量为32.69 mm,增幅明显[15,16]。
图1 色林错区位图Fig.1 Location map of Selin Co Lake
2.2 研究数据
天宫二号空间实验室搭载了宽波段成像仪、三维成像微波高度计、紫外临边成像光谱仪、伽玛暴偏振探测仪、空间冷原子钟等有效载荷,平台运行在倾角为43°的近圆非太阳同步轨道上[17]。
宽波段成像仪是新一代宽波段、宽视场和图谱合一的光学遥感器,是国内外首次在单台仪器上实现了可见光、短波红外和热红外多光谱大视场全推扫成像的组合集成功能。在轨飞行期间,宽波段成像仪主要针对中等(偏高)地面分辨率、大尺度地物目标监测,适宜开展内陆湖泊、陆地和大气探测以及对海洋和海岸带水色、水温的观测[15],其波谱分布如表1所示。
表1 宽波段成像仪波段分布[17]Table 1 Band distribution of WIS[17]
3 技术路线
为实现基于天宫二号遥感数据的色林错湖冰提取,设计了相关数据处理实验,技术流程如图2所示。
图2 湖冰提取流程图Fig.2 Flow chart of lake ice extraction
4 湖泊边界构建
色林错湖区周边环境复杂,河流、山脉交错纵横,湖泊密布,其中较为典型的错鄂、班戈错分别为淡水湖、盐湖,与色林错湖水理化性质千差万别,因而对光谱响应具有较大差异。同一提取方法同时应用于多种不同理化性质湖泊难免产生较大的误差,最终导致识别精度欠佳。因此,为降低周围环境对于色林错湖冰提取的影响,对湖泊边界进行提取,将其应用于遥感影像的矢量边界(Shapefile)裁剪,从而将周围湖泊水域特性对色林错湖冰提取的影响降至最小[18-20]。
该区域影像共9景,其中两景由于不处于湖区封冻期不可用于湖冰提取,其余7景可用。从中选择2017年10月6日数据作为基准,该影像中湖泊面积达到一年的最大值,其他影像均根据该影像进行重采样。对该景数据的湖区边界进行感兴趣区(Region of Interest,ROI)构建,并将其转换成矢量文件,用于重采样后的影像裁剪。
认定2017年10月6日影像数据作为湖泊边界,通过对色林错湖区那曲气象站2000~2018年降水量与温度气象数据分析(图3、图4),发现该地区气候具有如下特征:色林错湖区受来自印度洋季风的影响,降水集中在雨季7~9月,其余月份降水量较小,对湖泊补给作用较小,经过漫长的雨季,到10月初湖水恰逢达到一年最大值,而后数个月湖水将持续蒸发,且蒸发量大于补给量,湖水水域面积将不断缩小;色林错湖区属于高原寒带半干旱季风气候区,气候寒冷,4~11月温度大于0℃,而从12月开始直到次年3月,温度降至零下,推测为湖区结冰期,冬季结冰期长,而夏季的冰雪融水将使湖区面积较冬季显著扩大。综上可以明显看出,色林错湖区在结束雨季后的10月初湖区面积达到最大值。
图3 2000~2018年那曲站日平均气温图Fig.3 Daily average temperature chart of Naqu station(2000~2018)
通过获取该地区的数字高程模型影像(Digital Elevation Model,DEM),该 DEM 精度为 30 m,较遥感影像明显精确,具有更小误差(图5)。通过提取等高线发现:该地区的海拔高度分布于4508~5195 m之间。根据中国科学院青藏高原研究所的科学考察数据:湖区水深分布集中于40~50 m之间。该数据与4508 m的初始海拔进行叠加,与4550 m等高线色林错湖区边界矢量文件恰好吻合。等高线提取出的边界是理论上的边界,遥感影像提取的则是实际边界,二者一致证明了边界提取的正确性。
图4 2000~2018年那曲站降水量图Fig.4 Precipitation chart of Naqu station(2000~2018)
图5 雷达地形测绘数据30 m空间分辨率DEM图Fig.5 DEM map of 30 m spatial resolution SRTM
5 方法选择
研究区处于高寒环境,生态环境比较单一,仅需对湖水、湖冰、陆地3种地物类型进行分类,从而实现对湖冰面积的提取,本文选择监督分类方法。
监督分类是指对遥感影像进行目视解译,通过选择一些较为典型的样本像元,对其进行类别的定义,将这些像元作为训练样本用于识别其余未知像元的类别。该方法对训练样本具有较高的要求,需要进行野外考察并具备丰富的经验,才能选择出最具有代表性的训练样本。
5.1 监督分类方法
监督分类可以分为4个过程,包括:定义训练样本、执行监督分类、评价分类结果和分类后处理。其中最为重要的是选择合适的分类器,从而实现高精度的分类。分类器有平行六面体法、最小距离法、最大似然法、支持向量机等[17]。
平行六面体法根据训练样本的亮度值形成一个n维的平行六面体数据空间,其他像元的光谱值若落在平行六面体任何一个训练样本对应区域,就被划分为其对应的类别。平行六面体的尺度由标准差阈值确定的,而该标准差阈值由所选类的均值求出,类别划分与均值计算受光谱值分布影响较大[17]。
最小距离法利用训练样本数据计算出每一类的均值向量和标准差向量,然后以均值向量为该类在特征空间中的中心位置,计算输入图像中每个像元到各类中心的距离,距离哪一类中心最近,该像元就归到哪一类。该方法相对简单,计算时间短,但易受相邻地物光谱值干扰[17]。
最大似然法假设每一个波段的每一类都呈正态分布,计算给定像元属于训练样本的似然度,像元最终归并到似然度最大的一类当中,总体分类精度较高,但计算时间长且对分类样本精度与数量要求均有较高要求[17]。
支持向量机是按监督学习方式对数据进行二元分类的广义线性分类器,本质是一种二分类模型,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解,可以将类与类之间的间隔最大化,因而有较好的推广性与较高的准确率[21-22]。
5.2 分类方法比较
为选出精度最高的分类器进行地物分类与湖冰提取,选取2018年1月21日的色林错天宫二号影像数据,使用平行六面体法、最小距离法、最大似然法、支持向量机进行相同训练样本下的监督分类实验。分类结果如图6所示。
为评估分类精度是否达到要求,需要对分类结果进行评价。利用混淆矩阵法,进行总体分类精度与Kappa值的计算,实现对于最终分类结果的评估。总体分类精度是被正确分类的像元总和除以总像元数,精度越高则越趋近于1。Kappa系数是一种衡量分类精度的指标,分布于-1~1之间。Kappa系数越接近1,则分类精度越高[21]。Kappa计算公式如式(1)所示:
式中,N为真实参考的像元总数,x为某一类中真实参考像元数,k为某一类中被分类像元数。由表2中分类精度对比可以看出:支持向量机相较于其它分类方法提取色林错湖冰具有更高的识别精度。
表2 分类精度对比Table 2 Comparison of classification accuracies
6 分类分析
通过对2017~2018年7景色林错湖区天宫二号影像的预处理、裁剪、重采样、矢量裁剪,建立训练样本对影像进行SVM分类。
6.1 建立训练样本
训练样本的选取是影响分类结果的决定性因素之一,样本的优劣对所需分类影像的最终实现精度具有直接影响,不够准确的样本训练集将导致分类的错分或漏分。本文在对研究区天宫二号影像进行矢量裁剪后,根据实验需要,将地物分为3类:第一类是湖冰,包括完全冻融面区域;第二类是湖水,主要包括尚未开始冻融部分以及冰水混合部分的湖水;第三部分是陆地,主要包括湖心岛屿、湖泊边界由于枯水期水位下降而露出的裸地[23-24]。
训练样本的选取与建立是一个需要根据提取结果不断循环往复,提高分类精度的过程。首先,在选取训练样本时需要将同一类型但具有不同影像特征的地物进行选取,从而避免处于2种地物之间的边缘部分地物发生错分或漏分;其次,在进行初次训练样本采集、选取之后,进行初步的SVM分类,针对不同的分类结果,需要通过目视解译,根据其中出现的分类问题,进一步完善训练样本的采集;最后,再进行进一步的SVM分类,从而提高分类精度。
图6 分类结果对比Fig.6 Comparison of classification results
6.2 SVM分类与结果评价
SVM分类建立在选取了训练样本之后,通过对样本的采集表征出所需分类的样本特性(如光谱特征)。执行完SVM分类之后,对具体分类结果进行评价,利用混淆矩阵的方法,进行总体分类精度与Kappa值的计算,实现对于最终分类结果的评估,符合分类精度要求(Kappa系数>0.75)的分类结果如图7~图9所示,分类精度见表3。
图7 原始遥感影像Fig.7 Original remote sensing images
表3 SVM分类精度Table 3 Classification accuracy of SVM
6.3 湖冰特征分析
经过混淆矩阵对分类结果进行评价,SVM提取方法的总体分类精度高于88.58%,其中7景中6景影像分类精度高于95%。仅1景2017年3月13日精度较低,该日影像湖区周围存在较为明显的积雪推测,查询那曲市申扎县天气记录,2017年3月11日至12日该区域经历过降雪过程,因而对提取造成较大干扰,导致提取精度欠佳。
通过SVM分类结果结合其变化趋势(图8,图9,表3),可以明显看出色林错湖区1月下旬封冻面积增幅明显,最终在1月底实现全面封冻直到3月中旬湖面开始解冻。结合那曲地区气象站2000~2018年气象数据绘制出的年平均气温变化图(图10)得到湖面的封冻与消融过程总体符合平均气温变化趋势,推断气温是色林错湖冰变化生消过程的主要影响因素。
湖冰提取结果(图8)表明:3月色林错湖区部分水域已消融。这与该地区11月~次年4月的实际平均温度均在0℃以下,色林错应处于封冻期不一致,实际开始消融时间比气温上升到0℃以上时间提前1个月。其主要原因推测为受色林错微咸水湖的特性影响。湖水结冰温度会相对较低,而出现这一时间差[11]。该特性同样影响着色林错的封冻过程,封冻时间比气温低于0℃时间延后约1个月。
图8 SVM分类结果Fig.8 Classification results of SVM
图9 SVM总体分类精度Fig.9 Overall classification accuracy of SVM
结合色林错温度变化特征及其微咸水湖特性,对色林错湖区封冻-消融过程做出以下推断:12月份色林错湖区开始封冻,并于1月底完全封冻,直到次年3月,开始消融,4月实现全面消融。从提取结果(图8)可以看出在西部、西南部以及北部湖岸,色林错封冻较缓,这些区域恰好是色林错三大重要水系扎加藏布、扎根藏布、阿里藏布入湖口,推测主要受水系影响,水系注入引起相对活跃的水域环境延缓了这些区域的冻融过程。
7 结论
通过对天宫二号影像湖冰提取结果的分析,可以得出以下结论:
1)基于支持向量机的湖冰提取方法较其它方法提取精度显较高;总体分类精度在88.58%以上,7景中6景分类精度影像高于95%。
2)色林错丰水期湖水边界与4550 m等高线具有一致性。
3)气温是色林错湖区冻融的主要影响因素。随着气温变化,1月下旬封冻面积增幅明显,最终在1月底实现全面封冻;而随着气温回暖,3月中旬开始气温逐渐升高至0℃以上,湖面开始解冻。结合那曲站2000~2018年的气象数据,对于色林错湖区的封冻-消融过程可以做出如下推断:12月份色林错湖区开始封冻,并于1月底完全封冻,直到次年3月开始消融,4月实现全面消融。
4)色林错湖区封冻面积受水系影响较大。色林错湖区封冻较缓区域主要分布于西部、西南部以及北部湖岸色林错3大重要水系扎加藏布、扎根藏布、阿里藏布入湖口。
5)受湖水含盐量影响,湖冰生消过程与温度变化并不完全一致,而是存在延后1个月时间的封冻与提前1个月时间的消融。
致谢:感谢载人航天工程提供天宫二号宽波段成像仪数据产品。感谢中国科学院青藏高原研究所提供的野外实测数据用于结果验证。