基于多源数据的全特征土地覆盖分类方法研究
2022-09-06张煜辉
张煜辉
1武大吉奥信息技术有限公司,湖北 武汉,430223
卫星遥感技术的发展增强了土地覆盖及其更新信息的获取能力。比如,2015年6月欧空局发射的哨兵二号能够以高于60 m的空间分辨率获取地面目标12个光谱波段的信息[1];同年12月中国发射的GF-4卫星能够以50 m的空间分辨率每日获取地面目标在可见光近红外4个光谱波段的信息[2,3];未来,中国“高分辨率对地观测系统”重大专项建设将形成立体的、全方位的对地观测系统[4]。遥感数据对于地物的识别能力,一方面在于尽可能提供关于目标更全面的特征;另一方面,开发各种分类算法尽可能地提高地物识别精度。光谱特征是遥感技术识别的地物的基础,也是很多分类算法发展的基础。然而随着遥感数据空间分辨率的提高,“同谱异物、同物异谱”现象影响了地物识别精度,分类结果往往存在较多离散的孤立点(椒盐现象)[5]。学者们考虑同一目标物在空间结构上一致性,将空间特征加入地物分类来提高地物识别精度[6,7];对于植被类型,利用单一时相的影像很难区分不同的植被类型,利用高时间分辨率遥感影像提取的植被指数能够有效识别不同植被的物候特征,从而大大提高了植被识别精度[8,9]。但是,目前具备植被物候监测能力的传感器MODIS其空间分辨率仅为500 m,限制了其土地覆盖的监测能力。关于地物的特征信息,主要是“光谱+空间”或者“光谱+时间”,前者有相当多的工作是针对航空遥感数据[10,11],后者主要是以AVHRR和MODIS这类低空间分辨率影像数据的应用为代表[12,13]。关于地物分类算法,其实质上是一类特殊的空间数据的数据处理和模式识别问题,因此,凡是与数据处理、模式识别相关的思想、方法都可以用来服务于遥感影像数据的分类。非监督分类算法有:C均值聚类[14]、迭代自组织数据分析算法[15]、模糊C均值聚类[16]、自组织映射[17]和人工免疫分类算法[18]等。监督分类算法有:k-NN(k-nearest neighbor)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)以及多项逻辑回归(multinomial logistic regression,MLR)等[19]。但是由于光谱信息的高维性和标记样本不足,直接分类的效果并不佳,-般情况下会首先对光谱信息作特征降维[20,21]。半监督分类算法,主要针对先验知识有限的情况下,常用的有:期望最大化(expectation maximization,EM)[22]和隐马 尔科夫 模型(hidden Markov model,HMM)[23]、直推式支持向量机(transductive SVM,TSVM)[24,25]、基于图的方法(graph-based methods,GM)[26,27]等。考虑到分类算法浅层学习无法适应复杂自然环境,深度学习用于土地覆盖分类受到关注,多用于高空间、高光谱影像分类、目标信息提取和变化检测[28]。总的来说,数据的限制使得“空间+时间+光谱”的全特征地物识别研究还较少。
本研究以甘肃省张掖地区为研究区,获取2018年3月—10月间该地区的晴天GF-4卫星数据、7月30日的哨兵二号卫星数据以及该地区的SRTM DEM数据,综合利用研究区包括光谱、时间和空间在内的13个全特征数据开展土地覆盖分类研究。
1 研究区和数据
1.1 研究区
研究区域位于黑河中游,行政区划上包括甘州区和临泽县。黑河中游区域地势东高西低,南高北低,中部地区以绿洲为主,夹杂戈壁分布的走廊平原[29]。气候属温带干旱大陆性气候,年平均气温为6℃,年降水量76.1~287.5 mm[30]。
根据GlobeLand30-2010土地覆盖分类系统[31],研究区典型土地类型包括:耕地、森林、水体、人造地表和裸地。各个类型定义如下:(1)耕地。用于种植农作物的土地,包括水田、灌溉旱地、雨养旱地、菜地、牧草种植地、大棚用地、果树及其他经济乔木用地,以及茶园、咖啡园等灌木类经济作物用地;(2)森林。乔木覆盖且树冠盖度超过30%的土地,包括落叶阔叶林、常绿阔叶林、落叶针叶林、常绿针叶林、混交林,以及树冠盖度为10%~30%的疏林地;(3)水体。陆地范围液态水覆盖的区域,包括江河、湖泊、水库、坑塘等;(4)人造地表。由人工建造活动形成的地表,包括城镇等各类居民地、工矿、交通设施等,不包括建设用地内部连片绿地和水体;(5)裸地。植被覆盖度低于10%的自然覆盖土地,包括荒漠、沙地、砾石地、裸岩、盐碱地等。
1.2 卫星数据
GF-4卫星于2015年12月29日发射,是我国第一颗地球同步轨道遥感卫星,搭载一台可见光近红外50 m/中波红外400 m分辨率、大于400 km幅宽的凝视相机。本研究利用了50 m分辨率的可见光近红外4波段的数据;哨兵二号卫星于2015年6月23日发射,搭载的光学仪器可以获取地物13个波段的信息,其中,4个波段的分辨率为10 m,6个波段的分辨率为20 m,还有3个波段的分辨率为60 m。本研究利用了10 m和20 m分辨率的10个波段的数据。对2017年4月—10月的GF-4卫星数据进行了浏览和选择,其中,4月和5月拍摄影像很少,且有云覆盖,最终选择了2017年6月—10月期间21幅云影响小的影像;哨兵二号卫星影像数据,受限于卫星的时间分辨率和云的影响,同时考虑地物的分辨能力,获取了2017年7月30日一幅晴天影像;此外,研究还利用了30 m分辨率的SRTM DEM地形数据。
1.3 样本数据
2018年5月,本研究开展了实地调查工作,综合利用哨兵卫星影像、GF-1卫星影像、谷歌地球影像和实地调查,验证了土地覆盖类型样本数据的选择(见表1),保证了样本的纯净性。
表1 研究区样本数据Tab.1 Sample Data of Study Area
2 特征选择
时间特征主要利用GF-4较高的观测频率,以归一化植被指数(normalized difference vegetation index,NDVI)为基础进行构建;光谱特征和空间特征,利用哨兵-2卫星波段多和空间分辨率高的特点进行构建;此外,空间特征还利用了数字高程模型(digital elevation model,DEM)的地形高度信息。本研究总共选取了4个时间特征、3个光谱特征和4个空间特征进行研究区土地覆盖分类。
1)时间特征。基于GF-4数据构建NDVI时间序列提取时间特征。利用21幅GF-4晴天数据影像进行辐射校正和正射校正,分别计算相应的NDVI。考虑到NDVI数据易受到云和大气条件的影响而导致在影像中的数值低于正常值,利用HANTS对得到的NDVI时序数据进行重构;再利用21幅重构后的NDVI时序数据计算研究区NDVI的最大值、最小值、平均值和标准差4个时间特征。
2)光谱特征。光谱特征直观上体现不同地物在颜色上有较好的区分。为了有效地利用影像数据的光谱特征,在时相上选择地物差异最大的季节,因此选择2017年7月30日的哨兵二号卫星影像,将10 m和20 m分辨率的10个波段重采样为20 m,经过主成分分析(principal component analysis,PCA)变换后,选取前3个波段作为地物分类的光谱特征(贡献>99%)。此外,考虑到研究区的土地覆盖分布特点,特别是裸地同人造地物难以区别,本研究加入了改进的归一化水体指数(normalized difference water index,NDWI)[32]和土壤调节植被指数(soil adjusted vegetation index,SAVI)[33]两个特征指数。
3)空间特征。研究利用光谱特征中哨兵卫星影像数据提取的3个PCA进行纹理特征的提取,在研究区土地覆盖类型纹理特征差异的基础上,选择第一主成分的均值纹理和第二主成分的均值、对比度纹理作为空间特征。此外,在分类试验中,发现居民地和裸地容易混淆,实地调查中也注意到居民地大部分位于低平地区,因此引入提供高度信息的SRTM DEM作为空间特征参与分类。
本研究构建的空间特征、时间特征和光谱特征如表2所示。
表2 分类特征T ab.2 Classification Feature
3 结果和讨论
考虑到研究区地表覆盖的特点,特别是人造地表覆盖物(比如居民地)同裸地难以区分,研究利用面向对象分类软件eCognition,以13个特征作为分类输入,采用最临近算法进行地物识别。其中,DEM数据的处理主要包括重采样、投影变换和剪裁,最后作为分类波段数据,在eCognition中进行分类处理。研究区土地覆盖分类结果如表3所示。
戈壁和绿洲是西北地区特有的景观,有河流的地方就孕育了绿洲。由表3可以看出在研究区有大量的湖泊和湿地分布。同时,丰富的水资源得以承载广阔的耕地,分类结果显示除了有大量的戈壁,耕地仍占了绝大部分。根据表1采集的验证样本,利用混淆矩阵对分类结果进行了评价,总体分类精度为90.22%,如表4所示。
表3 研究区土地覆盖分类统计结果Tab.3 Statistical Results of Land Cover Classification in Study Area
表4 研究区土地覆盖分类精度Tab.4 Accuracy of Land Cover Classification in Study Area
从制图精度看,森林、水体、草地和裸地表现较好。在水体分类时,研究引入MNDWI(modified NDWI),其对于水体信息的增强和识别效果较好,这也体现在用户精度中。森林和草地,利用NDVI时间序列提取的特征,能有效体现不同其物候特征。但对于耕地,无论是制图精度,还是用户精度都是表现最差,这主要和选择的分类方法有关。面向对象分类首先依据参与分类的特征,综合其光谱和空间特征,获取图像对象;然后再对图像对象进行分类。在研究区,由于耕地呈大面积地块,在建立图像对象过程中,很容易将周边小面积林地或草地划分成耕地图像对象。制图精度中,湿地表现最差,容易被误判为耕地。一方面,其面积相较于耕地较小,主要分布于大片耕地之中;另一方面,在过渡区两者呈相近的长势和色调特征。人造地表和裸地在制图精度和用户精度上表现都较好,在分类实验中,其他非面向对象分类方法区分人造地表和裸地效果较差,一方面,两者在光谱特征上相近;另一方面,在张掖市区,有大量土地处于开发状态或空地。利用面向对象的分类方法,并加入DEM,明显地提高了分类效果。
本研究在特征选择时,综合考虑了研究区土地覆盖和处理的数据量,从空间、时间和光谱维度建立分类特征,既能更多地捕捉地物特征,也能有效减小数据间的冗余,保证可承受的数据处理量。
此外,本研究还将耕地数据与美国地质勘探局(United States Geological Survey,USGS)生 产 的2015年全球30 m分辨率的耕地数据进行了对比(见图1)。从空间分布上看,两个数据的耕地分布具有较好的一致性。但从面积上看,本研究统计的耕地面积为1 826.55 km2,而USGS统计的耕地面积为1 426.28 km2,造成这种差异的原因为:①USGS数据的空间分辨率为30 m,而本研究的为50 m,而且本研究采用了面向对象的分类,对于农村地区,往往将离散的居民地归为耕地;②张掖地区由于水资源丰富,一直在不断地将裸地转化为耕地。因此,这种耕地数量上的差异是可以接收的。
图1 研究区USGS的耕地面积Fig.1 The Cultivated Land Area of USGS in Study Area
4 结束语
本研究利用GF-4卫星和哨兵2号卫星数据,以张掖地区为例探讨综合利用光谱、时间和空间的全特征数据开展土地覆盖分类研究。利用面向对象分类软件eCognition,以13个特征作为分类输入,采用最临近算法获取了研究区土地覆盖分类,总体分类精度为90.22%。通过与USGS生产的2015年全球30 m分辨率的耕地数据对比,表明本研究的土地覆盖分类具有较好的可信性。借助GF-4卫星高时相和高空间分辨率的对地观测能力,配合哨兵2号卫星光谱波段多的特点,能够提供地物全特征信息,增强了地物的识别能力。但研究中也发现,作为静止轨道卫星,GF-4并不能够提供每天的观测数据,一定程度上限制了地物的识别能力;另外,通过和哨兵2号卫星的比较,也可以明显看到GF-4卫星在空间分辨率上的差距,影响了地物的识别能力。总的来说,本研究对于后续高分系列卫星的综合应用提供了重要的参考价值。