基于多特征融合的白鹿原地区土地利用分类研究
2022-10-31刘曼张静
刘曼张静
(1.长安大学地球科学与资源学院,陕西 西安 710054;2.长安大学地质工程与测绘学院,陕西 西安 710054)
引言
土地利用/覆被分类在土地利用状况动态监测、国土空间规划、土地利用结构调整等方面具有重要作用[1]。遥感技术具有时效性、准确性、宏观性、经济性及周期性等特点,随着遥感技术的飞速发展,遥感在土地利用/覆被分类和土地资源监测中得到了广泛应用。
遥感影像的土地利用/覆被分类是遥感影像上的各地物根据不同的特征信息进行分类,遥感信息特征是分析遥感影像的基础。遥感特征是指遥感信息在物理、几何及地学属性方面的特征,其包括了光谱特征、指数特征、纹理特征等。
在进行分类时,使用多特征融合方法可以充分利用遥感影像信息,可以改善地物区分度低的现象[2]。但特征数量过多可能造成维数灾难、信息冗余等问题,因此,从特征集中优选出一些关键特征,在不减少分类相关信息的同时尽量减少数据总量,对土地利用分类起到至关重要的作用。马玥等[3]发现,进行土地利用分类时,利用随机森林算法结合纹理特征等多源分类方案可以提升土地利用分类精度。张磊等[4]对黄河三角洲湿地进行土地利用分类时,采用随机森林算法并且在光谱特征基础上分别加入植被指数和纹理特征,使总体分类精度提高了3.26%。此外,一些研究也证实红边指数可以提高农耕区作物分类精度。
在土地利用分类中,常用的传统分类算法包括马氏距离、最小距离等,马氏距离[5]是一种有效的计算2个未知样本集的相似度的方法。最小距离[6]是通过求出待分类向量X到各类别中心向量的距离,然后将待分类的向量X归结为这些距离中最小的那一类的分类方法。近年来,将遥感数据与机器学习算法相结合进行土地利用分类是研究热点,常用的方法包括随机森林和人工神经网络等。随机森林[7]是一种基于决策树的集成机器学习算法,具有分类速度快,精度较高,可以有效地运行大尺度数据集等特点。人工神经网络[8]作为一种由大量神经元相互联接而成的非线性映射模型,能有效解决遥感图像处理中常见的困难,因此其很快在遥感图像分析与处理领域得到了广泛应用,为遥感信息的处理提供了崭新的手段。
2015年6月欧空局成功发射了Sentinel-2A卫星,2017年3月发射Sentinel-2B卫星。Sentinel-2号卫星可覆盖13个光谱波段,幅宽达290km。地面分辨率分别为10m、20m和60m。1颗卫星的重访周期为10d,2颗卫星互补,重访周期为5d。在光学数据中,Sentinel-2号在红边范围含有3个波段的数据[9]。多光谱、高分辨率的Sentinel-2卫星数据向用户免费开放,对利用遥感信息开展土地利用分类研究提供了新的数据源。
本文以Sentinel-2A影像为数据源,提取光谱特征、植被指数、纹理特征3种基本特征变量,通过对以上变量进行特征优选及优选特征融合,采用随机森林算法进行土地利用分类,最后通过与最小距离算法、马氏距离算法和神经网络算法分类结果进行对比,以验证本文方法的有效性和可行性。
1 研究区概况与数据源
1.1 研究区概况
白鹿原[10]是位于陕西省西安市的黄土台塬,地跨长安区、灞桥区、蓝田县,总面积约263km2,是西安境内最大的黄土台塬。白鹿原海拔630~670m,从东南向西北倾斜,属温带大陆性半湿润气候,四季分明,雨热同季。降雨集中在6—10月,年均降水量700mm,年均气温13℃,光照资源丰富,年光照时数为2372~2920h,热量可满足农作物一年两熟的需要。研究区位置及卫星影像如图1所示。
图1 研究区位置图
1.2 数据源及预处理
本文采用白鹿原地区的Sentinel-2 L2A数据。Sentinel-2A有13个光谱波段,其中分为蓝、绿、红3个可见光波段(B2-B4)和近红外波段(B8)分辨率为10m;3个红边波段(B5-B7)、Narrow NIR波段(B8A)以及2个短波红外波段(B11和B12)分辨率为20m;其余3个波段(B1、B9和B10)分辨率为60m[9]。
从欧洲航天局数据共享网站(https://scihub. copernicus.eu/dhus/#/home)获取研究区2021年5月8日Sentinel-2 L2A级别影像,影像清晰无云,质量良好。该影像已进行了辐射定标、大气校正和几何校正。为后续分类方便,将20m分辨率的红边波段(B5-B7)和近红外波段(B8A)影像统一重采样为10m,利用SNAP和ENVI进行影像合成及分类等处理。
2 研究方法
参考《全国遥感监测土地利用/土地覆被分类体系》[11],结合Sentinel-2A影像的空间分辨率以及研究区土地利用的实际情况,将研究区土地利用类型划分为林地、耕地、水域、道路和建设用地5种类型。基于Sentinel-2A的光谱特征、植被指数及纹理特征,通过特征优化融合,采用随机森林、人工神经网络、最小距离和马氏距离共4种分类方法进行土地利用分类对比研究。
2.1 分类特征与特征优选
2.1.1 光谱特征及特征优选
在Sentinel 2A的波段中,Band1为海岸/气溶胶波段;Band2、Band3、Band4为可见光波段;Band5、Band6、Band7是红边波段;Band8是近红外波段(宽);Band8A是近红外波段(窄);Band9是水蒸气波段;Band10、Band11、Band12是短波红外波段。因此,在进行光谱特征优选时,可见光波段作为常用的分类波段在本文中为必选波段。在剩余波段中,3个红边波段、2个近红外波段、3个短波红外波段作为待选波段,2个近红外波段中,本文计算得出Band8和Band8A的相关系数为0.987,因此Band8或者Band8A均可作为待选波段,参照宋宏利等[12]对黑龙江流域主要农作物的分类方法,本文选择Band8A作为光谱特征的优选波段。3个短红外波段中,Band10为卷云波段,因此不予考虑。依据上述思路,选择Band5、Band6、Band7、Band8A、Band11、Band12共6个波段作为光谱特征进行特征优选。
本文采用最佳指数因子法(Optimum Index Factor,OIF)对光谱特征进行优选。其基本原理是图像中所涵盖的信息量与其标准差成正比,标准差越大信息量就越多,图像的独性与波段间的相关系数成反比,其相关系数越低,信息冗余度越小。此方法综合了各波段间的关联性及单波段图像的信息量,得到了广泛应用[13],其数学公式:
(1)
式中,Si表示第i个波段的标准差;Rij表示第i个、第j个2波段的相关系数。
2.1.2 植被指数及特征优选
植被指数(Vegetation Index,VI)是根据植被的光谱特性,将卫星可见光和近红外波段进行组合,反映植被在可见光、近红外波段反射与土壤背景之间差异。植被指数已广泛用来定性和定量评价植被覆盖及其生长活力[14]。
根据选取的波段,计算了4种无红边植被指数及7种红边指数,具体指数及其计算公式如表1所示。通过计算上述植被指数之间的相关系数矩阵,筛选出相关性较弱的植被指数,以降低特征变量间的冗余性。
表1 植被指数
2.1.3 纹理特征及特征优选
除上述特征变量之外,纹理也是图像最重要的空间特征之一。与形状、大小等其他空间特征相比,纹理特征的使用相对简单,不需要预先进行图像分割[19]。本文采用灰度共生矩阵的方法(Gray-level Co-occurrence Matrix,GLCM)获取影像的纹理特征。本文通过多次试验对比,设置滑动窗口大小为3,步长为1,利用灰度共生矩阵提取了均值(Mean)、方差(Variance)、同质性(Homogeneity)、对比度(Contrast)、差异性(Dissimilarity)、熵(Entropy)、二阶矩(Second Moment)、相关性(Correlation)共8个纹理特征,并使用主成分分析对纹理特征进行特征优选。
2.2 分类算法
在特征优选的基础上,基于随机森林、神经网络、最小距离和马氏距离4种方法,对比了基于光谱特征和多特征融合的土地利用分类精度。
2.2.1 随机森林分类
随机森林(Random Forest)是一种由多个决策树组成的基于监督学习算法构成的集成分类器。RF采用决策组合机制将多棵决策树组合成1个更强的分类器,从而获得比单一决策树更高的泛化能力和分类精度。许多研究表明,与传统的基于数理统计的分类方法相比较,随机森林在分类精度、分类速度及稳定性上表现良好。
2.2.2 人工神经网络算法
人工神经网络(Artificial Neural Network,ANN)于20世纪40年代出现,到20世纪70年代被逐渐应用于遥感影像土地利用/土地覆被分类领域,ANN通过模仿生物神经系统的构造原理和数据处理流程建立分类模型。通过各神经单元互相作用来处理数据,数据以网络结构的形式分布式储存,通过调整各神经单元的权重值的变化来完成学习过程,从而得到数据的分类结果。
2.2.3 马氏距离算法
马氏距离(Mahalanobis Distance)是由马哈拉诺比斯于1936年引入的一种广义距离,马氏距离是一种加权的欧氏距离,通过计算待分类图像到各类别的马氏距离,将待分类图像划归到距离其最近所在的类,下文简称MAD。集合X到类别uK之间的马氏距离公式:
(2)
式中,∑是多维随机变量的协方差矩阵;uK为样本均值。
2.2.4 最小距离算法
最小距离(Minimum Distance)分类是根据训练样本数据去计算每种类别的均值和协方差矩阵,把均值当作此类别在特征空间中的中心位置,计算待分类图像中每个像元到各地物类别中心之间的距离,将未知类别向量归属于距离最小一类的一种图像分类方法,下文简称MID。
X到类别ui之间的最小距离公式:
(3)
2.3 分类特征组合方案
基于上述的光谱特征、植被指数、纹理特征及其优选结果,再结合不同的分类方法,构建以下分类特征组合方案见表2,对随机森林、ANN、最小距离和马氏距离算法在纯光谱分类与多特征融合方类中的分类精度进行对比。
表2 分类特征组合方案
2.4 分类精度评价
本文基于混淆矩阵开展分类精度评价。混淆矩阵通过对样区内所有像元,统计其分类图中的地物类别与真实地物类别之间的混淆程度来评估分类精度。其中,常用的评价指标包括生产者精度(Producer's Accuracy,PA)、用户精度(User's Accuracy,UA)、总体精度(Overall Accuracy)和Kappa系数等。
3 结果与分析
3.1 特征优选结果
3.1.1 光谱特征优选
如前文所述,可见光波段作为常用分类波段在本文中为必选波段;在剩余波段中,3个红边波段、1个近红外波段和3个短波红外波段作为待选波段,将其进行排列组合后,不同波段组合的OIF值如表3所示。由表3可知,Band7、Band8A、Band11的OIF指数值最大。因此本文选取Band2、Band3、Band4、Band7、Band8A及Band11的波段组合作为优选后的光谱特征。
表3 不同波段组合的OIF值
3.1.2 植被指数特征优选
为无红边指数的相关性见表4,由表4可知,SAVI与NDVI及MSAVI的相关性均大于97%,因此首先排除SAVI;MSAVI与NDVI及SAVI相关性大于96%,因此排除MSAVI。在4个无红边指数中,排除SAVI和MSAVI,保留RVI与NDVI。
表4 无红边指数相关性
同样,红边指数相关性见表5,由表5可知,CIre与MSRre相关性高达99.44%,CIre在红边指数中比较常用,因此排除MSRre;REDNDVI与TVI相关性高达95%,与RRI2相关性高达98%,与CIre相关性高达95%,因此将其排除;RNDVI与TVI相关性高达95%,与RRI2相关性高达92%,因此也将其排除。排除MSRre、REDNDVI与RNDVI,最后保留TVI、RRI1、RRI2和CIre,保留指数间的相关性均小于90%,减少了冗余性。
3.1.3 纹理特征优选
纹理特征的主成分分析结果如表6所示。由表6可知,前2个主成分已经包含了94.87%的信息量,因此选择纹理特征的前2个主成分作为特征优选变量。
表5 红边指数相关性
表6 纹理特征主成分分析结果
3.2 分类结果
根据表2中的分类方案,对RF、ANN、MID及MAD在光谱特征及优选融合特征的分类精度进行对比,结果如图2所示。
从图2可知,RF分类结果区分度较为明显;ANN对于建筑的区分度不高;MID算法对于林地及耕地的分类效果不够理想;MAD对于林地的分类效果较差。整体来看,优选多特征融合方案对分类结果产生了正面的影响,特别是在ANN和MID分类方案中,优选多特征融合方案大大提升了各地物类别的区分度。
总体精度评价的分类混淆矩阵见表7。从表7可知,所有组合中,RF组合方案总体精度高于其他算法,其中基于光谱特征的RF分类方案总体精度达到85.21%,基于融合特征的RF分类方案总体精度达到87.31%。说明相较于其他分类算法,RF土地利用分类的准确性更高、分类效果更好;相较于基于光谱的RF分类方案,优选多特征融合的RF分类方案总体精度提升了2.1%,并且高于其他组合方案的分类精度。优选多特征融合的RF方案对建筑、森林、农田及公路的用户精度均高于其他组合的用户精度。在ANN方案中,优选多特征融合方案总体精度提升了10.52%;在MID和MAD方案中,优选多特征融合方案总体精度分别提升9.21%和1.79%。说明优选多特征融合方案对提升土地利用分类精度具有一定的效果。光谱特征提高了图像质量,指数特征反映了地物差异,纹理特征表现了地物与其周围环境的关系。融合后的多特征提高了土地类别之间的区分度。
表7 总体精度评价
图2 光谱特征及融合特征分类结果
4 结论
基于多光谱Sentinel-2影像,通过优选后的多特征融合影像信息,构建了多种算法的土地利用分类模型,以白鹿原地区为例开展了土地利用分类对比研究。主要结论如下:对光谱特征、植被指数及纹理特征采用不同方法进行优选,可以实现特征变量降维,减少特征的冗余性;相较基于光谱特征的分类方案,优选多特征融合方案的分类精度提升了2%~10%,表明多特征融合方法能够提升土地利用分类的准确率;与优选多特征融合的ANN、MID和MAD相比,优选多特征融合的RF分类方案精度分别提升了10.85%、26.22%及4.55%,RF相比于其他分类方案具有更高的分类精度,分类结果与真实类别具有高度一致性,在黄土台塬区土地利用分类中具有较高适宜性。