APP下载

基于XGBoost特征选取和迭加权相关权重矩阵的高分五号遥感影像变化检测

2020-07-15魏立飞张杨熙尹峰黄庆彬

湖北大学学报(自然科学版) 2020年4期
关键词:变化检测波段光谱

魏立飞,张杨熙,尹峰,黄庆彬

(1.湖北大学资源环境学院,湖北 武汉 430062;2.湖北省国土资源研究院,湖北 武汉 430071;3.深圳市地籍测绘大队,深圳 518034)

0 引言

由于人类的生产活动以及地球上的生态系统不断更替,地表覆盖物也随之发生变化.利用卫星遥感对地观测具有范围大、时效高、周期短、限制少、经济效益高等特点[1].利用不同时相卫星遥感影像对地表地物多次观测从而获取其变化信息的过程——变化检测,始终是遥感研究的热点[2].

国产高分五号卫星(GF-5)正式投入使用以及无人机高光谱数据的逐渐普及,为高光谱变化检测提供了丰富的数据源.迭加权多元检测算法(IR-MAD)[3]在遥感影像变化检测上性能较好,运算速度快,结果相对传统CVA方法[4]精度较高,但仍然存在全波段权重迭加造成精度不足的问题[5].近年来,随着机器学习及深度学习的发展,Wang等人[6]将卷积神经网络(CNN)方法应用到EO-1Hyperion卫星数据高光谱变化检测上,成为了近年来高光谱变化检测领域高精度优秀算法的代表之一.

IR-MAD算法的核心思想是,在计算多时相影像的相关性上迭代加权重得到迭加权相关权重矩阵(iteration reweighted correlation weight matrix,IR-CWM),计算IR-CWM的欧氏距离,然后阈值分割,最终得到变化结果[7].XGBoost(extreme gradient boosting)算法是一种集成学习模型,张爱武等人[8]利用XGBoost对机载雷达与高光谱进行特征选取与降维,用于高光谱分类效果较好.XGBoost是一种机器学习算法,具有特征选取和分类树的优点,但不能直接运用于高光谱变化检测.

本文中将国产高分五号(GF-5)高光谱遥感影像作为数据源,利用XGBoost特征选取变化波段,将迭加权相关权重矩阵(IR-CWM)的变化检测算法(IR-CWM-XGB),与常用的性能较好的高光谱变化检测方法CVA、PCA-CVA、IR-MAD、CNN算法在GF-5上进行实验,并进行性能对比.

1 研究区与数据

1.1 研究区研究区位于江苏省盐城市,东经120°16′,北纬34°05′,地处中国东部沿海地区,东临黄海,属于亚热带向暖温带的过渡地带,海洋性暖湿季风气候明显.气候温和、四季分明、日照充足、冷暖有常、雨量适中、有得天独厚的土地、海洋、滩涂资源,是江苏省海岸线最长的地级市.沿海滩涂耕地后备资源面积占滩涂面积的44%,具有中国东部最大的土地后备资源.区域内有中国最大滨海湿地类型自然保护区,生物多样性极其丰富,是我国典型的滨海湿地生态系统.境内农业、水产养殖业、盐业及人类利用滩涂围垦等,导致湿地面积剧减,成为滨海湿地保护的最大威胁[9].

1.2 遥感数据获取国产高分五号(GF-5)运行在平均轨道高度705 km、倾角98.2°的太阳同步轨道,发射质量约2 800 kg,整星功率1 700 W,设计寿命为8年.GF-5搭载的可见短波红外高光谱相机,光谱分辨率为5 nm (VNIR)和10 nm(SWIR),光谱范围0.4~2.5 μm,空间分辨率为30 m,地面覆盖宽度60 km,原始波段330个(VNIR150个、SWIR180个).为了研究变化检测,在江苏盐城市靠近海边的区域,夏季和秋冬季节海岸线和农作物变化较为明显的时间,获取2018年7月15日和2018年11月1日的两景影像.

1.3 遥感数据预处理本研究首先使用GF-5定标参数对获取的高分五号(GF-5)数据进行辐射定标,然后使用MODTRAN5模型[10]进行大气校正.将经过几何精纠正的同地区的Landsat8影像数据与GF-5影像数据分别选择同名点,实现几何精纠正.经过预处理后发现VNIR1 ~ 3、128 ~ 132、SWIR14 ~ 22、35 ~ 68、90 ~ 130、139 ~ 180波段存在不同程度的条带、坏线现象,因此参与运算变化检测算法的波段为其他196个波段.

2 研究方法

2.1 变化检测流程本研究利用预处理之后的高光谱影像数据进行迭代加权多元计算,获取变化影像之间的多元迭加权相关权重矩阵.在权重矩阵中选择随机训练样本,使用XGBoost选取变化特征波段,然后把训练样本放入XGBoost模型进行训练,得到IR-CWM-XGBoost模型,使用模型检测全部影像生成最终变化检测结果,流程如图1所示.

图1 IR-CWM-XGB变化检测流程图

2.2 迭加权多元检测Nielsen等人[11]发现了一种基于统计分析典型相关分析变换方法(canonical correlation analysis,CCA),简称为多元变化检测(multivariate alteration detection,MAD).后来Nielsen改进了这个算法,通过迭代计算相关性的算法得到迭加权相关权重矩阵(IR-CWM),然后计算权重矩阵的欧式距离,得到变化检测结果,即(IR-MAD)算法,变化检测的结果精度得到了较高的提升.迭加权相关权重矩阵的核心是MAD,原始MAD变换可以用(1)式表示.

(1)

其中X和Y为最初影像数据;U和V为典型相关分析中的典型变量;a和b为线性组合系数.通过求解对应的广义特征方程(2)式,得到特征向量和特征值,如(3)式.

(2)

(3)

影像数据满足高斯分布的特征,根据中心极限定理,MAD变量近似服从高斯分布,变量Ti表示为标准化的MAD变量的平方和,符合自由度为p的卡方分布,如(4)式.

(4)

卡方值Ti概率作为每次迭代的权给影像CM的均值和方差-协方差加权,得到加权相关权重矩阵(IR-CWM),如(5)式.

CMj=P{Tj>t}≃P{x2(p)>t}

(5)

2.3 XGBoost极端梯度提升树XGBoost算法是一种集成学习模型,又叫极端梯度提升树算法,由梯度提升决策树算法(gradient boosting decision tree,GBDT)改进而来[12],可以用做高光谱特征选取和数据分类[13].主要原理是,对于有n个样本和m个特征的需要训练的样本集D={(xi,yi)} (|D|=n,xi∈Rm,yi∈R),XGBoost算法使用K个CART(classification and regression tree,CART)决策树进行预测,每颗树累加的结果为最终预测结果,模型表达为(6)式.

(6)

(7)

模型复杂度的正则惩罚函数Ω(ft)如(8)式,式中γ是复杂度参数,λ是固定系数.

(8)

XGBoost递归选择树结构的最优特征,假设IR和IL分别是树左边和右边的样本集.使用(9)式计算左右两边的损失值,当损失值小于零时,选取最佳树节点.

(9)

3 结果与分析

实验的两景为江苏盐城,位于东经120°20′、北纬34°5′,其GF-5影像数据大小均为406 × 371像元.图2(a)、图2(b)为经过预处理后的GF-5影像.选取60、40、20波段合成假彩色影像.为了定量分析,采集制作参考变化影像图2(c),白色部分为变化区域,像元样本数为48 735,黑色代表未变化区域,像元样本数为101 891.XGBoost和CNN算法是机器学习算法,在影像上随机选取同样的3%样本[6]作为训练样本.结合2018年7月(图2(a))和11月(图2(b))高光谱影像盐城影像,目视解译可以发现如下几个变化特点:夏季农作物覆盖区域,在秋冬季节时,因为农作物收获,农田变为裸地;夏季降雨量充沛,海平面升高,在秋冬季节,海水变为滩涂,部分水塘也因为秋冬少雨变干枯;秋冬季节,部分冬小麦开始播种,部分空闲土地变为种植物土地.

(a)2018.7.15高光谱影像(R:60,G:40,B:20);(b)2018.11.1高光谱影像(R:60,G:40,B:20);(c)参考变化影像图2 江苏盐城高分五号高光谱影像变化检测结果

3.1 变化检测精度分析本文中使用4种算法用于对比IR-CWM-XGB算法的精度,比较算法为CVA、PCA-CVA、IR-MAD、CNN.利用误检率、漏检率、Kappa系数、总体精度对变化检测的精度进行分析.根据上述算法和数据处理流程,得到江苏省盐城市海边部分区域变化检测结果(图3).因为高光谱影像具有“同物异谱,异物同谱”现象,使用CVA(图3(a))算法在GF-5上效果并不突出,但基本能有效地检测出变化的水面、农田和滩涂,但因为植被和土壤结合较为紧密,混合像元较多,因此农田种植的变化检测结果并不稳定,增加PCA(图3(b))后,CVA的精度明显提高.使用IR-MAD(图3(c))算法也能准确地识别出水体和农田的细小变化,算法各有优势.但在建筑物变化和路面变化的识别上IR-MAD稍有不足,CVA在植被变化检测方面稳定性不足,存在大量漏检.因为数据本身配准精度、角度、天气温度、地面湿度变化等多方面原因,IR-MAD算法在陆地变化,建筑物变化方面仍有误差,几乎把含有建筑物区域都标为变化,但实际未发生变化,导致漏检和误检.CNN算法(图3(d))可以有效地识别出主要变化区域,总体精度也较高,但因样本选取随机性较强,导致漏检区域较多.

本文中采用IR-CWM-XGB算法(图3(e)),选取迭加权相关权重矩阵(IR-CWM)中和变化结果相关性较高的特征波段,选取训练样本进行模型训练,可以解决IR-MAD对于建筑物和地面识别错误的问题,同时解决CVA算法中存在的植被覆盖变化不准确的问题.从表1可以看出,本文中提出的算法总体精度最高(88.79%),Kappa系数(0.743 8),误检率最低.本文中提出的算法相比于CVA算法、PCA-CVA算法、IR-MAD算法和CNN算法,其评价指标均有提升.

3.2 波段和样本选取分析因为高光谱的维数较多,本文中采取XGBoost特征选取作为主要降维手段.因为XGBoost会根据样本选取分数较高的波段进行模型预测,样本的不同可能导致波段的重要性分数的变化.由于选取的样本随机性很强,因此实验中选取3份随机种子不同,大小均为1%的随机样本(图4(a)、(b)、(c))和1份0.8%样本的结果(图4(d)),在GF-5的数据上进行试验,提取变化检测的特征波段的重要程度分值.经过XGBoost算法特征筛选变化特征波段权重表如图4所示.从结果(图4)可以看出,使用XGBoost算法,根据计算得出的每个波段是否发生变化的IR-CWM,列出前25个重要波段,由XGBoost计算的分数从高到低排列.根据3份不同随机种子样本(1%)、小样本(0.8%)和大样本(3%)的测试可以看出,不同波段计算出的分值均是第115个波段的相关性最高,因为样本的随机性,波段的分值高低顺序分数各有不同,但前25个波段特征波段大体一致,筛选的特征波段总体不变.

表1 江苏盐城高分五号高光谱影像变化检测精度

图4 XGBoost特征波段选择结果

使用不同样本的特征选取的波段,训练预测后得到变化检测结果,定量分析结果如表2.表2前三行为相同样本大小(1%)、不同随机种子的运算结果.表2中(D)为总体(0.8%)样本的结果.表2中(E)为总体(3%)样本的计算结果.由表2可见,适当提高样本数可以降低误检率、提高Kappa系数,但对于总体精度影响较小.相同样本大小(1%)、不同随机种子的3个样本结果表明,漏检率差异较大,说明样本的随机性对结果有影响,但对于总体精度影响较小(±0.03%).

表2 江苏盐城高分五号高光谱影像IR-CWM-XGB不同样本变化检测精度

4 结论

本文中使用两景不同时相、同一位置的江苏盐城高分五号高光谱影像数据,结合常用的性能较优秀的CVA、PCA-CVA、IR-MAD、CNN变化检测算法及本文中所使用的基于XGBoost特征选取迭加权相关权重矩阵方法(IR-CWM-XGB),计算高光谱变化检测的结果.结果表明:1)国产高分五号高光谱影像使用IR-CWM-XGB方法,与其他算法相比,Kappa系数及总体精度较高,误检率较低.2) XGBoost作为高光谱变化检测的特征波段选取和训练预测模型是可行的.3)IR-CWM作为XGBoost机器学习训练模型的样本是有效的,可以训练出高光谱变化检测结果.

猜你喜欢

变化检测波段光谱
基于三维Saab变换的高光谱图像压缩方法
用于遥感图像变化检测的全尺度特征聚合网络
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
新型X波段多功能EPR谱仪的设计与性能
遥感影像变化检测综述
最佳波段选择的迁西县土地利用信息提取研究
薄膜光伏组件在不同光谱分布下的测试差异
小型化Ka波段65W脉冲功放模块
苦味酸与牛血清蛋白相互作用的光谱研究