高光谱与LiDAR数据融合研究
——以黑河中游张掖绿洲农业区精细作物分类为例
2018-12-20杨思睿薛朝辉张玲苏红军周绍光
杨思睿, 薛朝辉, 张玲, 苏红军, 周绍光
(1.河海大学地球科学与工程学院,南京 211100;2.江苏海事职业技术学院船舶与海洋工程学院,南京 211170)
0 引言
不同于一般遥感技术手段,高光谱遥感可获取地物的上百个波段,波段间隔通常小于10 nm,且所有波段可形成一条连续的光谱曲线,覆盖可见光至热红外的全部电磁辐射范围,更精细地描述地物波谱特征[1]。因此,高光谱遥感能大大增强对地物的区分能力,提高对地观测的效果,应用领域也越来越广。然而,高光谱遥感影像分类也面临着新的难题:①数据高维;②训练样本不足;③许多波段间有较大相关性;④空间同质与异质性明显;⑤数据量大,计算复杂度高;⑥普遍存在同物异谱和异物同谱现象等[2]。这给遥感分类方法的有效性、稳定性和计算效率提出了新要求,同时表明利用单一数据源进行分类是不够的。
激光雷达测量(light detection and ranging,LiDAR)能快速获取地表三维数据,生成数字高程模型,且抗干扰能力、穿透能力和时效性较强,目前在地球空间信息科学领域得到了广泛应用[3-4]。针对高光谱影像(Hyperspectral image,HSI)无法区分物质组分相同的对象,而激光雷达影像不能区分高度相近地物的不足,将HSI和LiDAR数据结合起来,可以发挥其各自优势,弥补不足,从而更好地应用于地物识别。
HSI和LiDAR数据的融合研究主要集中在3个方面:①如何生成有效的特征;②如何确定有效的融合方法;③如何借助机器学习进行分类。在特征生成方面,Pedergnana等[5]利用扩展属性剖面进行特征提取,将LiDAR数据分别与多光谱和高光谱影像融合,并应用于意大利特兰托的土地覆盖分类;Ni等[6]采用一种结合HSI与LiDAR数据的边缘约束马尔可夫随机场对城市地区土地覆盖进行分类,该方法具有边缘约束权重系数保护类边界和控制平滑度的优点。在特征融合方面,Zhang等[7]提出了基于最大分歧原则的集成多核主动学习框架和基于复合核的特征提取方法,对多源数据中的不同特征进行分类;Gu等[8]提出了一种新的集成多光谱影像和LiDAR数据的多核模型,把不同尺度上每个特征样本的相似性用线性组合集成,得到异构最佳组合内核;Liao等[9]提出了一种基于广义图的特征融合方法,融合图的边缘通过叠加特征点之间的距离定权,能更好地建立与连接点之间的实际相似性,有助于提高分类精度。在分类器设计方面,Bigdeli等[10]提出了能够克服维数困难的基于特征分组的融合高光谱和LiDAR数据的多模糊分类器系统,随后又提出了一个基于决策模板的模糊多分类器系统[11],用于高光谱和LiDAR数据的融合,实验发现对有更多复杂关系的混合信息来说,模糊分类结果比常规分类方法更令人满意,同时多分类器系统在融合领域比限制更多的单分类器表现出更好的性能;Castrodad等[12]提出了一种稀疏建模算法用于数据源的分离和分类,通过非监督算法学习字典,该方法还能有效减轻部分遮挡所造成的海拔差异和阴影影响;Zhang等[13]提出了一个自适应局部加权多源联合稀疏表示的分类模型,基于多任务联合稀疏表示的框架,解决了均匀权重和不稳定系数估计等问题。由此可见,HSI与LiDAR 融合与分类研究越来越丰富和成熟,并逐渐应用于各个领域,如树种识别[14]、景观视觉[15]和土地利用分类[16]等。李光辉等[17]以西藏那曲县境内的“中习一号”冰川为研究区,发现融合机载LiDAR和HIS这2种数据的优势,能更方便地提取出冰川雪线,更好地显示雪线高度,从而应用于冰川融化灾害的应急反应监测。
本研究采用2012年获取的黑河中游张掖绿洲农业区CASI/SASI航空高光谱遥感影像和LiDAR数据作为研究数据源,采用多种方法对二者分别进行特征提取后进行融合分类,探索出分类精度最好的方法。
1 研究区与数据源
1.1 研究区概况
黑河流域发源于甘肃省南部的祁连山区,北至中蒙边境,东与石羊河流域相连,西与疏勒河流域毗邻[18]。黑河中游地处河西走廊平原,由多个规模不等的人工绿洲组成,自东向西依次为山丹绿洲、张掖绿洲和酒泉绿洲,都是重要的农业区。本文研究区黑河中游张掖绿洲农业区位于E100.1°~100.9°和N38.5°~39.4°之间(图1),农业资源丰富,盛产小麦、玉米、水稻、油菜和胡麻等多种农作物,是国家重要的商品粮基地,属于典型的农牧绿洲。区内的灌溉、垦殖和放牧使地面景观具有强烈的人为干扰特征,主要土地利用类型包括耕地、林地(乔木、灌木、疏林、园林等)、草地、水体、建设用地(城镇用地、农村居民点等)和未利用地(沙地、戈壁、裸岩石砾地、裸土、盐碱地等)[19]。
图1 研究区地理位置[20]
1.2 数据源
高光谱遥感影像数据(以下简称“CASI/SASI数据”)由黑河计划数据管理中心(http: //westdc.westgis.ac.cn/hiwater)提供,获取于2012年6月9日,是“黑河生态水文遥感试验:可见光近红外高光谱航空遥感”试验项目的重要产品[21]。该数据已经进行了几何定标、辐射定标和大气校正,CASI和SASI传感器的光谱范围分别为0.38~1.05 μm和0.95~2.45 μm,波段数目分别为48和101,空间分辨率分别为1.0 m和2.4 m。利用核心观测区122 642(CASI)和122 910(SASI)航带,经过裁剪获得研究区数据,CASI B40(R),B20(G),B10(B)假彩色合成影像如图2 (a)所示,其空间大小为667像素×417像素。图2 (b)为研究区地面参考数据。
(a)研究区高光谱遥感影像 (b)地面参考数据
在研究区土地覆盖类型数据集的基础上通过人工选取得到了地面参考数据,主要包含玉米、韭菜、菜花、菜椒、土豆、青笋、西瓜和建设用地等8种地表覆盖类型。同步拍摄的地类实地照片如图3所示。对该数据分类的特点和难点在于精细的农作物区分和不均衡地类的区分。
(a) 玉米 (b) 韭菜 (c) 菜花 (d) 菜椒
(e) 土豆 (f) 青笋 (g) 西瓜
LiDAR数据也由黑河计划数据管理中心提供(图4)。
图4 研究区LiDAR数据
该数据获取于2012年7月19日,在黑河中游核心观测区域,先利用Leica公司ALS70的运12飞机开展LiDAR航空遥感飞行试验获取原始数据,再通过参数检校、点云自动分类和人工编辑等步骤,最终形成数字表面模型(digital surface model,DSM)数据产品。
2 原理与方法
本文提出的方法主要包括3个重要环节:①对HSI进行光谱维特征提取;②基于扩展多属性剖面(extended multi- attribute profile,EMAP)和基于扩展属性剖面(extended attribute profile,EAP)进行空间维特征提取;③基于稀疏多项式逻辑回归分类器(sparse multinomial logistic regression,SMLR)的分类。将LiDAR生成的DSM和航拍HSI作为初始的实验影像,首先对HSI做主成分分析(principal component analysis,PCA),实现影像降维;然后,采用EMAP/EAP对HSI和LiDAR数据进行空间维特征提取;最后,将光谱信息、空间信息及高程信息进行融合。根据实地测量数据,选择训练样本,采用SMLR分类器分别对不同融合影像进行分类。选取总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)、单个类的精度(class-specific accuracy,CA)和Kappa 系数评价分类结果。技术流程如图5所示。
图5 技术流程路线
2.1 基于数学形态学的空间维特征提取
利用PCA对高光谱数据进行特征提取,保留信息量超过99.4%的前7个主分量。采用EMAP对降维后的HSI和LiDAR数据提取空间特征。利用面积(50, 50, …, 500),转动惯量(0.1, 0.1, …, 1),标准偏差(2.5, 2.5, …, 25),边界框的对角线长度(50, 50, …, 500)这4种属性,得到588维的EMAP。需特别指出的是,LiDAR数据因只包含一维的DSM高程信息,因此相应得到EAP特征。
2.2 多源特征融合与分类
利用简单的堆叠特征级融合,形成一个扩展的特征向量。特征级融合注重特征提取之后的融合,是将特征进行有意义的组合,从而获得对特征属性的判断具有更高的可信性和准确性[15]。采用SMLR分类器进行分类实验,按照分类器输入的不同,又分为线性分类器(linear)和径向基函数(radial basis function,RBF)-马尔可夫随机场(markov random field,MRF)分类器。linear形式为线性输入,即直接输入特征;RBF-MRF形式是先把特征用RBF映射到核空间进行分类,再用一种有效的图割(graph cuts)模型MRF进行分类后处理,以消除分类结果中的孤立点。在给定训练样本的条件下,对不同特征组合进行分类,对比各自的分类精度。
3 实验结果与分析
实验中,Xh为原始HSI特征、EMAP(Xh)为在HSI上提取的EMAP特征、EAP(XL)为在LiDAR DSM数据上获取的EAP特征。将这些特征组合,分别得到Xh+EMAP(Xh),Xh+EAP(XL),EAP(XL)+EMAP(Xh)和Xh+EAP(XL)+EMAP(Xh)这4种不同的组合。另外,设定训练样本为20个/类。
3.1 基于EMAP单一特征的分类
对不同单一类型特征Xh,EMAP(Xh)和EAP(XL)分别进行分类。2种形式分类器相对应的分类结果如图6所示,各项分类精度如表1所示。
(a) Xh(linear) (b) EMAP(Xh)(linear) (c) EAP(XL)(linear)
(d) Xh(RBF-MRF) (e) EMAP(Xh)(RBF-MRF) (f) EAP(XL)(RBF-MRF)
表1 基于2种形式的SMLR对不同单一特征EMAP和EAP分类的精度与Kappa系数
从图6和表1中可以看出,包含在HSI中的光谱信息对分类最有效,而在LiDAR DSM上获取的EAP特征并不足以将许多类别区分,即便在表1中精度很高,但分类并不彻底,这是因为LiDAR只考虑了高度信息。EMAP的分类效果大体上也没有原始光谱信息的好,主要也是因为它们是基于对象的空间特征,而研究的问题只是基于空间属性难以区分,光谱属性也是非常重要的。因此,如果可以同时考虑多特征,可能会在较大程度上提高分类的准确性。
3.2 基于EMAP融合特征的分类
对多源特征组合Xh+EMAP(Xh),Xh+EAP(XL),EAP(XL)+EMAP(Xh)和Xh+EAP(XL)+EMAP(Xh)分别进行分类。2种形式分类器相对应的分类结果如图7所示,各项分类精度如表2所示。
图7 基于EMAP和EAP的多源特征组合的分类结果
表2 基于2种形式的SMLR对多源特征组合(EMAP和EAP)分类的精度与Kappa系数
从图7和表2中发现,组合特征的分类结果比单一特征的分类结果有明显改善,充分体现了多源特征融合的有效性,特别是在linear形式的SMLR分类器下,融合特征对分类效果的提升非常显著。在多源特征中,Xh+EMAP(Xh)组合得到了最高的分类精度,与其各自单一特征分类效果较为出色有关;X+EAP(XL)h+EMAP(Xh)组合次之,分类精度基本相当,但分类效果更为彻底,有效展现了3种特征组合方式的优势。此外,结合表1—2的结果不难发现,通过RBF-MRF形式得到的分类结果优于linear形式的分类结果,表明具有RBF核空间映射和MRF分类后处理的分类形式比简单的线性分类形式有效。
3.3 泛化性分析
进一步就每类训练样本的个数与多源特征组合的分类结果精度关系展开实验。不同形式的特征组合分类结果如图8所示。
(a) linear (b) RBF-MRF
从图8中可以发现,不论是基于实验中的哪种特征组合及分类器,在一定范围内,训练样本个数的增加,分类结果的总体精度均呈波动上升趋势。但由于特征组合的不同和分类器的不同,增加的幅度各有不同。
4 结论
本文提出了一种高光谱和激光雷达数据融合和分类的有效策略。主要结论如下:
1)该方法有效地集成了多种类型的特征提取,使不同的类型特征可以有效地被集成利用。研究中考虑了几种类型来自原始高光谱影像的光谱空间特征和LiDAR的DSM,包括了完整的原始光谱信息、不同类型的基于EMAP的高光谱特征和基于EAP的LiDAR特征。实验结果表明LiDAR信息确实能起到有效补充的作用,提高分类精度。
2)研究发现Xh+EMAP(Xh)组合得到了最高的分类精度,而Xh+EAP(XL)+EMAP(Xh)组合同样也得到了很好的分类精度,并能随着训练样本个数的增加,可以更有效地提高分类精度。
下一步将继续围绕高光谱与LiDAR数据融合分类进行研究,注意将流形学习方法引入到光谱维特征提取,将集成学习方法引入对二者融合特征的分类中,进一步研究提高分类精度的有效框架。