APP下载

基于卷积神经网络和特征选择的无人机多光谱影像林地提取方法

2022-10-15董建康赵之江冯晨阳

关键词:波段林地光谱

董建康,连 懿,2,赵之江,张 虎,冯晨阳

(1.天津师范大学地理与环境科学学院,天津 300387;2.中国科学院国家天文台,北京 100012)

林地具有缓解全球气候变化、改善生态环境和维护生态平衡等生态系统服务功能.提取林地信息可以监测林地变化、预测林地密度,有助于管理和维护林地生态系统.传统获取林地信息的方法效率低、时效性差且成本较高,而遥感信息技术凭借实时、快速等优势成为获取林地信息的重要手段[1-2],为林地提取提供了丰富的数据来源,如GF-1、MODIS、Sentinel-2和Landsat系列等中等空间分辨率卫星影像数据以及IKONOS、QuickBird和WorldView系列等高空间分辨率卫星影像数据[3].中等分辨率的影像数据空间分辨率较低,对零散林地的识别效果不佳,且难以及时获得特定研究区域的高分辨率卫星影像数据.无人机遥感技术因具有低成本、低风险、高时效、高分辨率、不受云层影响和自由规划航线等特点,很好地解决了这些问题[4],更适合特定区域遥感监测的应用场景[5-6].

近年来,研究人员基于不同种类遥感影像数据,采用多种方法开展林地信息提取方法的研究[7-9].各类遥感数据中,卫星影像和雷达数据已广泛应用于林地提取.Lu等[10]利用极化与干涉信息融合的SAR数据进行林地提取;Dong等[11]基于中高分辨率的MODIS数据提出了一种林地提取方法.雷达数据虽然能够获取林地的三维特征信息,但处理过程较为复杂,所需成本较高;卫星数据虽具有宏观观测的优势,但由于空间分辨率的制约,其对小范围特定研究区的提取精度有限,无人机遥感的发展有效解决了这些问题.机器学习方法中,随机森林法和支持向量机法均可以完成林地的识别.黄建文等[1]基于高分六号卫星多光谱数据提出随机森林的分层分类法用于人工林地提取;曾文等[12]以高景一号遥感影像为数据源,基于支持向量机(support vector machines,SVM)分类器进行林地提取.机器学习算法的优点是算法简单,运行速度快,但无法处理复杂的分类问题,此外,面对大数据量的问题时会表现出不稳定性,识别结果的精度受到限制;而深度学习算法很好地解决了机器学习算法无法处理复杂分类的问题,成为当前的研究热点[13].

基于多源遥感数据的林地提取研究有很多,但大多只考虑提取精度,对林地提取效率和成本方面的研究较少.本研究运用数据降维思想[14],在综合考虑效率和准确度的基础上,利用高空间分辨率无人机多光谱数据和深度学习方法提取林地,并对以无人机遥感作为数据源和深度学习算法的优点进行分析,提出了一种林地提取方法,并通过选择特定研究区域来验证分析.

1 研究区概况及数据

1.1 研究区概况

研究区位置以及样本分布如图1所示.由图1可以看出,研究区为位于天津市西青区天津师范大学内的部分区域(117°7′15″E~117°7′25″E,39°3′25″N~39°3′38″N).天津师范大学地处北半球中纬度亚欧大陆东岸,属温带季风气候,四季分明,冷暖适中,年平均气温约14℃,适宜多种植物生长.研究区地形起伏较小,面积约为0.091 km2,区域内植被覆盖种类繁多,包含乔木、灌木、草地和稀疏草地等,林地类型主要为落叶阔叶林.此外,研究区贴近生活区,方便观察记录,有助于研究的顺利展开.

图1 研究区位置示意图和样本分布情况Fig.1 Location of the studied area and distribution of samples

1.2 数据获取及处理

1.2.1 数据获取

本研究使用的六旋翼无人机是一种具备垂直升降和悬停等灵活飞行性能优势的无人机,它通过上下共轴放置的3组共6个电机提供升力,通过改变旋翼转速来调整姿态,进一步实现位置控制,具有悬停性能优异、移动灵活、机械结构紧凑和零部件可靠性高等优点[15].无人机平台搭载的传感器为Tetracam公司生产的Micro MCA12 Snap多光谱摄相机阵列成像系统,该系统质量轻、体积小且能实现远程触发,适用于无人机搭载.传感器各波段的波长及波宽如表1所示.该相机可以同时获取自由组合的12个波段的影像数据,且能够将数据实时记录在大容量高速SD闪迪卡内,为成功获取影像提供了保障.

表1 传感器各波段波长及波宽Tab.1 Wavelength and bandwidth of each band of the sensor

本次实验拍摄时间为2019年7月30日,此时段内植被长势茂盛,天气状况良好,风力影响较小.本研究利用搭载了传感器的无人机拍摄,获得了空间分辨率为0.05 m的无人机多光谱影像,包含490~950 nm的12个波段数据,其中前8个位于可见光波段范围,后4个位于近红外波段范围[16].

1.2.2 数据处理

无人机的数据处理主要包括几何校正和辐射校正.数据处理工作中,将测得的一部分地面控制点数据作为控制点用于摄影测量处理时的几何校正,另一部分作为检查点用于验证无人机多光谱影像几何校正的精度,利用检查点的均方根误差(root mean square error,RMSE)评价几何校正的精度.对所有检查点进行误差统计发现,检查点的平面误差为0.2 m,高程误差为0.4 m.参照《CH/Z 3003-2010低空数字航空摄影测量内业规范》[17]可知,较平坦地区的成图比例尺为1∶500的数字正射影像图平面检查点误差应不大于0.5 m且高程检查点误差不大于0.4 m,因此本次几何校正符合要求.

通过在研究区内设置典型的定标点,利用ASD光谱仪进行地面测量实验,获得目标地物的纯净反射光谱值.通过线性回归耦合无人机影像上对应像元点的像元亮度值(digital number,DN),求出任意波段处的增益和偏移量,建立DN值与反射率之间的相互关系,实现无人机多光谱影像的辐射校正[16].具体步骤为:①假设图像DN值与反射率间存在线性关系,r=gain·DN+bias,其中r为某一波段的地表反射率,gain和bias分别为相应的增益和偏移;②确定地面测量区域与影像像元的空间对应关系;③通过所测数据建立DN值与地物反射率的线性回归关系;④用拟合优度评价校正结果精度,并对评价结果进行显著性检验[16].DN值与反射率间的关系如图2所示,图2中R2为度量拟合优度的系数,最大值为1,其值越接近1说明回归直线对观测值的拟合程度越好.

图2 DN值与地物反射率的关系Fig.2 Relationship between the DN value and the reflectivity of ground objects

表2为显著性检验结果,当计算出的显著性概率值P<0.05时,说明拟合关系显著有效.由图2可知,多光谱数据中多数波段的R2>0.9,只有少数波段的R2<0.9,但也接近,且表2中各波段P值均明显小于0.05.由此可知,本研究方法进行辐射校正的效果良好.

表2 显著性检验Tab.2 Significance test

2 研究方法

2.1 林地提取方法构建

为了更好地提取林地信息,本研究对处理后的影像进行主成分分析降维和相关性分析.首先选取贡献度高的主成分特征波段与相关性分析筛选后的特征波段进行波段融合,再利用U-Net网络实现区域的林地提取[18-19],最后评价提取结果的精度并针对分类中存在的问题展开讨论,对应的技术流程如图3所示.

图3 技术流程图Fig.3 Technical flowchart

2.2 特征波段提取方法

在林地识别的过程中,大量多光谱信息无疑会增加训练网络的复杂性,利用原变量之间的相互关系以及降维的思想,使用较少的新变量代替原来较多的变量,能够让多个有用信息集中到少数几个相互独立的波段,对多光谱数据进行波段筛选将极大地提升提取效率.本研究主要采用主成分分析和相关性分析的方法来实现分类特征的重构和筛选.

2.2.1 主成分分析

本研究所用无人机多光谱影像波段数较多,造成影像的数据维度较大,给林地信息提取带来诸多不便,为此需要运用PCA对数据进行降维处理[20].PCA又称主分量分析或矩阵数据分析,它通过变量变换的方法把相关变量变为若干不相关的综合指数变量,实现对数据集的降维,从而简化问题,是一种基本的数据降维方法,在多光谱数据压缩、去相关和特征提取中发挥了重要作用[21].

2.2.2 相关性分析

相关性分析指对2个或多个具备相关性的变量元素进行分析,衡量2个变量因素的相关密切程度,确定元素间相关关系的存在、呈现的形态和方向及其密切程度.一般通过统计相关波段间的相关性系数来衡量波段间的冗余程度.相关性系数代表了波段间像元灰度值的重叠度,其值越大说明波段间数据重叠度越高,冗余信息越多[21].为了减少多余信息,要尽可能选择相关系数小的波段.

2.3 U-Net网络

U-Net网络框架是Ronneberger等[22]在2015年提出的,其最初是为了解决生物医学图像方面的问题,后来被广泛应用于语义分割的各个方向.U-Net网络结构主要包含下采样、上采样和跳跃连接3个部分,结构模型如图4所示.网络中较浅的高分辨率层可以用来解决像素定位问题,较深层可以用来解决像素分类的问题,从而实现图像语义级别的分割.U-Net的结构包括1个捕获上下文信息的收缩路径和一个允许精确定位的对称拓展路径.通过这种方法,使用非常少的数据即可完成端到端的训练,并获得很好的效果[23].U-Net网络模型具有跳跃连接的编码和解码结构,能够融合不同层的特征,对特征较少的图像分类也具有非常好的效果.

图4 U-Net网络模型Fig.4 U-Net network model

3 结果与分析

3.1 特征波段选择

本研究对原始影像进行主成分分析,结果如图5所示.

图5 主成分分析结果Fig.5 Results of principal component analysis

由图5可以看出,少数几个主成分因子能够提取原始指标变量的大部分信息,且彼此之间互不相关.前3个分量特征具有约99.3%的特征信息,其中第一主成分包含图像信息的84.8%,其他成分包含的有效信息较少.为了最大限度保留原始空间的主要信息,在不减少有效信息的前提下降低特征空间的维数,提高数据表示效果,本研究选取第一主成分、第二主成分和第三主成分.

无人机多光谱数据的波段较多,而针对特定地物而言,波段间(尤其是非峰值波段之间)存在的冗余信息多,研究显示相互间关联性小的波段其相关性越小,波段的标准差越大,因此对各波段进行相关性分析,结果如图6所示.

图6 相关性分析结果Fig.6 Correlation analysis results

由图6可以看出,12个波段的相关性分为2大组:①波段1~8之间相关性系数偏高,相关性系数平均值由小到大依次排序为:5<6<1<3<4<7<2<8;②波段9~12之间相关性系数偏高,相关性系数平均值由小到大依次排序为:12<9<10<11;③2个波段组间的相关性要明显小于组内各波段间的相关性.比较分析各波段与其他波段相关性大小可知,波段5和波段12是与其他波段相关性均值最小的波段,波段8和波段11则是与波段5和波段12相关性最小的波段.因此,综合分析后本研究选取了波段5、波段8、波段11和波段12这4个相关性较小的波段与前3个主成分作为林地提取的数据.

将相关性分析结果与PCA结果进行组合,所得影像兼顾了波段的信息量和独立性,波段组合信息量充足且相关性低,有利于林地信息的提取.

3.2 林地识别

基于野外考察数据和无人机多光谱影像,将研究区分为训练区和验证区,将目视解译结果作为U-Net网络模型的真实数据,建立训练集和测试集,其中训练样本共包括208个图斑,共计2 636 953个像元.在此基础上,利用U-Net网络模型进行10轮训练,每轮迭代次数为1 000次,总迭代次数为10 000次,并利用该模型对研究区进行林地提取,结果如图7所示,图7中绿色部分为正确提取的林地,蓝色部分为漏分的林地,红色部分为错分的林地.由图7可以看出,该模型有效实现了研究区林地信息的识别,对所有纹理复杂的林地信息均基本判断准确.

图7 林地提取结果Fig.7 Results of forest land extraction

本研究的总体精度采用正确率、错分率和漏分率进行表征.错分误差(commission error,CE)指被分为林地,而实际上属于其他类别的像元占林地提取结果的百分比.

式(1)中:Ns为林地提取结果的总像元数;Nt为正确提取的林地像元数.

漏分误差(omission error,OE)指本属于林地地类,但没有被分为林地的像元数占林地提取结果的百分比.

式(2)中:Nr为验证样本的像元个数.本研究将人工识别所得样本作为验证样本.

总体精度(overall accuracy,OA)指被正确分类的像元数占总像元数的百分比.

研究区林地识别的正确率、错分率和漏分率分别为84.79%、15.21%和15.78%,基本满足林地提取的需要,但也存在错分和漏分现象.图7(a)所示的区域A中,对于一些零散单株树木的提取效果不理想,主要原因是模型训练过程中零散树木的样本较少,训练样本不足,其次是单株树木所占面积较小,包含的林地信息较少,易造成漏分.区域B(图7(b))中将部分草地错分为林地是由于该区域林地周围的草地密集程度较高,且实地调查结果表明,该区域草地的生物多样性比较丰富,而在图像中的表征纹理相对复杂,导致该区域草地图像表现的卷积特征与林地更加类似,容易造成错分.区域C(图7(c))中错分为林地的地物是水体中的芦苇,相比草地,芦苇在高度和纹理复杂度上都更接近林地,因此在波段信息中与林地相似度更高,在研究区中是错分为林地最多的地物,在训练模型中没能有效地区分芦苇和林地,这是造成错分的主要原因.区域D(图7(d))中林地边缘的提取效果较差,在地物边缘位置存在一些像元尺度错分和漏分的区域,这可能是由于高分辨率遥感影像上的信息高度细节化以及混合像元与随机噪声的影响导致对像元级林地边缘的提取效果不理想.

4 结论

本研究基于高空间分辨率无人机多光谱数据,提出一种筛选特征波段结合卷积神经网络U-Net的方法,对影像进行分割并提取林地信息,并通过深度学习算法构建了基于U-Net的林地分割模型,对模型提取结果进行精度验证和评价分析,得到以下结论:

(1)林地提取的总体分类精度为84.79%,说明本方法能够较好地区分林地和其他地物,达到较高的精度水平,表明此方法能够实现小尺度区域林地资源调查和变化监测,具有可行性、有效性和一定的应用价值.

(2)本方法的优势主要体现在神经网络模型的选取和特征波段的筛选上.因神经网络一般需要依赖大量的样本训练才能达到较高的精度,时间成本比较高,而U-Net使用较少的训练样本即可达到良好的训练结果,相比其他网络模型具有更高的训练效率.特征波段的选择通过主成分分析减少了数据维度和数据冗余,通过相关性分析又进一步减少了数据量,且在减少多余数据的基础上充分利用了影像的光谱特征和纹理特征,避免了仅依靠单一特征提取林地造成的提取结果不准确的问题,对阴影也有较好的区分,提高了训练的效率和准确度.

(3)本研究仅利用无人机多光谱数据进行林地信息提取,实现小范围特定研究区的林地资源调查,具有一定的片面性,其他地区的提取精度能否达到较高水平还有待验证.因此,如何结合多源遥感数据实现数据间的优势互补,弥补无人机影像数据自身缺陷,实现更大尺度的林地监测,进一步提高林地信息提取精度还有待进一步研究.

猜你喜欢

波段林地光谱
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
新型X波段多功能EPR谱仪的设计与性能
最佳波段选择的迁西县土地利用信息提取研究
Summer Is Coming
明水县林地资源现状及动态变化浅析
浅谈明水县林地资源动态变化状况