基于面向对象随机森林分类模型的滑坡遥感解译
2019-04-16徐乔孟凡利余绍淮
徐乔,孟凡利,余绍淮
(中交第二公路勘察设计研究院有限公司,湖北 武汉 430056)
1 引言
路线走廊内的滑坡信息是影响道路选线的重要因素。受地形和地质以及环境保护等因素的制约,且路线走廊范围大,传统基于野外现场调查的方法识别滑坡存在视野局限、效率低、成本高、危险性高等不足,基于遥感技术的滑坡解译方法可克服地形、交通、天气等不利条件的影响。滑坡遥感解译方法主要有人工目视解译和基于遥感影像的自动识别。但在实际工作中人工目视解译受解译者主观性和解译经验的影响较大,导致解译标准不统一,解译速度慢,不能满足大范围滑坡灾害快速调查的要求。而基于遥感影像的自动识别方法可以提高滑坡解译速度,但由于滑坡灾害光谱的复杂性及相近光谱地物的存在,滑坡灾害全自动解译的正确率目前还达不到实用的要求。
为提高滑坡信息自动提取的正确率,当前多采用面向对象的方法进行自动提取。该方法先提取滑坡对象的光谱、空间、形态和上下文特征,并辅以DEM、坡度等地形数据,然后结合专业知识构建滑坡提取的规则,进行滑坡信息的自动提取。Barlow等基于面向对象的方法,应用Landsat ETM+影像检测Cascade山地区的滑坡灾害,并在DEM数据的辅助下进行了滑坡遥感识别与成图;Martha等充分考虑滑坡的光谱和形态两大特征,结合遥感影像与DEM进行滑坡识别;宿方睿等利用滑坡的光谱、形状及地形等特征基于面向对象的方法对川藏铁路沿线的滑坡信息进行提取,试验表明该方法对川藏铁路沿线等地质条件复杂区域的滑坡调查工作具有重要意义。滑坡类规则的建立是上述方法的关键,但滑坡类规则的建立对解译人员专业知识能力要求较高,且单一的滑坡类规则仅对特定区域有效,较难适用于地质环境跨度较大的公路选线。此外,DEM等地形信息是滑坡类规则建立的重要特征,因而对于地质环境复杂、高精度DEM缺乏地区,较难建立有效的滑坡提取类规则。
考虑到随机森林是一个由多个决策树构成的组合分类器,面对高维特征,可通过少量样本的训练构建分类规则,能抑制过拟合,具有分类表现优异、人工干预少和运算速度快等优点。为此,该文提出一种基于面向对象随机森林分类模型的滑坡遥感解译方法。首先利用多尺度分割算法构建滑坡对象并提取滑坡的光谱、形状及纹理特征,在此基础上选择训练样本,利用随机森林模型确定疑似滑坡区域,最后结合目视解译,对疑似滑坡区域筛选修正,得到最终的滑坡提取范围,为路线方案的确定提供参考依据。
2 面向对象随机森林分类模型的滑坡遥感解译
2.1 滑坡自动提取方法
随机森林(Random Forests,RF)算法是由Breiman L于2001年提出的一种以决策树为基础分类器的集成机器学习算法。随机森林采用Bagging 方法为每棵决策树生成有独立同分布的训练样本集并进行训练,每棵树依赖于一个由训练确定的参数所组成的随机向量,森林中生成的树的参数随机向量也是独立同分布的,分类时随机森林输出每棵树结果的组合。
随机森林是一个由一系列决策树组成的集成分类器,该集成分类器可描述为:
h(x,θk),k=1,2,…
(1)
式中:x为输入样本向量;k为随机森林中决策树的数目;θk为第k棵决策树的参数向量,是独立同分布的随机向量,它通过在独立同分布bootstrap集上学习而被独立同分布地确定。被确定的第k棵决策树用于对所有输入向量x进行分类,对于输入变量x归属于哪个最合适的类别,每棵决策树投平等的一票。一个输入向量x的分类归属由所有树的输出结果投票综合决定。
随机森林的训练过程如下:①对输入的训练样本采用多次随机、可重复的采样,得到多个bootstrap样本集;②利用每个 bootstrap 样本集,根据特征规则将样本迭代分裂到左右两个子集,构造对应的决策树;③在每个叶节点处通过统计训练此叶节点的分类标签的直方图,估计此叶节点上的类分布;④这样的迭代训练过程一直执行到设定的最大树深度或者直到不能通过继续分割获取更大的信息增益为止。
该文以影像对象为滑坡提取单元,提取过程与传统基于像素的随机森林方法不同。具体过程如下:
(1)利用FNEA算法对遥感影像进行分割,得到滑坡影像对象。
(2)基于滑坡影像对象,提取影像对象特征,构建高维特征影像图。
(3)利用已训练好的随机森林模型,分别输入每个影像对象的特征矢量,统计各个决策树的投票结果,得到各影像对象属于滑坡与非滑坡的票数。
(4)根据各对象属于滑坡与非滑坡的票数多少,对各滑坡对象类别进行划分,进而得到滑坡分布范围。
(5)最后结合目视解译,对提取的滑坡结果进行修正,得到最终准确的滑坡信息。该文采用面向对象随机森林分类模型的滑坡遥感解译工作流程见图1。
2.2 滑坡影像对象构建
滑坡影像对象的构建是指将遥感影像分割成具有相同属性信息而又相互统计分离并具有连通性的小区域。滑坡影像对象是后续面向对象的滑坡遥感解译的基础,直接影响滑坡提取的精度。因滑坡在遥感影像上具有多样化的空间分布、复杂的空间形态与光谱特性等特点,传统单一尺度的分割算法难以构建有效的滑坡影像对象。考虑到分型网络演化分割(Fractal Network Evolution Algorithm, FNEA)算法是一种多尺度分割算法,且能充分利用影像的光谱、形状和纹理信息,该文利用该算法构建滑坡影像对象。
图1 基于面向对象随机森林分类模型的滑坡遥感解译工作流程图
FNEA的基本思想是通过分形迭代过程,根据相似性最大的合并准则,从像素开始合并满足条件的两相邻对象,其技术关键是相邻对象之间的相似性准则的定义。经典的FNEA中对象的相似性是综合光谱相似性和形状相似性来度量,其中光谱的相似性度量是利用对象内像素灰度值的标准差来度量,假设标号为1和2的相邻对象内像素个数分别为n1、n2,合并后对象标号为m,光谱波段异质度权重为wc,且对象内像素的第i个波段的标准差为δi,影像共有N个波段,则可得光谱相似性hval为:
(2)
形状的相似性采用合并前后形状特征空间内的变化来描述,采用紧致度和光滑度两种景观生态测度来定义。紧致度hcmp表征对象的紧凑程度,可描述为对象边界周长p与对象内像素数n的均方根之间的比率;光滑度hsmo表征对象边界的光滑程度,用对象边界周长p与最小外包矩形周长b的比率来描述。设紧致度权重为wcmp,则对象间的形状相似性hsha定义为:
(3)
式中:紧致度权重wcm∈[0,1]。
综合式(2)与(3),设形状相似性的权重为wsha,其值在[0,1]范围内,则相邻两对象的综合光谱和形状的相似性准则可定义为:
f=wshahsha+(1-wsha)hval
(4)
式中:f为FNEA算法中的分割尺度,给定不同的分割尺度阈值τ即可得到不同大小的分割对象,τ越大分割得到的对象数目越小,对象也越大。因此,在实际应用中,需要根据不同的应用场景,设置不同分割阈值,以满足后续滑坡提取要求。
2.3 滑坡影像特征提取
滑坡一般具有比较明显的形态及结构特征,并有较为明显的地貌特征。在遥感图像上,滑坡体的形状、阴影、色调、纹理、植被指数等与周围环境有很明显的差异。从滑坡体的光谱特征来看,由于滑坡发生区域的原始地表遭到破坏,使得其在遥感影像上的颜色会发生连续性的变化;另外新发生滑坡体的物质构成疏松且表面通常无植被覆盖,反射率一般较高,影像上的色调较浅。从滑坡的几何形状来看,滑坡一般具有较长的滑坡带,有较大的长宽比,滑坡面一般呈簸箕形,也有些呈舌形、梨形等,致使滑坡体在遥感影像上常呈现出圈椅、双沟同源、椭圆等特殊形状。由于滑坡体的色调与形态在不同部位的表现均不同,致使其在影像上的纹理呈现出无规则状态。
与传统单个像素相比,滑坡影像对象包含丰富的特征信息,如对象的几何信息、纹理信息及光谱信息,充分利用滑坡影像对象的各个特征信息有助于更好地识别滑坡。为此,利用多尺度分割算法生成滑坡影像对象,并提取滑坡影像对象的光谱、形状及纹理特征。该文所用滑坡影像的特征如表1所示。
表1 影像特征及其定义
3 试验
青海省沿黄公路共和至大河家段公路工程勘察区域地处青藏高原东北缘,区域内地质构造作用强烈,变质作用和岩浆作用突出,表现出特殊、复杂的区域地质构造。路线方案整体处于黄河上游河谷内,受拉脊山断裂带的控制作用,并随着青藏高原的急剧抬升和黄河不断下切,导致路线经过的龙羊峡至拉西瓦、李家峡库区、隆务峡至公伯峡等黄河峡谷段两岸地势陡峭,深切河谷发育,地形地貌复杂多样。青海沿黄公路区域地理位置如图2所示。
图2 研究区的地理位置图
该文选取青海省沿黄公路隆务峡至公伯峡段为重点研究区域。隆务峡至公伯峡段公路是青海省沿黄公路的重要组成部分,同时也是青海省道平大公路至阿赛公路的一条重要连接线。该路段整体位于隆务峡至公伯峡的高山峡谷内,两岸山体高陡,部分地段直立,植被稀少,峡谷两岸冲沟发育,区域内滑坡、崩塌、泥石流等不良地质现象及灾害地质体十分发育。
考虑到路线范围区内地形地貌复杂,且高分辨率影像反映的地表形态更加细致、真实,能分辨图像上更小单元的地物、地质体和地质现象,为此项目采用QuickBird影像(多光谱2.44 m,全色0.61 m)用于滑坡解译。由于区域地形起伏极大,导致该地区的卫星图像存在明显的几何畸变,在利用影像进行滑坡解译前,必须先进行几何纠正与空间配准等相应的处理。同时,为充分利用全色波段图像的空间几何信息以及多光谱图像的彩色光谱信息,项目对不同分辨率的遥感图像进行了融合处理,以提高QuickBird影像的空间分辨率,并保留其多光谱特性。
为快速获取路线方案沿线滑坡区域,项目采用前述技术方法,利用处理后的QuickBird遥感卫星数据,基于eCognition软件平台进行多尺度分割,其中尺度参数为40,光谱特征权重为0.3,精致度权重为0.5,得到37 109个滑坡对象。在此基础上提取滑坡对象的光谱、形状及纹理特征,构建特征图像,进而采用面向对象的随机森林分类模型,对研究区的滑坡信息进行提取,并结合目视解译进行修正。图3为路线方案沿线的滑坡解译图,其中白色区域为采用面向对象的方法提取的疑似滑坡区域,黑色区域为目视解译修正后的滑坡区。
图3 隆务峡至公伯峡段路线滑坡解译图
由图3可知:利用面向对象的随机森林模型,有效识别出大量滑坡区域,尤其是新生滑坡区域。经统计,该研究区总面积为62.83 km2,采用面向对象的滑坡解译方法共提取出疑似滑坡区309处,疑似滑坡面积3.14 km2,在此基础上进行目视解译修正,得到244处准确滑坡区,滑坡区面积5.72 km2。通过与目视解译结果对比,该方法存在一些漏提滑坡区的现象,这主要是由于路线走廊存在较多古滑坡,而古滑坡区域光谱、纹理、几何形态等特征与周围环境相似,致使古滑坡易漏分;同时,由于路线区植被稀少且无该区高精度DEM数据,易使部分裸土及裸岩误分为滑坡。结合上述提取的滑坡区域,为项目3种路线方案(ⅠK、ⅡK及ⅢK)的比选优化提供了参考依据。
4 结论
针对青海省沿黄公路共和至大河家段的滑坡解译要求,利用卫星遥感平台,获取研究区的高分辨率QuickBird卫星影像。考虑到路线区域复杂的地形及地质环境,采用面向对象的随机森林分类模型提取出路线范围内的疑似滑坡区,并结合目视解译,实现路线滑坡信息的快速准确提取。具体结论如下:
(1)利用多尺度分割算法构建滑坡体对象,在此基础上采用随机森林模型综合利用滑坡对象的光谱、形状及纹理等特征,能有效地提取出路线沿线的疑似滑坡区。
(2)采用自动提取与人工目视解译修正相结合的策略,适用于复杂艰险地区的滑坡提取,该方法能有效减少滑坡遥感解译的作业面积,提高工作效率,为路线方案的比选优化提供快速准确的滑坡灾害信息。
但是,该文滑坡解译方法仍存在不足:由于缺乏研究区高精度的DEM数据,对滑坡的提取精度产生了影响;此外该方法对古滑坡的提取精度较低。后续工作应增加使用高精度DEM信息以提高滑坡解译精度。