基于随机森林的红树林种群可分性度量研究
——以深圳湾为例
2020-05-22李雨秦左小清李洪忠
李雨秦, 左小清, 李洪忠
(1.昆明理工大学 国土资源工程学院, 云南 昆明 650500;2.深圳先进技术研究院 数字所空间信息中心, 广东 深圳 518000)
红树林生长于潮间带,构建了一种过渡性的特殊生态系统,成为连接陆地和海洋的重要媒介。红树植物属于根系发达的木本植物,具有一定的耐盐力,能在海水中生长,不仅可以净化水体,有效减少赤潮等水污染的发生,还抗风固土,减少潮波、风暴潮和海啸造成的海岸线侵蚀,可以有效抵御风浪袭击。然而随着环境恶化与不当开发,全球红树林面积急剧下降,我国红树林的情况更不容乐观。从20世纪50年代的420 km2,到21世纪初仅剩220 km2,不及世界红树林面积的千分之一,因此保护红树林迫在眉睫,任重道远[1-4]。
为了完成红树林的可持续保护,需要更好地监测红树林的演替、分布等动态信息和结构,因此需要迅速和精准地绘图,遥感技术的发展为满足这一需求提供了可能。遥感的分类精度主要受两个因素的影响,一个是不同类别间边缘像元的数目,另一个是同一类别内部的光谱特征变异[5-6]。为了获得更好的分类结果,便需要根据地物的实际情况,在这二者的相互作用中寻找达到平衡的空间尺度。许多学者通过对于可分性度量的研究,进一步探究影像分类的最佳分辨率[7]。王秋玲等[8]基于CBERS-02B与资源三号卫星(ZY-3)的多光谱影像数据,采用J-M距离方法探讨分析了江苏省徐州市郊区的光谱可分性。徐军等[9]以变换离散度为指标,基于环境一号(HJ-1A/1B星)CCD多光谱扫描相机成像数据,对其典型地物可分性进行分析,并得出各波段在典型地物的区分度。钱军朝等[10]以WorldView-2为数据源,以杭州市西湖区为研究区域,结合J-M距离确定纹理计算的最佳窗口,结果显示采用该方法筛选纹理特征可以极大地提高实验结果的精度和效率。章志等[11]基于OLI影像,采用J-M距离优化不同波段组合,进一步筛选出该研究区的最佳波段组合。
红树林种群分类对遥感数据源要求较高,需具有较高的空间分辨率和光谱分辨率[12-14]。然而数据的分辨率越高,其价格以及所花费的时间、空间成本越高。此外,研究证明,并非分辨率越高,分类结果的精度就会越高[7,15]。多种分辨率的影像都可以用于红树林的种群分类,因此在做分类研究时,需要考虑空间分辨率对分类结果的影响,这样才能避免数据选择时的盲目性,也在一定程度上降低了成本。本文以深圳湾的红树林群落为例,分别计算2、4、8、16 m的WorldView-2多光谱数据(其中4、8、16 m由2 m WorldView-2数据重采样获得)的J-M距离和变换离散度,通过不同分辨率下不同类别间J-M距离和变换离散度异同的分析,并用相应分辨率影像的真实分类结果节进行验证,探究J-M距离和变换离散度这两个统计可分性的度量在红树林种群分类研究中对于空间分辨率选择的参考价值。
1 研究区与数据简介
1.1 研究区概况
研究区为深圳湾红树林自然保护区,坐落于深圳湾北东岸深圳河口的红树林鸟类自然保护区之中(图1),包括米埔自然保护区(位于香港)和福田自然保护区(位于深圳)。该区域年平均气温23 ℃,年均降雨量1700~1900 mm,土壤基质为花岗岩以及砂页岩,是一块极具生态价值的湿地。研究区内主要包括6种红树林的优势树种,即秋茄(Kandelia Obovata,KO)、海桑(Sonneratia Caseolaris,SC)、桐花树(Aegiceras Corniculatum,AC)、老鼠簕(Acanthus Ilicifolius,AI)、无瓣海桑(Sonneratia Apetala,SA)和白骨壤(Avicennia Marina,AM)[16]。其中秋茄、桐花树、老鼠簕和白骨壤为本土物种,海桑和无瓣海桑为外来物种[17-18]。
(a) 研究区红树林分布 (b) 研究区地理位置图1 研究区位置示意图(取自谷歌地球)
1.2 数据源与预处理
本研究的数据源为WorldView-2的分辨率为2 m的多光谱影像数据。2009年10月6日,WorldView-2卫星发射升空,运行在770 km高的太阳同步轨道上,平均回访周期为1.1 d,波段参数如表1所示。本实验所使用的影像数据主要进行了辐射校正、几何校正等预处理工作,均利用ENVI5.3中预处理工具进行。
表1 worldview-2数据参数
2 研究方法
本文基于WorldView-2的多光谱数据,通过最临近法重采样获得4、8、16 m的影像数据(通过ENVI5.3实现)。在实地调研与目视解译的基础上选择样本点,分别计算不同类别样本点间的J-M距离和变换离散度。为避免不同采样导致的误差,每个样本点均为在不同分辨率的影像上分别生成的矢量点,对比二者随着空间尺度的不同而产生变化的异同,按大约3∶1比例将样本点分为两类,分别作为建立红树林树种分类的训练样本和验证样本来训练随机森林分类器,将最终结果与J-M距离和变换离散度对可分性的度量结果相比较,旨在以真实的分类结果验证分析在红树林种群分类研究中,若J-M距离和变换离散度对于类别可分性的度量产生差异,哪个更具参考意义。
2.1 统计可分性
遥感图像分类中,类对间的可分性会受影像空间分辨率的影响。一直以来,在地表特征可分性的判定方法中,J-M距离(Jeffreys-Matusita distance)[19-20]和变换离散度(Transformed Divergence)[21-23]是最常用的两种度量。
2.1.1 J-M距离
J-M距离是一种光谱可分性的度量指标,它基于条件概率理论,对遥感数据的分布形式要求低,因此具体有较好的通用性。
具体计算公式为[21]
J-M距离的大小在0~2之间,并且随类别之间可分离程度的大小而变化,其大小代表样本间可分离程度的高度。式(1)中,当0 2.1.2 变换离散度 离散度(Divergence)是模式识别中早期采用的统计可分性度量之一,计算公式为[7,12-13] 其中Dij为类别i和类别j之间的离散度,Ci和Cj为类别i和j的协方差矩阵,μi和μj为类别i和j的平均矢量。 然而,当离散度达到一定程度后,其与正确分类的概率缺乏对应关系。因此,引入一个负指数项对离散度进行优化,使其变为一个饱和的统计可分性度量,称变换离散度[12-13]。对于两个类别i和j,它们之间的变换离散度函数如下[24]: 随机森林(Random Forest,简称RF),是一种将多颗决策树集成的算法,它由Leo Breiman和Adele Cutler于1995年提出[25]。随机森林以决策树为基本单位,通过决策树的投票来决定最后的分类结果。它重视各个特征在分类问题上的重要性,可以有效减少决策树过拟合的不足,提升泛化能力,能够有效地运用在大数据集上,不需要对高维特征的输入样本进行降维,对部分特征缺失不敏感,且具有极好的准确率。本研究使用了ENVI拓展随机森林工具[26](源码来源于ENMAP-BOX v2.1.1并对其进行封装,方便在ENVI下使用),选用基尼系数作为节点特征选取的判定标准,通过计算平方根确定每个节点备选特征的数量,设置100棵树进行投票,确定最终结果。Romie Jhonnerie等[27]曾基于Landsat 5 TM和ALOS PALSAR图像,采用随机森林分类法对红树林植被进行分类,结果显示,随机森林分类器总体精度及Kappa系数分别为81.1%和0.76,优于最大似然分类器分类结果的精度。 本文使用验证样本对于每种分类结果建立混淆矩阵,根据总体精度、Kappa系数、生产者精度和用户精度,进行分类精度的评价。 图2为6类红树林种群的J-M距离随空间分辨率产生的变化,图3为变换离散度随空间分辨率产生的变化。图中的AC、AM、AI、KO、SA、SC分别代表桐花树(Aegiceras Corniculatum)、白骨壤(Avicennia Marina)、老鼠簕(Acanthus Ilicifolius)、秋茄(Kandelia Obovata)、无瓣海桑(Sonneratia Apetala)以及海桑(Sonneratia Caseolaris),为了清晰表示,将每张图分为3个图显示。 图2 不同种群之间J-M距离随空间分辨率的变化 图3 不同种群之间变换离散度随空间分辨率的变化 由图2可以看出,在这4种分辨率的比较中,各类别之间的最低值均出现在16 m。但不同类别间的J-M距离随空间分辨率产生的变化并不完全相同,有的峰值点出现在2 m(5个,如桐花树和海桑(AC-SC)),有的峰值点出现在4 m(9个,如桐花树和老鼠簕(AC-AI)),有的峰值点出现在8 m(1个,无瓣海桑和海桑(SA-SC))。 总体趋势基本可以分为3种:(1)随着分辨率降低,J-M距离几乎不变,呈现这种趋势的类别之间的J-M距离普遍较高,可分性较强,并且几乎不受影像分辨率的影响,因此应该没有或极少有邻接区域,例如桐花树和海桑(AC-SC);(2)随着分辨率降低,J-M距离逐渐降低,呈现这种趋势的类别在空间位置上一般相邻,邻接区域较多或内部光谱差异较小,因此随着分辨率降低,边缘混合像元增加的速度远远大于类内光谱变异程度的减小,例如老鼠簕和秋茄(AI-KO)、白骨壤和秋茄(AM-KO);(3)随着分辨率降低,J-M距离先升高后降低,呈现这种趋势的类别在到达最高点以前,类内光谱变异程度减小的积极影响强于混合像元数量增加的消极影响,随着分辨率的降低,二者相互影响,在峰值以后,由于类内光谱变异程度减小到一定程度后趋于稳定,而混合像元则不断增加,因此开始降低,例如桐花树和秋茄(AC-KO)、老鼠簕和白骨壤(AI-AM)。 将图3与图2进行对比,可以看出,在这4种分辨率的比较中,类别间的变换离散度与J-M距离相比较,波动范围较小,显示出更好的可分性。除了出现的3种趋势的分布略有不同外,变换离散度还出现了一种先减小后增大的趋势。无瓣海桑和海桑(SA-SC)的J-M距离随着分辨率的减小,先升高后降低,变换离散度则随着分辨率的减小,先降低,后升高,再次降低。两种波动趋势虽不完全一致,但相比较其他类别对,波动均更为剧烈,二者的边缘混合像元的数目与类内光谱变异程度产生了较为复杂的相互作用,并且贡献度相当,因此该研究区内的无瓣海桑与海桑应同时具有一定数量的单一群落和共生群落。而且,它们同属于海桑科海桑树,叶对生,叶面形状为椭圆形至长椭圆形,厚革质,有着极为相似的冠层纹理特征[10],这也成为二者易混淆的原因之一。 图4 不同种群之间平均J-M距离和平均变换离散度随空间分辨率的变化 通过比较不同种群之间平均J-M距离和平均变换离散度随空间分辨率的变化(图4),结果表明:(1)在影像的空间分辨率一致的条件下,针对红树林的种群分类,类别间的平均J-M距离和平均变换离散度的大体趋势基本一致,但是峰值点位置不同;(2)并非对于所有类别都是分辨率越高,类别对间的可分性就越好;(3)平均J-M距离和平均变换离散度的整体趋势基本一致,但是平均J-M距离的峰值点出现在分辨率为4 m的时候,而平均变换离散度的峰值点出现在分辨率为8 m处。并且不同分辨率的平均J-M距离的值均低于平均变换离散度的值,因此对于该区域的红树林种群分类,若以平均J-M距离为参考,4 m的空间分辨率为最佳选择;若以平均变换离散度为参考,8 m的空间分辨率为最佳选择。 图5为不同空间分辨率影像采用随机森林分类法的分类结果对比。对群落分布结果进行目视解译,可以发现6种红树林种群的分布特征基本一致,均与实际地物大致符合。 图5 不同空间分辨率的分类结果 从图5中可以看出,随着分辨率的降低,斑块的破碎程度逐渐减小。研究区西北部主要为海桑的单一群落,其中夹杂部分桐花树、白骨壤和秋茄,沿东南方向,桐花树和秋茄数目不断增多,于中部出现了无瓣海桑的单一群落集,沿海地区则大量分布着海桑和无瓣海桑的混生群落,老鼠簕和白骨壤零星地分布于秋茄和桐花树之间,极少分布于沿海区域。 分类结果中,分辨率为4 m的影像数据表现最佳:总体精度为77.333 3%,Kappa系数为0.726 2;当分辨率为2 m时,总体精度为70.666 7%,Kappa系数为0.645 8;当分辨率为8 m时的总体精度为73.333 3%,Kappa系数为0.677 8;当分辨率为16 m时,总体精度将至58.666 7%,Kappa系数降为0.497 9。说明在深圳湾红树林种群分类中,相比2、8、16 m分辨率的影像数据,采用4 m分辨率的影像数据可以获得更高的分类精度(见图6)。 图6 总体精度与Kappa系数随空间分辨率的变化 使用2 m分辨率的影像时,桐花树的生产者精度和用户精度最高,海桑的生产者精度和用户精度最低,较多的无瓣海桑被错分为了海桑。在使用4、8、16 m分辨率的影像时,秋茄的生产者精度和用户精度最高,无瓣海桑的生产者精度最低,白骨壤的用户精度最低。研究区内秋茄和桐花树分布最广,具有大量的单一群落,这导致二者具有较高的分类精度。而白骨壤分布随机、分散且样本数量较少,混生群落较多,生长边界很不清晰,这些都为识别增加了难度。 结果表明:(1)分类精度的高低并非与分辨率的高低成正比。就总体精度而言,针对红树林的种群分类,4 m分辨率的分类结果>8 m分辨率的分类结果>2 m分辨率的分类结果>16 m分辨率的分类结果。随着光谱分辨率的不同,不同类别边缘的混合像元数目与地物内部的光谱特征变异不断变化,而最终分类精度的变化则是二者共同影响的结果。因此对于最优空间尺度的选择需要考虑地物之间的相对关系,降低选择影像数据的盲目性。(2)红树林种群分类的实际结果与平均J-M距离所呈现的结果更为相符,即4 m的空间分辨率为最佳此研究区内红树林种群分类的最佳选择。因此,在该区域的红树林种群分类研究中,相较变换分离度,J-M距离更具参考价值。 J-M距离与变换分离度均可度量类别间的可分性,然而在二者产生差异时,如何确定哪一个更具可靠性。本文采用用实际影像数据的分类结果与二者对于可分性的度量进行验证的方法,通过计算2、4、8、16 m共4个空间尺度上的J-M距离和变换离散度,分析了6种深圳湾红树林优势种群随着空间分辨率的变化而产生的可分性的变化,并通过随机森林分类法,采用相同的样本点进行分类,并将分类结果与统计可分性相比较。结果显示:(1)随着空间分辨率的变化,不同类别间的可分性呈现不同的变化规律;(2)类别间的可分性差异体现了其空间关系上的差异;(3)分类结果的总体精度与J-M距离对可分性的度量结果更为一致,验证了在红树林种群分类研究中,相比变换分离度,J-M距离对于可分性的度量更具参考意义。2.2 分类方法
2.3 精度评价
3 结果与讨论
3.1 不同分辨率的可分性统计结果分析
3.2 不同分辨率种群分类结果比较
4 总 结