基于知识规则的天然淡水湿地信息提取
2014-03-27高雷亭阮仁宗颜梅春岁秀珍傅巧妮
高雷亭,阮仁宗,颜梅春,岁秀珍,傅巧妮
(1. 河海大学 地球科学与工程学院,江苏 南京 210098)
湖泊湿地作为湿地的一个重要类别,对全球变化、国民经济建设及可持续发展有极其重要的作用[1]。近几年,国内外学者在湿地分类方面做了很多工作。王红娟等利用两个季节的洞庭湖ETM数据,并辅以物候特征和地面GIS信息,通过专家分类知识库建立决策树分类方法,分析洞庭湖湿地的影像分类[2];那晓东以三江平原为例,利用TM数据探讨中国典型淡水沼泽湿地信息的提取方法[3]。李慧以闽江河口湿地为例,基于决策树方法设计了两期影像的决策树分类模型,实现湿地信息的快速自动提取[4]。Wright综合Landsat TM纹理特征和辅助环境特征,采用决策树方法提取美国黄石国家公园湿地的空间分布[5]。虽然光谱特征是湿地识别与分类的重要依据,然而单纯利用光谱分类,往往存在“同物异谱”和“异物同谱”问题,分类精度不够理想。除光谱特征外,遥感图像拥有的纹理特征给图像分类提供了一个新的依据。本文结合光谱信息、纹理特征变量和缨帽变换的前3个指数,构建了一个知识规则模型,并将其用于洪泽湖湿地的地物分类提取,显著提高了分类精度。
1 研究区域概况
洪泽湖是我国五大淡水湖之一,在北纬33°6'~33°40'、东经 118°10'~118°52'之间。洪泽湖及其周边有湖泊、养殖场、河流、沼泽、林地、滩涂等多种湿地生态系统,生物多样性非常丰富,仅滩地上生长的水生植物就有30余种,主要分布在湖区的西部,芦苇比较集中地分布在淮河入湖尾闾的洲滩上。天然的湿地植被为多种珍禽鸟类(如大鸨、东方白鹳、小天鹅、丹顶鹤等)提供了栖息、繁殖、捕食和越冬的理想场所,也为鱼类提供了良好的生长和繁殖场所,具有很大的经济和生态研究价值[6]。研究区主要湿地类型的分类体系如表1所示。
表1 研究区湿地类型分类体系
2 研究方法
2.1 数据及预处理
本文选用2006-09-09的Landsat5 TM影像。首先利用洪泽湖地形图对影像进行几何精校正,使均方误差控制在0.5像元以内。然后,裁剪出东经118°12'21"~118°29'40",北纬 33°8'41"~33°24'52"的洪泽湖湿地自然保护区为研究区。
2.2 淡水湿地的光谱特征分析
2.2.1 湖泊湿地的光谱响应特征
光谱响应特征是遥感影像地物识别最直接的解译元素。通过对图像光谱特征曲线的分析,可以对不同波段进行运算和组合,从而得到分类中十分重要的参数[7]。图1是对研究区采样统计得到的各类地物光谱曲线,可以看出挺水植物在近红外(TM4)波段的光谱亮度值明显高于其他地物,很容易区分出来。在TM5波段,沉水植物、浮水植物、敞水区与其他地物的像元亮度值差异也较大,可以依据这两个波段提取出浮水植物。在TM3波段,敞水区的像元亮度值接近50,而沉水植物、浮水植物和挺水植物均低于30,光谱特征差异也较大。
然而在TM1、TM2、TM3波段,挺水植物、浮水植物、沉水植物和养殖场的光谱特征非常相似,仅凭光谱信息进行分类很容易出现“同物异谱”或“异物同谱”的现象;敞水区、养殖场和沉水植物在TM4、TM5、TM7波段光谱特征也很相似,无法用光谱将它们分开。这时,需要利用遥感影像的另一个重要特征——纹理特征。
图1 研究区主要地物光谱曲线
2.2.2 纹理特征分析
纹理不仅反映了影像的灰度信息,而且反映了地物本身的结构特征和空间排列关系。综合运用光谱信息和纹理信息,可以提高影像分析的精确性[8,9]。灰度共生矩阵是一种常用的纹理分析方法,能较好地反映纹理灰度级的相关性规律[10]。通过对比不同波长、方向、窗口的灰度共生矩阵纹理特征,发现3×3窗口、步长d=1、方向45°的灰度共生矩阵纹理特征对研究区地物具有较高的区分能力。由此,计算了均值、标准差、熵、角二阶矩阵和相关性5个纹理测度[11,12]。
从研究区地物的纹理特征图可以看出(图2),相关性特征对地物的区分性较高,可以将挺水植物、养殖场和浮水植物从整个地物中提取出来,可以以此作为区分地物的特征值。
图2 研究区各地物在纹理波段上的特征曲线
2.2.3 KT变换提取
将亮度、绿度、湿度作为测试变量。分别将遥感影像的波段光谱数据转换为三维数据,即亮度轴、绿度轴和湿度轴。由于不同类型的光谱响应特征不同[13],各类地物特征分布空间在亮度-绿度平面内显示一定的可分性,如图3所示。
图3 不同地物的湿度、绿度、亮度变化图像
本研究采用以下6个测试变量:Landsat TM影像2个波段灰度值(TM4、TM5),2个纹理特征值(MEAN、COR),2个KT变量(湿度、绿度),目标变量为挺水植物、浮水植物、沉水植物、敞水区、养殖场和其他6大类。
图4 研究区决策树模型
2.3 CART决策树分类
2.3.1 构建决策树
CART(classification and regression tree)是Breiman于1984年提出的决策树构建算法,其基本原理是通过由测试变量和目标变量构成的训练数据集的循环分析而形成二叉树形式的决策树结构。CART是分类数据挖掘算法[14],从众多的预测属性(模型的输入属性)中选择一个或多个属性的组合,作为树节点的分裂变量,把测试变量分到各个分枝中,重复该过程建立一棵充分大的分类树,然后用交叉验证法进行修剪,最终形成一棵兼顾复杂度和错误率的最优二叉树[15-17]。
2.3.2 决策树分类
CART决策树算法对融合后影像的光谱特征值、纹理特征变量以及KT变换的前2个分量合并的波段组合数据进行计算,生成的决策树(图4)阈值为达到决策树最佳预测性能时的阈值。可以看出,纹理均值及相关变量可以将养殖场从浮水植物和沉水植物中区分出来,再用湿度变量区分沉水植物和浮水植物。TM5波段及绿度变量可以将敞水区从其他地物中分离出来,而挺水植物则可由TM4波段提取。
结合分类规则和图4,观察生成的CART决策树可以发现,其中N0(结点序号从0开始,按照每一棵子树从左往右依次编号)就是树的根结点,N1和N2是根结点的第一个分支。在每个结点中,注明每一类别所包含的样本单元数及非纯度量(imp)。树越往下,结点中的样本单元越“纯”。从图4可以看出,用来分隔第一个结点的波段是纹理均值,共有625个像元样本点。其中灰度值≤18.5的244个样本单元被分入左结点,而灰度值>18.5的381个样本单元被分入右结点。分完后,其非纯度量(Gini索引)改变为0.112,即“纯度”提高了0.112。也就是说,在所有参与分类的波段,所有潜在的分割点中,纹理均值为18.5的分割点能使分完后两部分的“纯度”增值最大,这也从另一个方面说明了参与分类的波段的重要性大小。在一棵树中,如果某波段参与分割结点的次数越多,则说明该波段对分类的贡献越大。有多少个叶结点,就有多少条地物类型的判别准则。在本研究中,针对研究区生成的决策树共有8个叶子结点,对应8条判别准则,其中沉水植物和挺水植物各有两条判别准则,最后的分类结果如图5所示。
表2 最大似然分类精度评价表
表3 CART分类精度评价表
图5 2006年洪泽湖研究区分类图
3 研究结果与分析
为了直观地查看CART决策树分类法对提高分类精度的效果,本文将CART决策树分类后的精度结果与仅使用光谱特征分类的结果进行比较。首先利用最大似然算法对研究区的光谱影像进行非监督分类,分类精度评价结果如表2所示,CART决策树分类精度评价结果如表3所示。
精度评价表中的用户精度对应的是错分误差,生产者精度对应的是漏分误差,它们从不同侧面描述了分类精度。从表2可知,仅使用传统分类算法,沉水植物的用户精度只有39.82%,这主要是因为沉水植物和养殖场的光谱特征很相似,而且在该研究区中,养殖场中分布着很多沉水植物,导致养殖场与沉水植物混淆。敞水区的非监督分类结果也比较低,生产者精度为59.81%。而运用CART算法进行分类后,其精度有了很大提高,沉水植物的用户精度提高到85.71%,浮水植物提高到92.39%,敞水区的分类精度也提高到96.36%。然而,由于参与验证的点数有限,有些类别如养殖场验证点数较少,精度较低,导致总体精度偏低。
4 结 语
基于CART的决策树分类结果优于最大似然法分类。利用灰度共生矩阵提取出图像的纹理信息(均值和相关性)以及KT变换的绿度指数等被用于决策规则的生成,对比由分类成果图结合原始影像目视解译结果,制定的分类规则具有一定的可行性。由于受资料、人为因素及其他因素影响,分类结果中存在一定的误差。对于特征波段的选择、计算方法以及检验都有待于进一步完善,需通过优化分类算法来提高分类精度。
[1]谭衢霖.鄱阳湖湿地生态环境遥感变化监测研究[D].北京:中国科学院遥感应用研究所,2002
[2]王红娟,姜加虎,黄群.基于知识的洞庭湖湿地遥感分类方法[J].长江流域资源与环境,2008,17(3):370-373
[3]那晓东,张树清.基于决策树方法的淡水沼泽湿地信息提取——以三江平原东北部为例[J].遥感技术与应用,2008(8):365-372
[4]李慧,余明.基于决策树模型的湿地信息挖掘与结果分析[J].地球信息科学,2007,9(2):60-72
[5]Wright C, Gallant A. Improved Wetland Remote Sensing in Yellowstone National Park Using Classification Trees to Combine TM Imagery and Ancillary Environmental Data[J].Remote Sensing of Environment, 2007,107:582-605
[6]王洪道,窦鸿身,汪宪臣,等.中国的湖泊[M].北京:商务印书馆,1996
[7]何厚军,王文,刘学工.基于决策树模型的海岸带分类方法研究[J].地理与地理信息科学,2008,24(5):25-28
[8]谭莹.翁源县基于纹理信息及CART决策树技术的遥感影像分类研究[D].南京:南京林业大学,2008
[9]冯建辉,杨玉静.基于灰度共生矩阵提取纹理特征图像的研究[J].北京测绘,2007(3):19-22
[10]Haralick R M. Statistical and Structural Approaches to Texture[J].Proc IEEE,1979, 67(5): 786-804
[11]Treitz P,Howarth P. Integrating Spectral, Spatial, and Terrain Variables for Forest Ecosystem Classification[J]. photogrammetric Engineering & Remote Sensing,2000,66(3):305-317
[12]Franklin S E, Pebble D R. Spectral Texture for Improved Class Discrimination in Complex Terain [J]. International Journal of Remote Sensing, 1989,54:1 727-1 737
[13]夏双,阮仁宗,颜梅春,等. 洪泽湖湿地类型变化分析[J].南京林业大学学报:自然科学版,2012,36(1):38-42
[14]Mclver D K, Fried1 M A.Using Prior Probabilities in Decision-tree Classification of Remotely Sensed Data[J].Remote Sensing of Environment,2002,81:253-261
[15]Breiman L,Friedman J H,Olshen R A ,et al. Classification and Regression Tree[M]. Monterey, California: Wadsworth International Group,1984
[16]Yohanne S Y,Hoddinot T J. Classification and Regression Tree:An Introduction[M]. Washington D C: Internation Food Policy Research Institute,1999
[17]李俊杰,何隆华,戴锦芳,等.基于遥感影像纹理信息的湖泊围网养殖区提取[J].湖泊科学,2006,18(4):337-342