不同分类方法在土地利用信息提取中的精度对比
2018-12-20何立恒
何立恒,覃 伟,徐 迅
(1.南京林业大学土木工程学院,江苏 南京 210037;2.南京市测绘勘察研究院股份有限公司,江苏 南京 210019;3.化学工业岩土工程有限公司,江苏 南京 210031)
0 引言
遥感技术在我国土地资源调查中发挥了重大作用,遥感影像土地利用分类工作是将遥感技术应用于土地科学领域的基础性工作。如何快速获取高精度的土地利用分类信息?遥感影像土地利用分类方法的选择是具有重要理论意义和应用前景的研究内容之一。
土地利用分类方法主要有专家目视解译和基于像元的分类方法[1-4],前者通常应用于高精度、高分辨率(米级)遥感图像分类中,但生产效率低,个人主观性强,地类边界容易错位,定位精度不高;后者主要利用像元的纹理、光谱等信息,能快速获取分类结果较好、图形美观的分类土地利用信息。
基于像元的分类方法很多[5-10],不同方法提取信息的精度区别较大[11-12]。因此,利用不同分类方法对研究区进行土地利用信息提取,并进行精度评价和比较,可以为合理选择分类方法提供参考。
1 研究区概况和数据源
1.1 研究区概况
东方市地处海南省西南部(108°36′46″-109°07′19″E,18°43′08″-19°18′43″′N),北距海口市210 km,南距三亚市180 km。南及东南与乐东县接壤,北至东北与昌江黎族自治县交界,西临北部湾,与越南隔海相望。
东方市属热带海洋性季风气候,旱湿分明,日照充足,蒸发量大,年平均蒸发量达2 596.8 mm。年平均气温24℃-25℃,年日照时数2 777.2 h,年平均降雨量1 000-1 900 mm,是反季节瓜果蔬菜的生产基地。地势由东南向西北倾斜,有山地、丘陵、台地和平原等地貌。不同地貌的土壤、植被、光、热、水存在明显差异,沿海地带海拔50 m以下的平原和台地是农业和城镇的集聚区。
1.2 数据源
OLI遥感数据从中国科学院对地观测与数字地球科学中心下载(网址:http://ids.ceode.ac.cn/),过境时间为2014年3月。此外,还有全国县级1∶400万行政界线数据和实地调研数据。
2 研究方法
借助遥感图像处理平台ENVI,对OLI遥感影像进行预处理,基于像素的分类方法进行土地利用分类,对分类结果进行后处理,制作土地利用现状图和统计各地类面积。采用影像重选感兴趣区自评和Google Earth选点评定两种方法进行精度评定和对比分析。
2.1 数据预处理
对遥感影像进行辐射定标、FLAASH模型大气校正、Gram-Schmidt影像融合、影像镶嵌等预处理,按行政界线裁剪出研究区。
2.2 非监督分类
非监督分类是指不具备对遥感影像地物属性的先验知识,完全依靠光谱数据组合的统计差别进行“盲目分类”,计算机按照一定规则自动根据像元光谱或空间等特征组成集群组(聚类)。由于非监督分类没有选用训练样本,无先验信息,通常分类效果较差,且无法给出数据类别的含义。
按照像元的光谱特征进行统计分类,受人为因素的影响较少,不需要对地面信息有详细的了解,自动化程度较高。非监督分类进行土地利用类别划分的主要算法有K-mean法和ISODATA法。
2.3 监督分类
选择可识别或借助其他信息可以断定地类的像元建立模板,基于该模板使计算机系统自动识别具有相同特征的像元,即先学习后分类。选用最大似然法、最小距离法和支持向量机作为土地利用监督分类算法。
2.4 分类后处理
Majority分析解决虚假像元地类的归并,聚类处理(clump)保证地类空间连续性,过滤处理(Sieve)解决分类图像中出现的孤岛问题。分类统计(Class statistics)计算源分类图像的统计信息。
2.5 精度评价指标
建立混淆矩阵进行监督验证,并计算精度指标。
(1)总体分类精度
(1)
OA是具有概率意义的统计量,表述对每一个随机样本所分类的结果与参考数据所对应区域的实际类型相一致的概率。
(2)用户精度(对于第i类)
UA=xii/xi+
(2)
UA表示从分类结果中任取一个随机样本,其所具有的类型与地面实际类型相同的条件概率。
(3)生产者精度(对于第j类)
PA=xjj/x+j
(3)
PA表示相对于参考数据中的任意一个随机样本,分类图上同一地点的分类结果与其相一致的条件概率。
(4)Kappa指数
(4)
Kappa指数是一种定量评价遥感分类图与参考数据间的一致性或精度的指标。
式(1)—(4)中,n是混淆矩阵中的总列数(即总的类别数);xij是混淆矩阵中第i行、第j列上的像元数量(即正确分类的数目);xi+和x+i分别是第i行和第i列的总像元数量;N是总的用于精度评估的像元数量。xij表示应属于j类的像素被分到i类的像素总数。
3 结果与分析
3.1 土地利用分类结果
参照 《土地利用现状分类》国家标准,结合东方市的地理位置和特征,将土地分为林地、草地、耕地、建设用地、水域和其他用地。由于园地与林地区分度较小,将园地分到林地中。建设用地包括国标中的城镇用地、农村宅基地、交通运输用地等。为了类与类间可分离性更高,将其他用地依颜色、纹理特性分为设施农用地、滩涂和未利用地(沙地、裸地等)。
行政边界叠加预处理后的遥感影像,计算出土地总面积为2 274.77 km2。分别用五种分类方法提取各地类,后处理后统计各地类占比(表1)。
表1 各分类方法所得地类占比结果/%
3.2 自评精度与分析
在OLI原影像上重新选取一些新的、目视非常明显的地类作为感兴趣区,以感兴趣区代替整幅图像进行软件自评(表2)。
(1)K-mean法。耕地和建设用地被错分为未利用地的较多,未利用地占比高。林地的占比偏低,错分为耕地和滩涂较多,导致耕地和滩涂的用户精度低。但设施农用地占比偏少,而精度评定表明此地类很少被错分和漏分,可能是人为因素和方法本身的局限所致。
(2)ISODATA法。林地占比偏多,草地被错分为林地很多,草地的用户精度极低。错分为耕地和滩涂的地类较多。未利用地的错分和漏分情况比较严重,占比偏低。
表2 各地类自评精度/%
(3)最小距离法。耕地和林地被错分为草地很多,草地的用户精度很低。林地和草地被错分为耕地较明显,因此,林地和草地占比偏小,耕地占比偏高。错分为滩涂的地类和像元多,导致滩涂的用户精度较低,占比偏高。建设用地错分很少,存在一定的漏分,但占比却明显偏少,分析是非人为误差,可能是方法本身的原因。最小距离法易将建设用地周边分成未利用地,当建设用地与其他地类相邻时,更倾向把边界的像元分为相邻地类,而精度评定时,选用边界点较少,导致没有体现出建设用地的漏分情况。
(4)最大似然法。草地占比明显偏高,草地的用户精度很低,主要是林地和耕地被错分为草地。耕地占比稍低,耕地被错分的地类多。有一定的未利用地和滩涂被错分。
(5)支持向量机。草地漏分较严重,漏分的草地多被认定为耕地,草地的生产者精度很低,导致草地占比明显偏小。未利用地存在少量的漏分和错分,占比偏少。
3.3 对比精度与分析
使用Google Earth同期数据目视解译,每种地类随机选20-50个点跟OLI影像上的数据进行比较,计算出精度指标(表3)。
(1)K-mean法的分类精度不高,耕地和未利用地的生产者精度较低,耕地、草地和未利用地的用户精度偏低。存在建设用地和林地的错分、设施农用地和草地的漏分等现象。耕地、未利用地和草地之间的错分,耕地的漏分,由于三月份的农作物还未成熟,田埂与未利用中的裸地、沙地等从颜色、纹理上区分度不够强,同为绿色植被的耕地和草地被错分也较多。
(2)ISODATA法。耕地和未利用地的互相错分较多,水域附近的滩涂漏分较明显,随机选点数量和典型性不够是主要原因。草地错分明显,大都被错分为林地或耕地,用户精度很低。草地、耕地和林地的互相混淆情况和K-mean法相当。
(3)最小距离法。耕地被错分明显,耕地的生产者精度显著偏低,水域被错分为滩涂的现象较多,未利用地的生产者精度较低。
(4)最大似然法。用户精度比较均衡,生产者精度大部分较好,未利用地和耕地的稍低。错分漏分大为减少,分类结果比较好。
(5)支持向量机。地类的分类精度都比较高。耕地的生产者精度稍低,但相比于其他几种方法绿色植被的混淆情况,错分和漏分问题均有不同程度的缓解。
3.4 精度比较与分析
自评的Kappa系数和总体精度都偏高,有较强的主观性。对比精度较为客观。
非监督分类的总体精度和Kappa系数相差不大,绿色植被的错分漏分情况较明显,对绿色植被的区分能力较差。水域极少被错分和漏分,对水域的区分能力较好。
监督分类的总体精度和Kappa指数明显高于非监督分类。其中,支持向量机的分类精度最高。无论是Kappa系数,还是用户精度和生产者精度都明显优于其他方法,总体精度达0.88。类与类之间的间隔最大化,有较好的推广性和较高的分类准确率。缺点是数据处理耗时稍长,林地、耕地、草地的混淆,未利用地和耕地的混淆依旧存在。
表3 各地类对比精度/%
从用户精度看,非监督分类和监督分类相差不大。林地、草地、耕地的用户精度,监督分类稍优于非监督分类。建设用地的用户精度都比较高,监督分类基本能做到建设用地不错分。水域很少被错分,监督分类和非监督分类都能较好地区分。其他用地中的设施农用地、滩涂、未利用地的用户精度都不高,监督分类精度稍高,但优势不明显。
从生产者精度看,对于林地、草地、耕地、建设用地,监督分类都要高于非监督分类。水域基本没有被漏分,精度较好。设施农用地、滩涂、未利用地的监督分类和非监督分类精度相当,设施农用地区分较好,未利用地区分较差。非监督分类对水域的区分较好,而监督分类对所有地类都能做到较好地区分。未利用地和耕地的精度始终比较低。
4 结 语
4.1 讨 论
(1)五种分类方法对草地、林地、耕地等绿色植被的分辨能力不强。草地错分为林地和耕地、耕地和林地错分为草地、林地错分为耕地等时有发生。绿色植被的光谱特征相似,是导致混淆不清的主要原因。
(2)建设用地、耕地和未利用地之间存在错分。主要是因为耕地斑块多与农村宅基地共存,斑块由纵横交错的田间小路或村镇公路相连。在图像上表现细碎零散的田间小路和农村宅基地周边或其中的未利用地,容易在分类过程中与相邻地类发生混淆。
(3)林地除被错分为耕地外,还被错分为滩涂。主要是因为滩涂大多分布在水陆交错区,而河流两岸是耕地和防护林交错分布的区域,像元既包含水体信息,又包含部分植被信息,混合像元带来的“异物同谱”造成了错分。
基于像元的分类方法并未充分利用几何、纹理和结构等多方信息,决策树、神经网络、知识规则、面向对象、多分类器集成等分类方法可有效弥补基于像元分类方法的缺陷,具有更大的发展空间和应用前景。
4.2 结 论
(1)监督分类精度明显高于非监督分类。尽管用户精度相差不大,但监督分类的生产者精度明显优于非监督分类。
(2)不同地类的分类精度差异明显。建设用地和水域的分类精度较高。未利用地和耕地的分类精度较低。林地、草地、耕地等绿色植被之间存在混淆。监督分类的设施农用地、滩涂、未利用地的用户精度略优于非监督分类,但生产者精度相当。
(3)支持向量机的分类精度最高。kappa系数、用户精度、生产者精度和总体精度都明显优于另四种分类方法。