APP下载

基于SPOT5遥感影像分类的抽样技术研究

2018-06-25严恩萍

西南林业大学学报 2018年3期
关键词:攸县训练样本总体

蒋 仟 林 辉 严恩萍 罗 攀

(1. 中南林业科技大学林业遥感信息工程研究中心,湖南 长沙 410004;2. 湖南省科学技术厅林业遥感大数据与生态安全重点实验室,湖南 长沙 410013;3. 中南林业科技大学林学院 ,湖南 长沙 410004)

森林资源调查的目的是为了调查森林资源的数量和质量、掌握森林资源的现状和消长状况,也为林业决策、林业发展规划和林业经营提供基础[1]。随着遥感技术和统计学在社会科学与自然科学领域中的不断发展应用,近年来,林业工作者开始采用遥感技术与抽样调查技术相结合的调查方法,即遥感抽样技术[2-3]。这种调查方法基本解决了森林资源传统调查方法耗费人力、物力、时间,精度较低的弊端,在快速准确地进行森林监测中具有重要意义[4-5]。

遥感抽样技术在林业、生态环境以及农业等领域已得到广泛应用。Ha[6]采用简单随机抽样、分层随机抽样、按比例概率抽样和不对准系统抽样4种方法,对引起的森林总面积损失的4种因素进行了方案设计与评价,得到了适用于空中探测调查 (ADS) 的低成本抽样方案。Scott[7]对全美主要农作物面积进行多样框抽样调查,提高全美农情信息获取速度。在国内,于峰等[8]通过探讨系统抽样在三类调查中的具体实施过程,认为系统抽样组织样本简便,外业样本定位易于实施。孙华等[9]利用遥感抽样技术对比分析了系统抽样与分层抽样,得出抽样强度相同情况下,分层抽样精度大于系统抽样。王小昆等[10]将不等概抽样应用到中央断面积区分求积法求材积,开发了3P抽样的程序,自动产生随机数,从而使得3P抽样的过程变得简易。

从以上研究可以得出,简单随机抽样在某些总体分布较为分散情况中[11-13],会使抽取的样本的分布也比较分散,给研究带来困难,分类精度较低。系统抽样虽然比简单随机抽样精度高,但在实践中,系统抽样容易受周期性的影响,可能导致较大误差[14-15]。分层抽样便于了解总体内不同层次的情况,便于对总体不同的层次或类别进行单独研究,分类精度较高[16-18]。不等概抽样是一种提高抽样效率的方法[19],比前面提到的抽样复杂,但是在一定条件下,采用不等概抽样方法进行分类要比等概抽样得到更高效率,对分类精度影响不大。

本研究以湖南省株洲市攸县为研究区,利用2009、2010年攸县SPOT5遥感影像,在抽样可靠性指标为95%的情况下开展遥感抽样技术研究,设计系统抽样、分层抽样和简单随机抽样方案,通过图像分类并结合野外实测数据对抽样方案进行精度验证,以期得到适合研究区的最佳抽样方案。

1 研究区概况

研究区为湖南省东南部的株洲市辖县——攸县,位于东经113°09′09″至113°51′30″,北纬26°46′34″至27°26′30″。攸县最高海拔1 404.9 m,最低69 m。攸县为大陆性亚热带季风湿润气候,境内四季分明,雨水充足,土壤肥沃,年平均气温17.8 ℃,年降水量1 410 mm左右。

研究区内,林业用地面积1 694.93 km2,占土地总面积的64%,其中有林地面1 413.33 km2。境内植物种类丰富,共有木本植物78科210属436种,其中乔木273种。用材林以杉木、松类和楠竹为主,经济林以油茶 (Camelliaoleifera) 和果木为主。2015年末,全县森林活立木蓄积量393.3万m3,森林覆盖率为57.72%,林木绿化率为59.17%,林业生产总值达到36.31亿元。

2 研究方法

2.1 数据源及预处理

2.1.1数据源

本研究基于SPOT5多光谱影像进行研究。获取2009年11月4日 (2景)、2010年11月7日 (1景)、2010年11月13日 (1景) 的攸县SPOT5多光谱遥感影像共4景,空间分辨率为10 m × 10 m。

本研究的地面调查数据来源于2008年攸县资源更新数据和2009年湖南省连续清查数据,其中2008年攸县资源更新数据作为研究中训练样本选择的参考依据,2009年湖南省连清数据用于结果的精度验证,此次验证共从中选取84个样地点。

2.1.2影像预处理

在对影像进行辐射定标的基础上,采用ENVI 5.3的FLAASH模块进行大气校正,并利用1∶100 00的地形图对影像进行几何校正,校正误差控制在1个像元内,保证了影像位置的准确性。以质量较好的的图像作为标准,利用ENVI 5.3中的无缝拼接模块,保证4景影像的无缝拼接。最后利用攸县的矢量边界图,裁剪出研究区的遥感影像。

2.2 抽样方法

2.2.1系统抽样

系统抽样是根据样本容量确定抽选间隔,从总体中每隔一定的间隔抽取一个单位的抽样方式。本研究共设计6种抽样方案,其间隔分别为:8 km × 8 km,8 km × 4 km,4 km × 6 km,4 km × 4 km,4 km × 2 km,2 km × 2 km。研究利用ArcGIS软件,在裁剪好的攸县影像上按照不同的抽样间隔进行渔网布点,得到不同抽样间隔的样点分布图。

2.2.2分层抽样

分层抽样是先将总体按某种特征分为若干层,然后再从每一层内进行系统抽样的抽样方法。研究首先根据攸县的地理特征对攸县进行分层,再根据系统抽样的结果,选取合适的3种抽样间隔分别在各层内进行系统抽样。研究中同样采用ArcGIS软件进行渔网布点。

2.2.3简单随机抽样

简单随机抽样是根据影像与森林资源更新数据,在室内建立解译标志,然后在影像上直接目视选取训练样本 (每个地类选取60个训练样本)。

2.3 分类方法

分类采用支持向量机的方法。支持向量机分类法是一种建立在统计学习理论基础上的机器学习方法[20]。它可以自动寻找那些对分类有较大区分能力的支持向量,以此将类与类之间的间隔最大化,该方法有较好的的推广性和较高的分类准确性。

根据国家林业局2011年 《森林资源规划设计调查主要技术规定》 和湖南省2015年 《湖南省森林资源规划设计调查技术规定》,并参考2008年湖南省二类调查分类体系,以及攸县自然地貌特征,本研究将攸县地类共分为5类:林地、耕地、水域、建筑用地、其他用地。

2.4 精度评价

研究中精度评价采用的方法包括混淆矩阵法、Kappa系数。其中,混淆矩阵是通过将每个实测像元的分类与分类图像中的相应位置和分类像进行比较计算,混淆矩阵的每一列代表了预测类别,每一行代表了数据的真实归属类别;Kappa系数是在混淆矩阵的基础上进行的评价。

3 结果与分析

3.1 系统抽样设计

从表1可以看出,随着抽样间隔的减小,训练样本数、总体精度和Kappa系数总体呈上升趋势。抽样间隔为4 km × 4 km时,总体精度及Kappa系数取得最大值,分别为88.10%、0.82;抽样间隔为8 km × 8 km时,训练样本数、总体精度和Kappa系数均取得最小值,分别为48、79.76%、0.73;抽样间隔为2 km × 2 km时,训练样本取得最大值665。

表1 系统抽样各方案评价Table 1 Assessment of systematic sampling schemes

可知,随着抽样间隔的减小,训练样本数量逐渐增加,总体精度与Kappa系数总体呈上升趋势。在抽样间隔为4 km × 4 km时,两者已达到峰值,表明4 km × 4 km的方案为系统抽样的最佳方案。因此,在实际的林业调查中,采用抽样间隔为4 km × 4 km的方案可达到较好的调查效果。

3.2 分层抽样设计

3.2.1分层结果

攸县的东、西两面群山环绕,丘陵相嵌;中部成岗地、平原,地貌特征明显。根据攸县的地形、地貌特征,将攸县共分为3层,其中第Ⅰ、Ⅲ层主要为林地,第Ⅱ层主要为耕地。具体分层结果见图1。

图1分层结果
Fig.1 Result of layering

3.2.2分类结果

在第Ⅰ层中,抽样间隔为8 km × 8 km、4 km × 8 km时,训练样本数非常少,对本研究作用不大,遂按照抽样间隔为4 km × 6 km、4 km × 4 km、4 km × 2 km、2 km × 2 km分别在每层进行样地布设,并在样点处选取训练样本,经分类后进行精度验证。

从表2可知,在Ⅰ层中,根据4种抽样间隔方式得到的分类结果相同,总体精度与Kappa系数分别为92.86%、0.84;在第Ⅱ、Ⅲ层中,抽样间隔为4 km × 4 km时,分类的总体精度和Kappa系数已达到最大值,分别为84.85%、0.79和94.59%和0.88。抽样间隔为2 km × 2 km时,每层中取得的训练样本数最大。另一方面,从表中可以看出,在第Ⅱ层、第Ⅲ层中,随着训练样本数量的增加,总体精度先上升后略有下降,当抽样间隔为4 km × 4 km时,精度达到最大值,分别为84.85%、94.59%,Kappa系数为0.79、0.88。在第Ⅰ层中,总体精度保持不变。图2是各层在训练样本数较少且精度较高时的分类结果图。

表2 分层抽样各层评价Table 2 Assessment of stratified sampling schemes

图2支持向量机分类结果图
Fig.2 Results of SVM classification

3.3 简单随机抽样

研究结合SPOT5遥感影像与2008年攸县森林资源更新数据,在室内建立解译标志,然后在影像上选取训练样本。每个地类各选取60个训练样本 (共计300个),经分类后进行精度验证。从表3可以看出,采用简单随机抽样方法对研究区进行分类,其总体分类精度为86.90%,kappa系数为0.80。

表3 简单随机抽样结果

3.4 抽样方案比较

在分层抽样中,若按照每层中最高精度的抽样间隔进行抽样,得到的结果即将对应的混淆矩阵 (第Ⅰ层抽样间隔为4 km × 6 km、第Ⅱ层抽样间隔为4 km × 4 km、第Ⅲ层抽样间隔为4 km × 4 km) 相加得到。表4为系统抽样、分层抽样和简单随机抽样最佳方案的精度评价对比。可以看出,训练样本的数量按大到小排列,分别为简单随机抽样、系统抽样、分层抽样,但总体精度与Kappa系数的大小按从大到小排列,分别为分层抽样、系统抽样、简单随机抽样。

表4 系统抽样、分层抽样和简单随机抽样的最优方案比较Table 4 Comparison for best schemes of systematic sampling, stratified sampling and simple random sampling

在分层抽样中,若各层都按照抽样间隔为4 km × 4 km (系统抽样最佳方案) 进行抽样,其混淆矩阵可通过各层抽样间隔为4 km × 4 km时的混淆矩阵相加得到。表5为抽样间隔为4 km × 4 km时,2种抽样方法的精度比较结果。从结果中可以看出,在抽样间隔为4 km × 4 km时,分层抽样的总体精度和Kappa系数均大于系统抽样,此时两者训练样本数相等。

表5 抽样方案比较 (抽样间隔为4 km × 4 km)Table 5 Comparison of sampling schemes (sampling interval: 4 km × 4 km)

综上所述,适宜研究区的最佳抽样方案为分层抽样中抽样间隔为4 km × 6 km (第Ⅰ层)、4 km × 4 km (第Ⅱ层)、4 km × 4 km (第Ⅲ层) 的方案,其分类结果见图3。

图3最优抽样方案分类结果图
Fig.3 Optimal sampling scheme of classification result

4 结论与讨论

本研究中分别设计了系统抽样、分层抽样和简单随机抽样3种方案,并进行对比,结果表明:

1) 3种方案中,分层抽样方案的总体精度最高,Kappa系数最大。同时,研究得到适宜攸县的森林资源调查的最优方案是:以抽样间隔为4 km × 6 km (第Ⅰ层)、4 km × 4 km (第Ⅱ层)、4 km × 4 km (第Ⅲ层) 进行的分层抽样。总体分类精度达到90.48%,并且训练样本数量较一般森林调查少,节约了一定的资源。

2) 在系统抽样中,抽样间隔为4 km × 4 km和2 km × 2 km的方案总体精度均为88.10%,但前者训练样本数较少。表明在实际调查中,训练样本的数量与抽样的总体精度不是一直呈正相关。

3) 在分层抽样中,适合各层的最优抽样间隔不一定与系统抽样的最优方案相同;并且,在整个研究区的调查过程中,适合各层的最优抽样方案不一定相同。

4) 当抽样间隔相同时,分层抽样的总体精度要高于系统抽样的总体精度,但训练样本数少于系统抽样的训练样本数。所以在实际调查中,采用分层抽样较系统抽样,得到的精度较高,并且耗费的人力物力较少,较为高效。

攸县森林资源丰富,适宜的森林资源调查方案有利于该地区林业规划的发展。本研究在前人的基础上,通过改进抽样方案,为攸县的森林资源调查提供了一种较为可靠与高效的方案。在森林资源调查中,常采用的抽样间隔为4 km × 4 km,基于此,共设计8 km × 8 km,8 km × 4 km,4 km × 6 km,4 km × 4 km,4 km × 2 km,2 km × 2 km 6种抽样间隔,符合森林资源调查方案设计要求。在研究方法方面,本研究将分层抽样、系统抽样和简单随机抽样,在分类的总体精度、Kappa系数和训练样本数3个方面进行比较,使得研究的结果更为可靠,并突出分层抽样方案训练样本少、分类精度和Kappa系数高的优势。下一阶段的研究中,在抽样间隔方面,可继续尝试其他抽样间隔 (例如:抽样间隔为:6 km × 6 km,4 km × 5 km等);在样点布设方面,一般的样点布设通常采用渔网,以矩形为主,还可通过其他手段尝试其他形状,如菱形等。根据研究结果,研究中简单随机抽样方案的分类精度达到86.90%,虽较另外2种方法低,但该方法较为简单,在森林资源调查中可行性高;分层抽样方案的分类精度最高,但方案较简单随机抽样复杂,在实际调查中较为困难,耗费较多精力,2种方案既有利也有弊,需视情况而调整方案。

[1] 杨琳琳, 牟世明. 林业可持续发展和森林可持续经营的理论浅谈[J]. 科学时代, 2015(13): 314.

[2] 宋新民, 李金良. 抽样调查技术:第2版[M]. 北京: 中国林业出版社, 2007.

[3] 任萍. 森林调查设计方案探讨[J]. 民营科技, 2015(2): 203.

[4] Wang J, Liu J, Zhuan D, et al. Spatial sampling design for monitoring the area of cultivated land[J]. International Journal of Remote Sensing, 2002, 23(2): 263-284.

[5] 胡潭高, 张锦水, 潘耀忠, 等. 基于不同抽样方法的遥感面积测量方法研究[J]. 国土资源遥感, 2008, 20(3): 37-41, 109.

[6] Ha A Q. Sampling strategies for forest aerial detection survey in Colorado[D]. Collins: Colorado State University, 2016.

[7] Scott C T. Sampling methods for estimating change in forest resources[J]. Ecological Applications, 1998(2): 228-233.

[8] 于峰, 张彬, 代启光. 简述系统抽样在三类调查中的应用[J]. 林业勘查设计, 2003(2): 41-42.

[9] 孙华, 林辉, 石军南, 等. 湖南省森林资源连续清查遥感抽样技术的对比分析[J]. 中南林业科技大学学报, 2010, 30(11): 26-31.

[10] 王小昆, 冯仲科, 郝星耀, 等. 电子角规用于3P抽样测定林分蓄积的研究[J]. 林业资源管理, 2005(3): 38-42.

[11] 王赫. 浅谈森林资源抽样调查技术方法[J]. 科学与财富, 2017(14): 153.

[13] Doraiswamy P. Crop condition and yield simulations using Landsat and MODIS[J]. Remote Sensing of Environment, 2004, 92(4): 548-559.

[14] 任广田. 森林资源抽样调查中样地数量与精度计算[J]. 黑龙江科技信息, 2017(13): 279.

[15] 王崇民, 韩双双. 黑龙江省林区森林资源调查工作的发展历程及现状[J]. 林业勘查设计, 2016(2): 15-17.

[16] 王雪军, 马炜, 黄国胜, 等. 基于遥感大样地抽样调查的森林面积监测[J]. 北京林业大学学报, 2015, 37(11): 1-9.

[17] 杜靖媛, 葛宏立, 路伟, 等. 基于Fisher判别的层次分类法的森林遥感影像分类[J]. 西南林业大学学报, 2017, 37(4): 175-182.

[18] Opsomer J D, Francisco-Fernández M, Li X X. Model-based non-parametric variance estimation for systematic sampling[J]. Scandinavian Journal of Statistics, 2012, 39(3): 528-542.

[19] 张明. GIS技术支持下的林业多主题抽样调查体系探讨: 以尼勒克县为例[J]. 农业开发与装备, 2016(4): 107-108.

[20] 邓书斌. ENVI遥感图像处理方法[M]. 北京: 高等教育出版社, 2014.

猜你喜欢

攸县训练样本总体
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
人工智能
外汇市场运行有望延续总体平稳发展趋势
攸县:创新教育 打印未来
直击高考中的用样本估计总体
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
湖南省首届生态文明论坛在攸县召开
身在煤海不“染“ 黑——攸县煤炭局2014年上半年勤廉工作侧记