基于分区分层随机抽样的棉花种植面积遥感监测方法研究
2016-02-06胡永森施开分王长耀
胡永森,王 力,施开分,周 巍,饶 华,王长耀
(1.东华理工大学 测绘工程学院,江西 南昌 330013; 2.中国科学院遥感与数字地球研究所/遥感科学国家重点实验室,北京 100101; 3.国家统计局农村社会经济调查司,北京 100826; 4.国家统计局新疆建设兵团调查总队,新疆 乌鲁木齐 830000)
基于分区分层随机抽样的棉花种植面积遥感监测方法研究
胡永森1,2,王 力2,施开分3,周 巍3,饶 华4,王长耀2
(1.东华理工大学 测绘工程学院,江西 南昌 330013; 2.中国科学院遥感与数字地球研究所/遥感科学国家重点实验室,北京 100101; 3.国家统计局农村社会经济调查司,北京 100826; 4.国家统计局新疆建设兵团调查总队,新疆 乌鲁木齐 830000)
以新疆建设兵团为研究区域,依据当地作物种植结构,结合遥感技术,在借鉴前人对大区域作物面积遥感估算研究方法的基础上,采取分区分层随机抽样的方法对新疆建设兵团的棉花种植面积进行估算,并引入均值和变异系数等精度评价指标对该抽样方法行评估,最后根据外推估算方法,以遥感影像中的棉花种植面积统计结果为真值与抽样反推结果进行对比分析。结果表明,各组格网的棉花种植面积均值的估计量变异系数在试验中的变化幅度很小,抽样体系稳定,符合统计抽样原理对精度的高要求。反推后的各组棉花种植总面积精度均达到95%以上,反推质量效果较好。综合来看,上述空间抽样方法是可行的,尤其是对总体分区分层的划分,对后面的抽样及反推工作起到了很好的效果,可为政府对新疆建设兵团棉花种植面积的统计提供方法参考。
遥感; 抽样; 分层; 比例分配; 奈曼分配
我国统计工作成绩斐然,为国民经济的健康运行发挥了很大作用。但是随着人们对统计工作要求的提高,传统的统计方式已经很难满足人们的要求[1-4]。在3S技术的支持下,基于经典统计抽样原理结合空间统计学理论发展起来的空间抽样技术在农情遥感监测中的应用日益广泛[5-11]。在大区域作物种植面积监测方面,利用空间抽样技术和3S技术进行作物面积遥感监测的新型统计方法已经受到越来越多的专家和学者的青睐。
目前,各国的大区域作物面积监测均采用空间抽样方法。例如,美国大面积农作物估产计划(LACIE计划)、农业和资源的空间遥感调查计划(AGRISTTARS计划)等采用了面积抽样框法[12],欧盟的MARS计划中采用了分层抽样的方法[13]。国内先后开展了黄淮海平原小麦遥感估产[14]、华北六省冬小麦产量遥感监测[15]、南方水稻估产[16]等一系列的研究。
新疆建设兵团是新疆重要的棉花产区和商品棉基地,对新疆棉花产业的稳定和发展具有重要的作用。因此,改进新疆建设兵团棉花统计调查手段,提高新疆建设兵团棉花调查数据的质量,不仅对于新疆有着重要的经济意义,还可为政府相关部门的决策提供强大的数据支持。为此,以新疆建设兵团为研究区域,在借鉴前人对大区域作物面积遥感估算研究方法的基础上,采取分区分层随机抽样的方法对新疆建设兵团的棉花种植面积进行估算,并以棉花实际种植面积为真值对估算结果进行对比分析。
1 材料和方法
1.1 数据来源及处理
由于空间抽样方案设计阶段尚未进行当年的棉花调查,本研究采用棉花种植面积相关程度最高的上一年新疆农作物遥感影像分类图(图1)作为选择抽样方法的参考量,该图为基于时序植被指数曲线对中分遥感影像进行分类得到[17-18],并在图中标出了新疆建设兵团各师的位置。根据时间可控性,中分影像采用Landsat OLI/TIRS(OLI陆地成像仪)和环境与灾害监测预报小卫星星座的影像拼接而成。由于新疆区域较大,受各区域作物物候、气象等条件的影响,各地区分类精度有差异,介于70%~80%。
图中各点为各师总部所在地,黑色区域为棉花,空白区域为其他作物或未种植任何作物
利用Arcgis 10.1软件根据新疆建设兵团各师边界对新疆农作物遥感影像分类图进行裁剪,得到新疆建设兵团的遥感影像分类图。由于各团场面积较大且个数较少,不可能选择团场为抽样单元。为了保证抽样精度,利用Arcgis 10.1软件生成格网并选择格网作为抽样单元。新疆建设兵团各师的部署是沿战略交通线和边界驻扎,所以其所属地域的棉花种植面积分布极不均匀,而且裁剪后的新疆建设兵团各师格网数较少。如果对各师进行单独抽样,抽出的格网代表性较差影响后期反推的总精度,故需要先对各师进行分区然后再对各区进行分层随机抽样[19]。根据遥感影像分类图可以得到各师棉花种植面积占新疆建设兵团棉花种植总面积的比例(表1)。
表1 新疆建设兵团各师棉花种植面积所占比例 %
根据各师的棉花种植面积所占比例和位置分布情况结合经典统计抽样原理按照事前评估方法对保证抽样精度的要求进行分区[20]。通过比较图1和表1,将各师分为以下4个区域,每区为一组(表2)。
表2 各师分区情况
1.2 分区分层随机抽样及外推实施方法设计
1.2.1 分层及样本量的估算和分配 在分层界限的选择上,根据戴伦纽斯提出的利用辅助变量确定分层界限的方法,选择抽样框内的耕地总面积作为目标变量的辅助变量。由于兵团总体有限,且样本值固定不变,所以采用基于设计的估计每组总体均值的抽样设计方案。在抽样时各个样本的抽样费用是相等的,所以选择在粗估各组所需总样本量后,采用比例分配和奈曼分配这2种方法对总样本量进行修正,并采用这2种分配方法确定各组中各层应抽的样本数[21-22],最后依据样本在实际操作中查找的难度进行微调。
在估计总样本量之前,规定抽样精度V的上限计算公式如下:
经过比例分配修正后的样本总量n和第h层的层权wh计算公式如下:
经过奈曼分配修正后的样本总量n和第h层的层权wh计算公式如下:
1.2.2 抽样及样本代表性评估 在抽样前分区时,参考了统计中提高抽样样本代表性的事前保证方法,在抽样后引入事后评估方法。以总体格网中的参数为真值,在抽样后对样本和总体格网中的棉花种植面积所占比例的均值进行比较,并求出每组估计量的变异系数,以此来检验样本和总体的分布一致性和样本代表性。
1.2.3 棉花种植面积的估算 对上述各组各层进行样本量分配和抽样后,估计出总体均值乘以总量即为新疆建设兵团棉花种植面积(Y)。
2 结果与分析
2.1 分区分层随机抽样结果分析与调整
由于当年的调查尚未开始,选择参考价值最大的上一年棉花播种面积作为参考量。在各层随机抽样开始之前,先根据每个格网中棉花种植面积占该格网中农作物种植面积的比例对每组采用累积均方根法进行分层。
分析各组抽样结果(表3)发现,第4组与其他3组相比样本总量及样本的分配有些异样,奈曼分配和比例分配的抽样结果在各层之间差别都很大。通过观察第4组格网的分层节点和频数可以发现,第1层棉花种植面积所占比例为零的格网(包括无农作物种植的格网)占总格网数的74.11%,且大部分为无农作物种植的格网。本研究的目的在于估算新疆建设兵团棉花种植面积,对总体格网中绝大部分农作物种植面积为零的情况来说,这种抽样在实际经验中接近小概率抽样,这些占大多数的农作物种植面积为零的待抽样单位对下一年(即本次调查)的棉花种植分布没有预测意义且耗费资源,而且本研究所提方法的优势也不适应于这种类似小概率抽样。因此,对第4组做抽样优化,进行除零抽样,将总体中农作物种植面积为零的格网全部清除,对剩余的格网进行分层随机抽样且以它为总体进行反推,修正后的结果见表4。
表3 第1组分层随机抽样抽出的样本分配结果
表4 第4组分层随机抽样抽出的改进后样本分配结果
对以上4组抽样结果(表3—4)进行分析,并根据前人研究和大量经验可以发现,遥感影像分类结果在待分类作物种植面积比例较高和较低的格网中的分类结果的精度是相对较高的,而种植面积比例处于中间的格网产生错分、误分现象的概率较大[23]。因此,在保证抽样精度的前提下,要尽可能地往棉花种植面积比例的两端进行抽样。观察奈曼分配和比例分配在各层的样本分配结果可以发现,比例分配的样本分配结果的大致分布情况比奈曼分配更加符合往两端抽样的要求。同时由于各组之间棉花种植面积总体比例不一样,有的种植面积比例很高,有的十分低。根据统计抽样原理和遥感中的抽样经验,应在总体抽样精度不变的情况下增加棉花种植比例较大组的抽样样本数,而不是在棉花种植比例较低的组增加更多的抽样样本[24]。根据新疆棉花种植分布和新疆各师兵团分布位置(图1)可知,比例分配计算出的各组抽样样本总量在各层的分配比奈曼分配更加符合增加棉花种植比例较大组的抽样样本数这一要求。
从整体来看,比例分配的样本总量达到总体格网的5.3%,而奈曼分配仅占总体格网的3.3%,与比例分配相比样本过少、代表性较差。综上所述,在对比各方面优势之后选择效果较好的比例分配结果作为最终的样本分配结果。
2.2 分区分层随机抽样的空间抽样效率检验结果
根据各组样本的分配结果对各组进行100次重复抽样,发现各组样本棉花种植面积所占比例的平均值与总体格网中的棉花种植面积所占比例的平均值几乎相近(表5),说明样本的代表性很好。此外,100次抽样后各组样本格网中的棉花种植面积所占比例的平均值是由每次抽样后的各组样本格网中的棉花种植面积所占比例的均值估计量平均得到,它与总体格网中的棉花种植面积所占比例的均值极为接近,说明每次抽样棉花种植面积所占比例的均值估计量是在待估参数的真值附近摆动,且摆动幅度很小。
分析100次抽样中各组格网的棉花种植面积均值的估计量的变异系数变化情况(图2—5)发现,4组变异系数在100次内有波动但幅度较小,且每次抽样后各组格网的棉花种植面积均值的估计量的变异系数均小于5%,说明各组抽出的样本变异程度较小,符合统计抽样原理对精度的要求,甚至更优,证明了本研究所提方法是有效可行的。尤其是抽样前的分区分层,减弱了随机抽样的任意性,宏观把控了所抽出样本的代表性。观察第4组格网的棉花种植面积均值的估计量变异系数变化曲线可以看出,其变异系数在2.21%上下波动,但均小于5%;尽管第4组格网中的棉花种植面积分布极不均匀,且格网总体空间位置分布比较离散(图1),但可以发现在样本分配阶段对第4组进行除零抽样的方法是可行的,并且极大提高了该组的样本代表性。第2组格网的棉花种植面积均值的估计量的变异系数在1.16%上下波动,说明每次抽出样本的变异程度最小,这与其各个格网中的棉花种植面积分布和总体格网的空间位置分布与本研究所构造的空间抽样方法十分契合有很大的相关性。第1组和第3组的格网的棉花种植面积均值的估计量也取得了较好的效果,其变异系数分别在1.74%和2.01%附近上下波动。
表5 100次抽样后各组样本和总体格网中的棉花种植面积所占比例平均值 %
图2 第1组格网的棉花种植面积均值的估计量变异系数变化曲线
图3 第2组格网的棉花种植面积均值的估计量变异系数变化曲线
图4 第3组格网的棉花种植面积均值的估计量变异系数变化曲线
图5 第4组格网的棉花种植面积均值的估计量变异系数变化曲线
2.3 分区分层随机抽样的反推结果与对比
根据外推估算方法[25],利用100次抽样反推结果估算得出各组棉花种植总面积在100次内的变化区间,以遥感影像棉花种植面积统计结果为真值进行对比(表6)发现,各组样本代表性较好,反推面积估算结果理想。定量分析反推面积估算误差,均小于5%,效果较优,在可接受范围内。在棉花种植面积较少且位置分布散乱的第4组,反推面积估算误差(3.6%±1.2%)依然控制在较低误差范围内,说明本研究对第4组的抽样优化是可行的。
表6 棉花种植面积反推结果与统计结果的比对
3 结论与讨论
[1] 吴炳方.全国农情监测与估产的运行化遥感方法[J].地理学报,2000,55(1):25-35.
[2] 赵锐,汤君友,何隆华.江苏省水稻长势遥感监测与估产[J].国土资源遥感,2002,13(3):9-11.
[3] 王迪,周清波,陈仲新,等.空间抽样方法估算冬小麦播种面积[J].农业工程学报,2012,28(10):177-184.
[4] Gallego J,Bamps C.Remote sensing and land cover area estimation[J].International Journal of Remote Sensing,2004,25(15):3019-3047.
[5] 黄青,王迪,刘佳.农情遥感监测中空间抽样技术研究现状与发展趋势[J].中国农业资源与区划,2009,30(2):13-17.
[6] 张小伟,余光辉,温小荣,等.空间分层抽样在森林覆盖面积监测中的应用[J].南京林业大学学报(自然科学版),2012,36(3):81-84.
[7] 王海宾,邓华锋,程志楚,等.基于3S的森林植被面积空间抽样方法[J].森林与环境学报,2015,35(1):74-80.
[8] 张锦水,申克建,潘耀忠,等.HJ-1号卫星数据与统计抽样相结合的冬小麦区域面积估算[J].中国农业科学,2010,43(16):3306-3315.
[9] 胡潭高,张锦水,潘耀忠,等.基于不同抽样方法的遥感面积测量方法研究[J].国土资源遥感,2008,19(3):37-41.
[10] 谭建光,张锦水,高晨雪,等.基于结构规模的冬小麦种植面积遥感抽样估算[J].农业工程学报,2012,28(23):114-122.
[11] 邬明权,杨良闯,于博,等.基于遥感与多变量概率抽样调查的作物种植面积测量[J].农业工程学报,2014,30(2):146-152.
[12] 王力凡,潘剑君.利用高-中-低精度遥感的大区域高精度耕地面积估测分析[J].江西农业学报,2011,23(4):153-155.
[13] 吴全,杨邦杰,裴志远,等.大尺度作物面积遥感监测中小地物的影响与双重抽样[J].农业工程学报,2004,20(3):130-133.
[14] 刘海启.欧盟MARS计划简介与我国农业遥感应用思路[J].中国农业资源与区划,1999,20(3):55-57.
[15] 张东霞,张继贤,常帆,等.遥感技术在主要粮食作物估产中的应用[J].测绘科学,2014,39(11):95-98,103.
[16] Wang J,Liu J,Zhuan D,etal.Spatial sampling design for monitoring the area of cultivated land[J].International Journal of Remote Sensing,2002,23(2):263-284.
[17] 郝鹏宇,牛铮,王力,等.基于历史时序植被指数库的多源数据作物面积自动提取方法[J].农业工程学报,2012,28(23):123-131.
[18] 郝鹏宇,牛铮,王力,等.基于时序MODIS EVI匹配的棉花信息提取——以新疆博乐市为例[J].遥感技术与应用,2013,28(2):309-314.
[19] 冯士雍,施锡铨.抽样调查:理论、方法与实践[M].上海:上海科学技术出版社,1996.
[20] 宋子轩,冷燮,陈瑶瑶.概率抽样条件下样本代表性事后评估方法探讨[J].统计研究,2012,29(7):96-100.
[21] 姜成晟,王劲峰,曹志冬.地理空间抽样理论研究综述[J].地理学报,2009,64(3):368-380.
[22] 杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2006.
[23] 贾斌,朱文泉,潘耀忠,等.遥感影像预分类精度对地物面积空间抽样估算的敏感性分析[J].遥感学报,2008,12(6):972-979.
[24] 李文华.社会调查研究中样本的代表性问题探讨[J].统计与决策,2006(17):157-159.
[25] 焦险峰,杨邦杰,裴志远.全国棉花种植面积遥感监测抽样方法设计[J].农业工程学报,2002,18(4):159-162.
Cotton Planting Area Estimation Method with Remote Sensing Based on Partitioned and Stratified Random Sampling
HU Yongsen1,2,WANG Li2,SHI Kaifen3,ZHOU Wei3,RAO Hua4,WANG Changyao2
(1.Faculty of Geomatics,East China Institute of Technology,Nanchang 330013,China; 2.Institute of Remote Sensing and Digital Earth,Chinese Academy of Sciences/The State Key Laboratory of Remote Sensing Science,Beijing 100101,China; 3.Rural Socio-economic Survey Department of National Bureau of Statistics,Beijing 100826,China; 4.Xinjiang Production and Construction Crops Survey Office of National Bureau of Statistics,Wulumuqi 830000,China)
According to local crop planting structure combined with remote sensing technology,with the Xinjiang Production and Construction Crops as the study area,the estimation of cotton growing area was done with the method of partitioned and stratified random sampling based on the previous studies research methods of remote sensing estimation for large area crop area.The mean and coefficient of variation were introduced to evaluate the effective of this sampling method.Finally,the data of cotton growing area in remote sensing images were compared with the results of the sampling estimation based on the extrapolation estimation method.The results showed that the variation range of the cotton planting area of mean estimator of coefficients of variation of each grid in the test was very small,and the sampling system was stable,which accorded with the high demand of the principle of statistical sampling to precision.The total area accuracy of cotton planting in each group reached more than 95% by extrapolation estimation method,and the extrapolation quality was high.Generally,this spatial sampling approach proposed in the article was feasible,especially the method of partitioned and stratified sampling improved the accuracy,which offered a reference for the government of the Xinjiang Production and Construction Crops cotton planting area extraction method.
remote sensing; samples; stratification; proportional sharing; neyman allocation
2016-03-20
国家统计局新疆棉花种植面积遥感调查项目;国家863计划项目(2014AA06A511);国家自然科学基金项目(41371358);国家科技重大专项(14CNIC-032079-32-02)
胡永森(1990-),男,河南周口人,硕士,主要从事农业遥感方面的研究。E-mail:1042202325@qq.com
TP75
A
1004-3268(2016)10-0155-06