基于随机森林和纹理特征的苹果园遥感提取
2020-08-04杨彦荣宋荣杰胡国强张桓
杨彦荣 宋荣杰 胡国强 张桓
摘 要: 为准确、快速地从高分影像中获取苹果种植分布信息,以QuickBird遥感影像为数据源,首先采用分形理论和灰度共生矩阵(GLCM)提取纹理特征,然后将提取的分形纹理和GLCM纹理特征分别与光谱特征组合,最后开展随机森林分类实验,对不同分类特征和不同分类方法的实验结果进行比较。结果表明:光谱+GLCM纹理识别苹果园的效果明显优于光谱特征和光谱+分形纹理,其苹果园提取精度为95.99%,比光谱分类显著提高11.83%,比光谱+分形纹理提高1.34%;在相同分类特征下随机森林分类结果最高,其中,随机森林结合光谱+GLCM纹理分类精度最高,总体精度和Kappa系数分别为95.30%和0.94,较最小距离和支持向量机分类有明显提高。
关键词: 信息提取; 高分影像; 分形纹理; 灰度共生矩阵; 随机森林; 支持向量机
中图分类号: TN911.73?34; TP79; S127 文献标识码: A 文章编号: 1004?373X(2020)03?0040?05
Apple orchard remote sensing extraction based on random forest and texture features
YANG Yanrong1, SONG Rongjie2, HU Gouqiang1, ZHANG Huan2
(1. Network & Education Technology Center, Northwest A & F University, Yangling 712100, China;
2. College of Information Engineering, Northwest A & F University, Yangling 712100, China)
Abstract: In order to obtain the information of apple cultivation and distribution by high resolution image accurately and rapidly, QuickBird remote sensing image is taken as the data source, and fractal theory and gray level co?occurrence matrix (GLCM) are adopted to extract the texture features, then the extracted fractal texture features and GLCM texture features are combined with spectrum features respectively. The random forest classification experiments are conducted, and the experimental results of different classification features and classification methods are compared. The results show that effect of spectrum plus GLCM texture is obviously superior to that of spectrum features and spectrum plus fractal texture in identifying apple orchard. This method′s extraction accuracy of apple orchard is 95.99%, which is significantly 11.83% higher than that of spectrum classification and 1.34% higher than that of spectrum plus fractal texture. The effect of the random forest classification is the best under the condition of the same classification features, among which random forest classification combining spectrum plus GLCM texture classification achieved the highest accuracy (overall accuracy and Kappa coefficient are 95.30% and 0.94 respectively), which has been improved significantly in comparison with minimum distance classification and support vector machine (SVM) classification.
Keywords: information extraction; high resolution image; fractal texture; GLCM; random forest; SVM
0 引 言
我国是世界上苹果种植面积和产量最大的国家。陕西省是我国优质苹果生产区和集中种植区,苹果栽植面积和产量均位列全国第一,苹果产业已成为陕西省特色农业的重要组成部分,也是推动农民脱贫创收的重要途径[1]。因此,利用遥感技术准确、快速地掌握苹果园的空间分布格局和规模,对于苹果的生产管理和苹果产业的可持续发展具有重要意义。近年来,随着遥感技术的不断进步,可以获得的遥感影像的种类越来越多,遥感影像的分辨率也越来越高,因其具有实时、宏观和快捷等优点,遥感影像被广泛应用于农作物的面积监测和土地利用等研究领域,并取得了成功[2?3]。QuickBird遥感影像能够提供多种空间分辨率、多种光谱分辨率和多源遥感数据特征,更加精细地为遥感作物识别提供新的数据来源,已成为提高农作物识别精度的有效途径[4?5]。
在分类方法方面,目前,针对不同的遥感影像有很多种分类方法,诸如最大似然分类(Maximum Likelihood Classification,MLC)、神经网络(Neural Network,NN)、最小距离分类(Minimum Distance Classification,MDC)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forests,RF)等。其中,随机森林是一种新型高效的组合决策树分类方法,采用二进制分割数据的方法解决分类和回归问题,具有实现简单、分类速度快、分类精度高、抗噪声能力强的优点,目前在农作物信息提取方面被广泛使用[6?8],但对苹果园信息提取的研究未见系统报道。
本文以QuickBird遥感影像为数据源,综合利用影像的光谱和纹理特征构建不同分類特征、不同分类方法的分类模型,并通过对比单源光谱特征、光谱+GLCM纹理和光谱+分形纹理特征以及最小距离、支持向量机和随机森林分类方法对苹果园提取的优势和劣势,探索利用QuickBird遥感影像数据进行苹果园有效识别,为基于遥感技术准确、快速地掌握苹果园种植的规模和空间分布,以及客观评价其发展现状提供数据支撑。
1 研究区与数据源
1.1 研究区概况
扶风县位于陕西省关中平原西部,地理坐标为107°45′00″E~108°03′28″E,34°12′43″N~34°38′10″N,主要地貌为平原、台、塬地,地势由西北向东南倾斜,北高南低,该地区四季分明,属于大陆性湿润季风气候,光照充足,雨量丰沛,全年平均气温为12.4 ℃,环境条件适宜种植苹果,是国家优质苹果生产基地县,素有“苹果之乡”的美誉。
研究区位于扶风县东北部召公镇,作为扶风县八大镇之一,召公镇是扶风县主要苹果种植区,苹果种植历史悠久,苹果面积达2.8万亩,有利于开展苹果园提取研究。结合人工判读和野外实地调查,影像内包含的地物类型及所占研究区总面积比例分别为苹果园36.03%、玉米33.82%、居民地10.01%、林地9.19%、裸地6.46%、道路3.84%、水渠0.65%。
1.2 遥感数据预处理
综合考虑数据的分辨率、图像获取的方式和苹果的物候期等多方面因素,实验数据取自QuickBird高分影像数据,影像成像时间为2014年7月25日,该影像由两个影像数据构成,一个为单波段的全色影像,其分辨率为0.6 m,波长为0.45~0.90 μm;另外一个为包含蓝、绿、红、近红外4个波段的多光谱影像,其分辨率分别为2.4 m,其中蓝波段波长为0.45~0.52 μm,绿波段波长为0.52~0.60 μm,红波段波长为0.63~0.69 μm,近红外波段波长为0.45~0.52 μm。根据研究需要,首先在ENVI软件中对遥感影像进行几何精校正和正射校正,然后为减少纹理提取的计算量,并与多光谱影像分辨率保持一致,将校正好的0.61 m分辨率的全色影像重采样为2.4 m,最终裁剪了一块1 412×1 412像素的图像进行分类实验。
依据地物光谱特征和纹理结构特征,经过目视解译,研究区苹果园分布面积最大,影像内包含的地物有苹果园、玉米、居民地、林地、裸地、道路和水渠7种类型。实验影像近红外、红和绿波段假彩色合成图像如图1所示。
1.3 样本选取
遥感影像分类研究中,常用的选取训练样本方法有单个像元、种子像元和多边形块方法。为了分类训练和分类精度评价,本文利用ENVI 5.3软件的感兴趣区工具以不规则多边形块为单元随机选取6 860像元,其中2 433像元作为训练样本,剩余的4 427像元作为验证样本,如表1所示。
2 研究方法
2.1 纹理提取方法
2.1.1 分形纹理提取
分形理论以分析维数为基础,通过分形维数计算能够反映遥感图像纹理的复杂度,目前已广泛应用于遥感影像分类中[9]。计算分形维数方法众多,常用的方法有计盒维数法、双毯覆盖法、三角棱柱法、空隙法等。本文采用双毯覆盖模型来计算分形维数以提取纹理特征,基本思想为:用遥感影像像素灰度值代表空间深度,则形成一个三维空间的纹理曲面,若以该表面中某点为中心,在距离该中心点曲面上下[ε]处构成一个厚度为2[ε]的“毯子”,分形维数与毯子表面积对应关系为:
式中:[D]为分形维数;[ε]为面积计算尺度;[A(ε)]为毯子表面积函数。首先对于不同的[ε]值,分别计算lg [A(ε)]和lg [ε]的值,然后再利用最小二乘线性回归拟合,得到直线(lg [A(ε)],lg [ε])的斜率[H],再由分形维度与斜率的关系函数[D=2-H]求出分形维数[D]。
本文在Matlab环境下,用重采样后的QuickBird全色波段作为提取纹理特征的基础数据,通过不同滑动窗口计算每个像素的分形维数,并将其取值扩展到0~255,最终得到研究区的分形纹理特征,如图2所示。
2.1.2 GLCM纹理提取
灰度共生矩阵GLCM方法是由文献[10]提出的一种用来分析图像纹理特征的重要方法。GLCM通过估算两个像素在不同空间位置和方向同时出现的联合概率密度来反映图像在方向、间隔、变化幅度及快慢上的综合信息。常见的8种统计量为:角二阶矩(Angular Secondmoment)、对比度(Contrast)、相关性(Correlation)、熵(Entropy)、均值(Mean)、方差(Variance)、相异性(Dissimilarity)和均匀性(Homogeneity)。研究表明,对于遥感图像来说,角二阶矩、相关性、对比度和熵这4种纹理特征效果较好,能够有效地表征地物的纹理信息[11]。因此,本文采用这4个纹理特征参与影像分类。使用ENVI 5.3提取的像元间距为1、灰度级量化为64级、选择3×3的窗口在4个方向取平均值的纹理特征图像如图3所示。
2.2 随机森林分类方法
随机森林是Breiman于2001年提出的由多棵CART决策树组合构成的一种非常有效的机器学习算法。该算法采用基尼系数对样本数据进行二值分割,从而实现对样本数据的分类,采用加权平均值对数据进行训练以实现回归问题。随机森林算法适用于处理高维数据且运行速度相对较快,近年来在遥感影像分类领域得到了广泛应用。
随机森林算法基本思想:
1) 利用bootstrap自助抽样技术,每次从原始样本中有放回的抽取[K]个样本,重复[K]次形成[K]个训练样本集,在随机抽取过程中,有的样本多次被抽取,被抽取到的样本称为袋内样本,约占总样本数的[23];而有的样本从未被抽取到,未被抽取到的样本称为袋外(OOB)样本[12],约占总样本数的[13],袋外样本用于样本特征空间优化和評估模型整体性能。
2) 针对[K]个训练样本逐一进行决策树构建,在每棵树的构建过程中,从[M]个特征中随机抽选[m]([m≤M])个特征,之后使用完全分裂的方式进行内部节点划分,完成决策树构建,最终产生由[K]棵CART决策树组成的森林。
3) 每棵树单独完成分类后,新样本的类别依据集合[K]棵决策树的预测结果,并采用投票的方式得出分类结果。
目前可以利用多种语言软件平台实现随机森林算法,本文使用EnMAP?Box软件实现对整个遥感图像分类,获得研究区土地利用分类图。随机森林算法有两个重要参数,即[Mtry]和[Ntree]。其中,[Mtry]表示每个节点所选取的预测变量个数;[Ntree]表示待生成决策树数目。通过多次实验,综合考虑分类精度和计算效率,最终将[Mtry]设置为全部特征平方根,[Ntree]设值为200进行分类。
3 结果与分析
为分析纹理窗口大小对分类结果的影响,分别选用5×5像元、7×7像元、9×9像元、11×11像元大小的窗口提取GLCM纹理和分形纹理,并与单源光谱特征组合进行随机森林分类实验,总体分类精度如表2所示。
由表2可知,当分形纹理和GLCM纹理窗口大小分别为7×7像元,9×9像元时分类效果最佳。故本文在提取分形纹理时采用7×7像元大小的窗口,在提取GLCM纹理时采用9×9像元大小的窗口。
为比较不同分类特征识别苹果园的效果,分别将单源光谱特征、光谱特征结合GLCM纹理、光谱特征结合分形纹理共3种分类特征分别进行随机森林分类实验,分类结果如图4所示。
对比分析图4的分类结果,可看出结合纹理特征分类后的实验效果有所提高。从图4a)中仅利用单源光谱分类的结果中可以看出,由于苹果与玉米、林木都属于植被,光谱特征比较相似,分类结果椒盐现象严重;多光谱结合分形纹理特征后,被误分的像元有所减少,如图4b)所示,但效果不太明显。图4c)为多光谱结合GLCM纹理分类后的结果,苹果园提取结果较完整,与玉米、林木的混淆现象明显改善,总体分类效果得到明显改善。
为验证随机森林分类方法对苹果园识别的效果,选用相同的训练样本和验证样本,分别采用遥感图像分类中常用的MDC、SVM分类方法对单源光谱、光谱结合纹理特征进行分类实验,得到不同分类方法的结果如表3所示。
从表4可知:当采用相同分类特征时,RF分类的苹果园精度和总体精度高于MDC和SVM分类结果;与MDC分类相比,苹果园精度和总体精度最高分别提升3.92%和3.51%;与SVM分类相比,苹果园精度和总体精度最高分别提升1.98%和2.74%;综合苹果园精度和总体精度来看,RF分类的精度是最好的,表明RF提取苹果园效果和稳定性好。
此外,RF,SVM,MDC三种分类算法中采用光谱与GLCM纹理特征时的苹果园精度和总体精度高于单一光谱特征,高于光谱与分形纹理特征;与单源光谱分类特征相比,总体精度分别提升10.22%,8.02%,9.23%;与光谱与分形纹理特征相比,总体精度分别提升1.13%,0.22%,0.45%,表明GLCM纹理对不同算法的普适性好。综合图4和表3可知,多光谱+GLCM纹理特征和RF分类方法提取苹果园的效果最佳。
4 结 论
本文尝试以QuickBird高分影像为数据源,综合运用光谱特征、GLCM纹理特征和分形纹理特征,利用随机森林监督分类技术对研究区进行土地利用分类,并在此基础上实现苹果园分布信息的自动提取。通过对比不同分类特征的分类精度,发现采用光谱+窗口大小为9×9像元提取的GLCM纹理特征的分类精度最高,其苹果园提取精度和总体分类精度分别为95.99%和95.30%,比光谱+分形纹理分类提高1.34%和1.13%,比采用单源光谱特征分类显著提高11.83%和10.22%,光谱与纹理信息结合能有效提升苹果园提取精度和总体分类精度。通过对比随机森林、最小距离和支持向量机分类方法,结果表明,在采用相同分类特征时随机森林的苹果园提取精度和总体分类精度最高,与最小距离分类相比,分类精度提升幅度超过2%,与支持向量机分类相比,分类精度提升幅度超过1%,表明随机森林分类提取苹果园效果和稳定性好。
注:本文通讯作者为宋荣杰。
参考文献
[1] 高义民.陕西渭北苹果园土壤养分特征时空分析及施肥效应研究[D].杨凌:西北农林科技大学,2013.
[2] 王大鹏,王周龙,李德一.基于NDVI纹理的山东丘陵地区SPOT?5影像果园信息识别研究[J].测绘科学,2007,32(1):126?127.
[3] LI Y, GONG J, IBRAHIM A N, et al. Orchard identification using landform and landscape factors based on a spatial?temporal classification framework [J]. International journal of remote sensing, 2014, 35(6): 2118?2135.
[4] 杨闫君,黄彦,田庆久,等.基于高分一号卫星WFV 影像的水稻信息提取模式[J].光谱学与光谱分析,2015,35(11):3255?3261.
[5] 杨红卫,童小华.高分辨率影像的橡胶林分布信息提取[J].武汉大学学报(信息科学版),2014,39(4):411?416.
[6] OK A O, AKAR O, GUNGOR O. Evaluation of random forest method for agricultural crop classification [J]. European journal of remote sensing, 2012, 45(1): 421?432.
[7] DESCHAMPS B, MCNAIRN H, SHANG J, et al. Towards operational radar?only crop type classification: comparison of a traditional decision tree with a random forest classifier [J]. Canadian journal of remote sensing, 2012, 38(1): 60?68.
[8] 张晓羽,李凤日,甄贞,等.基于随机森林模型的陆地卫星?8遥感影像森林植被分类[J].东北林业大学学报,2016,44(6):53?57.
[9] LIANG Bingqing, WENG Qihao, TONG Xiaohua. An evaluation of fractal characteristics of urban landscape in Indianapolis, USA, using multi?sensor satellite images [J]. International journal of remote sensing, 2013, 34(3): 804?823.
[10] HARALICK R M, SHANMUGAM K. Textural features for image classification [J]. IEEE transactions on systems, man, and cybernetics, 1973, 3(6): 610?621.
[11] MAILLARD P. Comparing texture analysis methods through classification [J]. Photogrammetric engineering & remote sensing, 2003, 69(4): 357?367.
[12] BELGIU M, DRGUT L. Random forest in remote sensing: review of applications and future directions [J]. ISPRS journal of photogrammetry and remote sensing, 2016, 114: 24?31.