基于GEE的苹果园地遥感信息提取研究
——以陕西省渭北旱塬区为例
2024-01-20刚成诚刘欢欢范蒙恩于子涵
陈 印,刚成诚,刘欢欢,刘 悦,范蒙恩,陈 宇,张 曼,于子涵
(1.西北农林科技大学 草业与草原学院,陕西 杨陵 712100;2.西北农林科技大学 水土保持研究所,陕西 杨陵 712100;3.中国科学院水利部 水土保持研究所,陕西 杨陵 712100;4.西北农林科技大学 资源环境学院,陕西 杨陵 712100)
苹果(Maluspumila)属于落叶乔木,富含矿物质和维生素,是人们最常食用的水果之一。苹果在全世界温带地区均有种植,我国是世界上苹果种植总面积最大、总产量最高的国家[1]。苹果种植区在我国多个省份均有分布。2020年我国苹果种植面积为208.85万hm2,总产量高达4 406.61万t,占全球苹果产量的54.07%[2],其中,陕西省的苹果产量为1 185万t,是我国苹果种植面积最大、产量最高的苹果大省,产量和出口量均为全国第一。陕西省具有生产优质苹果的自然条件,是全球最佳的苹果生产区,同时也是世界上连片种植苹果最大的地区[3]。苹果产业已经成为陕西部分地区乡村振兴的经济支柱型产业[4],对于当地农业的整体发展具有重要意义。
随着退耕还林还草等生态工程的不断深入以及“北扩西进”战略的实施,陕西省苹果种植面积和产量一直保持上升的趋势[5-6]。因此,准确掌握苹果园分布格局及变化趋势是苹果产业发展和科学研究不可忽视的一环。传统实地调研方法存在工作量大、成本高等问题,难以掌握区域大面积果园空间信息[7]。遥感监测技术由于具有快速、低成本、大面积、长时间序列探测地表的特点,已被广泛运用于农业管理和作物监测[8-9]。例如,根据作物的光谱特征和其他辅助信息,对饲草[10]、玉米[11]、花生[12]、冬小麦[13]等农作物进行空间信息提取,对农业生产具有重要意义。同时,经济林的遥感信息提取方面也取得了重要的研究进展,如葡萄[14]、橡胶林[15]、竹林[16]和棕榈[17]等。相比之下,针对果园遥感信息提取的研究相对薄弱。徐晗泽宇等[18]利用GEE平台使用2 140景Landsat影像绘制了赣南柑橘果园的分布图;宋荣杰等[19]构建了一种结合高分影像光谱信息和纹理信息以及随机森林算法的集成分类模型,对高分影像中猕猴桃果园进行了有效识别和自动提取。目前,苹果园地遥感信息提取的研究仍十分缺乏,仅局限于县域或乡镇尺度[20-23],区域尺度苹果园地空间分布特征亟待开展深入的研究。
中高分辨率遥感影像,如SPOT-5[24]、GF-2[25]、Landsat[26]和Sentinel-2[27-29],已被广泛应用于作物分类制图中。其中,Sentinel-2具有更多的光谱波段和更短的重访周期,在作物信息提取中被作为重要的遥感数据源[30]。在分类方法方面,随机森林(random forest,RF)算法和支持向量机(supporting vector machine,SVM)等机器学习算法已经逐渐取代传统的监督分类方法。随机森林算法是由多个决策树组成,可以解决决策树算法过拟合的出现,并能提高分类精度,在地物分类和识别领域具有良好的表现[31]。王德军等[32]分析了随机森林、支持向量机、最大似然分类3种分类方法对于农耕土地提取效果,结果表明随机森林算法的分类精度最佳;马战林等[33]融合了多时相Sentinel-1SAR数据和Sentinel-2光学数据,发现基于RF算法的总体精度和Kappa系数分别为95.78%和0.92;Blickensdorfer等[34]使用RF算法,基于Sentinel-1、Sentinel-2和Landsat 8绘制了德国2017-2019年农业土地覆盖图。
Google Earth Engine(GEE)云计算平台具有海量多源遥感数据、支持云端计算的特点,极大地增强了遥感数据处理和数据挖掘能力,为大面积区域尺度遥感信息提取及空间格局动态监测提供了技术平台[35]。本研究以陕西省苹果主要种植区——渭北旱塬区为对象,基于GEE云平台获取2020年Sentinel-2影像数据,构建包含光谱特征、遥感植被指数、纹理特征和地形特征的多维分类特征集,应用RF算法提取研究区苹果园空间格局信息,探究不同分类特征组合下苹果园地遥感提取效果。
1 材料与数据来源
1.1 研究区概况
渭北旱塬区包括千阳县、凤翔县、麟游县、永寿县、彬州市、长武县、旬邑县、淳化县、耀州区、印台区、黄陵县、宜君县、白水县、洛川县,共计14个县(区)(图1),地理位置34.35°N-36.07°N,106.94°E-109.77°E,海拔高度458~1 841 m,总面积约1.82万km2。该区属于温带大陆性季风型气候,年均气温6~13 ℃,无霜期180~200 d,年降水量500~800 mm,降雨集中在6-9月,多为短时暴雨,冬春降水较少,属于典型的半干旱区,适宜苹果生长。
图1 研究区概况
1.2 样本点数据
通过野外实地调查的方法,采集研究区461个苹果园样本点。根据研究区具体情况和分类目标,将研究区内的土地覆盖类型分为苹果园、水域、城镇用地和其他用地。利用谷歌卫星地图和Sentinel-2影像进行目视法取样,获得2020年的样本数据,将样本数据按照4∶1的比例进行随机分配,80%用于分类器训练,20%用于精度评价(表1)。
表1 分类样本数量
1.3 影像数据
哨兵系列卫星(Sentinel)是欧洲航天局哥白尼计划(GMES)中的地球观测卫星,GEE目前可以使用4个系列的哨兵影像数据集,其中,Sentinel-2是高分辨率多光谱成像卫星,携带一枚多光谱成像仪(MSI),用于陆地监测,分为2A和2B 2颗卫星,2A卫星于2015年发射升空,2B卫星于2017年发射升空,一颗卫星的重访周期为10 d,2颗互补,重访周期为5 d,本研究使用B2、B3、B4、B5、B6、B7、B8、B8A、B11和B12共计10个波段(表2)。
表2 波段详细信息
Sentinel-2数据的Level-1C(L1C)级产品是经过正射校正和亚像元级几何精矫正后的大气表观反射率产品。本研究选择的Level-2A(L2A)数据是在L1C级数据的基础上经过大气校正后的产品,从GEE平台获取,影像时间2020年4-5月[36],共获取了覆盖研究区域的无云影像63景,影像分布及数量见图2。
图2 2020年4-5月使用的Sentinel-2影像数量
2 研究方法
根据苹果花期光谱特征与其他树种差异最大的特性[21-23,36],在GEE平台获取2020年4-5月L2A级遥感影像数据,筛选云量<20的影像,并进行裁剪和融合处理。选取光谱特征(spectral features)、遥感植被指数(remote sensing vegetation index)、纹理特征(texture features)和地形特征(topographic features)作为分类特征,通过随机森林算法提取研究区苹果园地空间格局。
2.1 分类特征及组合方案
红边波段和短红外波段在地物分类中具有重要的作用,因此,本研究提取了苹果开花期间苹果园、水域、城镇用地和其他用地的10个光谱波段反射率。由图3可见,水域在10个波段下均表现为较低的反射率,且较为平稳;城镇用地的反射率均高于水域;苹果园和其他用地在B7、B8、B8A波段下反射率几乎一致,仅在部分波段下差异较大。因此,本研究加入遥感植被指数、纹理特征和地形特征作为苹果园地的分类特征,以提高苹果园地分类遥感信息提取精度。
图3 2020年4-5月不同波段不同地物的平均反射光谱
遥感植被指数包括归一化植被指数(normalized difference vegetation index,NDVI,式中记为NDVI)、土壤调整植被指数(soil-adjusted vegetation index,SAVI,式中记为SAVI)、裸土指数(bare soil index,BSI,式中记为BSI)、增强植被指数(enhanced vegetation index,EVI,式中记为EVI);纹理特征由通过灰度共生矩阵(gray level co-occurrence matrix,GLCM,式中记为GLCM)提取得到,纹理窗口大小为3×3,包括均值(Mean)、方差(variance,Var)、角二阶矩(angular second moment,Asm)、熵(entropy,Ent)、对比度(constrast,Con)和相关性(correlation,Corr);地形特征使用高程(DEM)数据(表3)。
表3 特征说明
本研究根据不同的分类特征组合共涉及5种分类方案(表4)。
表4 特征组合
2.2 分类器及精度评价
RF通过随机采样并放回地抽取(Bootstrap)的方式对样本进行重采样,其中约2/3的样本数据作为袋内数据创建决策树,约1/3的样本数据作为袋外数据(out of bag,OOB)进而验证模型[37-38]。与其他分类算法相比,随机森林具有更好的稳定性[39]。本研究通过GEE平台的随机森林分类器建立RF模型,进而提取研究区苹果园地遥感信息。
混淆矩阵是对经过实地验证的像元位置与类型与遥感影像分类结果中相对应的像元属性进行比较,得出该类别的分类精度,它可以有效反映分类结果像元归类的准确性。采用混淆矩阵方法分别得到总体精度(overall accuracy,OA)和Kappa系数等,以此作为衡量标准,评价研究区域苹果园地提取的精度。计算公式如下
1)总体精度(OA,用pc表示)
(1)
式中:p为样本总数,pkk表示正确分类的像元数目;n表示类别的数量。
2)Kappa系数(Khat)
(2)
式中:r为误差矩阵中总列数(即总的类别数);xii为混淆矩阵中第i行、第i列上像元数量(即正确分类的数目);xi+和x+i分别为第i行和第i列的像元数量;N为用于精度评估的总像元数量。
2.3 特征重要性分析
特征重要性是指特征对于目标变量的影响程度,能够判断输入特征对于结果的贡献。特征得分越高,表明对结果的贡献值和重要性越大。本研究采用RF计算特征重要性,根据特征得分进行重要性排序。基于RF计算特征重要性的优势在于其考虑特征之间的相互作用,而且可对不同分类特征排序进行可视化。
3 结果与分析
3.1 苹果园地遥感信息提取结果
基于不同分类特征组合的苹果园地遥感信息提取结果见图4。方案1的结果中多个地区苹果园地面积与统计值差异较大,主要在凤翔区、旬邑县、宜君县、永寿县和长武县(图4A)。方案2结果较优于方案1,但苹果园地提取效果仍较差(图4B),说明光谱特征和遥感植被指数组合并不能对苹果园地遥感信息进行有效提取。
A.方案1(S);B.方案2(S+R);C.方案3(S+T);D.方案4(S+D);E.方案5(S+R+T+D)
方案3与方案4分别增加了纹理特征和地形特征,显示部分地区苹果园地提取效果有一定程度的提高,但在其他地区表现更差。例如,方案3在彬州市、淳化县、宜君县和长武县苹果园地提取结果与统计值更为接近,但黄陵县和洛川县苹果园地提取效果较差(图4C);方案4增强了淳化县、凤翔区和永寿县苹果园地提取效果,但对千阳县和耀州区的提取效果变差(图4D)。由方案3和方案4分类结果可知,不同源的分类特征结合可以弥补单一分类特征的缺陷,提高苹果园信息提取的可靠性,但区域苹果园地提取效果仍待进一步加强。
方案5结合了光谱特征、遥感植被指数、纹理特征和地形特征,其提取的苹果园地面积为23.03万hm2,与统计数据(23.25万hm2)最为接近(图4E)。苹果种植面积较大的县(区)主要为延安市洛川县、渭南市白水县、咸阳市淳化县和咸阳市彬州市,种植苹果面积分别为3.54、3.21、2.90万hm2和2.51万hm2。总体而言,相比于前4个方案,方案5的苹果园地遥感信息整体提取结果更接近于真实情况,说明不同分类特征结合可以弥补单一分类特征的不足,能够有效提高苹果园地遥感信息提取的可靠性。
3.2 苹果园地遥感分类特征重要性评价
由表5可知,所有分类特征组合的OA均>89%,Kappa系数均>0.78。分类特征组合为方案1的总体精度最低,其分类特征仅包含10个波段信息的光谱特征,OA和Kappa系数分别为89%和0.78;方案2~4分别在方案1的基础上加入了遥感植被指数、纹理特征、地形特征,OA和Kappa均有一定程度的增加;OA和Kappa系数最高的为方案5,其加入了遥感植被指数、纹理特征和地形特征。相比于方案1,OA和Kappa系数分别提升了5%和0.08。
表5 基于不同分类方案的苹果园地提取精度评价
3.3 特征重要性分析
基于最优分类方案5,利用RF对其21个分类特征计算特征重要性,并根据特征得分进行排序,结果见图5。光谱特征中短红外波段B11和B12均具有较高得分,分别为1.82%和1.80%。由图3可知,4类地物在B11和B12波段的反射率差异较大,表明2个短红外波段在苹果园地识别中可以提供较
图5 基于方案5的分类特征重要性排序
大的贡献;可见光波段B2、B3和B4的重要性得分分别为1.90%、1.71%和1.49%,在苹果园地信息提取中起到重要作用;红边波段B5、B6、B7、B8A和近红外波段B8的重要性分别为1.51%、1.57%、1.60%、1.60%和1.59%。除B5外,其他4个波段的苹果园地和其他用地光谱反射率较为相近。
在其他分类特征中,地形特征对于苹果园地信息提取的贡献最大,为2.45%,说明地形特征对苹果园地识别具有较高价值。遥感植被指数中BSI、NDVI、EVI和SAVI的重要性分别为1.67%、1.59%、1.55%和1.43%,与大多数光谱波段的贡献率相差不大;纹理特征Mean、Con、Var、Corr能够有效增强苹果园地识别能力,其重要性分别为1.79%、1.66%、1.66%和1.58%,而Asm和Ent的重要性分别为0.97%和0.87%,远低于其他分类特征。
4 讨论
4.1 分类特征对于提取苹果园地信息的适用性
集合不同分类特征可以有效排除单一分类特征中的“同谱异物”现象,有效提高苹果园地遥感信息提取效果。本研究结果显示纹理特征对于苹果园地信息提取的重要性差异较大,例如Mean、Con、Var和Corr与其他分类特征的重要性差异不大,均>1.43%,Asm和Ent却均<0.97%,远低于其他分类特征,这说明纹理特征的熵(Ent)和二阶矩(Asm)不适宜用于苹果园地遥感信息提取。刘羽[7]基于洛川县苹果园地信息提取的重要性排序,得到23个优选特征中仅包含1个纹理特征(均值),其他纹理特征均表现较差;代佳佳[22]在宁县对苹果信息提取的研究结果显示,纹理特征的均值贡献最大,其次为相关性、熵和方差。表明纹理特征在不同情境下的效益可能相差较大,这可能与苹果树的品种及种植方式有关。因此,在提取目标地物信息时,应对纹理特征进一步筛选。
4.2 影像时间对苹果园地遥感信息提取的影响
以往研究表明,花期是苹果园地遥感信息提取的最佳时期[21-23,36]。董芳[21]对比了不同时期的苹果园地提取精度,发现最佳的苹果园地识别时间为苹果花期,即4月底至5月底。然而,部分研究表明,花期并不是苹果园地信息提取的最佳时期。刘佳岐[20]认为在扶风县地区最佳的苹果园地信息提取时期为夏玉米收割之后、冬小麦发芽之前(2014年10月25日的Landsat8影像),辅助影像可使用冬小麦返青期前的遥感影像(2014年3月15日的Landsat8影像);刘羽[7]证明了在果实膨大期苹果园地信息提取效果最好,其次为开花期。最佳影像选取时间不仅与目标地物类型有关,而且受当地气候条件、地形特征及研究区耕种制度等因素的共同影响。由于本研究区包含14个县(区),地形复杂,因此,在前期工作的基础上,明确苹果花期作为苹果园地信息提取的时间范围。
4.3 不足及改进之处
选择了光谱特征、遥感植被指数、纹理特征和地形特征作为分类特征,但冗余特征和无关特征在一定程度上会降低分类精度,未来应结合区域自然条件筛选更适宜苹果园地分类特征及特征变量数量,以提高苹果园地空间信息提取精度。此外,在野外样本点采集过程中仅收集了苹果园的样本信息,并未考虑其他果树,如梨树、桃树等。因此,可能会对苹果园地的空间信息提取结果产生一定影响。未来研究中应同时收集其他果树的样本信息,增加地物类别,提高苹果园的分类精度。
5 结论
基于GEE平台,筛选并融合了2020年4-5月Sentinel-2影像数据,采用随机森林算法提取了陕西省渭北旱塬区14个县(区)的苹果园地空间分布信息,得出以下主要结论。
基于包含光谱特征、遥感植被指数、纹理特征和地形特征的分类特征集提取的渭北旱塬区苹果种植总面积为23.03万hm2,与年鉴统计值最为接近,且总体精度和Kappa系数最高。
地形特征、光谱特征中的蓝波段、短波红外波段,以及纹理特征均值对研究区内苹果园地遥感信息提取的贡献值最大;而纹理特征的熵和二阶矩的重要性最低。
单一分类特征在苹果园地遥感识别中均具有一定的局限性,集合多种分类特征结合的方式可有效提高对苹果园地的识别和提取效果,是有效提高苹果园地遥感信息提取精度最佳方法。