APP下载

基于多源光学雷达数据融合的黄淮海平原冬小麦识别

2023-03-07冯权泷姚晓闯牛博文陈泊安赵圆圆

农业机械学报 2023年2期
关键词:冬小麦精度分类

冯权泷 任 燕 姚晓闯 牛博文 陈泊安 赵圆圆

(1.中国农业大学土地科学与技术学院,北京 100193;2.自然资源部农用地质量与监控重点实验室,北京 100193)

0 引言

冬小麦是我国三大主粮作物之一,与国家粮食安全息息相关。黄淮海平原作为我国重要的农业生产区,同时是全国最大冬小麦产区,小麦产量占全国总产量的75%[1],及时精准地获取冬小麦种植面积和空间分布信息对我国农业发展具有重要意义。当前基于统计数据和遥感监测的冬小麦提取研究仍为主流研究方法,效率低且耗费大量人力成本,难以满足当前快速、准确地获取农作物信息的实际需求[2-4]。而运用遥感可快速获取大范围地表覆被信息,在不同时空尺度的冬小麦识别方面得到了广泛应用[5]。常用的提取冬小麦面积的方法是结合遥感影像,通过比较植被指数时序变化选择合适阈值,进而提取冬小麦的空间分布信息[6-8];另外,机器学习和深度学习等算法的发展也为农作物分类、冬小麦面积提取提供了新的方法[2,9]。随着对遥感图像处理能力需求的提高,高效处理图像数据的各类云平台需求也逐渐增加。遥感云计算平台(例如:Google Earth Engine,GEE)具有强大的计算能力,能够快速分析遥感影像并及时获取大范围的农作物信息[10-15]。由于遥感数据的工作限制和原理的不同,单一传感器难以完整反映地表覆被特征。现阶段作物识别研究多基于光学影像作为数据源,运用多时相数据增强不同地物之间的光谱可分性,能够更好地分析冬小麦的生长发育规律在遥感影像上表现出的时相变化特征,有效提高冬小麦识别和分类精度。

目前融合多种传感器的多时空分辨率的光学遥感影像被用来提取农作物种植结构并取得了大量成果[16]。基于高分辨率影像数据进行农作物提取也受到广泛关注[17]。雷达遥感相对于光学遥感最大的优点在于可穿透云雨,不受日照影响和限制,可全天时、全天候工作。诸多学者也将雷达数据与光学数据结合用于农作物种植结构信息提取。ARIAS等[18]探讨了基于Sentinel-1时间序列数据进行农作物分类的可行性;GEE是一个免费的遥感云计算平台,基于GEE云平台已进行了诸多在遥感领域的研究。SHELESTOV等[19]基于GEE云平台进行农作物分类研究,利用云平台获取大量多时相遥感数据,并采用多种主流分类器进行农作物提取,对比了各分类器的提取效果;谭深等[10]运用融合多源遥感数据进行多云气候区的水稻分类研究,并基于机器学习中的随机森林分类方法获取2016年的水稻分布图,获得较好结果。

综上,本文基于2020年12月至2021年5月黄淮海平原的哨兵1号(Sentinel-1)SAR雷达影像和哨兵2号(Sentinel-2)光学遥感影像,分别构建各地物类型的光谱特征、极化特征和纹理特征数据,分析不同地物在以上特征中的时序曲线差异、冬小麦的生育周期以及对应的植被指数特征差异。利用GEE云平台,基于多种机器学习分类算法(朴素贝叶斯、支持向量机、决策树和随机森林)进行分类及精度验证,从而得出最优分类算法,并利用已选择的冬小麦的样本点,提取样本长时间序列的特征向量,基于深度学习中长短期记忆网络(Long short term memory,LSTM)和Bi-LSTM进行冬小麦的像元尺度的模型训练。基于实验结果,获得2021年黄淮海平原区域冬小麦种植面积及其时空变化特征,以期为该区域轮作休耕政策制订以及农业生产提供数据支持。

1 研究区域与数据来源

1.1 研究区概况

黄淮海平原位于北纬32°~40°,东经114°~121°,面积3×105km2。跨越京、津、冀、鲁、豫、皖、苏7省市,地势平坦,河湖众多,交通便利,年均气温13℃,年均降水量710 mm,属温带大陆性季风气候,雨热同期,土质肥沃,主要生长的农作物为小麦、玉米、大豆等,其中冬小麦多于每年的10月上、中旬播种,次年6月收获[20]。黄淮海平原研究区域范围划分参考文献[21],包含北京、天津、河北、河南、山东、安徽、江苏7个省级行政区(图1)。

图1 研究区范围示意图

1.2 数据来源与预处理

选用Sentinel-1 SAR数据和Sentinel-2光学数据进行冬小麦面积提取。Sentinel-2A卫星覆盖13个光谱波段,为获得无云且包含冬小麦生长期的影像数据,通过扩大影像的时间跨度,设置时间范围为2020年12月至2021年5月,得到黄淮海平原空间分辨率为10 m的Sentinel-2卫星影像数据,在月尺度上进行均值合成,筛选云量低于20%的影像。Sentinel-2数据的裁剪、镶嵌处理通过GEE平台在线编写代码实现。Sentinel-1是主动微波遥感卫星,能够全天候、全天时地对地面进行观测,具有单极化、双极化等多种极化方式[22-23]。本研究运用VV、VH极化数据进行极化特征计算,并在月尺度上进行均值合成,影像空间分辨率为10 m。

1.3 特征变量与数据集

1.3.1特征构建

结合研究区的地理位置与农作物的物候期,选取Sentinel-2光学影像的光谱反射率、光谱特征和纹理特征进行计算。现有研究表明农作物遥感分类研究仅计算光谱特征会导致“同物异谱、异物同谱”的现象,影响最终分类效果,而不同地物类型在遥感影像上纹理表现差异较大。冬小麦在遥感影像上具有规则的纹理信息,易于与其他地物类型进行区分。基于此,本文运用灰度共生矩阵(Gray-level co-occurrence matrix, GLCM)进行纹理特征的构建,根据植被光谱曲线可知,植被在近红外B8波段具有最高的反射峰,植被反射率在可见光波段差异小,但近红外波段的差异明显。因此本文采用Sentinel-2光学影像的近红外B8波段计算纹理特征能够更好地区分植被等信息。为避免因选取过多纹理特征而导致信息冗余,故只选取灰度共生矩阵生成的角二矩阵(Angular second moment, ASM)、对比度(Contrast, CONTRAST)、相关性(Correlation, CORR)和熵值4个纹理特征变量。选择Sentinel-1 SAR数据的极化特征变量,共2个特征变量。本研究共选取16个特征变量,如表1所示。

表1中,归一化差异植被指数(Normalized difference vegetation index, NDVI)反映植被生长状态,通过计算近红外和红光波段之间的差异来识别植被。归一化水体指数(Normalized difference water index, NDWI)用于水体识别,对波段进行归一化差值处理,其对植被冠层的液态水含量变化敏感。增强型植被指数(Enhanced vegetation index, EVI)的计算常用于植被茂密区域的计算,可减少大气和土壤的影响,反映地表植被特征。绿色归一化差异植被指数(Green normalized difference vegetation index, GNDVI)用于计算叶片叶绿素浓度。绿叶指数(Green leaf index, GLI)反映研究植被的颜色变化信息。优化土壤调节植被指数(Optimization soil-adjust vegetation index, OSAVI)能够反映冬小麦的生长状况信息[24-28]。

表1 特征变量

1.3.2不同地物类型间的时序植被指数差异分析

综合分析文献[15]和研究区的地物类型分布特征,为便于进行不同地物的植被指数差异比较,共选取冬小麦和非冬小麦两大类样本点,非冬小麦地物类型由水体、不透水面、其他(植被+裸地)3类地物组成,结合遥感影像绘制各类地物在12月到次年5月的NDVI变化曲线(图2)。研究区冬小麦从1月到3月的NDVI逐月增加,变化趋势明显有别于其他地物类型,说明该阶段冬小麦绿色加深,根据研究区冬小麦物候信息可知该阶段为返青期。3—4月冬小麦NDVI偏高,为冬小麦孕穗期。4—5月NDVI植被指数呈现明显下降趋势,但总体指数值仍较高,该时期冬小麦叶绿素含量下降,5月以后的冬小麦NDVI植被指数与其他地物类型较为相似,不易进行农作物提取研究。基于特征值差异越大,分类精度越高的原则,选取返青期影像作为选择样本的基础影像,数据日期为2021年2月1日至3月1日。

图2 2020年12月—2021年5月研究区各地物类型时序NDVI变化曲线

1.3.3样本数据集

本文分类目标作物为冬小麦,通过分析遥感影像的地表覆被信息和易混作物信息,选取20 000个样本点,综合文献[2]中的训练集测试集划分比例和本研究样本数据量以便于更准确地反映模型效能,从中随机抽取30%作为测试样本,70%作为训练样本,获得研究区训练样本集及测试样本集(表2)。验证数据来自各省2020年统计年鉴发布的冬小麦播种面积数据。根据1.1节可知黄淮海平原非7省完整区域,故以黄淮海平原包括的各个市的小麦播种面积为统计数据验证提取结果。

表2 样本数据集

基于2021年2月1日至3月1日的Sentinel-1影像和Sentienl-2影像,制作了各类地物的目视解译标志,如表3所示。

表3 目视解译标志

2 研究方法

2.1 总体研究技术路线

本研究技术路线图如图3所示。首先利用GEE云平台获取多时相的遥感影像,构建地物类型的光谱特征、极化特征和纹理特征,基于多种机器学习分类算法和深度循环神经网络对冬小麦样本点进行训练和精度验证,得出2021年黄淮海平原区域的冬小麦种植信息。

图3 技术路线图

2.2 分类算法

随机森林(Random forest, RF)是利用若干个决策树对样本进行训练预测的一种分类方法,由多个Bagging集成学习技术训练得到的决策树组成,对输入的数据集进行判别与分类,同时给出各个变量的重要性评分,评估变量在分类中所起的作用。该方法能够在大数据集上运行,具有极好的准确率,能够较为准确地评估各个特征在分类中的重要性,解决了决策树的性能瓶颈的问题,具有良好的并行性和扩展性。朴素贝叶斯(Naive Bayes, NB)分类算法是贝叶斯分类算法中最为简单和常见的分类方法,该方法假设每一个输入的样本数据集变量均为相互独立的,极大简化了算法复杂性,因此针对实际的数据中存在属性或类别之间存在关联的情况,其分类准确率会降低[30]。支持向量机(Support vector machine, SVM)是一种按监督学习方式对数据进行二分类模型,通过寻找最优的边距超平面对输入的样本数据进行分割,是一个监督式学习的方法[31]。该方法适用小样本学习,计算的复杂性不取决于样本的空间维数,具有较好的鲁棒性,提高了模型的泛化能力,但解决多分类问题较为困难,模型效果好坏与参数和核函数的选择关系密切。决策树(Decision tree, DT)划分方法简单,运用递归思想,以信息熵为度量构造熵值下降最快的树,到叶子节点处熵值为0,是用概率分析的方法[32]。

本研究基于GEE平台运用Sentinel-1 SAR雷达影像和Sentienl-2光学影像进行月度均值合成,基于返青期的光学遥感影像选择监督分类的样本点。随机森林的参数设置上,进行Grid Search调参,寻找分类的最佳参数,通过调参结果与冬小麦提取的精度、与统计数据的误差以及计算效率,将决策树的数量设置为80,决策树最大深度为7。随机森林模型通过调用GEE平台接口ee.Classifier.smileRandomForest实现,朴素贝叶斯、支持向量机、决策树模型均基于SKlearn框架构建,编程语言为Python。支持向量机算法参数设置惩罚系数为1.0,核函数类型为‘rbf’,gamma值为1/13;决策树模型采用CART决策树分类,分裂评价指数为基尼系数(Gini);朴素贝叶斯算法选用高斯朴素贝叶斯,该方法不需要进行参数设置。

2.3 精度评价方法

冬小麦的识别精度结果通常采用两种精度评价方法。常用的遥感分类结果的验证方法为混淆矩阵(Confusion matrix)。分类结果评价精度的指标主要包括总体分类精度(Overall accuracy,OA),Kappa系数以及各个类别的制图精度(Producer’s accuracy, PA)、用户精度(User’s accuracy, UA)。Kappa系数是可以衡量总体分类精度的指标,综合了用户精度和生产者精度两个精度的评价参数。取值范围在-1和1之间,值越大图像分类精度越高,说明分类效果越好。

2.4 深度循环神经网络

2.4.1LSTM网络

循环神经网络(Recurrent neural network, RNN)是一种用于处理序列数据的神经网络。长短时记忆网络(Long short term memory network, LSTM)是一种改进之后的深度循环神经网络,可以解决RNN无法处理长距离的依赖的问题,相比RNN结构,LSTM循环结构能够在长序列中展示更好的结果。该网络的每个循环结构有2个输出,由输入门、遗忘门、输出门和单元状态组成,不断保持一个持久的单元状态进行传递,决定信息是否遗忘或继续传递[33]。LSTM网络结构如图4所示。图中xt是当前时刻模块的输入值,ht是当前模块的输出值,it、ot、ft分别对应输入门、输出门和遗忘门,gt为当前时刻的记忆。输入门决定当前网络的输入有多少内容保存到单元状态ct中,遗忘门主要用于计算上一时刻单元状态ct-1保留多少内容到当前时刻状态ct,而输出则控制当前状态ct有多少内容会输出到下一阶段LSTM模块中(即ht)。

图4 LSTM网络结构

2.4.2Bi-LSTM网络

双向长短记忆网络(Bi-LSTM)是循环神经网络的一种扩展形式,由前向LSTM与后向LSTM组合而成,实际的模型应用中,预测需要考虑完整的上下文信息,需要使用完整的输入序列信息,因此采用双向的循环神经网络建模上下文信息,前向LSTM和后向LSTM层输出向量可以使用相加、平均值或连接等方式进行处理(图5)[34]。

图5 Bi-LSTM结构图

3 结果与分析

3.1 分类结果及精度分析

运用4种机器学习方法对研究区进行冬小麦识别,得到研究区冬小麦分类精度OA如表4所示。

表4 不同机器学习分类器冬小麦分类精度比较

由表4可知随机森林在4种机器学习方法中提取精度最高。黄淮海平原冬小麦面积分层图和冬小麦空间位置分布图如图6所示。

图6 2021年黄淮海平原冬小麦面积分层、空间分布图

在ArcMap上对分类结果图进行多维分析处理,对各省市的冬小麦面积进行统计。图7为黄淮海平原冬小麦种植面积的县级分布分层统计图,由浅到深的颜色表示冬小麦种植面积由少及多。对每个研究区内的冬小麦种植面积求和,将其相加得到黄淮海平原冬小麦种植总面积,并计算每个研究区的种植面积在总面积中的比例,计算式为

图7 冬小麦种植面积的县级分布分层统计图

(1)

(2)

式中W——黄淮海平原冬小麦种植面积

Wi——研究区i的冬小麦种植总面积

αi——研究区i冬小麦面积占总面积的比例

黄淮海平原冬小麦总面积为16 226 667 hm2,占研究区总面积的49.17%,研究区涵盖的各市冬小麦播种面积统计数据总和约为15 690 949.13 hm2,为检验提取准确性,计算相对误差为3.41%。5个研究区中,河南省的冬小麦种植面积最多,约为4 647 334 hm2,占黄淮海平原冬小麦总种植面积的28.64%;江苏省次之,约为3 427 012 hm2,占黄淮海平原冬小麦总种植面积的21.12%;京津冀地区种植面积最少,约为1 886 401 hm2,仅占总面积的11.63%;山东省、安徽省的冬小麦种植面积分别占黄淮海平原冬小麦总种植面积的19.77%、18.84%。本研究黄淮海地区的各省冬小麦提取面积相对误差均在5%以内,由文献[15]可知,相对误差在5%以内即为提取误差较小、提取效果较好。黄淮海平原的冬小麦种植分布呈现一种由东向西、由南向北递减的趋势。

3.2 消融实验

基于随机森林的消融实验是通过对比单一传感器和多传感器遥感数据的冬小麦分类识别精度,仅使用月度均值合成的Sentinel-1 SAR数据,总体精度为87.38%,Kappa系数为0.763 8;仅使用月度均值合成的Sentinel-2光学数据,其总体精度为93.95%,Kappa系数为0.972 0;而以Sentinel-1和Sentinel-2多源遥感数据为数据源,选择多时相影像在月尺度上进行均值合成,得到的冬小麦分类结果为总体精度为94.30%,Kappa系数为0.978 4。因此融合时序Sentinel主被动遥感数据能够提高分类总体精度和冬小麦的识别精度。

3.3 深度学习精度结果

本实验的深度学习框架为Tensorflow 2.3.0、Keras 2.4.3。操作系统为Ubuntu 18.04,CPU为Intel Core i7-9700K @ 3.60 GHz,GPU为NVIDIA RTX 2080ti。编程语言及版本为Python 3.7.0,学习率为10-5,迭代次数为2 000次,批处理大小为1 000,损失函数为交叉熵,优化函数为Adam。

基于深度学习的LSTM和Bi-LSTM网络架构进行冬小麦识别提取研究,随机森林、LSTM和Bi-LSTM模型的冬小麦识别精度分别为94.30%、93.73%、93.87%,表明深度学习的冬小麦识别精度略低于机器学习随机森林方法,所以进行深度学习与机器学习的泛化性对比实验。本研究只尝试了LSTM系列模型,并不能完全代表所有的深度学习模型的冬小麦分类精度均低于随机森林方法。

3.4 泛化实验结果

为探究机器学习算法对新样本的适应能力,将具有同一规律的其他数据集输入已经训练好的网络,判断输出结果的优劣即为模型的泛化能力。对在某一省份已训练好的网络中输入另一省份的冬小麦样本数据集,并输出精度,得到基于随机森林方法泛化结果(表5),将5个区域矩阵对角线精度计算平均值,得到在原本区域的预测结果为99.11%;对角线以外的其余精度的平均值代表在其他区域的预测能力,二者对比即泛化能力,分别为90.98%、94.09%、92.63%、87.63%、92.44%。由此说明,随机森林只在原本实验区域预测精度较高,在其他区域的识别精度较低,泛化性低。

表5 随机森林方法泛化实验结果

基于深度循环神经网络方法Bi-LSTM的泛化实验结果如表6所示,得出深度学习在原本区域的预测精度为96.65%,对角线以外的其余精度的平均值代表其在其他区域的预测能力,分别为93.72%、96.00%、94.39%、90.84%、95.24%。由此说明,深度学习的泛化能力在5个区域均高于随机森林方法,深度学习在其他地区的泛化性高于随机森林的泛化性,随机森林只在当前实验区域识别精度较高,在其他区域的识别精度较低。

表6 深度学习的Bi-LSTM泛化实验结果

4 结论

(1)黄淮海平原冬小麦总面积为16 226 667 hm2,其中河南省的冬小麦种植面积最多,约为4 647 334 hm2;黄淮海平原的冬小麦种植分布呈现一种由东向西、由南向北递减的趋势。

(2)河南省的冬小麦种植面积最多,占黄淮海平原冬小麦总种植面积的28.64%;京津冀地区种植面积最少,仅占总面积的11.63%。

(3)随机森林在4种机器学习方法中识别精度最高,总体分类精度为94.30%,其他机器学习方法的总体分类精度分别为决策树92.20%,朴素贝叶斯88.20%,支持向量机91.40%。

(4)融合时序Sentinel主被动遥感数据能够提高分类总体精度和冬小麦的识别精度。

(5)在大范围的冬小麦分类上,深度学习模型的泛化性高于机器学习方法。随机森林泛化性较低,并只在当前实验区域识别精度较高,在其他区域的识别精度较低。

猜你喜欢

冬小麦精度分类
分类算一算
分类讨论求坐标
基于DSPIC33F微处理器的采集精度的提高
数据分析中的分类讨论
教你一招:数的分类
甘肃冬小麦田
GPS/GLONASS/BDS组合PPP精度分析
冬小麦和春小麦
改进的Goldschmidt双精度浮点除法器
冬小麦——新冬18号