基于无监督过滤式指标选择的冬小麦种植区域尺度管理分区算法
2023-05-09万青松罗晓姣
万青松,罗晓姣
(1.成都文理学院,成都 610499;2.四川锦兴国试书业有限公司,成都 610041)
确定农作物的种植面积和分布状况能够帮助人们更加准确地估算农作物的产量,通过加强管理,确保农作物的空间布局为最优布局,从宏观管理的角度来看,对于保障粮食安全有重要意义[1,2]。针对冬小麦产量进行评估,目前研究的主要方法包括数据预测统计、气象数据分析以及评估预报,这些方法虽然属于经典方法,但是相对较为传统,误差较大,随着信息技术的发展,新型技术被不断应用于种植区域尺度管理分区[3,4]。
种植区域尺度指标作为一种经济有效的参考量,能够很好地帮助学者们分析和预测小麦产量和增长趋势。通过过滤指标确定冬小麦的种植区域,对小麦信息数据进行预处理,筛除无用指标,能够降低管理过程的负面影响[5,6]。目前对于指标选择的研究越来越多,且向着综合性的方向发展。冬小麦种植区域指标选择可以分为有监督模式和无监督模式两种。有监督模式的选择方法相对成熟,而无监督模式的研究较少,主要原因在于无监督模式缺少信息指导,难以得到不同空间的搜索簇群,聚类分类法难以应用。但是无监督模式能够选取具有代表性的特征数据集合成特征子集,在高维度数据中,无监督模式能够选择样本数据特征相近的数值形成数据标签,通过数据计算,完成指标选择[7-12]。
本研究为一种基于无监督过滤式指标选择的冬小麦种植区域尺度管理分区算法,结合聚类算法,分析不同区域冬小麦种植结果的特征,确定信息重要程度,根据重要程度选择特征子集。
1 研究区域概况
研究区域位于重庆市境内,该地区属于温带大陆性季风气候区,植物所处区域接收的养分和阳光都十分充足。该地区的气候条件较好,四季分明,每年的降水量可达800 mm,气温在14 ℃左右波动,十分适合种植小麦、水稻和棉花等农作物。
对研究区域冬小麦的生长特征进行观察可以发现,10 月上旬和中旬为冬小麦播种时期,10 月下旬冬小麦开始出苗;11 月上旬和中旬,冬小麦长出幼苗;11 月下旬至12 月上旬,冬小麦处于分蘖阶段;12月中旬至翌年2 月上旬,冬小麦处于越冬阶段;2 月中旬至3 月上旬,冬小麦处于返青阶段;3 月中旬至4月上旬,冬小麦处于拔节阶段;4 月中旬和下旬冬小麦处于抽穗阶段;5 月冬小麦处于灌浆阶段;6 月冬小麦逐渐成熟。
2 数据准备
在确定冬小麦的生长特征后,分析光谱特征,得到遥感图像,除了提取小麦状态数据之外,还分析了所处的绿色植被状态,野外样方数据。提取发现,冬小麦正处于分蘖状态,而位于冬小麦周边的所有绿色植被都为枯萎状态。
3 研究方法
为更好地实现冬小麦种植区域尺度管理分区,设置技术路线如图1 所示。由图1 可知,首先利用遥感图像提取冬小麦特征指标,根据指标特征建立样本库,分析尺度变化,通过数据分析完成区域管理,确定内部的样方数据,运用计算机技术对数据进行调节,同时结合人工聚类法、识别法确定该区域种植的冬小麦面积和冬小麦在该区域的分布情况。通过GPS 调取野外数据,利用计算机对提取的数据进行多方位处理,将样本数据转换成翻译数据,并进行修正,设置500 个以上的检测点,对提取的冬小麦图像进行修正,根据不同空间幅度范围内得到的数据尺度变化,分析样本状况[13-15]。
图1 技术路线
同时,计算区域精度、平均区域精度、区域精度标准差、均方根误差和偏差,根据计算结果完成区域尺度管理。区域精度计算公式如下。
式中,A0为采集的冬小麦种植区域总量,被设定为基准值;i为提取图像分辨率;S为所选定的冬小麦种植区域;Ai为提取的小麦面积总量;K(s,i)为得到的区域精度。
平均区域精度计算公式如下。
式中,(s,i)为得到的平均区域精度;n为小麦被分的区域数目。
区域精度标准差与区域精度平均值成正相关,能够很好地反映不同区间内部区域精度的波动状况,分析冬小麦所处精度的离散情况,计算公式如式(3)所示。
式中,s为所选定的冬小麦种植区域
均方根误差计算公式如式(4)所示。
式中,RMSE(s,i)为得到的均方根误差;g(s,i)为区域精度观测值;bias(s,i)为区域精度的真值偏差。真值偏差计算如式(5)所示。
在得到上述5 项结果后,确定过滤式指标,并将指标对象读入集合内部,根据指标对象构造一个新的簇,如果得到的数据库数值为末尾值,则直接结束,否则进行再次读取,确定新的数据对象;计算不同数据簇之间的距离,确定最小距离,分析数据半径阈值,计算指标特征统计频度,判断是否为数据库末尾值,如果为末尾值,则代表聚类结束。
本研究的无监督过滤式指标选择法能够根据不同指标的特征值确定重要程度,得到特征选取子集。由于数据的局部特性十分明显,因此可以根据数据特征聚类,确保数据簇的相似性,分析数据之间的局部特征,计算特征指标。对特征指标进行离散化处理,寻求指标内部的连续特征值,选取聚类阈值,确定内部特征值,寻找指标变化数值,根据变化数值划分为过滤式指标选择子集,实现数据操作。
4 结果与分析
4.1 无监督过滤指标对冬小麦种植区域尺度管理分区精度的影响
通过数据分析得到不同无监督过滤指标下的冬小麦平均区域精度、区域精度标准差、均方根误差和偏差,如图2 所示。
由图2 可知,随着过滤式指标降低,冬小麦平均区域精度值也逐渐降低。当无监督过滤指标最高时,冬小麦平均区域精度值最高可达90%。而当无监督过滤指标一定时,空间范围会直接影响平均区域精度,空间范围越大,平均区域精度值越高。
图2 无监督过滤式指标对冬小麦管理分区精度的影响
相比平均区域精度,区域精度标准差、均方根误差和偏差3 个指标随着过滤式指标增高也不断递增;均方根误差和偏差2 个指标随着空间范围增大整体呈下降趋势。
由上述分析结果可知,冬小麦种植区域尺度管理分区精度同时受到无监督过滤式指标和空间范围2 个因素的影响,无监督过滤式指标的影响大于空间范围的影响。
4.2 农作物种类对冬小麦种植区域尺度管理分区精度的影响
在一定空间范围内,若农作物种类不同,农作物生长状况也会存在一定的差别,对冬小麦尺度管理分区精度也会造成影响。确定一定空间范围内的样本数据,得到不同农作物的占比情况,根据占比情况进行数据统计,从而得到各不同参数的状态如图3所示。
由图3 可知,当农作物种类一定时,选择过滤式指标数值越高,得到的平均区域精度就越高;随着作物种类的增加,平均区域精度值也会改变,整体呈增加的态势;当农作物种类为4~6 种时,平均区域精度值处于较稳定状态。
图3 农作物种类对尺度管理分区精度的影响
对统计结果进一步研究发现,当无监督过滤式指标为50时,产生的偏差值相对较大,偏差最大值接近-10。误差的不断积累会直接导致精度的降低,因此将无监督过滤式指标为50 设定为尺度响应敏感点。
4.3 种植密度对冬小麦种植区域尺度管理分区精度的影响
在确定数据源后,对冬小麦的种植面积进行测量,确定特征数据种类,分析数据状态,同时分析尺度分区精度、尺度空间范围、分区成本和数据获取可靠性四方面因素,得到在不同无监督过滤式指标下冬小麦平均区域精度,如图4 所示。
由图4 可知,冬小麦种植密度会对平均区域精度造成一定的影响。当种植密度低于45%时,平均区域精度较低;当种植密度处于45%~70%时,说明冬小麦生长状况达到最佳,此时的平均区域精度为96%,分区精度趋于平稳;当种植密度大于70%时,冬小麦植株过密,不利于阳光、养分等吸收利用,此时平均区域精度也较低。
图4 种植密度对冬小麦平均区域精度的结果
5 小结与讨论
5.1 小结
本研究通过聚类分析算法和空间统计算法确定了无监督过滤式指标的选择对冬小麦种植区域尺度管理分区精度的影响。结果表明,无监督过滤式指标、种植空间范围、农作物种类和冬小麦种植密度都会对冬小麦种植区域尺度管理分区精度造成影响。
1)随着无监督过滤式指标的降低,内部特征数目在不断增加,对冬小麦种植区域分区时所造成的面积误差较大,从而导致冬小麦种植区域尺度管理分区精度降低。
2)当无监督过滤指标一定时,空间范围会直接影响平均区域精度,空间范围越大,平均区域精度值越高。主要因为当人为监测区域空间范围增大时,所造成的正负误差也在相互抵消,测量区域精度随之升高。
3)在空间范围一定的情况下,农作物种类会对冬小麦尺度管理分区精度造成影响。随着作物种类的增加,平均区域精度值也会改变,整体呈增加的态势;当农作物种类为4~6时,平均区域精度值处于较稳定状态。
4)在空间范围和农作物种类一定的情况下,冬小麦种植密度也会对平均区域精度造成一定的影响。当种植密度低于45%或大于70%时,冬小麦的状态过于稀疏或过于密集,此时平均区域精度较低;当种植密度处于45%~70%时,此时的平均区域精度基本稳定在96%。
5.2 讨论
1)本研究基于无监督过滤式指标选择研究了一种新的冬小麦种植区域尺度管理分区算法,确定不同无监督过滤式指标所造成的影响,避免由于单个因素进行尺度管理分区所造成的影响,从而提高分区精度。与传统的分区管理方法相比,加入无监督过滤式指标后,冬小麦种植区域分区精度更高,更有利于及时了解冬小麦的生长状况并进行人工调节生产。因此在研究过程中,可以通过测量无监督过滤式指标,从而达到更好的冬小麦种植区域尺度管理分区效果。
2)本研究仅选用了冬小麦作为研究目标,对于其他作物的研究较少,未来需要分析不同目标作物所造成的尺度管理分区影响,从而取得更加全面和细致的尺度管理分区效果,为调控农作物生长及时提供数据参考。