基于Adaptive LASSO 和支持向量机的农作物产值预测
——来自浙江省种植业的研究
2022-02-01钟彦琰何露萍毛小报
□王 煜 钟彦琰 何露萍 毛小报
“食为政首,粮安天下”。2022年中央一号文件明确提出,“要牢牢守住保障国家粮食安全这条底线,全力抓好粮食生产和重要农产品供给”。种植业作为保障粮食等重要农产品有效供给的基础产业,其发展质量对于国家经济发展和社会稳定具有重要战略意义。浙江省为深入实施国家粮食安全战略,落实藏粮于地、藏粮于枝战略和重要农产品保障战略要求,在新冠肺炎疫情和国际产业链供应链不稳定性和不确定性持续增加背景下,聚焦种植业供给能力和农业生产经营效益,对各类因素影响下的种植业产值进行预测,对于及时调整农业生产政策、保障重要农产品供给安全、推进农民农村共同富裕具有重要意义。
从现有农业经济预测研究看,大多是基于产值自身历史变动趋势进行的单变量拟合(刘树等,2005;陈显周等,2011;鞠金艳和祝荣欣,2013;朱春江等,2013;王妍等,2015),少数多变量分析中主要考虑播种面积、产量、化肥投入等生产要素投入对产值的变动影 响(Gonzalez -Sanchez et al.,2014;张自敏等,2014),而缺乏对于市场环境和政策变动等外部因素作用效果的思考,这可能导致预测过程中忽略重要影响因素,造成预测结果的有偏差。此外,在预测方法上多因素分析中大多采用线性回归或人工神经网络为代表的机器学习,拟合精度有限的同时也无法保证神经网络的误差函数收敛到全局最优解。因此,基于现有文献不足,本文聚焦种植业生产过程中各方面因素的影响,利用适用于小样本分析的支持向量机(SVM)算法对种植业产值进行预测,为政府实施粮食安全战略、保障粮油等重要农产品供给提供决策参考。
|数据来源
本文采用2002—2020 年时间序列数据,对浙江省种植业产值进行预测分析,通过对各类潜在影响因素的筛选,探索关键影响因素对种植业产值的预测效果。其中,本文因变量为种植业产值,通过加总粮油、蔬菜、茶叶、水果以及其他经济作物产值得出,单位为亿元,并进行了取对数处理。自变量如表1 所示,共选取资源环境约束、生产效率、政策扶持、农业自然灾害、市场环境五方面16 个指标。
表1 产值的影响因素
相关数据来源于 《浙江省统计年鉴》 《中国农业年鉴》 《浙江省农业农村统计资料》 和 《中国农业机械工业年鉴》 及笔者计算。
|模型和方法
考虑到影响种植业及粮油产业产值的因素众多而统计年份有限,为避免过拟合问题,基于潜在影响因素的预测分析首先需进行降维处理。本文选择Adaptive LASSO算法,在最小二乘估计的残差平方和函数基础上,通过引入惩罚函数实现对关键变量的筛选。估计系数计算如下所示:
在此基础上,使用专门研究小样本的SVM 监督学习算法,实现对时间序列的有效预测。
假定训练集样本为{(xi,di)}ni=1(xi为输入向量,di为期望值,n 为样本数量),SVM 基于以下函数实现对该函数的收敛:
其中φ(x)为高维特征空间,通过输入空间x 非线性映射得到,模型构建如公式(4)所示:通过最小化风险函数R (c) 来对系数w和b 进行估计,即满足样本点j:
为得到w 和b 的一致性估计值,引入正松弛变量,将公式(4)转化为公式(6),模型构建如下:
其中ηi,为对偶变量,满足ηi,≥0。通过对拉格朗日函数求解得到最优参数组合:
将公式(8)至公式(11)带入公式(7)中得到其对偶最优化问题,模型如下:
其中k(xi,xj)=〈φ(xj),(φ(xj)〉为核函数,〈.,.〉为特征空间中的点积。
由于SVM 的构造依赖于核函数的选择,通过核函数的选择实现样本从低维数据向高维数据的映射。目前应用较为广泛的核函数主要有线性核函数、多项式核函数、径向基核函数和Sigmoid 核函数四种。
|模型结果与解释
(一)基于Adaptive LASSO 的关键变量筛选
表2 为Adaptive LASSO 的变量筛选结果。在系统识别出的最佳惩罚系数为0.0021 情况下,K折交叉验证值的均方误差为0.0009,筛选得出劳动生产率、财政涉农支出比例、农业从业人员数、农业机械总动力、农产品生产价格指数、播种面积和农业生产资料价格7 个影响因素,且标准化系数结果表明,劳动生产率对种植业产值的影响最为关键。
表2 种植业产值的关键影响因素筛选结果
(二)基于支持向量机的产值预测
基于前文关键变量筛选,本文将2002—2015 年的14 个样本作为训练集,2016—2020 年的5 个样本作为检验集。为提高SVM 模型的泛化能力,减少训练所需时间并消除不同变量幅值变化影响,在模型训练和预测前本文首先对各变量统一进行了归一化处理。
考虑到核函数的选择对于SVM 的回归性能具有重要影响,为尽可能提高预测精度,本文分别对默认参数下的线性核函数、径向基核函数、多项式核函数和Sigmoid核函数,以及GridSearchCV 网格搜索自动调参下的核函数构建SVM 模型,估计结果如表3 所示。可以发现,调参后基于线性核函数的SVM 拟合效果总体最佳;相应检验集中产值预测值与真实值的趋势基本一致,均方差较小,均方差误差仅0.0007;训练集及检验集拟合效果如图1 所示。SVM 的估计可有效拟合种植业产值与其关键因素间的复杂作用关系,基于SVM 模型的种植业产值预测具有较好的预测性能。
图1 SVM 训练拟合结果
表3 拟合效果及均方差
|结论和建议
为深入贯彻落实习近平总书记关于确保粮食安全的重要批示精神,本文聚焦种植业发展,基于2002—2020 年浙江省相关统计数据,在Adaptive LASSO筛选出劳动生产率、财政涉农支出比例、农业从业人员数、农业机械总动力、农产品生产价格指数、播种面积和农业生产资料价格7 个关键变量的基础上,使用SVM 算法实现了对种植业的有效预测和预警。从预测结果看,基于Adaptive LASSO 和SVM 估计方法的产值预测能较好地与真实值拟合,该方法可有效应用于农业生产效益预测预警。因此,针对各变量对种植业产值的有效预测结果,政府应加大财政支农规模,优化支农支出结构;强化重要农产品生产价格调控能力,稳定农产品市场价格;提升农业机械覆盖面,聚焦聚力机械强农行动;深化农业科技改革,推进农业提质增效。