APP下载

高斯多项函数在我国农业总产值预测中的应用

2021-08-06王江荣靳存程

关键词:总产值高斯建模

刘 硕,王江荣,靳存程

(兰州石化职业技术学院 信息处理与控制工程学院,甘肃 兰州 730060)

0 引言

农业是我国国民经济发展的支柱性产业,是经济发展、社会安定、国家自立的基础.农业年产总值是在一年内以货币形式表现的农、林、牧、渔业全部产品的总量,反映了农业生产总规模和总成果,也是政府出台经济政策的重要依据.准确预测农业年总产值对我国农业发展、经济宏观调控具有重大意义[1-2].

事实上,农业年产总值易受气候条件、雨水状况、水土流失、有效耕地面积、机械化程度、人力资源、化肥施用量、病虫害、电力等因素的影响,往往呈现出一定的随机性、波动性和相依性,是一种非平稳、非线性的时间序列.对这类时间序列预测问题,国内外专家学者已作了深入研究,并取得了丰硕成果.主要的预测方法有:灰色预测法[3]、非线性预测模型[4]、非参数模型预测法[5-6]、经验模态分解(Ensemble empirical mode decomposition,EEMD)与支持向量回归(Support vector regression,SVR)相结合的预测方法[7-8]、自回归模型(Auto regressive model,AR)预测法[9-10]、自回归移动平均模型(Auto regressive integrated moving average model,ARIMA)法等[11-13].这些方法从理论和实践上证明可以用于我国农业年总产值预测分析.但是由于农业年总值序列包含了多种信息,是多种影响因素及信息的综合体,其波动性是多种因素波动的叠加.以上这些方法存在着对统计数据(时间序列)适应能力不强、模型构建复杂以及预测精度不高等问题.

本文在已有的基础上提出了高斯多项函数拟合预测分析法.高斯单项函数曲线可以看作是某种影响因素随时间(以年为单位)发生波动的变化过程,而多个高斯单峰函数曲线的叠加(综合)则反映了我国农业年总产量的整体波动状态或变化趋势.实证分析表明,构建高斯多项函数模型用于预测我国农业年总产值时间序列是可行的,而且高斯多项函数模型还具有极强的数据逼近能力和数据适应能力.另外,该模型还具有结构简单、拟合预测精度高和易程序实现的特点.需要说明一点,在实证分析时先利用我国1978年至2015年农业年总产值时间序列建模,然后再对2016年至2021年我国农业年总产值进行预测分析,对模型中出现的参数采用遗传算法ga()和无约束优化函数fminsearch()来估算.

1 统计数据

从中国统计局官网可得到我国1978年至2015年的农业年总产值统计数据[14],如表1所列.

按表1数据绘制1978~2015年我国农业年总产值的时序图,绘制结果见图1.

表1 我国1978~2015年农业年总产值

图1 我国1978~2015年农业年总产值时序图

由图1可看出,1978~2015年我国农业年总产值受到某些因素影响而出现了一些波动,但整体仍呈增长趋势.从变化过程看,离1978年较近的若干年(改革开放初期),因基数较小,增长幅度不大(即增长速度缓慢);自2003年以来,增长速度明显加快.因此,我国农业年总产值时间序列是非平稳和非线性的,难以用线性模型描述其变化规律.

研究表明:影响农业年总产量的主要因素有农业从业人员、耕地面积、农业机械总动力、灌溉面积、化肥施用量、降雨、气温、进口额和出口额等[15],每个因素对农业年总产值的影响力具有一定的随机性,所引起的总产值波动可以近似地看成是随时间(以年为单位)变化的高斯函数曲线,这些高斯函数的线性叠加就能较好地反映我国农业年总产值整体的变化趋势.基于此,可以构建高斯多项函数来拟合预测我国农业年总产值的变化趋势.

2 高斯多项函数模型

2.1 高斯单项函数

高斯单项函数是指如下所表述的函数:

(1)

其中:α,β,γ是常数.α=2,β=2,γ=4的高斯单项函数图形如图2所示.另外,标准的高斯单项函数曲线就是正态分布曲线,该曲线与x轴所围图形面积为1(2σ为窗宽).

图2 高斯单项函数图形

2.2 高斯多项函数拟合模型

高斯多项函数拟合是指多个高斯单项函数在不同位置上按线性叠加来拟合(或逼近)数据点{(xi,yi)|i=1,2,…,n}所在曲线,并得到一个多项高斯函数的线性表达式.高斯多项拟合(或逼近)函数的表达式为

(2)

即用S(xi)逼近yi(i=1,2,…,n).式(2)中:αk,βk,γk(k=1,2,…,m)均为模型参数;S0为模型常数项;m为高斯单项函数个数.m值可通过比较模型的判定系数R2(越接近1越好)、均方根误差RMSE(越小越好)及残差平方和SSE(越小越好)等来确定;模型参数可通过遗传算法ga和无约束非线性优化函数fminsearch来估值[16].

2.3 模型参数估计

首先在Matlab命令窗口调用遗传算法ga()估算出模型参数和模型常数项的初始值X0(向量),再调用无约束优化函数fminsearch计算出模型参数和常数项的最终值Xfinal(向量).说明一点,本文以1978~2015年我国农业年总产值为建模数据,而用2016年、2017年及2018年的农业年总值检验模型.为表述和运算方便,将年份1978~2015用自然数1~38替代,并按如下形式定义适应度函数(目标函数):

(3)

其中,S(i)和Yi分别表示第i年我国农业年总产值模型(式(2))的计算值和实际值(见表1).

利用Matlab软件及建模数据编写适应函数的计算程序,程序文件命名为Fitness.m(具体代码在此略去).

设m=4,则共有13个待估参数(含常数项S0),这13个待估参数用向量表示为X0=(α1,β1,γ1,α2,β2,γ2,α3,β3,γ3,α4,β4,γ4,S0),按式X0=ga(@Fitness,13)估算出参数的一组初始值为X0=(207812.392,40.054,5.044,43835.877,50.036,23.545,187117.698,39.949,4.609,5137.356,19.581,2.893,714.359),将这组初始值导入Xfinal=fminsearch(@Fitness,X0),经1855次迭代后输出的模型参数最优值(理想值)为Xfinal=(205014.719,41.008,5.819,24577.625,39.097,18.698,-169414.515,40.672,5.058,4905.090,19.553,2.814,919.131).

将最终的参数估计值(理想值)代入模型(式(2)),得

(4)

说明一点,当m=1,2,3时,构造的模型精度不及m=4的情形.m>4时模型精度没有明显提高,反而有所下降,所以本文只讨论m=4的情形.

图3 模型拟合预测效果图

3 模型检验

用模型式(4)对我国2016年、2017年、2018年、2019年、2020年及2021年的农业年总产值进行预测,结果见表2所列.作为对比,表2还给出了文献[14]的预测结果,同时还给出了多项式模型(见式(5))的预测结果.

y=0.000007749x8-0.001265x7+0.08347x6-2.854x5+54.03x4-561.5x3+3015x2-7021x+6228.

(5)

再说明一点,在建模(式(5))时仍采用我国1978~2015年农业年总产值即表1中的38个数据.该模型的拟合优度值即决定系数为0.9983,调整的拟合优度值为0.9979,均方根误差为861.9,拟合效果是极显著的(优于其他次数的多项式).

表2 模型预测结果比较表

由表2可看出,本文模型对2015年后三年即2016年、2017年、2018年及2019年我国农业年总产值的预测精度(最小绝对误差22.98亿元,最大绝对误差为151.27亿元,平均绝对误差为95.56亿元)明显高于文献[13]所给出的ARIMA(1,2,1)模型(最小绝对误差为186.35,最大绝对误差为3746.51亿元,平均绝对误差为1411.81亿元).而多项式模型出现了过拟合现象,即对建模数据拟合效果很好,但对建模以外数据预测效果则很差,不可用.这里指出,ARIMA模型适用于平稳且非白噪声的时间序列预测分析,一旦时间序列非平稳时需要采用差分运算转化成平稳序列;再者,该模型是一种线性模型,用线性模型处理非线性问题往往会出现较大误差.另外,ARIMA模型的参数估计通常采用最小二乘法,而最小二乘法估计易受异常点影响,且要求模型残差项服从正态同分布,但此条件难以满足,所以估算出的模型参数值远离理想值.而高斯多项拟合模型将时间序列看成是由多种影响因素所产生的波动信号的线性叠加,每个波动信号可用一个高斯函数曲线近似描述,体现了影响因素的随机性和确定性,而对模型参数的估计先采用遗传算法(具有的强大的全局搜索能力)寻找出参数的初始值,然后再将所得初始值导入稳定性好的无约束优化函数fminsearch中获得参数的理想值,这种参数估计法对模型误差项无任何要求,被实践证明是一种行之有效的估算方法.

4 结语

准确预测我国农业年总产值对我国国民经济发展,供给侧结构性改革及经济宏观调控具有重大意义.以我国1978年至2015年的农业年总值时间序列作为建模数据,利用数据适应能力和逼近能力超强的高斯多项函数来拟合建模时间序列.利用遗传算法寻找出模型参数的初始值,再利用无约束优化函数fminsearch获取模型参数的最终值(或称理想值).通过对建模以外数据的预测结果来看,本文构建的高斯多项拟合函数具有很高的精度,预测效果优于已有的模型(例ARIMA模型和多项模型等),得到的预测结果可供决策部门参考.需要指出的是:任何一种模型在作长期预测时精确度均会下降,本文模型也不例外,建议采用动态建模法即剔除早期的建模数据,增加离预测时间近的实测数据(以此作为新建模数据),这样才能防止模型预测精确下降.

猜你喜欢

总产值高斯建模
小高斯的大发现
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
2019年来宾市蔗糖业总产值近100亿元
天才数学家——高斯
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
陕西林业总产值今年将突破千亿元
陕西有色上半年实现工业总产值590亿元
7月陕西省工业总产值增长由负转正
有限域上高斯正规基的一个注记