APP下载

基于LS-SVM的番茄产量在线预测

2012-04-29高丙朋,姜波,南新元

湖北农业科学 2012年5期
关键词:数据处理预测

高丙朋,姜波,南新元

摘要:番茄酱生产企业为了更好地规划生产,合理地利用资源,降低成本,需要详细掌握不同品种番茄的产量。采用最小二乘法支持向量机(LS-SVM)引入不同品种产量预测加权系数及番茄产量预测过程中番茄生长及环境数据完整性在线处理,合理解决了番茄产量在线预测问题,预测效果理想,为企业安排生产和统筹规划提供参考依据。

关键词:番茄产量;LS-SVM;数据处理;预测

中图分类号:S126;S641.2文献标识码:A文章编号:0439-8114(2012)05-1025-03

The On-line Prediction of Tomato Yield Based on LS-SVM

GAO Bing-peng,JIANG Bo,NAN Xin-yuan

(The Electric Engineering College, Xinjiang University, Urmuqi 830049, China)

Abstract: In order to make better production plan, rational use of resources, reduce costs, it is necessary for tomato paste producers to master the yield of different tomato varieties in detail. Reasonable solution to the tomato yield online prediction was given based on the different varieties yield prediction weighting factor and online processing of integrity tomatoes physiological growth and environmental data introduced by least squares support vector machine(LS-SVM). It provides a theoretical reference for the production and overall planning of the enterprise.

Key words: tomato yield; LS-SVM; data processing; prediction

新疆的番茄年加工量约占全国番茄加工总量的90%,番茄酱加工产业被称作新疆的“红色产业”之一。然而不同品种的番茄成熟期、单株产量都存在着一定的差异,企业为了更好地规划生产,合理地利用资源,降低单位成本,需掌握不同品种番茄的产量。

目前,国内关于番茄产量预测的研究报道较少,关于粮食、棉花等的预测居多。粮食产量的预测大都是根据历年的生产数据进行一个总量的预测,而番茄的预测与之不同,其需要预测不同品种、不同成熟期的产量,以满足番茄酱生产企业对新鲜番茄的持续和及时供应,使番茄产量与加工能力相匹配。番茄产量预测可以利用建立在历年产量静态数据基础上的预测模型进行研究,也可以利用线性规划方法进行番茄产量预测,但因为影响番茄产量的因素很多,包括土壤湿度、日照、施肥、温度等,而这些因素又是非线性的,这两种方法都不能较精确地预测出番茄的产量,所以,采用了改进型的最小二乘法支持向量机(LS-SVM)对番茄产量进行预测,效果较好。

1LS-SVM基本原理

LS-SVM是从支持向量机(SVM)发展而来的,它将SVM中的不等式约束改为等式约束,且将误差平方和损失函数作为训练集的经验损失函数,这样就把解二次规划问题转化为求解线性方程组问题。具体可以表述如下[1,2]:

对于一个训练样本集

S={(xk,yk|k=1,2,N;xk∈Rn,yk∈R)},其中预测目标函数可以在特征空间中被描述为:

min J(w,ξ)=wTw+Cξ(1)

s.t.yi=wT(xi)+b+ξi,i=1,2,…,N (2)

在目标函数(1)中,w为权值矢量,C为惩罚因子,ξi为误差参数,约束条件(2)中b为偏差。

与传统的SVM相比,LS-SVM具有更小的计算复杂性和更快的运算速度等优点,同时,探寻SVM、神经网络、高斯过程和贝叶斯技术的本质,它可以融合他们的特点;它也可以被扩展为一个自动回归模型去处理动态问题[3]。引入Lagrange乘数αi∈R,等式(1)Lagrange函数可以被定义为

L(w,b,ξ,α)=J(w,ξ)-∑αi{wT(xi)+b+ξi-yi}

(3)

αi≥0,i=1,2,…,N

根据KKT条件,可以得到如下函数

=0→w=αi(xi)(4)

=0→αi=0(5)

=0→αi=Cξi(6)

=0→wT(xi)+b+ξi-yi=0(7)

消去w,ξ,可以得到

0 ITIΩ+bα=0Y(8)

在这里x=[x1…xN],y=[y1…yN],I=[1…1],α=[α1…αN],同时Ωkl=(xk,xl)=φ(xk)Tφ(xl),k,l=1,…,N,满足Mercer条件,存在一个函数φ,和核函数

(•,•),则

(xk,xl)=φ(xk)Tφ(xl) (9)

因此,LS-SVM预测函数为

y(x)=αk(x,xk)+b(10)

1.1选择核函数

核函数的作用主要是通过映射将输入变量映射到高维空间,具有重要的作用,常用的核函数有线性核函数、多项式核函数、高斯径向基核函数及神经网络核函数,考虑到参数的数量将影响模型的复杂程度,线性核函数和神经网络核函数属于高斯径向基核函数(RBF)的特例,而RBF数学计算比较简单,因此在本系统中我们选用RBF[4-6],其表达式为

(x,xk)=exp{-||x-xk||2/2σ2}

1.2确定模型参数

在RBF核函数中惩罚参数C和核参数σ是两个重要的参数,为了选择理想参数去提高模型训练的结果,有很多参数选择的方法,如经验法、提升计划法、交叉验证法、VC维平面法和统计学习理论推导法等[7]。采用交叉验证法来确定惩罚参数C和核参数σ。

2数据样本训练

番茄的生长期为16周左右,这期间的降水情况、积温情况、施肥情况都将直接影响到番茄的产量,因此对于番茄最终产量预测应是一个完整数据样本的预测,而番茄生长的数据是随时间不断积累和更新的,但是为了能够合理地安排生产和销售,企业需要动态地把握番茄的产量,因此对于需要预测产量的年份,预测函数输入是一个随时间动态变化的多维变量,且在时间小于16周的时候是一组不完备的数据,这与最终的番茄产量预测所需完整数据形成了一个矛盾。那么N周后的16-N周的数据如何得到?在本课题中采用历史数据替代法,即(N+1,16)周的数据采用近5年同一时期的平均值,新的数据产生后自动覆盖,并再次进行番茄产量预测。

以番茄生长16周的积温数据为例

X=[x1,…,xN,xN+1, …,x16](11)

其中xN为当前周的数据,xN+1=x′N+1即过去5年同一时期的平均值。

3预测系数

不同品种番茄产量预测的系数是不同的,对于生长数据匮乏的番茄品种的产量预测,首先应选定一个具有丰富历史数据的品种,作为关系样本D,利用K年的非关系样本品种的平均亩产量之和与关系样本K年的平均亩产量之和的比值的平均值作为加权系数βj。

βj=j=1,2,…,m;j≠l(12)

其中考虑到品种的原因,K值一般取为5;而θij为第j个非关系样本品种的第i年的平均亩产量,为关系样本的第i年平均亩产量,而关系样本的加权系数为1。

yj=βj*yl (13)

4预测步骤及结果

4.1预测步骤

对具有可变因素的预测系统,近工作点数据对系统的影响要大于远工作点的数据,作为系统的改变,新数据被收集,而原来利用离线数据建立起来的模型,已经不能够准确地描述系统的真实状态;新数据应该用于建立一个新的模型去更精确地反映当前系统的状态。因此为了满足番茄产量预测的需要,对传统的LS-SVM进行了改进。

1)选择训练样本集,同时为了消除各个因子由于量纲和单位不同的影响,需要把样本的输入和输出参数规范化在(-1,+1)之间,即对数据进行归一化处理。

2)选择模型参数,确定预测系数。

3)样本稀疏处理。

4)运用LS-SVM训练样本。

5)预测数据。

6)当第N+1周新的数据产生后,在下一次预测过程中,第N+1周的数据自动替换掉过去五年同一时期的平均数据。

7)返回4)。

4.2预测结果

数据来源于中粮新疆屯河股份有限公司吉木萨尔番茄制品分公司,根据种植品种,积温大小、灌溉和施肥情况的分析,番茄产量与品种和生长时期的管理有很大关系。

采用2003~2008年的酱用番茄部分早熟品种数据用来进行训练,在线学习,利用LS-SVM预测算法预测2009年的番茄生理期后5周的动态产量,根据样本的数量采用交叉验证法确定惩罚参数C和核参数σ。预测效果较理想,结果见表1。

5小结

番茄产量的预测与普通粮食、棉花的预测有些不同,因为番茄产量的预测结果直接影响到企业生产的安排和原料的供给计划,而粮食、棉花等产量预测的宏观意义更大,因此对于番茄产量预测的算法实现有一定的特殊性。一种新的针对番茄产量LS-SVM在线预测算法的提出,解决了产量预测过程中番茄生长及环境数据不完整的缺陷,丰富了LS-SVM预测算法的应用范围,同时对于果蔬产业原料产量预测提供了一种思路,为企业的生产安排和统筹规划提供参考依据,由于数据量较大,产量预测窗口为一周,若预测窗口为一天,则预测精度还可能进一步提高,同时还可以采用数据挖掘技术进一步研究。

参考文献:

[1] SUYKENS J A K,DEBRABANTER J,LUKAS L,et al. Weighted least squares support vector machines:robustness and sparse approximation[J]. Neurocomputing,2002,48(1):85-105.

[2] 魏聪,肖玉峰,董平川. 最小二乘支持向量机在储层流体识别中的应用[J]. 石油天然气学报,2009,31(2):275-278.

[3] SUYKENS J A K,VANDEWALLE J. Least square support vector machines classifiers[J]. Neural Processing Letters,1999, 9(3):293-300.

[4] 俞启香,王凯,杨胜强. 中国采煤工作面瓦斯涌出规律及其控制研究[J].中国矿业大学学报,2000,1(1):9-14.

[5] CHANG C C,LIN C J. Training v-support vector classifiers: theory and algorithms[J]. Neural Computation,2001,13(9):2119-2147.

[6] HSU C W, LIN C J. A simple decomposition method for support vector machines[J]. Machine Learning,2002,46:291-314.

[7] 郑小霞, 钱锋. 基于支持向量机的在线建模方法及应用[J]. 信息与控制,2005(5):636-640.

猜你喜欢

数据处理预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
不可预测
不必预测未来,只需把握现在
MATLAB在化学工程与工艺实验数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用