APP下载

MI-PSO-RBF算法在稻谷存储品质预测的应用研究

2023-10-18郭利进惠培奇许瑞伟

中国粮油学报 2023年8期
关键词:稻谷粒子神经网络

郭利进, 惠培奇, 许瑞伟

(天津工业大学控制科学与工程学院,天津 300387)

收稿日期:2022-07-07

第一作者:郭利进,男,1970年出生,教授,数据融合及复杂系统建模研究,Doctor_guo@tiangong.edu.cn

通信作者:惠培奇,男,1997年出生,硕士,数据融合及复杂系统建模研究,Huipeiqi_1507@163.com

稻谷作为我国主要粮食作物之一,其储存品质直接关系我国粮食安全。由于目前粮食作物存储的方式,粮仓内农作物质量检查复杂繁琐,一般粮仓的质量检测往往每月1次,时间较长,及时检测出稻谷的质量变化可以提前使企业采取措施防止稻谷产生霉变造成经济损失和粮食浪费。因此,选择适合的科学原理和预测方法对稻谷质量进行一定的预测,对稳定稻谷储存、实现粮食安全目标具有重要意义。

目前稻谷存储质量的检测技术越来越成熟,但大都依赖传感器的性能与监测位置。稻谷存储发生品质变化不能仅由几个数学关系进行表达,各个因素之间关联密切,该过程模型特点是非线性、强耦合。针对这一特点,很多学者展开广泛的研究,商志根等[1]采用Logistic回归与决策树的技术,根据现有数据构建粮食存储品质预测模型,效果较好,在粮食品质预测领域具有参考意义。姜友军等[2]通过支持向量机构建品质预测模型,预测误差在可接受范围内,表明机器学习在粮食品质预测是可行的。近年来,随着计算机技术与大数据的发展,人工神经网络(ANN)[3]处理非线性映射问题具有较高的能力而被广泛应用到粮食储藏领域[4]。兰雪萍等[5]基于BP神经网络算法对多种粮食作物的储存品质进行预测,效果较好,但环境影响因素考虑较少。蒋华伟等[6]针对BP神经网络收敛速度慢的问题,提出改进粒子群算法(PSO)优化BP预测模型,对小麦的预测结果较好;蒋华伟等[7]提出BroadAdaBoost机器学习算法,针对小麦品质的生物特性变化,实现对小麦品质的精准预测。邓玉睿等[8]根据实验数据利用BP神经网络建立粮食霉变模型,并使用实际存储数据进行验证,效果较好。但这些方法采用的BP网络参数众多学习速率较慢[9],需要人为反复调试,使预测模型难以构建并且精度有较大差异。由于径向基神经网络(RBF)参数较少,泛化能力强[10],因此被广泛使用。

研究针对稻谷在粮仓内存储问题,充分考虑存储环境的影响的同时采用互信息法则选择影响品质较大的因素。针对传统RBF算法易于陷入局部极小值的缺点,根据迭代次数动态改变PSO的学习因子与权重系数,利用改进后的PSO算法与RBF神经网络构建一种存储环境-存储品质的预测模型,与传统RBF算法和PSO-RBF相比,DPSO-RBF算法对于稻谷预测的精度最高。

1 理论基础

1.1 数据来源

研究对象为2016—2021年储藏在天津某粮仓内的稻谷,共12个稻谷粮仓,数据采集时间跨度为1个月。数据主要包含仓外气温、仓外气湿、仓内气温、仓内气湿、粮温、粮食水分、CO2、O2和质量评价指标脂肪酸值[11],9维共720条数据。

1.2 互信息法则

数据维度为9维,若全部作为人工神经网络的输入输出不仅仅耗费大量时间,还会由于干扰变量对预测精度造成误差。因此采用互信息法则(MI)对数据进行特征选取降维处理数据。互信息法是用来获取每个特征与标签之间的线性或非线性关系的过滤方法[12],得到每个特征对于标签的相关度。对于连续型变量,互信息计算如式(1)所示:

(1)

式中:p(x,y)为x和y的联合概率密度函数;p(x)和p(y)为边际密度函数。

互信息量确定联合分布与分解的边际分布的乘积有多相似。使用基于K近邻的无参数方法,选择X和Y方向上的欧式距离最大值作为选择最近邻的标准,并进行统计计数和概率密度估计。使用MI法则计算环境特征与稻谷脂肪酸值之间的互信息值,选择合适相关特征用于预测模型训练与验证。

1.3 RBF算法

径向基神经网络是用径向基函数充当隐含层单元的“基”构成隐含层,使输入层与隐含层之间实现非线性映射,隐含层与输出层之间实现线性映射[10]。相比使用场合较多的BP神经网络,RBF网络在收敛速度上速度更快,解决非线性问题的能力更强。RBF由输入层、隐含层和输出层组成,典型RBF网络拓扑结构如图1所示。输入层负责将输入信号传递至网络内部,设输入层有m个节点;作为网络的关键部位,隐含层对输入信号进行非线性运算,其神经元数量与训练数据相关,设隐含层有n个节点;隐含层与输出层通过权值向量w连接。

图1 RBF神经网络拓扑结构

实际应用中常选择任意空间内正定的高斯基函数作为 RBFNN 隐含层函数,如式(2)所示:

(2)

式中:pj为隐含层第j个神经元节点向量;x为神经网络输入样本;cj为第j个隐藏层节点的中心矢量,其维数与输入样本相同;δj为第j个隐层节点的宽度。

RBF网络输出层的线性关系表达式如式(3)所示:

(3)

式中:y为神经网络的计算输出值;wj为隐含层第j个神经元与输出层之间的权值向量;n为隐含层神经元节点数量。

虽然RBF神经网络可以很好地处理非线性问题,但神经网络的参数的确定与模型的输出有密切关系。因此径向基函数中心cj、标准化常数和隐含层到输出层的加权系数wij等几个参数的确定尤为重要。

1.4 PSO算法优化参数

粒子群算法其主要思想是模拟鸟群觅食的行为,每个粒子的位置代表一个解,每经过一次迭代后,各个粒子向个体历史最优解靠拢。假设在M维空间内进行目标求解,xi=(xi1,xi2,…,xiM)、vi=(vi1,vi2,…,viM)和pi=(pi1,pi2,…,piM)分别代表整个群体中第i个粒子的空间位置、飞行速度和最好位置,整个粒子群的全局最优位置为g=(g1,g2,…,gM)。

该算法速度和位置的更新公式如式(4)、式(5)所示:

vμd(t+1)=w·vid(t)+c1·r1[pμd(t)-xit]+c2·r2[pgt(t)-xit(t)]

(4)

xid(t+1)=xid(t)+vid(t+1)

(5)

式中:vid∈[-vmax,vmax],vmax=k·xmax,d为种群的维数;i为种群规模;t为迭代次数;w为权重因子;c1和c2为学习因子;r1和r2为位处在(0,1)中间的随机数;Vid为最大速度。

w、c1和c2的大小影响粒子速度与位置,直接影响到算法的全局搜索能力和收敛速度。文献[13]证明在搜索初期较大的w可以在较大的搜索范围进行寻优,后期较小的w可以实现在局部精准搜索。方国华等[14]提出一种随着迭代次数线性变化的方法,但当迭代初期没能搜索全局就线性减小惯性系数,后期容易陷入局部最优。如式(6)所示,研究设计一种分段的非线性递减的方式。若自学习因子c1取值过大,会使粒子游动在局部范围,全局搜索能力不足;若社会学习因子c2取值过小,会导致粒子过早收敛到局部。结合这些特性,如式(7)所示。将c1进行线性递减,c2进行线性递增。

(6)

其中,

式中:wmax为惯性权重的上限;wmin为惯性权重的下限,一般取wmax=0.9,wmin=0.4;ger为最大迭代次数,t为当前迭代次数。

该方法保证了粒子初步搜索时以较高的速度完成全局搜索,在中期进行非线性递减,即保证后期的精细搜索,又改善了直接线性递减无法保证全局搜索完成的缺点;同时在粒子非线性空间内利用非线性特性寻优,有利于跳出局部最优。由式(7)可得,在寻优过程中,搜索初期c1取较大值,c2取较小值,使得粒子在初期保证搜索速度充分搜索全局;在搜索后期c1变小,c2变大增强局部寻优能力。

(7)

式中:ci_max为第i个学习因子的最大值;ci_min为第i个学习因子的最小值。

DPSO优化RBF神经网络的原理是将参数映射为PSO中粒子目标,利用PSO寻优功能找到最优解后返回到RBF神经网络实现网络模型的构建,在寻优的过程中,将均方误差最小的作为适应度函数,当其最小时,权重最优。算法流程图如图2所示。

图2 DPSO-RBF神经网络模型图

2 稻谷质量预测模型

比较9种指标之间的相关度, MI数值越大代表序列之间的相关性越高。为减少不相关指标对模型精度的影响,排除仓外气温(0.294 3)和仓外气湿度(0.368 4)2个指标,故选取仓内气温(0.592 6)、仓内气湿(0.732 3)、粮温(0.720 0)、粮食湿度(0.671 9)、O2(0.723 2)和CO2(0.563 6)6种指标作为模型中影响脂肪酸含量的特征变量。

因此将采集到的数据80%作为训练集,剩余20%为测试集输入到存储环境-存储品质的预测模型中,如图3所示建立以仓内气温、仓内气湿、粮温、粮食湿度、O2和CO2作为输入单元,稻谷脂肪酸含量为输出,隐含层的参数由DPSO算法确定的六输入单输出的预测模型。

图3 预测模型示意图

3 实验设计与分析

3.1 数据预处理

数据采集时有丢失或有异常会造成预测误差,采集到的数据首先要进行预处理。对于数据缺失值进行填补的方法主要利用缺失数据前后时间的均值进行填补,但是数据中若有长期缺失的数据为了防止人为填补造成误差,需要将缺失值去掉;对于异常值的处理主要采用Pauta准则,如果输入数据x∈(μ-3σ,μ+3σ),该数据为正常数据;若x不在该范围,则该数据为异常数据将被剔除并被数据均值代替。随机选取替换后的部分输入输出数据如表1所示。

表1 部分原始数据

由于影响脂肪酸含量的因素具有多个且不同的数据具有不同的范围,为了消除量纲不同造成的影响,将各个数据采取归一化处理:

(8)

式中:X为原始数据值;X#为归一化后的取值;Xmax和Xmin分别为原始数据的最大值与最小值。

3.2 评价指标

为验证研究所提出的模型的性能,使用2个损失函数作为评价的标准,包括均方根误差(RMSE)和平均绝对误差(MAE)。具体计算公式见式(9)、式(10):

(9)

(10)

3.3 结果分析

利用Matlab搭建DPSO-RBF神经网络模型,将预处理后的数据输入模型进行实验。同时构建RBF神经网络模型、PSO-RBF神经网络模型与DPSO-RBF进行对比。算法参数设置为:RBF的隐含层节点取20,初始种群数目N=50,最大迭代次数M=100。标准PSO模型中惯性权重w=0.9、学习因子c1=2、c2=2;DPSO模型中惯性参数wmax=0.9,wmin=0.1;c1_max=c2_max=2,c1_min=c2_min=1。

为降低神经网络寻优的偶然性造成的误差,采用3次重复独立实验取均值,其预测结果如图4所示,3种模型对于稻谷的脂肪酸含量都能较好的实现预测,但DPSO-RBF模型预测精度优于其余2种模型,并且从图4可清晰看出预测曲线与实际曲线拟合最贴近,波动最小。

图4 稻谷脂肪酸值实际值与预测值比较

为更直观地对比模型的精度,比较3种预测模型的评价指标,如表2所示,传统RBF由于参数设置有误差,导致预测精度较差;在加入PSO算法进行参数寻优后,模型的预测精度有所提升,相比未加入PSO算法寻优的RMSE降低29.4%,MAE降低29.8%,但由于传统PSO算法容易陷入局部最优,导致模型精度提升有限;将改进参数确定方法的DPSO算法加入后,在克服局部最优的同时,寻找到了最优权重,相比于PSO-RBF预测模型,RMSE降低38.1%,MAE降低37.8%,说明改进后的DPSO算法可以使模型精度提升较多,进一步验证了该模型的可行性。

表2 模型评级指标

4 结论

研究根据稻谷实际存储的特点,构建出关于稻谷储存过程中环境因素与内部脂肪酸含量的DPSO-RBF预测模型。利用PSO算法对RBF神经网络隐含层中难以确定的参数进行全局寻优,同时针对PSO算法全局搜索不充分、易于陷入局部最优的缺点,提出一种改变参数确定方式的改进方法。DPSO-RBF模型根据储存环境可以有效实现对稻谷存储质量的有效预测,对稻谷存储提供一定的实际参考。但该模型没有考虑时间序列模型的影响,后续研究可以以此作为研究重点。

猜你喜欢

稻谷粒子神经网络
谦卑的稻谷
玉米价疯涨 稻谷也凑热闹
神经网络抑制无线通信干扰探究
基于粒子群优化的桥式起重机模糊PID控制
基于粒子群优化极点配置的空燃比输出反馈控制
田野稻谷香
春节过后 稻谷行情稳中趋弱
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定