基于注意力机制的奶牛乳蛋白预测模型研究
2023-06-25由楚川朱孟宇赵军
由楚川 朱孟宇 赵军
摘 要:机器学习在动物生理预测方面取得良好的效果,但在处理具有局限性的时序问题上未能得到深入应用。文章通过环境数据对乳蛋白进行预测研究,根据数据的时序特点,对双向门控循环神经单元的网络结构进行重新设计,设计了一种基于注意力机制的正反向交替的门控循环神经网络(LG)预测模型,实验验证模型在精度上和速度上都优于其他模型,所挖掘的关键指标有助于深入理解对奶牛生理情况的影响,进而有效提升养殖效益。
关键词:奶牛乳蛋白预测模型;随机森林算法;门控循环神经网络;正反向交替门控循环神经网络模型
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2023)06-0006-07
Research on the Prediction Model of Milk Protein in Dairy Cattle Based on
Attention Mechanism
YOU Chuchuan1, ZHU Mengyu1, ZHAO Jun2
(1.School of Information Engineering, Ningxia University, Yinchuan 750021, China;
2.School of Advanced Interdisciplinary Studies, Ningxia University, Zhongwei 755099, China)
Abstract: Machine learning has achieved good results in animal physiological prediction, but it has not been applied in dealing with time series problems with limitations. The paper predicts and studies the milk protein through environmental data, redesigns the network structure of two-way Gated Recurrent Unit according to the time sequence characteristics of the data, and designs a forward and reverse alternating gated Recurrent Neural Network (LG) prediction model based on attention mechanism. The experiment verifies that the model is superior to other models in accuracy and speed, The key indicators excavated are conducive to deeply understand the impact on the physiological conditions of dairy cows, and then effectively improve the breeding benefits.
Keywords: milk protein prediction model; Random Forest algorithm; Gated Recurrent Neural Network; forward and reverse alternating gated Recurrent Neural Network Model
0 引 言
在我國现有的农业模式下,国家提出了“现代农业”发展战略与粮食安全战略研究[1]。畜牧业是我国农业的重要组成部分,作为畜牧业重要组成部分之一的奶牛养殖业,被国家列为调整和鼓励扶持发展的重点产业。我国奶牛智慧化养殖起步较晚、起点较低。近年,奶牛规模化养殖技术的不断提升使得我国乳制品产量得到回升。本文采用基于注意力机制的正反向交替门控循环神经网络的搭建并进行相关预测,与传统的奶牛生理预测、发情预测、营养预测及疾病预测相比能进一步认识到环境因素与乳蛋白间的影响,深入理解环境因素对奶牛生理情况的影响,进而使企业通过预测结果提出有效的应对策略,从而提高自身的利益。
1 模型与算法
乳脂率、乳蛋白以及乳糖率是乳成分中较为重要的几种物质[2],而这些乳成分的含量与牛舍中环境因素有着不可分割的联系,传统的都是通过神经网络训练的方式利用环境因素对乳成分中的乳脂率进行预测,但是由于神经网络是模仿人的神经网络进行学习的,所以在一些方面就会出现瑕疵,因此本文在神经网络模型基础上再做出一定的改进,提出来一种正反向交替门控循环神经网络模型,并在模型中加入了注意力机制,目的是为了使乳蛋白预测模型更加精确,进而使整个生理模型更加完善。
1.1 LG模型
对于Bi-LSTM做出改进的另一种双向循环神经网络单元Bi-GRU模型,虽然可以对Bi-LSTM模型的一些不足进行提升,但是其在前后信息的紧要联系上又不如长短时记忆网络[3,4]。因此,本章对模型进行改进,考虑到双向循环神经网络中包含正向和反向两个方向的特殊性,并且对模型的提升既要提高训练效率,又要加强序列前后的联系并缩短预测时间,所以提出一种基于LSTM与GRU正反向交替的双向门控循环神经网络,即LG模型。LG模型不仅具有LSTM关于时间序列前后信息的强大关联功能,并且由于其是将LSTM与GRU有机结合,所以LG模型在训练效率、预测速度上也都发挥得非常出色,因此利用LG模型进行预测大有裨益。
为了更直观地了解对模型的改进思想,如图1所示,为LG模型的结构图。图中(X1, X2,…, Xt)为输入序列X,Xt+1为输出的最终结果,从LG模型的结构图中不难看出,该模型的输入层和输出层与双向循环神经网络的结构基本相同,LG模型的不同主要是在隐藏层的双向循环神经单元上做出改进,不同于一般的双向循环神经网络的隐藏层内部正反向均为同一种神经元(LSTM、GRU)的结构,LG模型是通过正反向的LSTM单元与GRU单元相互交替而成的,所以该模型实现了既能在速度上有所提升,又可以在精度上提升优势。该模型的输出结果的方式与双向循环神经网络相同,将正向结果记为:,反向的结果记为 。最终的输出结果也是通过某种运算将正向输出结果与反向的输出结果进行结合得到一个最终的ht,然后再进行统一的输出预测结果Xt+1。
另外,从图1中还可以看出,LG模型采用的是一种多层双向循环神经网络的结构特点建立的,采用该结构可以让LG网络的表达能力和学习能力更强。多层LG模型的整体结构是与多层双向循环神经网络相同的,主要区别在于多层双向循环神经网络中每个时间步的输入都会经过正反两个相同的循环神经网络(LSTM、GRU),而LG模型的特点是不同方向的神经元是不同的[5-7]。LG模型在双向循环神经网络的基础上进行了功能的增强,解决了原本双向多层神经网络的一些局限性,所以其在复杂度与时效性上表现得非常优越,因此本文利用该模型进行乳蛋白预测模型的搭建。
1.2 seq2seq模型结构
Seq2seq模型最初提出的目的是因为单一的循环神经网络结构不能去处理变长序列的问题,所以,在2014年由CHO等人提出了一种Seq2seq的模型结构[8,9],该模型最初的应用场景是在智能翻译、文本的摘要以及对图像分析后自动生成相关的描述信息等方面。该模型的整体是由编码器、中间向量以及解码器组合而成的,通常情况下,该模型的搭建需要一种多层的循环神将网络作为基本的主干网络结构,因此在本章的seq2seq模型建立中选择的是由上节提出的LG网络模型作为seq2seq模型的基本主干网络。seq2seq网络模型结构实际上就是一种编解码(encoder-decoder)[10]的结构,但是seq2seq模型具有其独特之处,即:在输入输出时不需要规定其具有相同的长度。由于该模型具有编、解码的结构,所以要按照顺序先进行编码过程然后再进行解码操作,编码就是通过encoder编码过程将输入序列通过循环神经网络中的某一种算法转换为指定的中间矩阵形式,然后再通过decoder解码的方式将编码形成的中间矩阵进行对应的解码得到输出序列,seq2seq模型的结构示意图如图2所示。
从图2中可以看出seq2seq模型就是将输入向量x经过某种特定的循环神经网络算法进行编解码处理后生成另一个目标向量Y的过程,对于这样的一组向量
C=f (X1, X2, X3,…Xt) (1)
上式中f为指定的编码方式,通常情况下编码方式都是以RNN及其改进算法(LSTM、GRU)进行编码的,解码操作所用到的算法和原理與编码操作用到的算法和原理是相同的,只是在解码操作中需要将生成的中间向量加到需要解码的向量组中去[11]。
1.3 注意力机制(Attention mechanism)
起初注意力机制的提出就是模仿人脑在处理和思考问题时候的生物神经元的工作原理,因此,注意力机制在一定程度上与人脑的注意力行为是类似的,例如:人类在处理图片信息的时候,总会选择自己着重关注的一部分,而忽略一部分相关性较小的信息[12,13]。不单单是在图像方面,在音频、文字等方面也会出现类似的情况。在神经网络中添加注意力机制的优点在于其不但可以帮助神经网络挑选专注的特征子集,即:在训练过程中选择出对输出帮助更大的元素,而且还可以在有限的计算能力下,进行更有效的资源分配。所以近几年来注意力机制在深度学习上的应用较为广泛,但是其主要应用场景仍是在自然语言处理方面。
注意力机制可以嵌入到seq2seq模型结构中进行嵌套使用,注意力机制可以使seq2seq模型输入的序列通过学习得到各个特征因素的重要程度,并且根据该程度的大小将特征进行合并,所以注意力机制能够将输入序列中重要程度高的元素有选择性地挑出,然后再有选择性的学习输入与输出序列间的对应关系[14]。加入注意力机制以后seq2seq模型经过编码操作以后不再是单一的定长中间向量C,而是由多个中间向量C共同组成的编码形式,该向量形式中包括不同的输入序列以及不同的权重参数两部分,能够更好地为解码操作提供帮助,提高模型整体的工作效率。加入Attention机制后的seq2seq模型的运行图如图3所示。
从图3中可以看出,在加入注意力机制后X序列的输出不再是直接编码为中间向量C,而是需要通过下式(2)的计算方式将各个元素的权重计算出来。
(2)
在式(2)中,j为输入的X序列中的第j个元素,i为时刻,t是输入序列的长度,函数f (x)表示对序列X中元素的编码过程,aij表示重要权重的分数,aij的分数一般通过softmax函数来进行计算,softmax的计算公式如式(3)所示:
(3)
在式(3)中,eij表示时刻i输入的元素与输出元素的相关程度,程度越高eij的值越高,相应的aij值也会越大。计算得到不同的中间向量的权重之后,按照对应关系再进行解码操作。
2 数据准备
2.1 数据描述
本文的研究是对乳成分中乳蛋白进行预测,实验中采用环境因素作为预测的条件因素。经过对环境数据和鲜奶统计表中的数据分析,本研究在经历过实际考察了宁夏银川地区荷斯坦奶牛基地且采用奶牛场内的环境监测数据集以及鲜奶统计报表作为样本集数据集,环境数据采用牛场内部环境传感器(温湿度传感器、二氧化碳传感器等)记录时间间隔为一小时的环境数据,对环境数据和鲜奶统计表中的数据进行重构、异常值处理以及归一化等数据预处理操作后,得到从2016年6月21日0:00至2020年12月21日22:00每天6:00、14:00和22:00这三个时间点的环境及鲜奶统计表中的数据。该数据是一个二维的数据形式,其表头分别为环境因素名称及乳成分名称,其中环境名称分别为:温度(AT)、湿度(AH)、平均二氧化碳浓度(ACO2)、平均光照强度(ALI)、平均氨气浓度(ANH3)和平均甲烷浓度(ACH4),乳成分名称分别为:乳脂率(BFC)以及乳蛋白(LAC)。这些数据都是按照时间序列进行排序的。归一化后的数据形式如表1所示。
2.2 基于注意力机制的LG乳蛋白预测模型的搭建
在本文研究中,训练集数据采用的是由2016年6月21日6:00至2020年2月7日22:00的全部环境及乳蛋白数据,其中训练集与测试集数据比例为7:3,将2020年2月8日起至2020年末的所有数据作为测试集数据,在模型的搭建中本文选用的是Python语言中Keras人工神经网络库用来当做TensorFlow的接口[15]。本文实验环境为Windows 10操作系统电脑,实验编程语言为Python 3.7,搭建预测模型,其他库包括NumPy、pandas、lightgbm、Matplotlib、Seaborn等。本实验设置小批次处理为1 024,由于一天内的鲜奶采集时刻为3个,所以滑动窗口设置为3,正反向循环神经网络的层数也为3,每层神经元为128个,全连接神经元为128,模型的输入矩阵为(3,6),神经网络中的每层之间仍采用concat的拼接方式,由于LSTM与GRU都是采用误差反向传播的机制去进行误差修正[16],所以本研究将Attention机制添加在了神经网络的隐藏层与输出层之间,以用来提高训练的效率与精确度,最后再通过dense层将模型的最终结果进行输出,乳蛋白预测模型构建流程图如图4所示。实验表明,迭代次数达500次左右时学习趋近稳定,学习效率大大提高。
3 模型的评估对比
由于模型結构和原理不同,所以不同模型训练得出的结果也会不同,本文利用LSTM、GRU、Bi-GRU、Bi-LSTM模型以及LG模型进行预测,并与测试集上的真实值进行比较,不同模型的预测结果折线图如图5所示,其中横坐标的每个刻度为每八小时的一个整体时刻,单位为(/8 h),纵坐标为乳蛋白情况,单位为%,其中实线为真实值,虚线为预测值。
以上是五种不同模型进行乳蛋白的预测结果并与测试集中的真实数据集进行比对得出的折线图,从图5中不难看出,虽然五种模型在拟合效果上不尽相同,但是这五种模型的预测趋势基本正确,因此需要利用误差评估的手段来区分各个模型拟合效果的好坏,以下分别利用平均绝对误差(Mean Absolute Error, MAE)、均方误差(Mean Square Error, MSE)和平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)三种误差评估方式对模型进行评估以下简称为MAE、MSE和MAPE,并以柱状图的方式更直观地对以上五种模型进行误差评估与分析,误差分析柱状图如图6所示。
为了全面的体现模型拟合效果的优劣,因此选用三种不同的误差评估方式对模型进行误差评估以达到更加全面的体现模型优劣的效果,从图6中不难看出,单向LSTM构建的乳脂率预测模型在三种误差评估方式上表现的都是最差的,其余三种单向GRU、双向LSTM以及双向GRU在三种评估方式上表现的基本相同[17],而基于Attention机制LG模型在三种评估方式上的误差值要远小于其余四个模型的误差值,说明基于Attention机制的LG模型在乳成分中乳蛋白的预测值与真实值相差甚小,因此通过三种误差评估方式能够表明基于Attention机制的LG模型在精度以及拟合效果上表现得更好,所以基于Attention机制的LG模型能够为乳成分中乳蛋白的预测提供一定的科学指导作用。
4 结 论
本文主要以乳成分中的乳蛋白为重点预测对象,构建了基于注意力机制的LG乳蛋白预测模型,并将该模型应用到生理预测模型中,对该模型的构建首先考虑到随机森林与Bi-GRU模型的利弊,针对该模型的短板进行了模型的改进,之后利用LG模型对Bi-GRU模型前后信息联系较弱的缺点进行改进,并在模型中添加了注意力机制以提高模型的性能;然后对基于注意力机制的LG模型进行模型的整体搭建与实验,其中包括数据的预处理,模型构建及使用;最后针对该模型进行评估并与其他模型进行比较。得出该模型在预测效率、精度以及鲁棒性等方面的效果均优于其他模型。因此,实验表明基于注意力机制的LG乳蛋白预测模型在奶牛生理模型的理论指导与构建上具有一定的意义。
参考文献:
[1] 童津津,张华,吴富鑫,等.不同泌乳水平奶牛产奶量、乳成分和环境温湿指数的相关性研究 [J].动物营养学报,2020,32(7):3171-3180.
[2] 母童,虎红红,冯小芳,等.宁夏地区荷斯坦牛乳成分及相关指标的非遗传因素、体细胞评分变化规律 [J].华南农业大学学报,2021,42(2):34-43.
[3] 张腾,刘新亮,高彦平.基于卷积神经网络和双向门控循环单元网络注意力机制的情感分析 [J].科学技术与工程,2021,21(1):269-274.
[4] 汤森林,张霞,戚文超,等.基于长短时记忆神经网络的葡萄叶面积指数高光谱反演 [J].遥感信息,2022,37(5):38-44.
[5] IMANI M. Long Short-Term Memory Network and Support Vector Regression for Electrical Load Forecasting [C]//2019 International Conference on Power Generation Systems and Renewable Energy Technologies (PGSRET).Istanbul:IEEE,2019:1-6.
[6] CHUNG J,GULCEHRE C,CHO K,et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling [J/OL].arXiv:1412.3555 [cs.NE].[2022-11-03].https://arxiv.org/abs/1412.3555.
[7] 刘琳岚,肖庭忠,舒坚,等.基于门控循环单元的链路质量预测 [J].工程科学与技术,2022,54(6):51-58.
[8] CHO K,MERRIENBOER B V,GULCEHRE C,et al. Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation [J/OL].arXiv:1406.1078 [cs.CL].[2022-11-05].https://arxiv.org/abs/1406.1078.
[9] 陈礼贤,梁杰,黄一帆,等.基于深度自回归循环神经网络的边缘负载预测 [J/OL].小型微型计算机系统:1-8[2023-02-07].
http://kns.cnki.net/kcms/detail/21.1106.TP.20221123.0919.010.html
[10] ZHOU H,FANG Z J,GAO Y B,et al. Feature Fusion Network Based on Attention Mechanism for 3D Semantic Segmentation of Point Clouds-Science Direct [J].Pattern Recognition Letters,2020,133:327-333.
[11] 蒋玉英,陈心雨,李广明,等.图神经网络及其在图像处理领域的研究进展 [J/OL].计算机工程与应用:1-17(2022-11-28).http://kns.cnki.net/kcms/detail/11.2127.tp.20221125.1424.030.html
[12] ZHOU H X,ZHANG Y J,YANG L F,et,al. Short-Term Photovoltaic Power Forecasting Based on Long Short Term Memory Neural Network and Attention Mechanism [J].IEEE Access,2019,7(99):78063-78074.
[13] 师岩,王宇,吴水清.基于Self-Attention模型的机器翻译系统 [J].计算机与现代化,2019(7):9-14.
[14] 杨子农.基于Seq2Seq框架的文本风格迁移研究 [D].南京:南京邮电大学,2022.
[15] 胥凌.面向TensorFlow和PyTorch的线性代数基准测试 [J].航空计算技术,2022,52(3):5-9.
[16] 王麗朝,孟子尧,陈诗明,等.基于GRU神经网络的光伏电站数据预处理方法 [J].太阳能学报,2022,43(11):78-84.
[17] 郑伟.多尺度注意力机制DenseNet网络 [J/OL].软件导刊:1-6[2022-12-29].https://kns.cnki.net/kcms/detail/42.1671.TP.20221207.1123.038.html.
作者简介:由楚川(1997—),男,汉族,辽宁铁岭人,大数据工程师,硕士,研究方向:大数据智能;朱孟宇(1997—),男,汉族,河南周口人,硕士在读,研究方向:大数据智能;通讯作者:赵军(1971—),男,汉族,宁夏中卫人,教授,博士,研究方向:大数据智能和企业计算实验研究。
收稿日期:2022-12-31
基金项目:宁夏自然科学基金项目(2020AAC03028)