基于平行学习的农业大数据异常预测系统的设计
2018-05-19吴文平潘正高
吴文平 潘正高 卢 彪
(宿州学院信息工程学院 安徽宿州 234000)
农业发展方向由粗放式向精细式发展可以有效提高农作物的产量输出,当然其中不乏信息化的发展,其中积累了大量有价值的数据可以帮我们对农作物的生产情况进行分析和预测,农作物的output将会大幅度提高[1]。海量数据中由于农业生产成本和地域环境的影响,其中也不乏大量劣质数据,如何提高数据的可用性和挖掘劣质数据的潜在价值是亟需解决的问题。在大数据的处理中,机器学习有着一席之地,而平行学习又集合了多种机器学习框架的优势,利用软件定义的人工系统从已获得的数据中提取有效数据来进行预测学习和指示学习。
一、平行学习概述
近几年许多专家学者试图将王飞跃2004年提出的平行系统的思想扩展到机器学习领域去解决一些传统机器学习所棘手的问题。李力,林懿伦等人在2017年提出平行学习理论框架[2]。放眼现在已有的一些机器学习理论框架:Supervised learning,Onlinemachinelearning,Reinforcementlearning等。对于数据的获取和行为的选择之间的联系可用式(1)的数学模型来描述:
对于常用的Supervised learning,上述模型可被简化为:如果所有数据是现有的而且归类正确,可以建立一个分类函数映射来对分类误差最小化[3],则上述模型可写为式(2):
对应于 Supervised learning,Online machine learning对于数据的获取是循序渐进的,每次根据已有的数据产生一个预测行为f(xi),上述模型可被写为式(3):
Reinforcement learning与Online machine learning相比,对于数据的获取仍然是逐步的[4],但是Online machine learnin是被动地获取,而Reinforcement learning则是主动地获取。目标函数为式(4):
但是上述几种机器学习框架对数据模型进行更新的前提是和周围环境进行大量的交互反馈,如果实际过程中系统比较复杂,数据规模比较大而且状态维数较高[5],这几种机器学习框架处理起来就会比较困难。而平行学习可分为两个阶段:数据处理以及互动学习。理论框架图如下图1所示。
图1 平行学习理论框架图
其中,虚线以上是由软件定义的人工系统来进行大数据预处理,虚线以下是根据计算实验的预测学习以及集成学习,细箭头表示新数据的生成和学习,粗箭头表示行为和数据之间的互动和反馈[6]。
二、系统设计
(一)需求分析。众所周知,农作物的种植区域较为广泛,而且各个地区的政策和科技水平不一致,导致采集的数据地域差异性很大。鉴于此,农业大数据异常预测系统的需求如下:
首先,应该建立统一的大数据存储平台,从而对数据进行实时采集并且存储[7]。
其次,基于平行学习框架原理建立高效的数据处理分析平台,建立实时性和周期性两个维度来对农作物的生长情况进行分析和预测,找出其中的劣质数据,并对劣质数据进行分类,通过平行学习相关算法对劣质数据建立模型,通过预测模型来对已知数据进行预测,从而产生预警的效果。
最后,应该保证数据的安全性,保证数据不被恶意攻击者所破坏而对农业生产和异常预测造成影响。
(二)系统架构设计。根据上述需求分析,整体框架如下图2所示。首先系统通过服务器端接收到数据以后,其中一部分数据是实时数据,将会通过平台进行实时展示,而批量数据会通过相应处理,当平台接口接收到传送给它的数据以后,会把数据放到内存进行数据分析和处理,得到的结果会存储到平台中去。
在平台中的批量数据会对其进行平行学习算法处理,从而推测出异常预测模型,当有新的实时数据到来时,会利用先验的异常预测模型对其进行判定,如果发生数据异常,会将异常数据记录入异常数据库,并发出警告。另外,预测模型会周期性地根据异常数据库中的数据进行更新修正,从而提高预测的精度,提高数据的可用性[8]。
图2 农业大数据异常预测系统的框架
三、结语
民以食为天,农业是人类社会发展的基础,人类文明发展至今,离不开农业的发展,从粗放式耕种到如今日渐普及的精细耕作,大数据以及机器学习在其中有着重要的地位。本文以机器学习的一种新型框架——平行学习为基础,将其与农业大数据平台相结合,对海量的农业数据中的异常数据进行预测,建立预测模型,并利用批量的实时数据对预测模型进行更新修正,从而提高数据的可用性,相信在国家农业相关部门的推动下以及相关关键技术的更新,大数据和机器学习在农业生产领域有着越来越重要的地位。
参考文献:
[1]郑南宁.人工智能面临的挑战[J].自动化学报,2016,42(5):641-642.
[2]李力,林懿伦等.平行学习-机器学习的一个新型理论框架[J].自动化学报,2017,43(1).
[3]RakhlinA,SridharanK.Statisticallearningandsequential prediction[EB/OL],available:http://wwwstat.wharton.upenn.edu=rakhlin/courses/stat928/stat928notes.pdf,January1,2017
[4]王坤峰,苟超,王飞跃.平行视觉:基于ACP的智能视觉计算方法[J].自动化学报,2016,42(10):1490-1500.
[5]田渊栋.阿法狗围棋系统的简要分析[J].自动化学报,2016,42(5):671-675.
[6].Silver D,Huang A,Maddison C J,.Mastering the game of Gowithdeepneuralnetworksandtreesearch[J].Nature,2016,529(7587):484-489.
[7]王飞跃.软件定义的系统与知识自动化:从牛顿到默顿的平行升华[J].自动化学报,2015,41(1):1-8.
[8]骆秀秀.基于大数据的农作物生长环境数据存储与生长状况预警平台的研究[D].山西农业大学,2016.