农业大数据研究与应用进展
2018-02-01王一鹤王卷乐刘丽峰
王一鹤,杨 飞,王卷乐,刘丽峰,马 娅
(1. 山东理工大学,淄博255049;2. 中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京100101;3. 环境保护部环境规划院,北京100012)
0 引言
随着信息技术的发展,全球进入了大数据时代。国外对大数据的研究起步较早,美国著名的未来学家阿尔文 · 托夫勒早在1980年就在《第三次浪潮》中提出了大数据的概念[1];全球著名的信息研究分析公司Gartner的分析员道格 · 莱尼于2001年提出了“3V”的大数据特点,即数量大(volume)、速度快(velocity)与类型多(variety)[2];2008年《Nature》推出“big data”专刊,从互联网、生物医学等方面出发开展了大数据的研究;2011年《Science》出版了专刊“Dealing With Data”;2012年,美国公布“大数据研发计划”,旨在增强从海量数据中获取信息的能力。我国的大数据研究起步相对较晚,但国内对于大数据研究十分关注。2013年中国计算机学会出版了《中国大数据技术与产业发展白皮书》,2014年出版了《中国大数据技术与产业发展报告》,阐述了大数据时代背景下相关产业的发展[3]。目前,国内大数据的发展已经渗透到了经济、教育、医疗、农业、社会安全等众多领域中[4-8],且在数据挖掘应用、大数据可视化分析、大数据平台构建等方面的研究也取得了一定进展[9-11]。总体来说,我国的大数据技术研究与应用已逐步展开,各行业依托大数据技术也进入了新的发展阶段,但相对于发达国家来说,我国的大数据研究还处于一个不成熟的阶段[12]。
现代农业在作物生产、畜牧养殖、病灾虫害防治、市场管理等多方面都需要更加科学的指导,因此应用大数据推动农业发展对于建设现代化农业具有重要意义。
1 农业大数据研究进展
目前世界各国都十分重视农业大数据的发展,英国于2013年颁布了《英国农业技术战略》,强调了大数据对推动农业发展的巨大潜力;8国领导人于2013年在国际论坛上就农业大数据的开放问题进行了讨论;2015年美国联邦农业部长宣布启动实时土壤数据项目,旨在让农民能够获取到最新的农场数据[13]。众多学者也提出了自己的研究,J Russo[14]认为大数据将对精准农业的发展产生重要影响;P Srinivasulu等[15]认为大数据的应用会为解决农业问题提供更好的服务;MR Bendre等[16]提出了利用大数据预测天气,提高作物产量等;Jharna Majumdar等[17]针对农业数据的分析,提出了利用多元线性回归等数据挖掘技术进行农业数据的利用;ME Sykuta[18]研究了大数据的数据所有权、数据隐私等问题。在生产上,法国政府通过分析农业数据为农民提供生产指导信息;德国利用大数据与云技术实现了高水平的数字农业[19-21];美国孟山都公司通过产量与气候数据为农民提供种植指导;美国天宝利用3S与数据处理技术为农场提供了一套作业解决方案[22];Climate Corporation公司通过气象大数据来预测灾害,以此来为农民推荐合适的保险[23]。目前国外的农业大数据已形成了规范、精准、智能的应用格局。
我国十分重视农业大数据的发展,国内各地也先后推出了相关的政策引领。农业农村部公布了《农业部关于推进农业农村大数据发展的实施意见》;江苏省在《江苏省“十三五”现代农业发展规划》中提出了推进农业大数据建设的规划;浙江省在《浙江省现代农业发展“十三五”规划》大力发展智慧农业与大数据农业;山东省农业厅发布了《山东省推进农业大数据运用实施方案》,明确提出了建设农业大数据体系的各项要求。在学术方面,农业大数据研究也取得了一定进展,牛禄青[24]、林惠虾[25]阐述了农业大数据对于推动现代农业变革的意义;王强[26]、光峰等[27]分析了大数据在农业领域的应用;秦小立[28]、陆文静[29]等对区域农业大数据的建设进行了探索;牟少敏[30]、宋长青等[31]对培养农业大数据人才模式进行了研究。在农业大数据产业建设上,2013年,山东成立了全国第一个农业大数据产业技术创新战略联盟[32];2016年,全球农业大数据与信息服务联盟在北京成立[33];2017年,黑龙江省农业大数据管理中心成立,负责全省农业大数据建设的规划工作[34]。由此可见,我国的农业大数据发展十分迅速。
2 农业大数据应用与相关技术
2.1 大数据在农业中的应用
2.1.1 农业育种
利用大数据能够使农业育种更高效。农业育种过程中选择的品质与产量等性状基于众多因素,利用农业大数据依据最新的国际高通量数据,能够辅助相关研究人员通过提取基因组上的遗传来标记筛选出需要的基因片段。此外通过计算机来展开生物调查,在云端创造分析海量的基因信息流并同时进行假设验证与试验规划,使育种家能够通过相对较少的作物进行实际大田环境验证来确定品种的适宜区域和抗性表现,有助于更高效、更低成本、更快地决策[35]。
2.1.2 智慧农业生产管理
农业大数据可以辅助精准农业操作[36]和智慧农业[37]管理。生产上,通过分析土壤温度、降水等数据[38]帮助农户了解作物生长环境状况,同时利用3S、机器学习等技术可以辅助相关人员规划最优生产区域以提高作物生产力并降低成本[39];在养殖上,通过机器学习等技术分析牲畜历史信息、生理特征数据等来确定饲料产量关系、识别疾病以及确保牲畜安全和质量等;在农机作业方面,通过将天气、土壤、温度等数据上传到云端,使农业机械共享这些数据,可以指挥农机进行精细作业。此外,通过大数据分析可以减少肥料、杀虫剂的使用来改善农场环境效益[40]。
2.1.3 农业气象与病虫害预警
利用气象大数据能够进行更长时间范围、更准确的农业气象预测,如利用海量天气数据预测破坏性的极端天气并推送给农民,让农民自己选择合适的保险进行投保,以此来降低农民的损失;在农业病虫害方面,将历史数据与采集的病虫害数据存储至大数据中心,结合环境、作物生长等因素,通过机器学习等技术对病虫害的发生进行预测,以此提前做出防治的措施;此外通过大数据可以进行农场基准测试、建模来预测作物歉收风险,或根据田间位置,土壤类型等数据评估特定农场最可能的风险[41-42]。
2.1.4 优化农业市场
通过共享农业生产、流通等环节的数据可以提高市场透明度,使生产者做出更合理的决策[43],利用农产品销售数据与市场行情可预测农产品价格走势、市场饱和量,避免产品滞销;利用市场数据可以预测市场动向、价格,并结合对不同消费群体的分析辅助相关人员分析品种上市后的表现[44],还能够帮助相关人员了解不同消费群体对作物品质、价格等方面的需求,做到供需平衡;此外还可以通过作物产量,投入成本变化,市场需求,种植成本,运输成本和营销成本数据的分析,预测在发达国家和发展中国家政府对农业产品的支持价格[45]。
2.1.5 农产品质量安全与追溯
对生产过程的数据进行实时监测与分析能有效控制产品的质量,为产品的标准化和规模化提供支持;使用传感等技术来监测收集产业链数据,跟踪农产品流通过程有利于防止疾病、减少污染;构建农产品质量安全监测信息管理平台,基于大数据技术能够对农产品质量安全事件按行业类别、信息来源、涉及范围、危害程度等内容进行初步识别,实现对重大农产品质量安全事件早预警、早发现;通过建立食品可追溯系统,对田间、养殖、屠宰、处理、运输等全产业环节数据监控,可以在源头消除问题产品[46]。
2.2 国内外农业大数据平台简介
目前国内外学者对建设农业大数据平台进行了很多探索[47-51]。Farmeron是美国一家农业数据分析公司,其在2011年推出了基于Web端的农场管理平台,为农民提供跟踪牲畜饲养情况的功能,为农民提供针对性的生产分析报告,指导农民进行相关生产规划;VitalFields是爱沙尼亚共和国的一家以农预测气象、病虫害、成本投入等预测管理为主的公司,为农民提供农作物种植阶段投入的成本、病虫害风险防治及天气预测,农民能够更加高效地管理自己的农场;FarmLogs是美国一家为农民提供移动端app与桌面WEB界面的公司,农民可通过这些媒介来对农作物生产进行管理。湖南省农业农村信息化综合服务平台主要由应用服务、基础服务、业务数据库、云计算硬件资源等子平台构成,集成了众多民生与产业信息服务,通过建设农村综合信息服务站为农业生产和农户生活提供了全面的信息技术服务。农业大数据运营平台是一个侧重于现代农业资讯共享以及整合农业生产数据的平台,平台涉及农业领域内的综合新闻信息,包括产品价格变动、热门种植养殖产物、农业恶劣天气预报等一系列关乎农业生产经营的讯息,作物生产技术方案、种植操作规程、深加工介绍等科技讯息,种植养殖业、经营管理等农业技能培训信息。
2.3 农业大数据关键技术研究
2.3.1 农业大数据采集
农业大数据来源复杂,很多学者对农业大数据采集进行了研究[52-56]。综合来看,农业大数据的采集主要包括农业遥感、生产环境采集、网络数据爬取等方式。农业遥感是指利用各种传感器与计算机等学科的理论与方法来揭示农业环境、属性及其时空特征[57],通过遥感技术所获取的海量数据的背后价值也是现在遥感大数据挖掘研究的热点。农业生产环境数据依靠传感网技术获得,相关研究[58-59]提出了利用终端采集定位、传感器采集数据的方式来实现对产业环境、流通数据的获取,随着技术的进步这种采集方式的应用更加广泛。网络爬虫是从互联网上进行数据信息的爬取,考虑到我国拥有着庞大的农业网络数据资源和大量的农业信息网站,采用爬虫的方式获取农业数据十分有利于将大量分散的农业数据收集整合到一起。
2.3.2 农业大数据存储与处理
农业大数据海量、非结构化的特性决定了传统的关系型数据库难以满足对大数据的存储和高并发访问需求。NoSQL[60]是目前较为流行的一种非关系型数据库,其数据存储结构具有非关系型、分布式的特点,是目前比较主流的大数据管理技术。大数据的处理任务用传统的单机处理比较困难,而云计算[61]为大数据的处理提供了计算资源整合技术。利用云计算技术可以实现资源动态分配,均衡分配处理负载,极大地提升资源的共享性和重用性,有效地降低运营成本;当前最流行的大数据处理框架为Hadoop[62],其核心包括HDFS与MapReduce。因其吞吐量高、效率高、高容错性而被广泛应用,并迅速成长为主流的大数据处理框架。
2.3.3 农业大数据分析技术
机器学习[63]是人工智能[64]的一个核心研究领域。机器学习是一门研究计算机模拟实现人类的学习行为,使之不断改善自身的性能技术,主要包括监督学习[65]和非监督学习[66]。随着技术水平的发展,机器学习逐渐应用到农业领域中,比如通过分析农业市场数据变动,做出市场预测等[67]。在大数据分析中,机器通过从环境中获取数据信息,然后通过自我学习反复更新知识库,以此来对执行元部分进行指导学习,不断完善自我学习的内容和模式,在这个过程中,其知识库的内容持续增长,其智能化程度也随之越来越高[68]。
深度学习[69]是机器学习的一个特例。传统的机器学习预测的准确性依赖于数据处理工作的好坏,为了减少这种约束,深度学习的概念就出现了[70]。深度学习也被称为无监督特征学习,即数据的特征可以通过学习过程得到,无需提前人为提取,深度学习将原始数据中每层表示逐层地转换为更高层更抽象的表示,以此来发现高维数据中错综复杂的结构[71]。目前深度学习在语音识别、图像识别、自然语言处理与信息检索[72]等领域得到广泛的应用。
计算智能[73]是人工智能研究的一个重要分支,一般用于解决大规模的优化问题。计算智能方法具备不需要依赖知识,不需要事先进行精确建模就可以直接对数据进行分析和处理的特点,这使得其十分适于大数据分析。此外,由于大数据海量规模的特性以及问题求解的复杂性,需要耗费较大的计算开销,而计算智能能够以模拟人类以及其他生物体的思维方式来解释问题,可较快地解决某些较难的问题如组合优化等,这为解决复杂的大数据处理问题提供了有效的解决途径[74]。
3 农业大数据发展的重点任务与方向
目前我国大数据发展存在如下问题:(1)数据共享程度低,数据片面、多而不精;(2)对大数据人才培养力度不够,阻碍大数据发展工作;(3)缺乏大数据核心技术,一旦国外切断技术支持,会极大影响国内大数据产业;(4)国内部分大数据公司过于急功近利,没有提供真正实用的大数据服务;(5)缺乏对大数据保护的相关法律法规,这会为大数据的交互流通带来隐患。因此,我国农业大数据发展的新任务与方向如下。
3.1 完善农业大数据采集工作,实现数据共享
数据来源是农业大数据的重要构成之一,针对目前数据来源单薄的现状[75],首要工作是充分利用现代信息技术如物联网、移动互联网设备、云端系统等丰富数据采集渠道,成立专门的数据定制化服务采集团队,建立成熟的采集体系,让数据采集变得更高效。其次是尽快建立统一的数据标准,便于信息的流通交互,强化政府、科研机构、企业的数据共享意识,从技术、机制、相关法律保护等方面开展农业大数据的共享工作。
3.2 培养大数据人才,助力农业信息化建设
大数据人才的缺乏是目前推进大数据应用的主要阻碍之一,大数据人才的培养可以通过2种途径:第一加强对相关行业人员技术水平的培训;第二是在高校设立相关研究方向的专业,以此不断为农业领域培养大数据人才。利用结合深度分析的大数据分析技术能够充分挖掘利用海量农业数据的价值,为农业信息化的发展提供重要的数据支撑,在实施上应该进一步加强农业农村的网络硬软件建设,消除互联网“最后一公里”现象的存在[76]。
3.3 优化大数据处理分析技术,增强底层技术研发
针对主流大数据平台Hadoop、Spark等,研究出更加高效科学的算法,是大数据分析工作的重要研究任务;深度学习技术的持续升级也带来了参数规模持续增长的问题,因此目前一个重要的研究方向是怎样对深度学习的模型参数进行优化来提升深度学习算法的效率;为了更好地处理海量数据,对深度学习的模型进行改造来降低训练模型的成本花费也是重点任务[77]。此外要增强大数据底层技术自主研发能力,发展自己的大数据处理框架,减少对国外技术的依赖,这样大数据技术会有更大的发展空间。
3.4 建设更加亲民化的农业大数据平台
目前多数农业大数据平台多以数据统计展示为主,数据的利用率不高[78-79],普通农户缺乏或者不具备相关数据分析经验,难以从这种服务形式的使用中获取想要的结果,因此未来的农业大数据平台应该更多地将机器学习、数据深度分析技术应用到平台数据分析模块,使得用户能够通过选择数据后进行自动分析得到相应的文字指导,如种植品种建议等。此外平台应加入农业生态、文化、旅游等多方面的内容,以满足其他用户的需求。
3.5 保障大数据安全,加强数据产权制度建设
大数据的安全工作可以从2个方面开展,一方面是从互联网、数据信息、数据备份等角度出发,构建大数据安全架构为大数据的价值安全提供保障;另一方面是从日常的管理上出发,用法规制度来对数据流通媒介的使用进行严格管理,形成规范统一的大数据生产流程。考虑到数据资源的特征,首先要结合相关法律规定对数据涉及的范围、权益等内容进行明确规定,此外应当在产权确权时优先考虑将获取数据的权属分配给企业,这样能够更好地在企业的数据收益与投入之间做到平衡[80]。