热带农业大数据应用平台设计
2018-07-04秦小立叶露李玉萍刘燕群梁伟红
秦小立 叶露 李玉萍 刘燕群 梁伟红
摘 要 热带农业存在信息量大、数字化水平低、关联性强、涉及领域多、结构复杂等特点,大数据技术能可以进行资源整合、规律发现和价值数据挖掘,能很好地满足热带农业发展的需求。综述国内外农业大数据发展现状及存在问题,结合国家“一带一路”战略需求,分析我国热带农业大数据应用平台建设的重要性,然后提出热带农业大数据应用平台的基础设施层、数据层、平台层、应用层4层架构,设计了数据采集、数据处理、数据储存、数据分析挖掘、数据可视化和应用6个环节的技术架构,对6环节及技术架构进行了详细描述,并分析热带农业大数据应用平台的发展前景。
关键词 热带农业 ;大数据应用平台 ;资源整合 ;可视化
中图分类号 S126 ;TP392 文献标识码 A Doi:10.12008/j.issn.1009-2196.2018.01.023
Abstract Tropical agriculture had a large amount of information, low level of digital, strong correlation, more areas and complex structure. Big Data technology had the advantage of promoting the development of tropical agriculture with integrate resources, law discovery and the value of data mining. The current situation and existing problems of agricultural data at home and abroad were summarized, the importance of the construction of big data application platform of tropical agriculture in China was analyzed with the national strategic needs of "the Belt and Road". Then, the four layers of big data application platform of tropical agriculture were proposed, including the infrastructure layer, data layer, platform layer and application layer. The data acquisition, data processing, data analysis and mining, data visualization and application were designed. The 5-tier architecture and five links were described in detail.The prospect of big data application platform of tropical agriculture was analyzed.
Keywords tropical agriculture ; big data application platform ; resource integration ; visualization
随着云计算、大数据、物联网等信息处理与采集技术的发展,其在农业上的应用也越来越多,技术也越来越成熟。当前,农业物联网的数据采集技术已经基本满足封闭半封闭环境下农田环境的采集需求,为农业数据的产生提供必要手段;云计算技术的发展推动互联网的计算、存储服务的模式变革,推动信息技术领域的飞速发展,为大数据技术的发展提供重要的服务基础;大数据技术在电子商务、政务、工业、金融、医疗等领域的决策方面已有很好的进展和应用[1]。然而,立足于云服务条件下的农业大数据的决策和应用依然处于起步阶段,热带农业的大数据条件建设和决策应用更是不足。因此,热带农业的发展和转型升级,需要加快完善热带农业的云计算服务和物联网采集等设施建设,同时亟待解决热带农业数据资源整合、共享服务和决策应用问题。以服务热带农业的发展为宗旨,设计以云计算为服务平台、以农业物联网为主要采集手段、以资源整合、数据共享和决策应用为目的的热带农业大数据应用平台,为加快热带农业转型升级、提高热带农业国际竞争力提供重要的信息化手段。
1 国内外农业大数据的发展现状
1.1 农业大数据概述
农业大数据是指农业及涉农相关领域所产生的全样本或多样本的不同类型数据的集合,是大数据理念、技术和方法在农业领域的发展与应用[2-3]。农业涉及环境与资源、生产、市场、管理等环节,包括农资、育种、耕地、播种、灌溉、施肥、病虫害、收获、仓储、加工、物流、销售、畜牧业生产、养殖管理等内容,贯穿整个农业生产、管理、销售、运输、消费等过程中的各个环节都会产生大量的数字化信息[4]。此外,农业大数据还涉及跨行业、跨专业、跨领域的服务农业发展的数据。农业大数据智能采集主要是依托部署在农业生产、农产品运输、储藏过程中的各种传感节点(环境温湿度、土壤水分、二氧化碳含量、图像等)及有线或无线通信网络,完成农业数据采集、传输、存储、处理等环节的数据管理,结合机器学习、深度学习等大数据分析处理与挖掘方法,最终实现农业生产、农产品运储环境的智能感知、智能预警、智能决策、智能分析以及专家在线指导,为农业生产提供精准化种植、可视化管理、智能化决策,为农产品储运环节提供合适的条件[5]。
1.2 国内农业大数据发展情况
在国内,杨波等[6]积累了多年农作物虫害发生的数据,并在此基础上利用SPSS统计分析软件对气象数据进行相关性分析,建立气象数据与玉米螟害虫发生关系的监测预警模型,取得较好的预测效果。這是农业大数据在虫害发生预测方面一个具体应用,是农业大数据在农业生产上应用的一个体现。孟祥宝等[1]设计了一个涵盖从服务、管理、应用、技术、资源等5个关键环节的农业大数据SMART应用体系架构,并详细阐述了平台的总体架构和功能设计,采用IAAS、PAAS、SAAS服务模式,在Hadoop、HBase、MapReduce架构基础上实现农业大数据智能分析平台的数据采集、分析等功能。山东农业大学建立农业大数据应用云平台,包括数据资源、价格监测、专题分析等多个模块,涵盖全国的农业经济数据统计分析,农业农村生产信息分析,渔业、畜牧业、林业等行业信息资源统计以及粮食专题数据和农产品贸易数据等数据统计、分析、处理功能。山东省主导建立了渤海粮仓科技示范工程大数据平台,平台体系主要包括数据采集、挖掘分析、监测预警和决策服务四大模块,其中数据采集包括人工采集、自动采集、无人机数据、遥感数据、历史数据五大数据来源,是大数据技术在农业应用方面的一个良好示范,采用了Hadoop基础框架,并应用HDFS上的HBase、Hive数据存储技术[7]。此外,云南农业大学等建设云南农业大数据中心,也采用hadoop技术框架。
1.3 国外农业大数据的应用情况
在国外,欧美国家的农业大数据发展水平较为成熟,在精准化、智能化等方面都取得了较好的应用,在降低农业生产成本和提高效率方面都有很好的利用价值。在美国,更加注重农业大数据应用的精准化和智能化,美国农业巨头Monsanto公司收购和并购了Precision Planting和Climate Corporation公司,拥有全球最大的资源和海量产量数据,并与Climate公司的气象数据相结合,依靠Hadoop架构进行气候规律的分析预测,获取更详细的种植环境区划和精细划分的品种数据[8];种业巨头Du Pont Pioneer公司依托其优质种质资源与研发技术,也已结合农业大数据推进精准农业技术;美国Trimble公司提供基于GIS的整套农机作业综合解决方案“网络农场系统”,该系统能够通过无线模块连接整个农场的软件和硬件设备,从而使信息在室内电脑、农机车辆、其他终端间进行传输和处理[9]。目前,美国Deer公司的FramSight、Monsanto公司的ClimatePro或Field Scripts、Du Pont Pioneer公司的Field360等,都結合气象数据、广泛使用农业大数据系统,整合农机设备的种植和农场的产量数据,以及气象、种植区划等多样数据,实现更精准的种植决策和农事生产精准化服务,帮助农民提高产量和利润,已经应用于大部分农场并产生理想收益[8]。通过对农业生产全过程的精准化、智能化管理,可以最大程度地减少化肥、水资源、农药等投入,提高作业质量,农业经营变得有序化,为农业的精准化、规模化经营服务。
1.4 我国农业大数据存在的共性问题
当前我国农业普遍存在的问题还很多,如农业的效率低、效益不好、效能不足等,导致这些问题的主要原因有生产要素耦合效应缺乏、产业关联性低下、农业产销等大循环系统性和协调性不够,形成了我国粗放式的农业发展模式。此外,长期以来农业基准数据资源薄弱、数据结构不合理、数据细化程度不够、数据标准化和规范化水平低等原因,这也我国农业生产智能化和精准化水平难以很好实施的重要原因[10]。然而农业大数据的发展在改善这些问题方面都有积极作用,开展农业大数据资源整合与分析应用是我国农业向高附加值产业发展的重要阶段。
1.5 热带农业大数据发展的意义
热带农业是我国热带与亚热带地区的特色农业,我国热区在农业生产、价格信息发布等方面也有一定的基础,有农业环境监测、中国热带农业信息网、海南农产品流通公共信息服务平台、病虫害防治以及农产品电商平台等多个系统平台,采集农业监测信息与数据。然而这些数据资源的利用率极低,在大数据处理方面研究基础十分薄弱,利用能力更低。如何充分利用物联网采集的农业信息进行农业智能化生产,如何利用气象环境信息预测给农业带来的影响,如何利用农产品电子商务的销售信息预测农产品价格和消费者的需求?而大数据技术在数据整合与决策方面的优势是解决这些问题的一个重要手段[11]。
2017年5月,农业部、发改委、商务部、外交部四部委联合发布《共同推进“一带一路”建设农业合作的愿景与行动》,明确指出中国南部省区立足热带农业,与东南亚、南亚国家开展粮食、热带经济作物等种植合作,发展态势良好,势头强劲,均取得显著成效。继续推动热带农业“走出去”、加快整合包括东南亚、南亚国家的国外热带农业大数据资源、完善我国热带农业大数据资源库,是完全符合当前我国“一带一路”国际战略,有利于深化与东南亚、南亚等热带国家的农业合作,有利于中国农业与世界农业的融合发展[12]。
因此,我国热带地区拥有较为丰富的农业科技资源、生产环境资源信息、价格监测信息、农业气象信息等资源,且分布相对集中,同时拥有一定的东南亚、南亚国家的农业信息,对整合国内外热带农业数据资源和大数据分析应用具有良好的优势。建设大数据处理云平台,实现大数据的存储、融合、分析处理,设计高效的大数据处理模型或算法是开展大数据应用的重要基础,是进行农业大数据处理的条件。同时在服务热带农业产业发展和国家“一带一路”战略方面优势突出。大数据技术为热带农业向智能化方向发展提供现实可行性,为热带农产品的销售拓宽渠道,为热带农业资源整合提供手段,为热带农业提供开放式的农业科技共享服务,为强化热带农业的国际合作提供必要基础。
2 热带农业大数据应用平台
2.1 热带农业大数据应用平台建设目标
针对热区农业存在的基准数据资源薄弱、数据结构不合理、数据标准化水平差、农业内部信息流不畅等问题,充分运用大数据、云计算等先进技术和理念,加快推进热区农业大数据应用平台建设、海量数据积累和历史数据清洗,逐步形成以大数据平台为基础、以大数据管理为核心、以大数据应用为主导、以大数据安全体系为保障的热带农业大数据发展总体框架,实现热带农业数据资源从粗放式、低效能分散建设向集约化、高绩效协同发展模式转变;以问题和需求为导向,逐步推进大数据在热带农业管理、决策和公共服务领域的广泛应用,突破一批大数据关键技术,转化一批大数据科研成果,形成一批大数据科研产品,有效推动热区农业产业转型升级和生产方式转变。
2.2 热带农业大数据应用平台架构设计
2.2.1 平台总体架构
热带农业大数据应用平台是在云计算架构运行的,既支持批处理,也支持流处理,是依托分布式处理、网格计算等技术,提供大规模数据的批量处理能力和小规模数据的实时响应能力,很好的满足热带农业大数据的应用需求。云计算架构下的热带农业大数据应用平台架构如图1所示,具体分析如下。
基础设施层:利用资源虚拟化技术,对计算设备、存储设备和网络设备进行虚拟化,实现资源的统一虚拟化资源池,并通过资源管理技术完成资源统一管理、任务分配等,并提供统一资源服务。
数据层:利用数据库和云计算等技术,存储热带农业国内外数据资源,具体数据资源模块如图2所示。价格数据是针对我国部分热带农产品价格波动较大的问题,开展市场价格预警预测;共享数据是为适应我国热带农业开展共享服务需求,设计支持权威数据的共享服务模式。
平台层:在云计算的强大服务能力的基础上,设计数据平台和统一数据服务平台。数据平台主要提供支持热带农业大数据的汇总、挖掘、实时汇总和二次汇总的数值计算服务;统一数据服务平台主要提供热带大数据平台的后台数据服务管理功能和用户的多种数据应用请求服务,也包括这些服务任务的调度和监控功能。
应用层:应用层依然是在云服务的基础上,设计的热带农业共性的应用服务或管理服务,包括数据资源、专题分析、热区GIS服务、数据共享服务以及管理服务的用户管理、日志管理、接口管理和数据安全。该层为终端应用提供基础的应用服务和请求服务。
终端应用:支持PC/手机浏览器、移动APP、微信公众平台等终端的对热带农业大数据应用的请求服务,提供多终端的请求和接收服务。
2.2.2 平台技术框架
热带农业大数据应用平台有数据采集、数据预处理、数据存储、数据分析挖掘、数据可视化以及应用六个环节组成,为涉农政府部门、科研机构、企业或个人提供必要的参考,同时,提供数据共享服务功能,为数据利用和平台应用方面的扩张提供可行性。如图3所示,具体分析如下。
2.2.2.1 数据采集
作为第一产业的热带农业受自然条件、地理环境的影响很大,农业大数据的获取必然要采集地理、气象、土壤等自然与环境数据,热带农业大数据采集内容还包括热带农业生产、農产品市场、价格、贸易以及政策和科技等数据,涉及的面很广,完善的数据获取难度大。目前主要的采集手段有:物联网采集、互联网共享、现有数据的标准化转换以及人工调研采集等方法。涉及到互联网采集、智能识别技术、定位技术、移动终端等服务技术。
物联网采集:主要是利用传感器、遥感、电子标签、视频等硬件技术采集热带生产、流通等过程产生的环境数据和信息。
互联网采集:利用互联网web技术,获取互联网共享的农业种植以及农产品生产、加工、销售、消费、市场等信息。
现有数据标准化:对当前已有的气象、土壤质量、地理环境以及已经建设的农业数据平台的信息进行标准化,实现数据的共享。
人工采集:人工采集涉及面很广,主要是针对上述几种手段无法获取或需要更新的信息。此外,还提供相对完善的数据源开放接口,为数据的共享输入和输出服务。
2.2.2.2 数据预处理
数据预处理包括数据的清洗(ETL)、数据融合、数据规约等处理方法。
数据清洗:针对热带农业大数据信息多类型、多数据源等问题,通过数据筛选、剔除、均值等方法,优化实际数据的多源化构成问题,提供开放式处理接口,为提供更好的数据质量和更精确分析结果打基础。
数据融合:主要是针对非结构化的数据进行规范化处理、对已有数据的整理入库、对多种数据类型数据的优化处理等,结合热带农业大数据标准规范体系,利用数据融合技术,包括多传感器数据融合、遥感数据融合及基于XML数据融合3种方式,完成数据的处理工作。数据融合技术主要应用为:解决数据的语义冲突,建立数据之间关联,实现农业生产环境信息多元融合。
数据规约:分为数值归约和维度归约。数据归约也称样本归约,在综合考虑计算成本、存储要求、精度及热带农业的特性,从数据集中选出一个有代表性的样本子集。维度归约与特征归约相似,使用数据编码或变换,剔除不重要或不相关的数据,或者通过重组减少源数据的维数,以便得到原数据的归约或“压缩”表示。
2.2.2.3 数据存储
热带农业大数据存储主要采用Hadoop架构的分布式存储系统HDFS,利用MPP架构的数据库系统NOSQL,实现海量数据的快速存储、备份、转换以及安全管理,保障数据的安全、稳定、可靠,维护各方的利益。提供热带农业大数据的高效、快速的存储管理及服务,提供半开放式的存储管理与安全服务接口。
2.2.2.4 数据分析挖掘
热带农业大数据的分析挖掘是建立在Storm架构上的实时处理数据分析挖掘系统,主要利用统计、回归、主成分分析、神经网络、支持向量机、聚类等机器学习和关联分析方法,以及专业的数学模型等方法,实现大数据的决策预测与评价,为热带农业大数据应用提供分析挖掘功能,也为新型挖掘算法提供数据分析接口,提高热带农业大数据平台的分析与挖掘能力。
2.2.2.5 数据可视化
热带农业大数据可视化主要对序列化数据进行二维可视化,实现大数据检索和分析结果的直观性展示。主要通过趋势分析图的生成,揭示规律,提供预测等,通过图形化方法展示大数据检索信息的图形化规律,为人眼发现知识和规律提供条件。
2.2.2.6 应用
热带农业大数据应用平台的终端应用主要是可视化展示预测预警结果和序列数据的变化趋势,提供产量、价格、面积的预测以及病虫害的预警功能,支持耕地质量评价与国外热带农业国家的动态变化查询与监测,并支撑权威数据的共享服务,服务热带农业有关部门和个人。
热带农业大数据应用平台提供多终端的应用,支持PC/手机浏览器、APP、微信公众平台等方式的浏览应用,提供直观的可视化展示和信息推送服务。
3 热带农业大数据应用平台的发展前景
当前,热带农业的发展需要大数据技术的支持推动产量和利润的提高,是行业对大数据平台的迫切需求。大数据技术在多个领域的应用成果也表明,其在推动热带农业发展方面具有很大的优势。从大数据平台架构的发展过程,大数据处理的主流架构有Hadoop、Spark、Storm,且它们各有优势[13]:Hadoop的HDFS对农业的海量数据存储与管理方面具有优势;Spark是基于内存计算的大数据离线处理技术,处理速度优于Hadoop;而基于流计算的Storm在实时数据处理方面具有优势,适合处理设施农业生产中的温湿度、二氧化碳等实时数据,实时反馈给用户,调节设施大棚的环境。依据热带农业发展的具体需求,一般以HDFS为农业大数据存储和管理基础架构,结合实际应用选择与Spark或Storm架构结合使用,有时三种架构同时应用,且技术相对成熟,满足农业生产的需求,也是当前最适合农业大数据发展的技术架构组合。以下从应用角度分析热带农业大数据应用平台的发展前景。
3.1 热带农业大数据应用平台具有资源整合的能力
热带农业数据历史长、数量大、类型多,但长期存在信息资源分散、核心数据缺失、数据结构不一、质量不高、开发利用不足、共享程度低等问题,限制了热带农业信息化的发展。通过热带农业大数据标准化规范化,利用热带农业大数据应用平台整合当前的热带农业数据资源,突破制约热带农业发展的瓶颈,实现热带农业数据共享服务。
3.2 热带农业大数据应用与服务
实现对国内外热带农业数据资源的获取,保障渠道畅通,完善监测统计、分析预警、信息发布等信息监测预警数据,实现全产业链的信息服务,支撑热带农业生产智能化、资源环境精准监测、灾害预测预报、病虫害监测预警、质量安全追溯、产销信息监测以及数据共享服务,同时为政府有关部门提供数据科学决策依据,满足农业种植、农业市场、农业科研等经营者和参与者的信息需求和发布,加快推动热带农业的转型升级,为热带农业的可持续发展提供基础。
3.3 热带农业大数据应用平台还提供监测国外热带农业发展情况
通过大数据平台了解国外热带农业发展情况,有利于中国热带农业和国外热带农业的合作,为我国的涉农企业、机构提供国外农业发展的政策和动态,符合国家“一带一路”战略的发展。
参考文献
[1] 孟祥宝,谢秋波,刘海峰,等. 农业大数据应用体系架构和平台建设[J]. 广东农业科学,2014,41(14):173-178.
[2] 温孚江,宋长青. 农业大数据应用、研究与展望[J]. 农业网络信息,2017(05):31-36.
[3] 温孚江. 农业大数据研究的战略意义与协同机制[J]. 高等农业教育,2013(11):3-6.
[4] 谢润梅. 农业大数据的获取与利用[J]. 安徽农业科学,2015,43(30):383-385.
[5] 计算机学会大数据专家委员会,中关村大数据产业联盟. 中国计算机学会文集-中国大数据技术与产业发展报告(2014)/中国计算机学会文集[R]. 北京:机械工业出版社,2015:88-98.
[6] 杨 波,刘 勇,牟少敏,等. 大数据背景下山东省二代玉米螟发生程度预测模型的构建[J]. 计算机研究与发展,2014,51(S2):160-165.
[7] 柳平增. 农业大数据平台在智慧农业中的应用——以渤海粮仓科技示范工程大数据平台为例[J]. 高科技与产业化,2015(05):68-71.
[8] 中文互联网数据资讯中心. 中美两国农业大数据对比与思考[J]. 农业工程技术,2016,36(30):63-64.
[9] 王少农,王 熙. 美国天宝公司网络农场系统[J]. 现代化农业,2015(02):59-60.
[10] 许世卫,王东杰,李哲敏. 大数据推动农业现代化应用研究[J]. 中国农业科学,2015,48(17):3 429-3 438.
[11] 秦小立,罗 微,李玉萍,等. 基于云计算的热带农业信息服务平台设计[J]. 广东农业科学,2014,41(19):188-193.
[12] 中华人民共和国农业部,中华人民共和国国家发展改革委员会,中华人民共和国商务部,等. 共同推进“一带一路”建设农业合作的愿景与行动[N]. 农民日报,2017-05-12(01).
[13] 黎玲萍,毛克彪,付秀麗,等. 国内外农业大数据应用研究分析[J]. 高技术通讯,2016,26(04):414-422.