APP下载

农业大数据综述

2018-01-08吴重言吴成伟熊燕玲陶佩莹

现代农业科技 2017年17期
关键词:云计算关键技术物联网

吴重言++吴成伟++熊燕玲++陶佩莹

摘要 近年来,农业数据的类型和数量剧烈增长,给农业大数据的获取、集成、存储与处理带来了巨大挑战。云计算、大数据等重要技术为农业提供了解决方法。本文从大数据引出农业大数据的概念与发展现状,介绍了农业大数据的关键技术,包括采集、集成、存储与处理技术,详细分析了云计算技术、MapReduce、分布式文件系统、分布式数据库,并对农业大数据面临的挑战与解决方案提出了思考。

关键词 农业大数据;云计算;物联网;关键技术

中图分类号 S126 文献标识码 A 文章编号 1007-5739(2017)17-0290-03

Abstract In recent years,the type and quantity of agricultural data has grown dramatically,which brings great challenge to the agricultural data acquisition,integration,storage and processing.Cloud computing,big data and other important technologies provide a solution to agriculture.This paper drew on the concept and development of agricultural big data from big data,and introduced the key technologies of agricultural big data,including the technology of collection,integration,storage and processing,and analyzed the detail of the cloud computing technology,MapReduce,distributed file system,distributed database. Finally,challenges and solutions to the agricultural big data were put forward.

Key words agricultural big data;cloud computing;Internet of things;key technology

1 大数据及农业大数据概述

1.1 概念和基本特征

目前,对于大数据的定义还没有明确的规定。Gartner公司认为大数据是需要高效和创新的信息处理方式以增强洞察力和决策能力来适应大量,高速和多样化的信息资产[1]。麦肯锡全球研究所提出,大数据是指其大小超出了典型数据库软件工具捕获、存储、管理和分析能力的数据集[2]。最初大数据有三大特征,分别是规模化(volume)、多样性(va-riety)和高速率(velocity)。随着对大数据了解的不断深入,国际数据公司IDC认为其第四特征为有价值(value),IBM提出第四特征为真实性(veriety),也有学者认为第四特征为活力(vitality)。农业大数据,就是利用大数据的理念、技术和方法,解决农业或涉农领域数据的采集、存储、计算与应用等一系列问题,是大数据的理论和技术在农业上的应用与实践[3]。农业大数据除了具备大数据的三大特征以外还具备以下特征:农业大数据无所不在(泛在性);农业大数据规律性变化(周期性);农业大数据地域性变化(地域性);农业大数据反映社会状态变化(社会性);农业大数据影响交叉(交叉性);农业大数据在不同时间差异大(多变性);农业大数据间相互联系,相互作用(综合性);农业大数据组织分散(分散性)。

1.2 研究进展

《Nature》杂志[4]及《Science》杂志[5]先后出版大数据专刊,表明大数据的影响力增加以及为大数据的发展带来了挑战与机会。同时,国内发表大数据论文[6]、开展大数据会议、成立计算机学会大数据专家委员会、发布大数据白皮书,探讨了大数据核心问题和重大意义。2009年土壤抽样分析服务商Solum和2011年云端上的农场Farmeron成立,表明大数据已经应用到农业中,对于挖掘农业价值,制定生产计划和获取利益最优化具有重要意义。国内谢润梅[7]、许世卫[8]和黎玲萍[9]等人也發表农业大数据方面的论文,分析了农业大数据的机遇、应用并设计了智能分析平台,但是对农业大数据的关键技术论述不够完善。本文在此基础上介绍了农业大数据的获取、集成、存储与处理技术,并分析了面临挑战与解决方案,有利于实现指导农业实践、制定生产计划和实现利益最优化。

2 农业大数据的关键技术

农业大数据具有泛在性、多样性、高速率、规模化等特征,传统的数据获取、集成、存储与处理技术无法满足农业大数据的需求。农业大数据的出现也必然伴随着新的关键技术。

2.1 农业大数据获取

农业大数据获取指的是利用信息技术对农业要素进行数据采集、传输的过程。农业大数据主要包括农业生产环境数据、农业网络数据、农业市场数据和动植物生命信息数据。针对不同的数据需要不同的采集技术,农业生产环境数据,如土壤湿度和温度、天气温度、风速,主要依靠传感器技术和光谱、核磁共振等先进检测技术获取;农业网络数据,如网站、论坛上的最新资讯,主要采用爬虫技术采集,有利于了解农业大体方向;农业市场经济技术获取,如农产品价格、农产品流通,主要通过RFID识别技术与智能终端、APP等移动采集技术获取;动植物生命信息智能感知,如检测动物体温、植物氮元素含量,主要通过光谱技术、热红外线等技术获取。

2.2 农业大数据集成技术

农业大数据分为结构化数据、半结构化数据和非结构化数据,为了对农业大数据进行后续存储与分析处理,由于农业大数据的多样性,人们将多种类型的复杂数据转化为单一的、易于处理的数据。因为转化得到的数据可能不正确、无价值,甚至包含噪声和干扰项,所以最终需要对其进行过滤。传统的数据集成方法分为数据复制方法和模式映射方法。数据复制方法最常用的是数据仓库方法,模式映射方法主要包括联邦数据库、中间件集成方法和P2P数据集成方法。endprint

随着农业大数据越来越复杂,新的异构数据集成技术涉包括有本体集成技术[10]、面向对象技术、XML[11]、分布式对象技术、网络技术、基于CORBA的异构数据集成技术、基于Web Service的异构数据集成技术[12]。

2.3 农业大数据存储与处理技术

2.3.1 云计算技术。面对大数据的影响,传统的数据处理平台存在可扩展性,容错性等方面的限制,无法满足实际需求。Google于2006年开创了云计算的概念。云计算是分布式计算,互联网技术和大规模资源管理技术的集成和开发,云计算的提出在学术界和行业中引起了广泛的关注。相关研究[13]给出了云计算更完整的定义,即云计算是一个由规模经济驱动的大规模分布式模型,其计算资源是抽象的、虚拟的、动态可扩展的和可管理的,其计算资源、存储、平台和服务通过互联网传递给外部客户端。

云计算是大数据分析处理技术的核心原理,也是大数据分析应用的基础平台。首先,云计算灵活,可以根据负载动态分配资源,保持负载均衡。其次,云计算支持异构网络资源应用,并利用资源池共享资源,以提高资源重用率,降低运营成本。最后,针对大数据的云计算服务,强调可用性和容错性,不再仅仅追求准确性和一致性。云计算是大数据处理的基础,也是大数据分析的支撑技术[14]。

2.3.2 MapReduce。MapReduce是一种分布式编程模型,它可以支持大型数据集的并行和分布式计算。该模型是在分布式计算系统上运行的并行程序数据流的抽象,为用户提供了2个功能,为Map和Reduce的接口。用户通过覆盖这2个功能来交互和操纵数据流。在MapReduce中,任务分为几个相同大小的子任务。子节点执行Map功能来处理这些子任务,并生成键值对,具有相同键值的中间结果由Reduce函数组合和处理,最终输出并存储在本地文件夹中。图1显示了MapReduce的架构。在执行reduce函数之前,Map函数生成的所有中间值都应该重新排序,以确保具有相同键值的结果可以由同一个节点处理,从而可以提高系统运行速度。

MapReduce系统解决了传统数据库中可扩展性这一最大的限制,适合大数据处理。但与传统的数据处理系统相比,MapReduce系统的执行性能和准确性差距很大。MapReduce还有很大的改进空间。

2.3.3 分布式文件系统。分布式文件系统是文件系统中的物理存储资源,不一定直接连接在本地节点,而是通过计算机网络连接与节点相连。Google最早开发了Google文件系统(GFS)以处理种类复杂与数据量大的数据。GFS是基于分布式集群的大规模分布式文件系统,为MapReduce提供了底层数据存储。由于存储数据的计算机便宜且不可靠,数据故障被认为是正常的,所以GFS至少创建3个副本用于存储数据。副本被分发到不同的计算节点以提高系统的可靠性。当节点发生故障时,系统将快速调用副本以提高处理效率。

GFS设计之初只有一个主服务器用于元数据存储,其他节点将数据存储为块服务器。主机管理文件系统命名空间和锁定工具。主机定期与块服务器通信,收集管理信息,向服务器发送命令,承担负载均衡和故障修复工作。图2显示了GFS的具体配置。

GFS通过一个主服务器实现大数据分布式存储,简化了系统设计,可能会发生单一服务器性能瓶颈。基于这一点,Google改进了GFS,并提出了Colosuss[15],提出了单点故障问题的有效解决方案。

除了Google提出的GFS和Colosuss,还有Hadoop Distr-ibuted File System(HDFS)[16]、Taobao File System(TFS)、Gen-eral Parallel File System(GPFS)、Parallel File System(PFS)、Taobao File System (TFS)、NFS[17]等,这些分布式文件系统由不同的应用需求催生而来,能够按照不同的应用需求提供不同的服务。

2.3.4 分布式数据库。由于大数据时代下数据量大,数据种类多,设立理念的差异,传统的关系型数据库不再满足数据存储要求,为了解决这个问题,Google走在了时代的前列,提出了BigTable数据库。

BigTable數据库是一个基于GFS的分布式数据库,用户可以更方便、高效地访问数据库。BigTable使用NoSQL(Not Only SQL)模型有效地解决了传统并行数据库在可扩展性方面的缺点,并大大提高了数据库系统的可用性和可扩展性。在BigTable数据库中,数据以多维表的形式存储在子表服务器中,可以通过行名,列名和时间戳索引数据,以便于用户查询。在数据库中,数据存储结构不受限制,因此适用于存储非结构化数据。Chubby服务器随时监控每个子表服务器。当Chubby发现子表的故障时,会及时向主服务器报告故障,主服务器接收到故障信息后,会迅速将数据传输到其他子表上,以确保正常使用数据。主服务器还可以根据需要添加或删除子服务器。图3显示了BigTable的架构。

BigTable数据库支持高读/写速度,每秒可以执行数百万次操作。此外,BigTable还可以实现自我管理,动态添加/删除子表服务器,并自动调整负载平衡。目前,BigTable已经在许多项目中使用,例如Google搜索,谷歌地图等。谷歌在2012年开发了基于BigTable的Spanner[18]系统。Spanner是最新的Google数据库系统,它是实现全球规模扩张和支持外部一致性的第一个数据库。

除了BigTable以外,其他的适用于大数据存储的分布式数据库有Yahoo! 的PNUTS和Amazon′s 的Dynamo。

3 农业大数据面临的问题与解决方案

大数据技术面临诸多挑战,例如异构数据范围广泛、实时问题、数据不完整、缺乏先验知识、隐私等。农业大数据面临的问题与大数据技术相一致,但与大数据相比,农业大数据在安全或隐私问题上并不敏感,农业数据挖掘旨在利用结果指导农业实践。因此,农业大数据总是面临以下问题。

3.1 农业大数据存储

3.1.1 异构数据。农业大数据从资源来看,数据来自无线电设备,农业信息网站和各种先进的移动终端;从内容上看,不仅包括统计资料,还包括与农业相关的经济实体的基本信息、投资信息、进出口信息和GIS坐标信息;数据类型还包括结构化数据,半结构化数据和非结构化数据。由于对不同,存储硬件設备的处理不同,存储异构数据以及读写能力将是一个值得研究的问题。除了采用分布式文件系统,创建索引也是一种解决方案。

3.1.2 异构硬件。异构硬件也是存储农业大数据的问题之一。在数据中心的不同机器之间会有非常显著的性能差异,不同的硬件设备具有不同的识字和处理能力,将浪费大量时间等待较慢的存储设备。在这种情况下,存储设备和服务器的线性增长不一定会带来计算能力的线性增长,“木桶效应”限制了整个集群的性能。异构硬件问题的一般解决方案是在异构硬件环境中的不同方面使用不同的存储设备。当异构环境的规模扩展到数千个群集时,问题将变得非常复杂。

3.2 农业大数据分析

3.2.1 数据分析技术。数据分析是农业大数据全过程的核心,农业大数据的价值在大数据分析过程中产生。目前,粮食安全、土壤管理、有害生物预报与预防、农业消费等方面存在诸多问题。原始数据来自农业信息的提取和整合,选择全部或部分数据利用农业大数据分析来解决这些问题。传统的分析技术不适用于处理农业大数据,例如数据挖掘、机器学习、统计分析等技术。

3.2.2 数据挖掘算法。传统的数据挖掘算法,如机器学习等领域,不再适用于农业大数据。一方面,挖掘少量数据的算法无法直接应用于大数据;另一方面,农业大数据具有特殊性,算法的准确性不再是主要标准,在许多情况下,算法需要在时间和处理精度之间取得平衡。

3.2.3 质量分析指标。分析结果质量的指标也是一个重大挑战。大数据类型复杂,导致算法设计指标的诸多问题。经过多年的研究和开发,数据挖掘、机器学习、统计分析等信息分析已经被证明对小数据有显着的影响。这些算法可以进行调整,以适应云计算系统。但必须注意的是,在这些算法的调整过程中应考虑农业大数据实时和可预测的特征。

3.2.4 算法与结果评估。评估农业大数据算法的结果是很重要和困难的。根据农业大数据的特点,利用及时性作为衡量标准,利用先验知识来测试算法。它可以在一定程度上评估算法的质量,还可以考查数据结果的可靠性。

3.3 农业大数据的及时性

随着时间的推移,数据的固有价值不断衰减。因此,在分析农业大数据时必须考虑及时性。不及时的数据分析可能导致农业灾害的生产,特别是在气象数据以及与数据分析相关的环境条件等方面。例如,低粮价损害农民事件的发生是管理生产成本和其他信息不及时导致的结果。因此,及时性的特点在农业大数据中尤其重要,是农业大数据分析的核心需求。大量的研究也围绕着这一需求而扩大,确保及时性有3种方法。

3.3.1 流处理模式。虽然流式传输模式适用于实时系统,但其应用领域相对有限。流应用模型侧重于实时统计系统,在线监控。

3.3.2 批处理模式。近年来,批量实时系统的发展已成为热点话题,取得了很大的成就。

3.3.3 流处理与批处理组合模式。主要思想是使用Map-Reduce编程模型实现流处理。

4 结语

本文首先介绍了农业大数据的定义、特征、大数据的国内外发展现状、农业大数据的国内外发展现状。然后讨论了农业大数据的获取和集成技术,特别对云计算技术、Map-Reduce、分布式文件系统、分布式数据库等存储处理技术进行详细阐述。最后提出农业大数据存储、农业大数据分析和及时性农业大数据的问题与解决方案。农业大数据具有数据规模大、数据类型多、数据流转快等特征。农业大数据的关键技术能够从复杂、海量、散乱的数据集合中提取出有价值的信息,在为户提供生产决策和提高农业生产效率等方面具有重要意义。

5 参考文献

[1] GANDOMI A,HAIDER M.Beyond the hype:Big data concepts,methods,and analytics[J].International Journal of Information Management,2015, 35(2):137-144.

[2] MANYIKA J,CHUI M,BROWN B,et al.Big Data:The Next Frontier For Innovation,Competition,And Productivity[R].San Francisco:Mckinsey Global Institute,2011.

[3] 孙忠富,杜克明,郑飞翔,等.大数据在智慧农业中研究与应用展望[J].中国农业科技导报,2013(6):63-71.

[4] MITCH W.Big data:Wikiomics[J].Nature,2008,455(7209):22-25.

[5] STAFF S.Dealing with data. Challenges and opportunities.Introduction[J].Science,2011,331(6018):692-693.

[6] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

[7] 谢润梅.农业大数据的获取与利用[J].安徽农业科学,2015(30):383-385.

[8] 许世卫,王东杰,李哲敏.大数据推动农业现代化应用研究[J].中国农业科学,2015,48(17):3429-3438.

[9] 黎玲萍,毛克彪,付秀丽,等.国内外农业大数据应用研究分析[J].高技术通讯,2016,26(4):414-422.endprint

[10] 潘佳云.基于本体的异构数据集成技术研究[D].上海:东华大学,2013.

[11] 薛欣雨.基于XML的出版社業务员异构数据集成系统的设计及关键技术研究[D].长沙:中南大学,2013.

[12] 向寒坤,钟金宏,李兴国.基于Axis2的CORBA/Web Services集成方案[J].计算机应用与软件,2010,27(2):108-110.

[13] BERA S,MISRA S,RODRIGUES J J P C. Cloud Computing Applications for Smart Grid:A Survey[J].IEEE Transactions on Parallel & Distributed Systems,2015,26(5):1477-1494.

[14] YANG C,HUANG Q,LI Z,et al.Big Data and cloud computing:innova-tion opportunities and challenges[J].International Journal ot Digital Earth,2016(3):1-41.

[15] MCKUSICK K,QUINLAN S.GFS:evolution on fast-forward[J].Commu-nications of the Acm,2010,53(3):42-49.

[16] SHAFER J,RIXNER S,COW A L.The Hadoop distributed filesystem:Balancing portability and performance[C]//IEEE International Sympos-ium on PERFORMANCE Analysis of Systems & Software.New York: IEEE,2010:122-133.

[17] DAS S.Parallel Network File System with future scope[J].Psycho-Oncologie,2015,4(1):1-4.

[18] COOPER B F.Spanner:Google′s globally-distributed database[J].Acm Transactions on Computer Systems,2012,31(3):251-264.endprint

猜你喜欢

云计算关键技术物联网
防雷关键技术在自动气象站系统中的应用探究
网络安全态势感知关键技术研究
无人机集群作战关键技术及发展趋势
基于高职院校物联网技术应用人才培养的思考分析
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
中国或成“物联网”领军者
TD—LTE关键技术与发展展望