农产品流通大数据分析平台构建
2019-11-06王云慧
王云慧
[摘要]随着移动互联网、大数据、云计算、物联网等信息技术不断发展,大大的加快了我国农业信息化体系的建设。结合大数据理论方法,运用Hadoop技术框架、Hive数据分析技术,构建了农产品流通大数据分析平台,该平台能够解决传统分析平台存储数据量小、数据结构单一等问题。
[关键词]大数据技术;农产品流通;大数据分析平台
[中图分类号]TP399[文献标识码]A
新时代信息化背景下,大数据无处不在,在“互联网+农产品流通”模式的视角下,农产品流通环节面临数据量大、数据来源广泛、数据类型多样、数据结构复杂,难以使用传统的方法进行数据的处理和分析等问题。近些年来,随着大数据技术的不断推进,运用大数据技术深入剖析并且有效地整合散落在各处的农产品流通过程中产生的大量数据,进行科学的分析研判,以提高农产品资源利用率和流通效率,已成为大家关注的热点和政府决策的重点。因此,通过“大数据+产业”策略,构建一个农产品流通大数据分析平台,对农产品流通环节进行多个维度(包括农产品流通成本、农产品市场、农产品流通模式、农产品流通区域、农产品运输方式等)的分析和预测,完善农产品流通供应链,使农户、中小型农商企业更加了解农产品信息,帮助农户、农商精准营销。
1 农业大数据
1.1 农业大数据简述
随着信息技术的迅速发展,农业与信息技术的结合已逐渐成为农业发展的新模式。在农业物联网新模式中,农业数据类型和数量正以惊人的速度增长。物联网技术的飞速发展,产生了大量的数据,是大数据发展的源泉,同时,大数据也使物联网的发展价值得到了极大的提升空间,它们之间是相辅相成,互相成就的关系。在我国农业信息化的建设中,越来越多的以物联网传感器为基础的终端设备应用到农业中采集大量的数据,形成了农业大数据集,这些农业大数据集具有时间性、区域性、季节性等特点。从数据结构上来讲,这些数据的结构复杂,既有结构化数据,又有半结构化和非结构化数据,这就使海量数据在存储及分析方面存在了问题。近些年来,随着大数据技术的不断的推进,这些问题得到很好的解决,运用大数据思维模式对农产品从种植到生产、加工再到流通各环节的数据进行深入的剖析,使农业大数据的应用得到了很好的提升。
1.2 農业大数据作用
当前,从我国信息化社会建设的视角出发分析,大数据与产业的结合是未来信息化发展的趋势。大数据与农业相关学科进行结合互融,会对我国农业科研的现代化发展、政府宏观战略决策以及涉农企业等领域起到决定性的作用,同时能够提供全新的思维模式,加快了我国农业信息化的建设。
1.2.1 大数据助力农产品流通。农产品流通是连接农产品生产与消费的纽带。利用农业大数据技术,可以实现农产品流通在生产、运输、包装、装卸、搬运、储存和加工配送等各个环节信息的透明化,追溯农产品流通的整个过程,很好地解决了传统农产品流通各环节中存在的问题。与此同时,还可以更好地预测农产品供需端、产销端的平衡关系,并且通过这些数据的分析,用于指导农户对农产品生产作出决策,维持市场平衡发展,防止农产品价格指数波动过大,避免农户承受巨大损失。而且,按照预测,还能够按需调配生产资料,经过充分调配,可有效防止生产资料的产能过剩或短缺。同时,运用大数据技术还能够有效的降低农产品追踪和监测的复杂性,从而提高仓库、运输、交易等各个环节的运营质量。
1.2.2 大数据实现农业数据资源共享。利用卫星定位和物联网传感器设备采集农产品的生长环境、生产产量、加工存储、农产品安全质量检测、市场流通等数据,利用大数据技术设计开发出农业大数据信息资源共享系统,让农民人人了解信息技术,促进农村信息化建设,推进物联网、大数据与农业的深度结合,从而实现农业大数据共享。
2 大数据技术
当今社会,大数据技术广泛使用,它包含了海量复杂结构的数据存储技术(HDFS、HBase)、大型数据集的分析技术(Hive),以及数据可视化技术(Echarts)等。目前,以Hadoop生态圈代表的大数据技术,占领了市场的主导地位。
2.1 Hadoop技术
Hadoop从狭义的角度讲,它是一个可以运行在大规模廉价的计算机集群上的大数据框架,它包括一个分布式文件系统HDFS、一个离线计算框架MapReduce,在Hadoop 2.0之后还增加了一个资源管理器Yarn。由于Hadoop是一个开源的计算框架,它有足够强大的社群作为支撑,发展至今已经形成了Hadoop生态体系,也就是宏观角度上的Hadoop,它在其原有的基础上还包含了Hive、HBase、Pig、Chukwa、Avro、Zookeeper、Mahout等模块。下面重点谈一下HDFS、MapReduce、Hive、HBase等技术。
2.2 HDFS技术
HDFS是基于Hadoop框架下的分布式文件系统,它是在谷歌文件系统GFS的基础上实现了开源,用于将数据存储在廉价计算机集群上并进行管理,适用于大规模数据的存储并且具有高容错性、高吞吐量等优点,还提供了多种访问模式。HDFS在设计上更多的考虑到了数据的批处理,而不是用户交互处理。
2.3 MapReduce技术
MapReduce是Hadoop的框架的重要组成部分,是一个基于Google公司开源实现的分布式计算框架,谷歌的MapReduce运行在分布式文件系统GFS上,而Hadoop MapReduce则运行在分布式文件系统HDFS上,可以存放和分析各种原始数据格式。它具有易于使用、良好的伸缩性、适用于大规模数据处理等特点。在传统编程时,程序员需要掌握大量的编程细节,而MapReduce能够将很多繁琐的细节隐藏起来,即使没有经验的程序员也能够很容易的掌握。
2.4 Hive技术
Hive是Hadoop架构的一个数据仓库工具,可以将结构化的数据集映射成为一张数据库表,进行SQL分析查询。Hive所有的数据都存储在HDFS,使用的计算模型是MapReduce。它本身没有特定的数据存储格式,也没有建立索引,具有熟知,快速,可扩展等特点。
2.5 HBase技术
HBase是Hadoop Database的简称,一个分布式的、面向列的开源数据库,属于NoSQL数据库的一种,可以用来存储一些非结构化的数据,用户可以给行定义一些各种不同的列。HBase提供了Native Java API、HBase Shell、Thrift Gateway、REST Gateway、Pig、Hive等多种访问接口类型,适合特定的场景使用。它的特点是弥补Hadoop的实时性操作,执行效率高,适用于索引方式的访问。
3 农产品流通大数据分析平台构建
3.1 平台总体框架
本文结合大数据理论方法,运用了Hadoop技术框架、Hive数据分析技术,构建了农产品流通大数据分析平台,其包括4个部分:大数据采集、大数据存储及处理、大数据分析、数据可视化。其中平台总体架构如图1所示:
3.2 大数据采集
由于大数据来源类型广泛,大数据采集是对不同业务系统中的结构化数据、日志文件的半结构化数据和非结构化的数据进行采集。
3.3 大数据存储及处理
3.3.1 大数据存储。利用大数据技术、分布式存储技术将多个数据源获取的数据进行整合并存储在HDFS中。相对于传统的本地文件系统,HDFS是通过网络实现存储,可将大规模不同数据类型的数据存储在多台廉价的计算机上。
3.3.2 大数据处理。要对大规模的数据进行科学的分析,由于所采集的数据里不是所有的信息都是必需的,而是掺杂了很多无效数据。所以,将海量数据存储在分布式存储集群之后,在此基础上运用MapReduce做一些简单的预处理工作。
3.4 大数据分析
大数据分析是整个平台的核心内容,用Hive大数据分析技术对农产品流通模式、农产品流通成本、农产品价格、农产品流通地区、农产品运输方式等多个维度进行分析挖掘,帮助农户更加精準的营销,提高农产品流通率。
3.5 数据可视化
数据通常是枯燥乏味的,相对而言,人们对于大小、图形、颜色等怀有更加浓厚的兴趣。利用Echarts数据可视化技术,将分析后的数据以柱状图、饼图、折线图、条形图、面积图、散点图、气泡图、烛台图等形式呈现给用户,为用户提供更加友好的平台使用体验,帮助用户更好的理解数据。
4 结语
本文讨论了农产品流通大数据分析平台的构建,是运用大数据技术Hadoop集群进行实现的,将农产品流通各个环节产生的海量数据存储在HDFS分布式文件系统,采用MapReduce进行并行计算且与Hive相结合进行多维度数据分析,最后将枯燥乏味的数据通过Echarts动态可视化的呈现出来,帮助用户更好的理解和分析数据。该平台解决了传统分析平台存储数据量小、数据结构单一等问题,由此可见,基于大数据技术的分析平台必将成为未来的发展趋势。同时,在大数据分析过程中使用相应的数据挖掘算法对数据进行实时分析,成为下一步研究的重点。
[参考文献]
[1] 王宏宇.Hadoop平台在云计算中的应用[J].软件,2011(4):36-38.
[2] 谢晴.大数据助力农产品流通[J].中国农村科技,2014(12):23-25.
[3] 李响.基于Hadoop的云计算基础架构分析[J].计算机时代,2011(11):20-22.
[4] 杨艳梅.基于Hadoop的应用系统框架IMSAA的设计与实现[D].天津:天津大学,2018.