基于Hadoop农产品价格分析平台
2017-10-13黄启航曾广新谢建行
□黄启航 曾广新 谢建行 赵 永
(海南易鼎天成电子科技有限公司 海南 571100)
基于Hadoop农产品价格分析平台
□黄启航 曾广新 谢建行 赵 永
(海南易鼎天成电子科技有限公司 海南 571100)
农产品价格分析平台是基于Hadoop分布式文件系统和并行计算方法设计的大数据背景下海南农产品价格分析及预测平台,主要是针对海南农产品历史价格信息及气候或自然灾害等影响价格波动的因素进行大数据分析,并预测未来几天的价格波动趋势,从而达到价格预警的作用,并为相关部门提供决策支持。
农产品;大数据;分析预测;数据分析;hadoop
近年来,农产品价格的大幅度上升和频繁波动,成为影响了农业生产者决策又影响了消费者生活的重大经济问题。为了保障生活质量,对农产品价格波动要做出预测和防范,对未来农产品价格波动做出分析,才能够很好的防范市场价格的变动,生活质量才得以保障。如何对农产品价格分析就成为本次讨论的课题,首先,要深入多个区域的市场调查,找出影响农产品价格的因素,把各类因素进行统计,根据各影响因素的数据进行分析运算,最后得出未来农产品价格的趋向波动。
1 分析农产品价格背景
随着社会突飞猛进的发展,农产品需求不仅仅表现在食用上,饲料使用、酒精、淀粉等工业深加工所占比重逐步增加,农产品的用途是越来越广,如果在产量方面出现了缺失将会大大影响到农产品的价格波动。据相关数据表明,2015年海南省海口市出现空心菜二十五元一斤、香菜三十元一斤等农产品价格波动较高的现象,已经打破了人们常识中肉比菜贵的印象,对于这些突如其来的价格是难以理解和无法接受的。然而有时候农产品的价格又过于低落,在过去,市场上曾经出现过一毛钱一斤的白菜还无人问津,这样的现象对于菜农来说是很大的打击。因此,菜贵伤民、菜贱伤农,农产品价格的频繁波动会直接影响到人们的生活,为了防止菜贵伤民、菜贱伤农现象的发生,所以,分析农产品价格、抓住农产品价格走向是当今急需解决的问题。
2 如何分析农产品价格
要对农产品价格进行分析就要找出影响农产品价格的因素,根据影响因素的历史数据为依据,结合相关算法,分析得出结果。影响到农产品价格的因素有很多,如:产量、气象、品种类型等,各个地区相同的农产品在价格上也有差异,要对各个地区的农产品价格进行分析,就要收集各个地区的历史农产品产量数据信息、历史气象数据信息和历史品种价格数据信息,这些信息量的特点是规模巨大,一般分布比较分散,分布式的组织和管理成为一种必要的手段。
Hadoop作为一种开源的架构适合使用在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性。本文在研究开源框架Hadoop的基础上,开发实现基于Hadoop农产品价格分析平台。
2.1 平台结构与功能
农产品价格分析平台的设计目标是实现多区域多品种的价格分析、数据管理与信息服务。平台由数据采集系统、大数据管理分析系统、信息服务平台三个部分组成。平台在设计上采用分布式、分层结构,将采集到的数据进行分析集群于数据集市(Data Mark)中,数据集市(Data Mark)与信息服务平台构成映射检索关系,信息服务平台主要是为用户提供服务。平台结构如图1所示。
图1 系统结构与功能模块
2.2 数据采集系统
数据采集系统主要实现数据源的采集和清洗,数据采集系统根据指定网站URL进行大规模的过滤挖掘网站公开数据,将各数据类型从来源端把数据进行清洗,根据数据类型的不同清洗过程也不同,数据经过抽取(Extract)、转换(Transform)、加载(Load)至数据仓库,清洗技术简称ETL;或经过解析(Parsing)、转换(Transform)、加载(Load)至数据仓库,简称 PTL。基本流程如图2所示。
图2 数据采集系统结构图
2.3 大数据管理分析系统
大数据管理系统主要包括数据分析和数据管理两个模块,数据分析首先要从数据仓库中提取出需要分析的数据,每分析某个地区的某个农产品价格都需要很大的数据量,当同时分析多条数据时,要从海量的数据仓库中提取分析的数据源就会更多,系统运行也会很慢,导致分析过程的时间很长,采用Hadoop分布式来进行数据提取分析,将会大大缩短分析过程的时间,工作效率也提高很多。如图3中所示,Hadoop分布式分析模块中有各种数据(气象数据、价格数据等)对应的解析引擎,解析引擎将快速的检索提取出全部同一类型的数据,Hadoop分布式分析模块中的适配器再把这一类数据进行整合有序排列,适配器整合好的数据传输到匹配器中,匹配器根据日期匹配对应时间上各地区的各农产品价格和各气象状况和各农产品产量等信息结合起来(如图4所示),存储于局部存储库中。数据解析模块根据区域名称和品种类型名称,从局部存储库中提取出需要分析的某个地区某个品种的全部历史信息,数据解析模块运用滤波算法和复杂的数学计算对提取到的数据进行运算分析,最后将分析出来的结果存储于数据集市(Data Mark)中。
图3 大数据管理系统结构图
图4 数据整合信息图
2.4 信息服务平台
信息服务平台主要是为用户提供信息服务,为用户提供分析未来的数据信息查询、消息推送、产品展示等服务,在数据集市(Data Mark)中存储着已经分析出来的结果数据,信息服务平台只需要和数据集市(Data Mark)建立一种检索查询的关系,就可以实现用户信息服务。
3 平台实现关键技术
对于市场变幻莫测的农产品价格,常常出现同一类型农产品在不同市场存在着很大的差异,也受天气、台风的影响,因此,很多农产品的价格台高了很多,也曾出现过一天一个菜价的形式,这些状况在生活中出现时都是难以接受的。为了对以上各种状况的出现做出一定的预测和预防准备,该平台每天都对各个市场农产品的价格信息不断的收集,及结合以前的历史价格信息,以及气象对农产品价格产生影响度的信息,统一起来做一系列的分析运算,分析预测出未来可能出现的价位,实现对自然灾害和市场变化做出预测结果,起到预防作用。在实现价格分析模块中,分析每一个品种价格时需要提取的数据量都很大,同时分析多个农产品价格时需要提取的数据量就更大,以传统的查询提取方法会花费很多时间,降低工作效率,选用Hadoop框架,构建了基于HDFS的文件存储系统,并对原始的大文件进行分块,然后为分块设计存储管理策略,以增强对数据集的并发读写能力。
4 平台实现及其效果
4.1 平台实现
本平台采集各个大小市场零散的价格数据信息,以及影响农产品价格因素信息,把各种信息集群于数据仓库中分类存储和管理,数据的管理和调度通过Hadoop分布式方式进行管理调度,快速的提取数据和分析数据结果。平台在JAVA的Eclipse开发环境上基于组件模式开发实现,用爬虫技术对相关网站的数据进行爬取挖掘,从数据的田头开始采集,时刻跟随着市场的变动;使用PTL、ETL对田头采集的数据进行过滤清洗至数据仓库中,在大数据管理分析系统中,以Hadoop框架实现数据分布式调度和管理,准确快速的提取出需要分析的数据,采用滤波算法和复杂的数学计算对数据进行分析,分析出来的结果存储于数据集市(Data Mark)中;数据集市(Data Mark)与信息服务平台构建一种检索查询的方式为用户提供服务。
4.2 实验效果
在部署好的系统中进行相关的实验,验证本文提出的基于Hadoop农产品价格分析是否实现未来价格的分析。
环境配置如下,CPU:3.30GHz;硬盘:500GB;内存:8GB;以太网卡:11MB/S;操作系统:Windows7。实验开始由一个蔬菜网站源头的URL和一个气象网站源头的URL进行数据爬取采集,每个网站都有大量的子URL,平台以树状型的形式不断循环过滤URL对每一个URL进行爬取挖掘数据,经过对源头挖掘的数据进行过滤清洗,再提取出分析的数据进行分析,将分析出来的结果在信息服务平台上展示,如图5所示。
图5 分析曲线统计图
图6 农产品价格信息表图
图5中实现部分的为历史价格,虚线部分为分析的未来价格,图中展示的只是某一地区某一品种的预测价格。信息服务平台还以列表形式展示出各地区的所有品种的分析预测价格,展示效果如图6所示。综上信息表明,该平台可以完成农产品价格的分析。
结束语
目前,基于Hadoop农产品价格分析平台已经研发完成,也成功通过测试现实了农产品价格分析,即将投入于社会中使用,该平台的预测结果会给予相关部门作为价格参照模型,预防出现较大价格波动时,能够有效的对农产品价格出现过大波动做出相应的预防策略。在今后,该平台也会对社会的需求而不断的改进和开发出新的功能模块,让平台不断的扩大和推广。
[1]大数据思维与决策[N].人民邮电出版社.
[2]大数据处理之道[N].电子工业出版社.
[3]Hadoop权威指南[N].清华大学出版社.
1004-7026(2017)19-0045-03
TP311.13
A
10.16675/j.cnki.cn14-1065/f.2017.19.029
2015年度海南省产学研一体化专项项目(cxy20150037)。
黄启航(1975.12-),男,海南省儋州人,本科,工程师,海南易鼎天成电子科技有限公司软件技术经理。
曾广新(1964.12-),男,海南海口市人,本科,高级工程师,海南省科学技术信息研究所副所长。
谢建行(1976.1-),男,海南省儋州人,研究生,工程师,海南易鼎天成电子科技有限公司软件技术经理。
赵 永(1987.7-),男,江苏省南京市人,研究生,博士生,海南省科学技术信息研究所科员。