APP下载

基于云计算的柑橘市场信息预测平台构建研究*

2016-10-14黄晓英

中国农业信息 2016年14期
关键词:柑橘数据挖掘节点

王 聪,黄晓英

(浙江农林大学暨阳学院,绍兴 311800)

基于云计算的柑橘市场信息预测平台构建研究*

王 聪,黄晓英

(浙江农林大学暨阳学院,绍兴 311800)

文章设计了一种基于Hadoop的柑橘市场信息预测平台,根据往年的柑橘产量、柑橘消费量、进出口量、库存量等,通过Apriori算法在云计算平台Hadoop下实现对影响柑橘价格的各类影响因素和柑橘市场信息之间的关联分析,根据得出的关联性和置信度预测柑橘价格和产量,以此构建柑橘市场信息预测平台,对柑橘价格和产量进行预测。

云计算 数据挖掘 Hadoop 柑橘

目前,中国柑橘生产面积已跃居世界第一,柑橘产业已经成为中国农业生产的重要力量,在发展的过程中,也面临一系列问题。由于柑橘产量与需求的不平衡,使得柑橘的销售和增收困难,柑橘价格长期剧烈的波动,使得柑橘种植商的利润波动大,当柑橘生产量远远大于供应量时,就会出现柑橘滞销、价格低廉,相反就会出现供不应求的情况。如果通过数据挖掘技术,分析柑橘市场每年的供求关系,提前知晓柑橘未来供需缺口的变化,能够为柑橘生产、消费、进出口制定相应对策提供依据的同时,保证柑橘市场的供需平衡,具有重要的意义。

1 数据挖掘与云计算

随着数据量不断的剧增,传统的数据挖掘算法和分析工具在面临海量数据时,出现挖掘效率低的问题,由于已有的数据挖掘大多基于传统的单机模式,无法高效的处理海量数据。同时,扩展已有的挖掘体系,会造成人力物力成本上升,很多中小企业无法承担如此高昂的成本,而且,数据挖掘成本高,效率低。

云计算的出现,给数据挖掘带来新的方向。基于云计算的数据挖掘,具有在计算能力、存储能力、可靠性、价格低等优点,迅速地得到广泛应用。云计算挖掘平台可以分为3层,包括数据挖掘云服务层、数据挖掘分析层和云计算支持平台。云服务层通过网络连接,为云用户提供云资源例如挖掘算法服务、数据预处理服务、数据服务、调度服务等;数据挖掘能力层包括数据并行处理、调度引擎等;云计算支持平台提供分布式存储和计算能力,为数据挖掘提供物理支持。如图1所示。

2 基于Hadoop的柑橘市场信息预测平台设计

2.1 系统设计目标

目前,市场上柑橘种类繁多,柑橘数据来源收受域约束,分布比较分散。同时,这些数据具有时效性,在移动互联网和各种物联网的发展下,柑橘的数据量剧增,如果采用传统数据挖掘体系,无法很好地完成挖掘功能。因此,文章采用基于云计算的Hadoop下的云计算方式进行平台设计。

该系统设计基于云计算的市场信息预测平台要满足以下需求。

(1)存储具有可扩展性。在存储层,存储节点具有可扩展性,由于柑橘数据来源多样,且很多异构数据。因此,该文采用非关系型数据库系统的存储模式存储数据,存储方式采用分布式,便于灵活地进行系统扩容和系统伸缩。

(2)集成化、可定制的数据挖掘能力。用户可以根据实际添加所需要的算法,因此系统实现了可定制的数据挖掘能力。

(3)友好的用户展示界面。能够直观地显示数据挖掘结果,用户可以轻而易举地理解挖掘的含义。

因此,该设计基于云计算的柑橘市场信息预测平台,具有可靠、高效、性能好、可扩展的特点。

2.2 设计思路及方案

文章设计了基于Hadoop的柑橘市场信息预测平台,利用Hadoop的强大计算能力和存储能力,达到以上系统设计目标。

其设计思路是:利用Hadoop的特性,将数据挖掘中需要大的计算能力的算法扩展到Hadoop集群的各个节点上,利用并行计算能力进行数据挖掘工作,提高挖掘效率。采用分层设计思想,存储层使用HDFS存储文件和数据,通过Map Reduce计算模型来执行海量数据挖掘。

根据设计思路和云计算数据挖掘模型,通过分层设计思想,自顶向下的调用下层结构,最顶层是用户和系统的交互层;中间层是业务处理层,提供基础计算框架和业务逻辑处理;最底层为存储层,提供分布式存储。

2.3 系统模块功能

数据管理框架。数据管理层建立在Hadoop下的HDFS文件系统之上,提供并行数据访问和高效、可扩展的存储服务。当系统存储能力不足时,可以在不影响已有数据情况下,添加新的存储节点。通过多副本存储机制保障数据安全,即使有节点出现存储失效,通过副本机制将失效节点数据转移到其他节点。

图1 基于云计算的数据挖掘

基础计算框架。Map Reduce为系统的基础计算框架,它可以隐藏底层设计细节,通过简单的对外接口,实现各种并行计算能力,并且具有很好的扩展性和伸缩性,可以根据实际需求增加或者删除节点。

算法管理。用户通过算法管理模块查看系统提供的算法,并且可以上传自己设计的算法,实现可定制化的数据挖掘能力。

页面展示。通过友好的方式展示数据挖掘结果。

数据加载块。由于数据种类繁多,且来源不同,数据加载模块将来源各异的数据在数据集管理模块中进行注册,然后存储到HDFS文件系统。

数据挖掘算法模块。提供各种并行挖掘算法,是基于算法管理模块的扩展。

数据挖掘。是系统的核心模块,通过调用业务层的Map Reduce计算框架,提供高效的数据挖掘服务。

3 基于Hadoop的柑橘市场信息预测平台构建

3.1 Hadoop平台搭建

平台采用B/S架构,前台采用JSP作为开发语言;后台选择java语言,采用Tomcat服务器;数据存储采用MySQL和Hadoop的HDFS;Hadoop采用4台PC机器作为数据节点。所有机器配置:4台HP刀片服务器组成一个内部往来,建立一个 4个节点的Hadoop集群。其中 1个节点作为 Master,其余3 个节点作为 Slave,各个节点通过100M网卡进行数据访问。Master节点服务器CPU:Inter(R)Xeon(R)E5620 2.4GHz 4*4核,Memory:6GB,Disk:500G*8。Salve节 点 服 务 器 CPU:Inter (R)Xeon(TM)3.00GHZ 4核,Memory:1GB,Disk: 146.8G*2。每台服务器上安装OS:64 bit CentOS6.2,Hadoop 版本1.0.3和Eclipse版本4.3.1。Hadoop默认参数配置Block为64M,备份数为3。

3.2 预测模型构建

文章采用关联规则分析中的Apriori算法,对柑橘价格和产量进行分析和预测,主要通过Apriori算法,找出影响柑橘价格和产量之间的置信度,通过置信度构建柑橘市场分析模型,以置信度计算柑橘市场信息。

基于Apriori算法的柑橘市场价格预测模型,如图3.1所示。整个柑橘价格是建立在2005~2015年的柑橘价格指数、生产量指数、世界柑橘价格指数等基层上,通过我国《中国统计年鉴》发布的数据,导入这10年的柑橘指数作为预测模型基础。利用这些数据构建数据挖掘模型,利用Apriori算法对这些数据进行挖掘分析,得到各种因素对柑橘价格和产量之间的置信度,然后通过计算模型,实现对柑橘价格和产量的预测(图2)。

3.3 Hadoop数据预处理

影响柑橘市场的数据主要有柑橘产量、柑橘消费量、进出口量、库存量等,文章主要通过这些数据,构建柑橘市场预测模型。由于库存量没有统计数据,因此,文章不考虑柑橘的库存量对市场影响。

(1)柑橘产量。柑橘产量数据来源于《中国统计年鉴》。

(2)柑橘消费量,数据来源于《中国农村统计年鉴》,根据家庭人均水果消费量,计算出柑橘中国国内消费数据。

(3)柑橘出口量,数据来源于联合国贸易数据库。

(4)国民消费价格指数,国家统计局获取。

将以上数据存储到预测模型的数据仓库中,在单机模式下Apriori算法执行效率低,因此,采用云平台方法,通过Hadoop实现Apriori算法。在计算过程中,首先将这些数据处理成Html格式存储到Hadoop中,使用MapReduce对柑橘价格影响因素数据进行提取,之后将Apriori算法预测模型与Hadoop云计算框架关联。

图2 柑橘市场预测模型

图3 基于Hadoop的柑橘市场预测模型

4 基于Hadoop的柑橘市场信息预测

经过数据预处理之后,结合Hadoop云计算框架,设计基于Hadoop云计算处理的柑橘市场预测模型,如图4.1所示,将Hadoop云计算框架部署在Linux虚拟机上,通过Hadoop框架构建整个预测系统,然后设计Hadoop并行Apriori处理任务,将Apriori算法挖掘任务分成多个并行任务,分布到各个计算节点进行处理。同时,通过预处理模块,从柑橘市场预测数据系统中,导入柑橘产量、柑橘消费量、进出口量、库存量、居民消费指数到HDFS文件系统中,为Hadoop执行Apriori算法提供数据支持,最大限度地提高Apriori算法的执行效率,最后通过Apriori算法得到各个影响因素,对粮食价格和年产量的置信度,交给柑橘市场预测模块,进行计算,得到柑橘年产量和价格预测值(图3)。

以上述模型为依托,从而搭建基于Hadoop的柑橘市场信息预测平台。

[1] 陈康,郑纬民.云计算系统实例与研究现状.软件学报,2009,20(5):1337~1348

[2] 陈全,邓倩妮.云计算及其关键技术.计算机应用,2009,29(9):2562~2567

[3] 张建勋,古志民,郑超.云计算研究进展综述.计算机应用研究,2010,27(2):429~433

[4] 何劲,祁春节.中国柑橘生产成本和市场价格变动的实证研究.浙江柑橘,2009,26(1):2~7

[5] 汪晓银.中国柑橘市场预警研究.华中农业大学,2013

[6] Witten,Frank I H.Data Mining.Practical Machine Learning Tools & Techniques with Java Implementations,2011,13(4):95~97

[7] 刘永平,郭小波,胡坤伦.采用云计算对粮食价格进行分析和预测.现代食品,2015,(21)

[8] Azuaje F. Witten IH,Frank E: Data Mining: Practical Machine Learning Tools and Techniques. Biomedical Engineering Online,2006,5(1):1~2

[9] 孙吉红,彭林,邹秋霞.基于云计算平台的智能预测模型研究.农业网络信息,2014,(1):43~46

[10] 徐懿瑾.基于数据挖掘的移动中高端用户流失预警分析.上海交通大学,2010

[11] Han J,Kamber M. Data Mining: Concepts and Techniques. Data Mining Concepts Models Methods & Algorithms Second Edition,2000,5(4):1~18

[12] 李佳鍞.基于云计算和数据挖掘技术的中小企业风险预测模型研究.厦门大学,2012

[13] Chen M S,Han J,Yu P S. Data Mining: An Overview from a Database Perspective. IEEE Transactions on Knowledge & Data Engineering,1996,8(6):866~883

[14] Romero C,Ventura S,Garc í a E. Data mining in course management systems: Moodle case study and tutorial. Computers & Education,2008,51(1):368~384

[15] White T. Hadoop : the definitive guide. O’reilly Media Inc Gravenstein Highway North,2010,215(11):1 ~ 4

[16] O’Driscoll A,Daugelaite J,Sleator R D. ‘Big data’,Hadoop and cloud computing in genomics. Journal of Biomedical Informatics,2013,46(5):774~781

[17] Borthakur D,Gray J,Sarma J S,et al. Apache hadoop goes realtime at Facebook// Proceedings of the 2011 ACM SIGMOD International Conference on Management of data. ACM,2011:1071~1080

[18] Dean J,Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters.. In Proceedings of Operating Systems Design and Implementation OSDI,2004,51(1):107~113

[19] Dean B J. et al .MapReduce:Simplifieddataprocessing on large clusters. Osdi’,2010,51(1):107~113

[20] 覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生. 软件学报,2012,23(1):32~45

[21] 孙广中,肖锋,熊曦. MapReduce模型的调度及容错机制研究. 微电子学与计算机,2007,24(9):178~180

[22] 孙广中,肖锋,熊曦. MapReduce模型的调度及容错机制研究.全国开放式分布与并行计算机学术会议,2007:178~180

[23] 万至臻.基于MapReduce模型的并行计算平台的设计与实现.浙江大学,2008

[24] 陈艳金. MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进.华南理工大学,2011

[25] 钟晓,马少平,等.数据挖掘综述.模式识别与人工智能,2001,14(1):48~55

[26] 程苗.基于云计算的Web数据挖掘.计算机科学,2011,(Z1):146~149

[27] 王鄂,李铭.云计算下的海量数据挖掘研究.现代计算机:专业版,2009,(11):22~25

[28] 纪俊.一种基于云计算的数据挖掘平台架构设计与实现.青岛大学,2009

[29] 李军华.云计算及若干数据挖掘算法的MapReduce化研究.电子科技大学,2010

[30] 贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究.微机发展,2013,(2):69~72

教育部人文社科基金项目(12YJA870008);浙江农林大学暨阳学院大学生科技创新项目(TMKC1442)

猜你喜欢

柑橘数据挖掘节点
CM节点控制在船舶上的应用
探讨人工智能与数据挖掘发展趋势
基于AutoCAD的门窗节点图快速构建
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
概念格的一种并行构造算法
丹江口柑橘价格“破纪录”啦
“五及时”柑橘冻害恢复技术
2016年春黄岩区柑橘冻害调查
《浙江柑橘》(第32卷)2015年总目次
抓住人才培养的关键节点