APP下载

大数据精准挖据处理架构及预测模型研究

2016-10-14杨斐艾晓燕张永恒张峰

电子设计工程 2016年12期
关键词:海量神经元架构

杨斐,艾晓燕,张永恒,张峰

(榆林学院信息工程学院,陕西榆林719000)

大数据精准挖据处理架构及预测模型研究

杨斐,艾晓燕,张永恒,张峰

(榆林学院信息工程学院,陕西榆林719000)

为了提高大数据的精准挖据与预测能力,解决传统数据挖据技术无法适应大数据处理环境的问题,利用云计算和大数据处理技术,提出了大数据精准挖据处理架构及基于BP神经网络的预测模型。重点研究了大数据处理平台架构、大数据分析与表达技术、基于BP神经网络的大数据挖据及预测模型。应用结果表明,该方案结合云计算平台和大数据挖掘技术,能够高效的处理海量数据的处理和表达,对于销售数据具有一定的预测能力。

大数据;数据挖据;预测模型;BP神经网络;销售数据

随着各种数据持续爆炸式地增长,出现了多源、异构及海量的数据,如果能够应用当前大数据处理技术来对这些数据进行挖据,会产生具大的价值[1-2]。

大数据的挖据和分析当前企业对信息化的重要组成部分,在2011年第一季度,由Gartner公司的Merv Adrian在Teradata Magazine提出大数据的定义和应用范围,指出大数据是超出当前硬件处理和软件系统处理能力。大数据的处理涉及数据的收集、存储、处理及挖据和分析技术。但是大数据的多源、异构和海量的特征,使得当前的数据分析与挖据方法很难适应这种非结构化的数据存储模式[3-4]。

文中在分析大数据挖据需求的基础上,提出大数据挖据的平台架构及利用BP神经网络方法进行对大数据进行精准挖据与预测。

1 大数据挖据技术框架研究

1.1大数据的特征

大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系[5]。大数据的特点有4个层面:第一,数据体量巨大。从TB级别跃升到PB级别。第二,流动速度快。第三,价值密度低,商业价值高。以视频为例,连续监控过程中,有用的数据仅仅有一两秒。第四,数据种类繁多,如网络日志、视频、图片、地理位置信息等。业界将其归纳为4个“V”--volume、velocity、value、variety[6]。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

1.2大数据挖据处理架构

为了发掘并利用大数据背后隐含的巨大价值,必须对大数据进行有效地组合和管理。从结构特征来讲,大数据可以分为结构化数据和非结构化数据。对于结构化数据,如网络上人工建立的知识库,利用数据生成时的层次化对应关系就能够进行有效地查询和管理,因而人们总是希望在数据生成时就按照特有的结构和模式对数据进行整理。大数据计算的技术内涵包含3个方面:处理海量数据的技术、处理多样化类型的技术、提升数据生成与处理速度的技术。为了更好的精准挖据海量的数据,本文结合当前流行的大数据处理技术,设计了如图1所示的大数据挖据技术框架。

图1 大数据挖据处理架构

在图1所示的大数据挖据平台架构中,底层处理平台应用目前成熟的云计算平台架构,而在大数据处理技术方面,本文结合Hadoop处理平台,对大数据进行清洗和管理。传统的文件存储系统已不能满足大数据存储的需求,大数据计算需要有特定的文件系统以满足海量文件的存储管理、海量大文件的分块存储等功能。

Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Google GFS的一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大文件。整个HDFS系统将由数百或数千个存储着文件数据片断的服务器组成。运行在HDFS之上的应用程序必须流式地访问它们的数据集,它不是典型的运行在常规的文件系统之上的常规程序。运行在HDFS之上的程序有很大量的数据集。这意味着典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。HDFS体系架构如图2所示。

图2 HDFS体系架构

另一个大数据存储技术就是GFS存储技术,GFS是一个大型的、对大量数据进行访问的、可扩展的分布式文件系统。GFS具有实时监测、容错、自动恢复等特点。GFS能够支持超大文件,每个文件通常包含很多应用对象。当经常要处理快速增长的、包含数以万计的对象、长度达TB的数据集时,当处理这些超大超长文件集合时,GFS重新设计了文件块的大小,使其能够有效管理成千上万KB规模的文件块。GFS体系架构如图3所示。

图3 GFS体系架构

在本文提出如图1所示的大数据挖据平台架构中,除了大数据的存储技术外,为了进一步分析大数据内容,还需要实现大数据的表达技术。大数据的表达技术是指在大数据存储基础之上,对特定的不同类型结构化数据进行表示。在大数据时代,NoSQL数据库被大量采用。NoSQL指的是非关系型数据库,是包含大量不同类型结构化数据和非结构化数据的数据存储。由于数据多样性,这些数据存储并不是通过标准SQL进行访问的[7]。NoSQL数据存储方法的主要优点是数据的可扩展性和可用性,以及数据存储的灵活性。典型的NoSQL数据库有Bigtable、HBase等。

BigTable是Google设计的用来处理海量数据的一种非关系型的数据库。BigTable采用一个稀疏的、分布式的、持久化存储的多维度排序图来存储数据。BigTable虽然不是关系型数据库,但是却沿用了很多关系型数据库的术语,像表(Table)、行(Row)、列(Column)等。BigTable的键有三维,分别是行键(Row Key)、列键(Column Key)和时间戳(Timestamp)[8]。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统。

HBase的数据模型如表1所示。

表1 HBase的数据模型

在大数据并行处理技术方面,目前使用MapReduce模型来实现。MapReduce任务的执行流程对用户是透明的。当用户程序调用MapReduce函数,就会引起如下操作,Map Reduce执行流程如图4所示。

从MapReduce的任务执行流程可以看出系统框架将大规模的计算任务进行划分然后将多个子任务指派到多台工作机器上并行执行,从而实现了计算任务的并行化,进而可以进行大规模数据的处理。

图4 MapReduce执行流程图

2 基于人工神经网络的大数据挖据与预测模型

2.1人工神经网络方法分析

人工神经网络对人类神经系统的一种模拟,是指由简单计算单元组成的广泛并行互联的网络,能模拟生物神经系统的结构和功能。组成神经网络的单个神经元的结构简单、功能有限,但是,由大量神经元构成的网络系统可实现强大的功能。尽管人类神经系统规模宏大、结构复杂、功能神奇。但其最基本的处理单元却只有神经元。人类神经系统的功能实际上是通过大量生物神经元的广泛互联,以规模宏大的并行运算来实现的。构成人工神经网络的基本单元是人工神经元。并且,人工神经元的不同结构和模型会对人工神经网络产生一定的影响。人工神经元是对生物神经元的抽象和模拟。所谓抽象是从数学角度而言的,所谓模拟是从其结构和功能角度而言的[9]。1934年心理学家麦卡洛克和数理逻辑学家皮茨根据生物神经元的功能和结构,提出了一个将神经元看成二进制阈值元件的简单模型,即MP模型,如图5所示。

图5 MP神经元模型

在图5中,x1,x2,…,xn表示某一神经元的n个输入;ωi表示表示第i个输入的联结强度,也称为联结权值;θ为神经元的阈值;y为为神经元的输出。可以看出,人工神经元是一个具有多输入,单输出的非线性器件。它的输入为

式中,f称为神经元功能函数,也称作用函数或激励函数;θ称为激活值。

在BP神经网络中,输入向量为设为X=(x1,x2,…,xn),输出向量设为Y=(y1,y2,…,ym),输入层各个输入到相应神经元的联结权值设为ωij(i=1,2,…,n;j=1,2,…,m)。若假设各神经元的阈值分别是θj(j=1,2,…,m),则各神经元的输出yi(j= 1,2,…,m)分别为

式中,由所有联结权值ωij构成的联结权值矩阵W为

在实际应用中,该矩阵是通过大量的训练示例学习而形成的。

2.2基于BP神经网络的库存销售预测

本文实验使用某电子商务网站库存销售数据为预测值,资料取10年共10万多组数据。实验数据在经过大数据处理后,形成结构化数据,部分仿真实验在MATLAB2012a中实验。对应的资料数据项主要包括仓库名称、营业额、员工人数、利润和规模等.对所有的数据使用前需要归一化处理。数据归一化到[-1,1]区间的公式为:

式中,xn和x表示归一化前后的序列值;xmax和xmin分别表示原序列x的最大值和最小值。反归一化公式为

本文使用如下几个统计量评价预测模型的预测精度:

1)平均绝对误差

2)平均相对误差

把前5年51 000组历史数据作为训练样本,每组数据包括20个预测因子和一个原始销售序列值。把后5年共49000组数据作为测试样本,每组数据包括20个输入因子,对每天的销售的数据值进行预测。

通过多次试验,最终确定的BP神经网络的参数选择为:系数0.65,训练目标0.002,隐层最大神经元数600,最后测试数据的真实值和预测值对比图如图6所示。

图6 神经网络模型真实值与预测值对比图

经过计算,BP神经网络的预测精度指标分别为:MAE= 0.021 2,MPAE=22.32%。从曲线图和统计指标来看,BP神经网络模型对于销售序列预测具有一定的预测能力,但是预测的泛化能力还有待提高。

3 结论

文中以大数据处理与挖据平台架构为出发点,研究大数据精准挖据与预测的技术与模型。分析了某电子商务网站库存销售数据,资料取10年共10万多组数据并利用Hadoop技术平台,应用MapReduce对数据进行处理分析,然后应用BP神经网络对数据进行了挖据和预测处理。

[1]戴礼灿.大数据检索及其在图像标注与重构中的应用[D].合肥:中国科学技术大学,2013:20-50.

[2]Katiuscia Sacco,Valetina Galletto,Enrico Blanzieri.How has the 9/11 terrorist attack influenced decision making[J]. Applied Cognitive Psychology,2002(9):1113-1127.

[3]Sarafidis Y.What have you done for me lately Release of information and strategic manipulation of memories[J].The Economic Journal,2007,117(3):307-326.

[4]Heyn T,Mazhar H,Seidl A,et al.Enabling computational dynamics in distributed computing environments using a heterogeneous computing template[C].ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference,2012(8): 227-236.

[5]陈芳.云计算架构下云政府模式研究[D].武汉:武汉大学,2012.

[6]Howe D,Costanzo M,Fey P,et al.Big data:the future of biocuration[J].2008(9):47-50.

[7]Zhang Feng,Xue Hui-Feng.Big data cleaning algorithms in cloud computing[J].International Journal of Online Engineering,2013,9(3):77-81.

[8]LI Zhong-tao,Weis T.Using zone code to manage a contentaddressable network for distributed simula-tions[C]//Proceedings of 2012 IEEE 14th International Conference on Communication Technology:[s.n.],2012:1350-1358.

[9]Wang Feng,Qiu Jie,Yang Jie,et al.Hadoop high availability through metadata replication[C]//Proceeding of the First International Workshop on Cloud Data Management:[s.n.],2009:37-44.

New mining architecture and prediction model for big data

YANG Fei,AI Xiao-yan,ZHANG Yong-heng,ZHANG Feng
(School of Information Engineering,Yulin University,Yulin 719000,China)

In order to improve the accuracy of big data mining and forecasting ability,to solve the traditional data mining technology cannot adapt to big data processing environment problem,using of cloud services and big data processing technology,a new mining architecture and forecast model for big data model based on BP neural network is proposed.The structure of big data processing platform,big data analysis and expression technology and big data mining and prediction model based on BP neural network is designed.Application results show that the scheme combining cloud service platform and big data mining technology can effectively dealing with massive data processing and expression has a certain predictive ability for the sales data.

big data;data mining;prediction model;BP neural network;sales data

TN391

A

1674-6236(2016)12-0029-04

2015-07-08稿件编号:201507072

榆林学院科研项目(14YK38),榆林市科技计划项目(2014cxy-09)

杨斐(1982—),男,陕西榆林人,讲师。研究方向:复杂系统理论与建模,管理系统工程。

猜你喜欢

海量神经元架构
基于FPGA的RNN硬件加速架构
一种傅里叶域海量数据高速谱聚类方法
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
海量快递垃圾正在“围城”——“绿色快递”势在必行
跃动的神经元——波兰Brain Embassy联合办公
WebGIS架构下的地理信息系统构建研究
一个图形所蕴含的“海量”巧题
ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用
一种海量卫星导航轨迹点地图匹配方法