大数据关键处理技术综述*
2016-03-31杨刚杨凯
杨 刚 杨 凯
(陕西理工学院数学与计算机科学学院 汉中 723000)
大数据关键处理技术综述*
杨刚杨凯
(陕西理工学院数学与计算机科学学院汉中723000)
摘要大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,大数据的发展、研究必将改变世界。先简介大数据的概念及其特征、大数据发展历程、大数据与云计算的关系;接着叙述了大数据分析和处理的比较成熟的平台:Spark和Hadoop;然后对大数据处理的若干关键技术:大数据采集、大数据预处理、大数据的存储及管理、大数据的分析和挖掘、大数据的统计分析等进行了较系统的分析、归纳和探讨。
关键词大数据; Hadoop; 数据挖掘; NoSQL数据库
Class NumberTP309
1 引言
现代数据的种类和规模与日俱增,大数据时代已到来。大数据对数据处理的实时性、有效性提出了更高的要求,需要根据大数据特点对传统数据处理技术变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。本文主要归纳、分析大数据处理的若干关键技术。
2 大数据概述
2.1大数据的概念及其特征
大数据不是一种新技术、新产品,而是一种新现象。大数据的概念较为抽象,没有统一、确切的定义。麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[1]。维基百科定义大数据为:巨量数据、海量数据,它指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息[2~3]。
大数据从字面来看,就是大规模的数据,但数量庞大不能准确定义大数据。大数据的定义要符合大数据的特点。当前,较统一的观点是4个特点,即“4V”[4]:数据规模(Volumes)巨大、数据种类(Variety)繁多、数据价值(Value)密度低和数据处理速度(Velocity)快(1秒定律)。
2.2大数据研究的发展历程
2012年3月,奥巴马政府投资2亿美元启动“大数据研究和发展计划”。随后谷歌、Facebook等大数据资源企业优势显现;甲骨文、IBM、微软、Sybase、EMC、Intel等企业陆续推出大数据产品和方案。如甲骨文公司的Oracle NoSQL数据库、IBM公司的InfoSphere BigInsights数据分析平台、微软公司Windows Azure上的HDInsight大数据解决方案、EMC公司的Greenplum UAP大数据引擎等。以HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB为代表的一批大数据通用技术和开源项目迅猛发展。
2.3大数据与云计算
云计算的概念很多,综合其他资料,可以将云计算归纳为[5]:云计算以虚拟化技术为核心,虚拟化技术将共享的硬件和软件资源抽象化成一个统一的资源池,通过互联网这个载体,向用户按需地提供所需的资源。其特点在于多用户共享、大数据处理与大数据存储。
大数据是云计算的灵魂和升级方向,云计算为大数据提供的存储的空间和访问的渠道。大数据与云计算关系十分密切。从整体上看,大数据与云计算是相辅相成的;从技术上看,大数据植根于云计算。云计算与大数据的不同之处在于应用的不同。
3 大数据的主要分析平台
3.1Spark
1) Spark概述
Spark是一种与Hadoop相似的开源集群计算环境,但Spark在某些工作负载方面表现得更加优越。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中Scala可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室开发,可用来构建大型的、低延迟的数据分析应用程序。
2) Spark集群计算架构
虽然Spark与Hadoop有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集的工作负载。为了优化这些类型的工作负载,Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。
Spark还引进了名为弹性分布式数据集(RDD)的抽象。RDD是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建,重建部分数据集的过程依赖于容错机制。RDD被表示为一个Scala对象,并且可以从文件中创建它。
Spark中的应用程序称为驱动程序,这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与Hadoop类似,Spark支持单节点集群或多节点集群。对于多节点操作,Spark依赖于Mesos集群管理器。Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台,该设置允许Spark与Hadoop共存于节点的一个共享池中。
3.2Hadoop
1) Hadoop概述
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。它具有高可靠性、高扩展性、高效性、高容错性、低成本几个优点[6]。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS)。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop框架最核心的设计是HDFS和MapReduce[7]。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。Hadoop平台基于主从式构架,通过Namenode、Datanode、Secondary、Jobtracter和Tasktracker管理,可以运行在几十台乃至几千台计算机上,能够充分利用集群节点巨大的存储和计算资源。
Hadoop强调的是移动计算,HDFS将数据分块存储在集群中不同的节点上。计算前,Namenode分析程序需要的数据存储在集群中的哪些节点;Jobtracter将MapReduce计算任务分配给这些节点上的Tasktracker;Tasktracker启动Map程序,开启计算任务;经过Combiner、Shuffle等过程,在Reduce阶段生成计算结果。
2) Hadoop的构成元素
作为一个分布式数据处理体系架构,Hadoop由很多元素构成,包括HDFS、MapReduce、HBase、Hive、Zookeeper、Avro等,核心部分是HDFS分布式数据存储和MapReduce的数据并存处理机制,下面介绍几个主要的元素。
(1)HDFS
HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。
HDFS默认的最基本的存储单位是64M的数据块。HDFS体系结构中有两类节点,一类是NameNode,又叫“元数据节点”;另一类是DataNode,又叫“数据节点”。这两类节点分别承担Master和Worker具体任务的执行节点。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。
(2)MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。2004年,Google公司最先提出MapReduce技术,作为面向大数据分析和处理的并行计算模型。
MapReduce技术框架包含三层面的内容:分布式文件系统、并行编程模型和并行执行引擎。MapReduce并行编程模型把计算过程分解为两个主要阶段,即Map阶段和Reduce阶段[8]。MapReduce技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的Map函数和Reduce函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据。MapReduce技术是非关系数据管理和分析技术的典型代表。
(3)HBase
HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是一个适合于非结构化数据存储的开源数据库,它在Hadoop之上提供了类似于Bigtable的能力。
4 大数据处理的关键技术
大数据处理关键技术一般包括:大数据采集、预处理、存储及管理、分析及挖掘、可视化分析、统计分析等。
4.1大数据采集技术
大数据中的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化及非结构化的海量数据,它是大数据知识服务模型的根本。
1) 数据采集
数据仓库技术[9](即ETL)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据的主要来源有:管理信息系统(主要为结构化数据)、Web信息系统(非结构化、半结构化数据)、物理信息系统(传感器、多媒体数据)和科学实验系统(仿真数据)等。
2) 大数据采集分层
大数据智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。
4.2大数据预处理技术
大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作。数据抽取过程可以帮助将这些复杂的数据转化为单一的或者便于处理的构型。清洗是指要对数据通过过滤“去噪”从而提取出有效数据。大数据预处理取得进展的技术包括有:Deep Web技术、异构数据集成技术、传感器网络融合技术、Web中实体识别技术等。
1) Deep Web技术
Web可以划分为Surface Web和Deep Web两大部分。Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web[10](深网)又称不可见网、隐藏网,是指互联网上那些不能被标准搜索引擎索引的非表面网络内容。广义上来说,Deep Web的内容主要包含四个方面:通过填写表单形成对后台在线数据库的查询而得到的动态页面;由于缺乏被指向的超链接而没有被搜索引擎索引到的页面;需要注册或其它限制才能访问的内容;Web上可访问的非网页文件,比如图片文件、PDF和Word文档等。
目前的通用搜索引擎不能提供对Deep Web中丰富高质量的信息资源的搜索,必须使用全新的搜索引擎技术。Deep Web搜索引擎是一种对Deep Web中的信息进行搜集、分析处理并提供搜索服务的信息检索机制。Deep Web搜索引擎框架主要由六个模块组成:数据库自动发现模块、用户接口、数据库自动选择模块、数据库自动查询模块、返回结果自动抽取模块、结果聚合模块。
2) 异构数据集成技术
异构数据集成系统为企业解决多平台、多结构数据的集成问题提供了一条解决途径。异构数据不仅指不同的数据库系统之间的数据是异构的,而且还包括不同结构的数据之间的异构。数据集成是对各种异构数据提供统一的表示、存储和管理,因此集成后的异构数据对用户来说是统一的和无差异的。异构数据集成系统的研究涉及的技术有分布式对象技术、XML、面向对象技术等。
目前分布式对象技术主要包括:CORBA(Common Object Request Broker Architecture)标准、Microsoft的COM/DCOM标准以及Sun公司的Java RMI(Java Remote Method Invocation)标准。
CORBA应用程序非常类似于其他面向对象的应用程序。所不同的是,当对象在另一台机器上的时候,客户端和服务器端必须分别通过一个特殊的层来管理网络通信,在客户端称为Stub,在服务器端称为Skeleton,Skeleton与ORB之间通过通信联系。
XML(可扩展标志语言)是特别为Web应用服务的SGML(通用标识语言标准)的一个重要分支。XML是一种中介标示语言,由于XML大大提高了Internet的接入速度和查询检索Web数据的速度,它将逐步成为数据组织和交换的标准。基于XML数据不需要有内部描述就能被交换和处理,用户可以方便地进行本地计算和处理。
3) 传感器网络融合技术
无线传感器网络(Wireless Sensor Networks,WSN)是一种分布式传感网络,它的末梢是可以感知和检查外部世界的传感器。WSN中的传感器通过无线方式通信,WSN的发展受到包括能量供应、存储数据量、数据处理能力、数据传输速率、同步率、系统鲁棒性等诸多条件的限制和挑战。其中,能量供给是WSN的最大挑战。能量和能力都有限的传感器节点如何实现复杂的数据监测和信息报告是WSN中需要解决的首要问题,但可以利用数据融合技术来解决上述问题。
数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。数据融合技术,包括对各种信息源给出的有用信息的采集、传输、综合、过滤、相关及合成,以便辅助人们进行态势或环境判定、规划、探测、验证、诊断等。数据融合的种类主要有:数据层融合、特征层融合和决策层融合。
4.3大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。大数据存储及管理技术的重点内容是开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术;突破大数据索引技术,突破大数据移动、备份、复制等技术。目前出现了几类大数据存储和管理数据库系统,下面进行简单介绍。
1) NoSQL数据库
NoSQL(Not Only SQL)是一项全新的数据库革命性运动。数据库分为关系型数据库、非关系型数据库以及数据库缓存系统[11]。其中非关系型数据库主要指NoSQL数据库,当前主要有以下四种:键值存储数据库、列存储数据库、文档型数据库和图形数据库。
NoSQL数据库在以下几种情况下较适用:(1)数据模型比较简单;(2)需要灵活性更强的IT系统;(3)对数据库性能要求较高;(4)不需要高度的数据一致性;(5)对于给定key,比较容易映射复杂值的环境。
2) 并行数据库
并行数据库是指在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。现有的分区策略有哈希分区、范围分区、循环分区等,在分区存储的表中处理SQL查询需要使用基于分区的执行策略。并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个系统的性能和可用性。
3) NewSQL数据库
NewSQL是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID(即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability))和SQL等特性。
NewSQL系统虽然在的内部结构变化很大,但是它们有两个显着的共同特点:一是它们都支持关系数据模型;二是它们都使用SQL作为其主要的接口。已知的第一个NewSQL系统叫做H-Store,它是一个分布式并行内存数据库系统。
4.4大数据分析及挖掘技术
大数据分析及挖掘技术主要有:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
1) 大数据的分析
大数据的分析是研究大数据的重点,只有通过分析才能获得深入的、有价值的信息。大数据分析的主要内容有:(1)可视化分析。大数据可视化分析系统是通过三维表现技术来表示复杂的信息,实现对海量数据的立体呈现。数据可视化已经提出了许多方法,这些方法可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等。(2)数据挖掘算法。挖掘算法可以深入数据内部,挖掘出公认的价值。(3)预测性分析。通过科学地建立模型,从而预测未来的数据。(4)语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。(5)数据质量和数据管理。高质量的数据和有效的数据管理,能够保证分析结果的真实和有价值。
2) 大数据挖掘技术
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含的人们事先不知道的、但又是潜在有用的信息和知识的过程,数据挖掘有多种分类法。
根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。
根据挖掘方法可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。当前,机器学习研究与应用中最常用的关键技术有:半监督学习、迁移学习、集成学习、贝叶斯网络、决策树、统计学习理论与支持向量机、隐马尔可夫模型、神经网络、k近邻方法、序列分析、聚类、粗糙集理论、回归模型等。其中在大数据分析中,半监督学习、集成学习、迁移学习和概率图模型[12](即GPA)等技术尤为重要。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP(联机分析处理)方法,另外还有面向属性的归纳方法。
4.5大数据统计分析
1) 大数据统计分析流程
大数据统计分析完整的商业智能流程[13]如下:从各种来源的关系型数据库出发,进行提取、转换和整合,将数据输入数据仓库;再锁定目标数据,构造联机分析,形成多维立方体;并进行挖掘数据,发现模式和规律;进行评价、检验得到知识;最后进行可视化设计,得到可视化图表。
2) 统计分析方法的应用
主要采用文献法中的内容分析法,将文字的、非定量的文献某种程度地转化为定量数据,则某些性质的内容就变成可测量和可进行数学运算,提高分析结果的客观性。
对大数据可进行多维度分析,主要基于“分组标志”的统计分组和分布数列整理,得到分组数据的数据结构,展开相关性分析,采取消元降维技术,在相关性分析的基础上进行(多元)回归分析和时间数列的预测分析等[14~15]。对非线性变化进行判断,数据拟合,进行拟合优良的数理趋势模型选择。最后确定效标,评价效度和信度。还可以进行统计检验,进行显著性分析等。数据统计专注于建模及统计分析,通过概率、统计、离散化等数学知识建立合理模型,充分发掘数据内容,其常用工具有SAS、SPSS等。
5 结语
21世纪是大数据的时代,大数据成为变革价值、变革经济的中坚力量,大数据必将改变世界。目前大数据处理涉及的相关技术较繁杂,而且许多关键技术正处于快速发展阶段,这些越发引起了人们研究大数据的难度和兴趣。大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。
参 考 文 献
[1] 严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013(4):1-5.
YAN Xiaofeng, ZHANG Dexin. Big Data Research[J]. Computer Technology and Development,2013(4):1-5.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
MENG Xiaofeng, CI Xiang. Big Data Management: Concepts, Technology, and Challenges[J]. Journal of Computer Research and Development,2013,50(1):146-169.
[3] 马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013,34(2):10-17.
MA Jianguang, JIANG Wei. The Concept, Characteristics and Applications of Big Data[J]. National Defense Science & Technology,2013,34(2):10-17.
[4] 刘鹏,吴兆峰,胡谷雨.大数据——正在发生的深刻变革[J].中兴通讯技术,2013,19(4):2-7.
LIU Peng, WU Zhaofeng, HU Guyu. Big Data is Undergoing Profound Changes[J]. ZTE Technology Journal,2013,19(4):2-7.
[5] 陈杰.大数据场景下的云存储技术与应用[J].中兴通讯技术,2012,18(6):47-51.
CHEN Jie. The Cloud Storage Technology and Application in Large Data Scenarios[J]. ZTE Technology Journal,2012,18(6):47-51.
[6] 任仁.Hadoop在大数据处理中的应用优势分析[J].电子技术与软件工程,2014(15):193-194.
REN Ren. The Application Advantage Analysis of Hadoop in the Processing of Large Data[J]. Electronic Technology & Software Engineering,2014(15):193-194.
[7] 李瑞琴,郑建国.大数据研究:现状、问题、趋势[J].现代商业,2013(36):107-108.
LI Ruiqin, ZHENG Jianguo. Big Data Research: the Status Quo, Problems and Trends[J]. Modern Business,2013(36):107-108.
[8] 覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.
TAN Xiongpai, WANG Huiju, DU Xiaoyong, et al. Big Data Analytics——Competition and Coexistence of RDBMS and Mapreduce[J]. Journal of Software,2012,23(1):32-45.
[9] 项军,雷英杰.数据仓库技术与应用[J].计算机与现代化,2004(11):86-88,91.
XIANG Jun, LEI Yingjie. Data Warehouse Technology and Application[J]. Computer and Modernization,2004(11):86-88,91.
[10] 藕军.Deep web搜索引擎的关键技术[D].合肥:合肥工业大学,2007:34-35.
OU Jun. The Key Technology of Deep Web Search Engine[D]. Hefei: Hefei University of Technology,2007:34-35.
[11] 夏秀峰,赵小磊,孔庆云.MBE与大数据给PDM带来的思考[J].制造业自动化,2013,35(10):70-74.
XIA Xiufeng, ZHAO Xiaolei, KONG Qingyun. The Enlightenment about PDM from MBE and Dig Data[J]. Manufacturing Automation,2013,35(10):70-74.
[12] 陈康,向勇,喻超.大数据时代机器学习的新趋势[J].电信科学,2012(12):88-95.
CHEN Kang, XIANG Yong, YU Chao. The New Trend of Machine Learning in Big Data Era[J]. Telecommunications Science,2012(12):88-95.
[13] 李垚,朱亮,陈国润.Hadoop在数据处理中的应用[J].电信技术,2013(4):34-38.
LI Yao, ZHU Liang, CHEN Guorui. The Application of the Hadoop in Data Processing[J]. Telecommunications Technology,2013(4):34-38.
[14] 吴华斌.大数据的统计分析浅议[J].经济师,2014(10):277-280.
WU Huabin. The Shallow Discussion of Statistical Analysis in Big Data[J]. China Economist,2014(10):277-280.
[15] 宗威,吴峰.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013,33(5):38-43.
ZONG Wei, WU Feng. The Challenge of Data Quality in the Dig Data Era[J]. Journal of Xi’an Jiaotong University(Social Sciences),2013,33(5):38-43.
收稿日期:2015年10月10日,修回日期:2015年11月22日
基金项目:陕西省教育厅科学基金项目(15JK1134)资助。
作者简介:杨刚,男,硕士,副教授,研究方向:应用统计、计算机应用、区域经济等。杨凯,男,研究方向:信息管理与信息系统。
中图分类号TP309
DOI:10.3969/j.issn.1672-9722.2016.04.030
Summary of Big Data Key Processing Technology
YANG GangYANG Kai
(School of Mathematics and Computer Science, Shanxi University of Technology, Hanzhong723000)
AbstractBig data is a disruptive technological revolution, in IT field, after the cloud computing and EPC system network, and big data development and research will change the world. The conceptions and characteristics of big data, its development course, and the relationship between big data and cloud computing are introduced. Then the more mature platform, Spark and Hadoop of big data analysis and processing are described. And some key techniques for big data processing are systematically analyzed, summarized and discussed, such as big data acquisition, big data preprocessing, big data storage and management, big data analysis and mining, and statistical analysis of big data.
Key Wordsbig data, Hadoop, data mining, NoSQL database