大数据分析与处理浅谈
2015-05-30李张帆黄泽寅胡志洪
李张帆 黄泽寅 胡志洪
越来越多的应用涉及到大数据。互联网大发展,特别是社交网络的出现,推动了大数据时代的到来。大数据作为时下最热门的IT行业词汇之一,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。本文介绍了大数据、大数据分析与处理,并展望了大数据的发展前景。
一、大数据简介
大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统软件工具对其内容进行抓取、管理和处理。大数据需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。大数据具有大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)等四大特点。
(一)大量:存储量和计算量从TB级别,跃升到PB级别。
(二)多样:数据来源多,数据格式多。包括网络日志、视频、图片、地理位置信息等。
(三)高速:数据增长速度快,处理速度要求快,可从各种类型的数据中快速获得高价值的信息。
(四)价值:以视频为例,连续不间断的过程中,可能有用的数据仅仅有一两秒,但这短暂的几秒信息却可能是我们最需要的。
二、大数据分析
大数据分析是指对规模巨大的数据进行分析。只有通过数据分析才能获取很多智能的、深入的、有价值的信息。大数据分析包括五个基本方面:
(一)可视化分析
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,能够非常容易被用户所接受。
(二)数据挖掘算法
大数据分析的理论核心就是数据挖掘算法,集群、分割、孤立点分析还有其他的算法能深入数据内部,挖掘价值。数据挖掘算法不仅要处理大数据的量,也要处理大数据的速度。
(三)预测性分析能力
预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。预测性分析从大数据中挖掘出特点,通过科学建模,模型带入新的数据,从而预测未来的数据。
(四)语义引擎
由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析、提取、分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
(五)数据质量和数据管理
通过标准化的流程和工具,采集高质量的数据并进行有效的数据管理,可以保证高质量的分析结果。
三、大数据处理
具体的大数据处理方法有很多,但是基本处理流程可以分为四个步骤,分别是采集、导入和预处理、统计和分析,以及挖掘。
(一)采集
大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库进行简单的查询和处理工作。传统的关系型数据库和NoSQL数据库常用于数据的采集。采集的主要特点是并发数高,所以需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计的。
(二)导入和预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的主要特点是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(三)统计和分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以此满足大多数常见的分析需求。一些实时性分析会用到InfoBright和Oracle Exadata等产品,而一些批处理或者基于半结构化数据的需求可以使用Hadoop。統计与分析的主要特点是分析涉及的数据量大,查询涉及的数据量大,查询请求多,对系统资源会有极大的占用。
(四)挖掘
数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现一些高级别数据分析的需求。比较经典的算法有用于聚类的K-Means,用于统计的支持向量机SVM,和用于分类的NaiveBayes。挖掘过程的主要特点是用于挖掘的算法复杂、并且计算涉及的数据量和计算量都很大。
四、大数据发展前景
大数据在政府公共服务、医疗服务、零售业、制造业、以及涉及个人位置服务等领域都将带来可观的价值。大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。大数据将促进传统企业与互联网的融合,对大数据进行精准化分析和挖掘,是大势所趋。
虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生。未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据交叉复用将大数据变成一大产业。