APP下载

大数据分析

2014-06-23陈明

计算机教育 2014年5期
关键词:大数据分析数据分析

陈明

摘要:大数据分析是大数据技术的主要应用之一。文章介绍大数据分析的基本方法、类型、步骤、内容和预测分析等。

关键词:数据分析;预测分析;大数据分析

1.概述

数据分析是指收集、处理数据并获取信息的过程。具体地说,数据分析是建立审计分析模型,对数据进行核对、检查、复算、判断等操作,将被审计数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。通过数据分析,我们可以将隐没在杂乱无章的数据中的信息集中、萃取和提炼,进而找出所研究对象的内在规律。

数据分析有极广泛的应用范围。在产品的整个生命周期内,数据分析过程是质量管理体系的支持过程,包括从产品的市场调研到售后服务以及最终处置都需要适当运用数据分析,以提升有效性。如一个企业领导人通过市场调查,分析所得数据判定市场动向,从而制订合适的生产及销售计划。

2.数据分析的基本方法

数据分析的基本方法除了包括较简单数学运算之外,还包含下述几种常用方法。

2.1统计

统计有合计、总计之意,指对某一现象的有关数据进行搜集、整理、计算、分析、解释、表述等。在实际应用中,统计含义一般包括统计工作、统计资料和统计科学。

(1)统计工作。统计工作指利用科学方法对相关数据进行搜集、整理和分析并提供关于社会经济现象数量资料的工作的总称,是统计的基础。统计工作也称统计实践或统计活动。现实生活中,统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括统计设计、统计调查、统计整理和统计分析4个环节。

(2)统计资料。统计资料又称为统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料是通过统计工作获得反映社会经济现象的数据资料的总称,反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编、统计分析报告和其他有关统计信息的载体中。统计资料也包括调查取得的原始资料和经过整理、加工的次级资料。

(3)统计学。统计学是统计工作经验的总结和理论概括,是系统化的知识体系,主要研究搜集、整理和分析统计资料的理论与方法。统计学利用概率论建立数学模型,收集所观察系统的数据,进行量化分析与总结,进而推断和预测,为相关决策提供依据和参考。

统计分析的流程是确定分析目标,收集、整理和分析数据,提出分析报告。

2.2快速傅里叶变换

1965年,Cooley和Tukey提出了计算离散傅里叶变换(DFT)的快速算法——快速傅氏变换(FFT)。FFT根据DFT的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进,将DFT的运算量减少了几个数量级。从此,数字信号处理这门新兴学科也随FFT的出现和发展而迅速发展。根据对序列分解与选取方法的不同而产生了FFT的多种算法,基本算法是基2DIT和基2DIF。FFT在离散傅里叶反变换、线性卷积和线性相关等方面也有重要应用。

2.3平滑和滤波

平滑和滤波是低频增强的空间域滤波技术,其目的是模糊和消除噪音。空间域的平滑和滤波一般采用简单平均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大,平滑的效果越好,但邻域过大,平滑会使边缘信息损失增大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。

2.4基线和峰值

基线是项目储存库中每个工件版本在特定时期的一个快照。它提供一个正式标准,随后的工作基于此标准,只有经过授权后才能变更这个标准。建立一个初始基线后,每次对其进行的变更都将记录为一个差值,直到建成下一个基线。

峰值功率就是最高能支持的功率。电源的峰值功率指电源短时问内能达到的最大功率,通常仅能维持30s左右的时间。一般情况下电源峰值功率可以超过最大输出功率50%左右,由于硬盘在启动状态下所需要的能量远远大于其正常工作时的数值,因此系统经常利用这一缓冲为硬盘提供启动所需的电流,启动到全速后就会恢复到正常水平。峰值功率没有什么实际意义,因为电源一般不能在峰值输出时稳定工作。

2.5列表与作图

(1)列表。将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的物理关系;此外还要求在表栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等;最后还要求写明表格名称,主要测量仪器的型号、量程和准确度等级,有关环境条件参数(如温度、湿度)等。

(2)作图。作图可以显式地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果,如直线的斜率和截距值等,读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系通过一定的变换用直线图表示出来。

3.数据分析的类型

3.1探索性数据分析

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统汁学假设检验手段的补充。探索性数据分析侧重于在数据之中发现新的特征。

3.2定性数据分析

定性数据分析又称为定性资料分析,是指定性研究照片、观察结果等非数值型数据(或者说资料)的分析。

3.3离线数据分析

离线数据分析用于较复杂和耗时的数据分析和处理。由于大数据的数据量已经远远超出单个计算机的存储和处理能力,离线数据分析通常构建在云计算平台之上,如开源的Hadoop的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时问为几分钟、几个小时、几天甚至更长。endprint

3.4在线数据分析

在线数据分析(OLAP,也称为联机分析处理)用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。尽管与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQLm系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。

4.数据分析步骤

最初的数据可能杂乱无章且无规律,要通过作图、造表和各种形式的拟合来计算某些特征量,探索规律性的可能形式。这就需要研究用何种方式去寻找和揭示隐含在数据中的规律性。首先在探索性分析的基础上提出几种模型,再通过进一步的分析从中选择所需的模型。通常使用数理统计方法对所选定模型或估计的可靠程度和精确程度作出推断,数据分析的具体步骤如下。

(1)识别信息需求。识别信息需求可以为收集数据、分析数据提供清晰的目标,是确保数据分析过程有效性的首要条件。

(2)收集数据。有目的的收集数据是确保数据分析过程有效的基础,需要对收集数据的内容、渠道、方法进行策划,主要考虑:①将识别信息需求转化为更具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定性等相关数据;②明确由谁在何时何处,通过何种渠道和方法收集数据;③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统的干扰。

(3)分析数据。分析数据是指将收集到的数据通过加工、整理和分析后,将其转化为信息的过程。常用的分析数据方法有排列图、因果图、分层法、调查表、散布图、直方图、控制图、关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。

5.大数据分析基础

大数据分析是指对规模巨大的数据进行分析,在研究大量的数据的过程中寻找模式、相关性和其他有用的信息,可以帮助需求者更好地适应变化,做出更明智的决策。

5.1可视化分析

大数据分析的使用者有大数据分析专家和普通用户,他们对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据特点,让数据自己说明,让观者看到结果。

5.2数据挖掘

大数据分析的理论核心就是数据挖掘。各种数据挖掘的算法基于不同的数据类型和格式能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据的价值也就无从说起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入数据内部去挖掘价值。这些算法不仅能够处理大数据的数据量,也一定程度地满足处理大数据的速度要求。

5.3预测性分析

预测性分析可以让分析员根据可视化分析和数据挖掘的结果作出预测性判断。

5.4语义引擎

由于非结构化数据与异构数据等的多样性带来了数据分析的新的挑战与困难,需要一系列的工具去解析、提取、分析数据。语义引擎需要被设计成能够从文档中智能提取信息,使之能从大数据中挖掘出特点,通过科学建模和输入新的数据,从而预测未来的数据。

5.5数据质量和数据管理

大数据分析离不开数据质量和数据管理,高质量数据和有效的数据管理能够保证分析结果的真实和有价值。

6.大数据预测分析

预测分析是大数据技术的核心应用,如电子商务网站通过数据预测顾客是否会购买推荐的产品,信贷公司通过数据预测借款人是否会违约,执法部门用大数据预测特定地点发生犯罪的可能性,交通部门利用数据预测交通流量等。预测是人类本能的一部分,只有通过大数据分析才能获取智能的、有价值的信息。越来越多的应用涉及到大数据,大数据的属性描述了不断增长的存储数据的复杂性。大数据预测分析突破了预测分析一直是象牙塔里统计学家和数据科学家的工作,随着大数据的出现,并整合到现有的BI、CRM、ERP和其他关键业务系统,大数据预测分析将起到越来越重要的作用。

6.1大数据预测分析要素

大数据预测分析可帮助企业作出正确而果断的业务决策,让客户更开心,同时避免灾难的发生,这是众多数据分析者的终极梦想,但是预测分析也是一个困难的任务。实施成功的预测分析有赖于以下要素。

(1)数据质量。数据是预测分析的血液。数据通常来自内部数据,如客户交易数据和生产数据,但我们还需要补充外部数据源,如行业市场数据、社交网络数据和其他统计数据。与流行的技术观点不同,这些外部数据未必一定是大数据。数据中的变量是否有助于有效预测才是关键所在。总之,数据越多,相关度和质量越高,找出原因和结果的可能性越大。

(2)数据科学家。数据科学家必须理解业务需求和业务目标,审视数据,并围绕业务日标建立预测分析规则,如如何增加电子商务的销售额、保持生产线的正常运转、防止库存短缺等。数据科学家需要拥有数学、统计学等多个领域的知识。

(3)预测分析软件。数据科学家必须借助预测分析软件来评估分析模型和规则,预测分析软件通过整合统计分析和机器学习算法发挥作用,,需要一些专门的大数据处理平台(如Hadoop)或数据库分析机(如Oracle Exadata)等来完成。

(4)运营软件。找到了合适的预测规则并将其植入应用,就能以某种方式产生代码,预测规则也能通过业务规则管理系统和复杂事件处理平台进行优化。endprint

6.2大数据预测分析相关问题

大数据预测分析应用广泛。大数据将组群分析和回归分析等较常用的工具交到日常管理人员手中,然后可以使用非交易数据来作出战略性的长期的业务决定。客户服务代表可以独立决定一个问题客户是否值得保留或者升级,销售人员可以基于人们对零售商在网站上的评价来调整零售商的产品量。大数据并不是要取代传统BI工具,而是让BI更有价值和更有利于业务发展。在颅测中,虽然具有相关性,并不存在因果关系。如果仔细地查看使用收集到的历史交易数据,就会发现最新定位活动更倾向于参考来自大数据技术处理的结果。

1)分析社交媒体中的非结构数据。

社交媒体中存在很大的商机,需要结合大数据开源技术、摩尔定律、商品硬件、云计算以及捕捉和存储大量非交易数据来实现预测目的。预测者将大数据中非结构化数据(如视频和电子邮件)、来自各种引擎获得的信息(追踪用户对品牌的评价)和现有结构化客户数据结合起来,通过博客和用户论坛与地理数据相关联,运用上述技术。可以获得强大的预测能力。

2)缩短大数据分析时间。

运用大数据分析可以缩短预测时间,数据科学家过去需要用几个月来建立查询或模型来回答关于供应链或生产计划的业务问题,现在只需要几个小时就可以完成,其原因是大数据技术可以自动化建模与自动执行。

3)非结构化数据与数据仓库的数据不同。

仅用一种技术完成大数据预测分析比较困难,应融合各种技术。传统的数据仓库系统是从关系型数据库中获取数据,而今超过80%的数据是非结构化数据,无法转化为关系型数据库中的数据,传统的数据仓库技术对非结构化数据的处理无法满足需求。所以,需要存储管理人员更快地跟上技术发展,更新自己的技术和知识结构,提高对大数据的管理和分析能力,从非结构化数据类型中抽取有价值的信息。

7.大数据分析的发展方向

新的数据分析范型是目标导向,不关心数据的来源和格式,能够无缝处理结构化、非结构化和半结构化数据,将取代传统的BI-ETL-EDW范型。新的数据分析范型能够输出有效结果,提供去黑箱化的预测分析服务,可以面向更广泛地普通员工快速部署分析应用。Hadoop和NoSQL正在占领大数据的管理方式,R和Stata语言冲击了传统的黑箱式分析方法。R是一种自由软件,是为统计计算和图形显示而设计的语言及环境,其特点是免费且功能强大。Stata是一个用于分析和管理数据的功能强大的统计分析软件。我们将从以下3个方面推动大数据分析的发展。

1)数据管理。

Hadoop已成为企业管理大数据的基础支撑平台。随着Greenplum Pivotal HD、HortonworksStinger和Cloudera的Impala的发布,Hadoop的技术创新速度正在加快,它在Hadoop HDFS之上提供实时、互动的查询服务,将众所周知的SQL查询处理与具备指数级扩展能力的HDFS存储架构整合到一起。

2)去黑箱化。

预测分析是管理者进行数据化决策的关键。预测分析面临的最大问题是黑箱化问题。随着越来越多地凭借预测分析技术作出重大决策,预测分析技术需要去黑箱化,主要包括应用的数据表示、对底层数学和算法解释等。去黑箱化有利于管理者掌握数据分析工具,不但使管理者看到数据分析结果,还知道如何得到的分析结果和分析工具的设计原理等。

3)应用普及。

即使实现了分析的去黑箱化,数据分析应用在企业中的部署依然面临能否发布可复用应用、创建最佳实践、组织范围内的横向协作、无缝重组模型等问题,能否在最终用户(员工)中应用普及是数据分析成功的关键。

8.结语

大数据处理数据的基本理念是用全体代替抽样,用效率代替绝对精确,用相关代替因果。通信、互联网、金融等行业每天产生巨大的数据量,大数据分析已成为大数据技术最重要的应用,它从大数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层提供有力依据,对产品或服务发展方向起到积极作用,将有力推动企业内部的科学化、信息化管理。endprint

猜你喜欢

大数据分析数据分析
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议