商务智能与大数据浅析
2017-12-27陈炜
【摘要】网络时代信息量剧增,企业为获得快速精准的决策参考,纷纷使用商务智能工具分析处理商务数据,然而商务智能工具难以处理海量数据,于是诞生了大数据概念。本文结合商务智能和大数据产生背景,详细分析了商务智能和大数据的含义、特征和技术特点,介绍大数据系统的Hadoop平台和大数据系统的关键技术,并对商务智能与大数据的区别与联系进行了总结。
【关键词】商务智能 大数据 Hadoop 云计算
【中图分类号】G712 【文献标识码】A 【文章编号】2095-3089(2017)48-0235-02
随着网络技术和信息技术的不断发展和普及应用,各行各业以及个人生活都通过网络进行数据化,日积月累就产生了大量的数据。为了高效利用这些数据,辅助企业或个人的决策,人们先后研究了商务智能技术和大数据技术,并且在社会上得到广泛应用。下面针对大数据和商务智能进行分析与对比。
一、商务智能
1.商务智能概念
信息时代,CRM、ERP、OA等基础信息化系统被各行各业广泛使用,这些系统都是通过业务人员或者用户的操作,实现对数据库进行增加、修改、删除等,称为在线事务处理OLTP (Online Transaction Process)。系统运行了一段时间以后,必然会帮助企事业单位收集到大量的历史数据,使用人工的方法和传统的软件来处理分析这些数据显然效率很低,于是人们需要找到一种实现数据的快速分析处理,并转化为信息的方法,使得业务人员和管理者能够充分掌握、利用这些信息来提高企业运营性能和决策质量,在这个背景下产生了商务智能(business intelligence, BI)的概念。BI概念随着通俗化描述而被人们广泛了解,越来越多的企业提出对BI的需求。
商务智能是指由数据仓库、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、帮助企业提高运营性能而采用的一系列方法、技术和软件。从技术层面上讲,商务智能采用的技术是ETL(抽取、转换和装载)、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。
2.商务智能的数据处理关键流程分析
商务智能的关键,是对企业相关的各种数据进行ETL过程处理,即提取出有用的数据并进行清理,以保证数据的正确性,然后进行格式转换,以企业预定的数据仓库模型加载到企业级的数据仓库里。这里的数据是指企业业务系统的订单、库存、交易账目、客户和供应商资料,以及来自企业所处行业、竞争对手以及来自其他外部环境中的各种数据,通常是结构化数据。
为了将数据转化为知识,系统从数据仓库中取出数据,需要利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对这些数据进行分析和处理,得出处理的结果即知识,然后利用可视化工具将这些知识以图表的形式呈现给管理者,为管理者的决策过程提供支持。
二、大数据
1.大数据概念
现在的人们似乎都习惯了将自己的生活和工作通过网络进行数据化,方便分享、记录和回忆,因此互联网上产生的数据量正在呈指数级增长,如何管理和使用這些数据,逐渐成为人们关注的问题。很多企业为了提高运营性能,纷纷使用商务智能进行数据分析统计,但是随着数据的爆炸性增长,海量数据(尤其是非结构化数据)分析处理超出了传统商务智能的处理能力,于是企业界又希望有一个能处理分析海量数据的工具,这时大数据的概念应运而生。
著名未来学家阿尔文·托夫勒早在1980年的《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。最早提出“大数据时代已经到来”的机构是全球知名咨询公司麦肯锡。2011年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,而人们对于海量数据的应用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大数据目前已逐渐成为社会基础设施的一部分。
在以云计算、物联网为代表的技术创新条件下,原本很难收集和使用的商品和服务交易数据开始容易被收集利用起来了,通过各行各业对大数据应用的不断创新,大数据应用必将为企业和普通消费者创造更多的价值。
大数据在国内外尚没有统一的定义,不同厂商和不同用户站的角度不同,对大数据的理解也不一样。大数据(Big data)研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。也就是说,大数据(big data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
2.大数据的特征和技术特点分析
信息社会产生的数据来源很多,比如搜索、新闻、博客等等,这些海量的类型复杂的数据统称大数据,可以分为结构化数据和非结构化数据。结构化数据是可以用二维表结构的逻辑表来表现的数据。不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。一般认为,大数据主要具有四个方面的典型特征(4V),即规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),此外还有数据的真实性(Veracity)。
(1)规模性(Volume):数据量大,TB,PB,乃至EB等数据量的数据需要分析处理;(2)多样性(Variety):数据有很多种类,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据;(3)高速性(Velocity):要求快速响应,由于市场数据变化快,在性能上也有更高要求,所以及时快速的响应变化,快速分析处理数据;(4)价值性(value):价值密度低,当数据量达到一定规模,可以通过全量的数据达到更真实全面的反馈。
从技术层面上,大数据系统的技术除了包括先进的商务智能技术,还要利用云计算技术和Hadoop平台等。云计算技术的特点是通过廉价的计算机节点集群,改写软件,使之能够在集群上并行执行,实现数据的分布式存储和分布式处理,解决海量数据的存储和检索功能。2006年Google首先提出了云计算的概念,并首次将云计算技术应用于各种大数据的处理。
三、大数据的关键技术分析
Google公司的大数据处理关键技术为GFS、MapReduce和Bigtable。随后其他各大IT巨头公司纷纷提出了自己的大数据处理平台,采用的技术也都大同小异。下面将从大数据系统的开源实现平台Hadoop入手介绍大数据的关键技术。
Hadoop是MapReduce计算機模型的载体,软件开发者在Hadoop平台上编出分布式并行程序,这些程序在计算机集群上完成海量数据的计算。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。大数据系统中HDFS是分布式文件系统,可以构建几千台常规服务器组成的集群,实现文件的输入输出和访问。HBase是分布式、按列存储的、多维表结构的实时分布式数据库,可以提供大数据量结构化和非结构化数据的高度读写操作。Hive是基于Hadoop的大数据分布式数据仓库引擎,可以将数据存放在分布式文件系统或分布式数据库中,并使用SQL语言进行海量信息的统计、查询和分析操作。ZooKeeper是针对大型分布式系统的可靠协调系统,可以维护系统配置、群组用户和命名等信息。Sqoop是在Hadoop和结构化数据源之间提供高效双向传送数据的连接器组件,可将数据传输任务转换为分布式Map任务实现,在传输过程中还可以实现数据转换等功能。Flume是分布式、高可靠的和高可用的日志采集系统,它用来从不同源的系统中采集、汇总和搬移大量日志数据到一个集中式的数据存储中。
四、商务智能与大数据的区别
商务智能与大数据的区别主要表现在以下几个方面:
(1)数据量。大数据系统处理的数据量是PB级别以上的,商务智能系统出来的数据量是TB级别的,相对大数据来说不太大。(2)数据特征。智能商务处理的大部分是结构化数据,而大数据处理的数据中85%是非结构化数据。(3)信息来源。商务智能数据的来源主要是企业交易数据,而大数据的信息来源除了企业交易数据,还有更多的社会日常运作和各种服务中实施产生的数据。(4)涉及技术。商务智能使用了ETL、OLTP、数据仓库、OLAP、数据挖掘和可视化报表技术。大数据采样的技术是在BI技术基础上,再利用云计算技术、Hadoop、HBase、Hive、HDFS、MapReduce、ZooKeeper、Sqoop、Flume等。(5)数据来源。商务智能的数据从数据仓库中随机抽取,而大数据的数据更倾向于从Web、社交网络、RFID传感器等获取非结构化海量数据,数据不是随机抽取,而是全量数据。(6)因果与关联。商务智能强调数据的因果分析,而大数据则是采用关联分析。比如沃尔玛公司的啤酒与尿布案例就是典型的大数据案例。(7)个性化。商务智能基于群体共性,帮助决策者掌握宏观统计趋势,适合运营指标支撑类问题。而大数据则强调个体刻画,精准分析每一个用户,适合于精准推荐类的营销类问题。
虽然商务智能能处理的数据类型较少,处理的数据量级别不如大数据技术,但是也不能被大数据所取代。现代企业主要还是分析处理企业自身的内部数据和网上一些相关企业的数据,希望得到对管理者的宏观决策有帮助的分析结果。
五、结束语
本文介绍了商务智能和大数据的社会背景和特点,分析了云计算技术对大数据的影响,大数据系统的一些关键技术,描述了商务智能和大数据的主要区别。通过这些分析介绍可以看到大数据是商务智能概念的扩展和手段的扩充。智能商务和大数据应用已经成为社会的基础设施,必将帮助使用先进商务智能和大数据应用的企业有效提高运营性能和经济效益。
参考文献:
[1]刘鹏.大数据. 电子工业出版社出版,2017.01.
[2]林子雨.大数据技术原理与应用(第2版).人民邮电出版社出版, 2017.02.
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战 [J]. 计算机研究与发展, 2013,50(1):146-169.
[4]朱洁.大数据架构详解:从数据获取到深度学习,2016.10.
作者简介:
陈炜(1969.2-),女,湖北武汉人,浙江经贸职业技术学院,副教授,研究方向为计算机技术应用。