大数据时代对传统数据中心的影响及思考
2014-07-29解林超石佳王仲锋纪德良
解林超 石佳 王仲锋 纪德良
【摘要】 数据中心作为数据的集散中心和商务智能分析展现平台,在大数据时代面临着新的机遇和挑战。本文介绍了大数据的特征,探讨了大数据对传统数据中心的影响,并从大数据基础架构、大数据分析应用及数据中心职能转变等几个方面论述传统数据中心如何适应大数据时代,为大数据时代下数据中心的发展提供一些思路。
【关键词】 大数据 数据中心 海量 价值
智能电网在发电、输电、变电、配电和用电各个环节产生了海量的数据,电网数据类型复杂,并且数据体量已极具规模,传统数据中心已无法满足海量复杂数据的处理和分析要求。目前,电力企业数据中心已初步完成了结构化数据库、实时数据库、非结构化数据库、地理信息数据库的建设,但是各数据库分别独立部署,数据共享和关联性不高,传统数据中心平台难以快速处理海量复杂数据、无法满足大数据时代下的数据挖掘需求,无法支撑不同类型数据的关联分析应用。因此,电力企业需要积极思考传统数据中心需要如何应对大数据的挑战。
一、大数据的特征
目前大数据(Big Data)在业界尚无形成统一的定义,引用麦肯锡全球研究院在《大数据:下一个创新、竞争和生产力的前沿》报告中的描述,即:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。虽然大数据的定义还未统一,但大数据的特征却是明确和公认的。
数据体量巨大(Volume)。企业的各种终端设备和传感器产生了大量的数据,PB级的数据集规模可谓是常态。
数据类型繁多(Variety)。大数据时代,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些不同类型的数据对数据的处理能力提出了更高要求。
处理速度快(Velocity)。这是大数据区分于传统数据中心的最显著特征,在海量的复杂数据面前,数据的处理效率就是企业的生命,并且受数据时效性的制约,大数据要求处理速度更快、实时性更高。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比,一段1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何在海量的复杂数据中快速完成数据价值的“去噪”和“提纯”成为目前大数据背景下亟待解决的难题。
二、大数据对传统数据中心的影响
目前,多数企业已建成一体化企业级数据中心平台,能够满足日常业务的需求,但大数据时代对传统数据中心的数据存储能力、数据处理能力、数据交换能力、数据展现能力以及数据挖掘能力都提出了更高的要求,大数据对传统数据中心提出了新的挑战。
2.1 非结构化数据的重要性越来越大
传统数据中心的数据一般来源于用户通过个人电脑、移动终端、POS机等常规渠道生成的结构化数据。而大数据时代数据类型多样化,半结构化数据和非结构化数据呈现爆发式增长,且增长速度远远超过结构化数据。这些通过传感器、监测仪、机读仪器等机器设备产生的天气、位置、音频、文本等海量复杂数据越来越多,企业开始使用这些数据来改进产品、提高效率、寻找缺陷,其数据的重要性将会越来越大。
2.2 数据的时效性要求越来越高
传统数据中心的数据更新周期基本为日、周、月,辅以少量的实时数据更新,商务智能也基本以日、周、月、季度和年为时间维度的静态数据分析。大数据时代,对数据的处理速度和数据的时效性提出了更高要求,而當今社会日益加剧的商业竞争让每个企业都希望能通过实时分析报表和结果数据来随时掌握企业运营状况,并迅速作出决策和判断。以电力电量平衡测算为例,需要实时采集电网数据、实时分析、实时计算,快速测算结果,并反馈至电力调度部门进行有序用电执行预案的实时决策,如果相关数据获取不及时则会大大影响调度部门对有序用电的分析和决策。
2.3 大数据改变数据分析模式
传统数据分析以结构化数据分析为主,业务分析更是以被动式信息接受为主。大数据时代下,随着数据的累积和增加,可做的分析和对比也越来越多。通过对大量的数据进行分析,从而揭示数据之间隐藏的关系、模式和趋势;通过结构化数据、半结构化数据、非结构化数据的融合关联分析,实现文本分析、数据挖掘、图形分析、空间分析等数据分析模式,为决策者提供不同角度不同形式的分析判断依据。
2.4 大数据影响信息基础架构
目前电力企业数据中心主要以Unix为代表的操作系统服务器硬件平台、以Oracle关系型数据库为代表的企业级数据存储平台和以BW(数据仓库,Business Warehouse)、BO(业务对象,Business Object)为代表的企业级商务智能分析平台组成。随着智能电网的发展,半结构化和非结构化数据呈现出快速增长的势头,大量部署的传感器、监视器、智能交互终端等设备都可以成为数据来源,并且其数据量大大超过了结构化数据。大数据时代下,分布式处理的软件框架使得x86服务器开始大行其道,列存储、内存数据库、NOSQL存储、流计算等技术将成为数据存储和处理的主流技术。
传统数据中心商务智能专注单一数据集的分析处理,这造成了不同类型数据之间的割裂。而大数据分析聚合多个数据集,注重不同类型数据的融合集成与关联分析,是一种综合关联性分析。因此,传统数据中心分析处理架构已无法适应大数据时代的分析要求。
三、大数据时代下传统数据中心发展的思考
大数据的核心价值在于从海量的复杂数据中挖掘出有价值的信息,通过大数据技术进行更快地分析、更准确地预测,发掘出新的业务模式,创造新的商业发展机会。因此,大数据时代下,企业迫切需要思考如何应用大数据技术改造完善已有数据中心平台,提升企业的数据处理能力,提高数据分析水平,将大数据融入企业的整体数据方案。
3.1 部署大数据分布式处理框架
分布式处理框架是大数据时代下数据中心架构的基本特征,包括分布式存储和分布式计算。分布式存储采用了可扩展的系统架构,利用多台存储服务器分担存储负荷,它不但提高系统的可靠性、可用性和存取效率,还易于扩展。分布式计算将大量的分析计算任务分解为若干小任务,然后将分解后的任务分配到不同的处理节点,最后将计算结果综合起来得到最终的结果。分布式计算具有更强的并行计算能力和扩展性,且适合多类型数据的混合处理,因此,电网企业需要在原有数据中心架构基础上,构建分布式处理框架,提升数据存储和处理能力。
3.2 研究构建大数据分析处理架构
梳理电网企业数据中心现有的技术架构,研究大数据关键技术,结合目前行业主流的大数据处理架构,重点研究基于大数据平台的数据中心信息基础架构,在保护企业现有信息化投资的基础上,探索适合自身的大数据解决方案,将大数据融入企业整体数据方案。利用大数据技术改造完善数据中心分析处理架构,研究融合结构化数据、实时数据、位置数据和非结构化数据的大数据信息基础架构,构建企业级大数据分析与挖掘平台,实现不同类型数据的融合集成与关联分析,支撑大数据分析应用,提升数据分析和挖掘能力。
3.3 利用大数据分析创造价值
数据的核心是发现价值,驾驭数据的核心是分析。如何驾驭大数据,如何在海量数据中挖掘有价值的信息是重中之重,因此企业更应专注于数据中隐藏的价值,通过应用大数据技术分析,充分挖掘数据的核心价值,不断优化业务流程,降低管理成本,辅助企业做出科学的决策,为企业的持续创新与发展积蓄力量。
信息的影响力取决于数据关联的能力,聚合多个大数据集所获得的新的洞察力要远远超出单一大数据集所获得的洞察力。例如种子公司与农作物保护提供商和气象部门合作就综合利用了多个大数据集,包括天气数据、土壤湿度数据、土壤类型数据、种子数据和其他数据,对这些数据进行交叉关联分析,可以帮助种植户收获更高的产量。而在电力企业,将来自配电、用电、客户、天气等不同数据源的数据经过转换、整合,将会产生新的业务价值。对电力交易数据、气候数据与客戶家庭年龄结构、生活习惯等因素融合分析,了解客户用电行为,满足客户的差异化需求,并通过探寻深层需求开辟新的增值业务空间。
3.4 如何让数据驱动业务
如何让数据驱动业务,这是大数据时代下数据中心必须思考的关键问题。传统数据中心疲于应付业务部门的需求,而大数据时代下,数据的复杂性决定了数据中心需要更加快速地应对业务需求的变化和不确定性,因此数据中心必须由数据的保管者和服务者转变为数据的管理者和决策者,从被动的响应业务部门的要求转变为主动向业务部门提供数据服务。
数据驱动业务是指数据作为一种生产力将数据分析挖掘的信息实时、主动地反馈给业务决策者并影响、反哺企业业务的过程。大数据时代下,可以对企业业务进行全过程分析、全方位监控、模拟预测,实时进行反馈,并及时调整决策改善业务发展方向,使得业务可以从数据上立即得以感知,业务可以用数据评价并由数据决策。
四、结语
大数据技术是当前较新的技术发展方向,国内外已开展相关技术的研究与应用,电力企业对电力大数据的技术研究也处于初级阶段。大数据在业务领域中的应用是一个循序渐进的过程,对相关技术的应用需要进行客观评估和充分论证,更要科学研判有关技术的发展前景,做出阶段性发展规划,构筑符合企业实际的技术应用主线。