企业大数据建设的技术瓶颈
2016-11-04张磊顾景民
张磊+顾景民
【摘 要】随着大数据的发展,大数据运用到企业各个领域,数据量成指数倍增长,运用现今大数据、云计算等技术,大数据平台承载能力已经力不从心,在某种程度上陷入了停滞。企业大数据平台建设的过程中面临着很多的技术难题,因此要优化企业大数据平台系统架构,并深入了解大数据的系统瓶颈,寻求解决之道,迎接大数据的新时代。
【关键词】大数据;系统架构;瓶颈;采集处理;数据分析
0 引言
进入大数据时代,海量数据,成为一个企业的最大的资产这项资产非常庞大,数据的类型繁多复杂,由于数据存储管理极为分散,造成了过量的数据冗余和数据的不一致性,使得数据资源难于查询访问,管理层无法从中轻易获得有效的决策数据支持;一些信息集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距;数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。如何从这些数据资产抽取发再其中巨大的价值,成为众多企业需要解决的严峻问题。
1 大数据平台
1.1 何为大数据
大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单的来讲,大数据是一个非常庞大,非常复杂的数据集合,以至于传统的数据库管理员、数据处理程序对其束手无策。
1.2 大数据的平台架构
大数据平台是解决大数据计算的方案的综合性平台,是以存储、运算、展现作为目的的。提供可靠的、可以支撑业务性能要求的数据存储,对海量数据进行计算与分析,对分析结果综合形象的展现。
大数据系统优化架构分为基础架构层、中间层重量级综合平台和上层轻量级构件平台三层架构。
基础架构平台。大数据基础架构依赖于云计算技术,扩展了云,又融于云,包括存储、网络、计算等资源。云计算技术融合分布式计算、网络存储、虚拟化、负载均衡等计算机和网络技术,为大数据平台提供强有力的基础架构。
中间层重量级综合平台。中间层融入系统数据集成系统、存储系统、数据分析计算系统、综合数据服务系统四大系统,完成从大数据源数据采集、存储、挖掘分析、服务应用的数据综合平台。中间层由以技术主导大数据综合平台和以业务流程整合为先锋的BPM综合流程管理相辅相成,构建企业稳固的大数据综合平台。
上层轻量级构件平台。基于构件化的综合平台可以复用已有的应用系统、应用框架,并有较强的用户需求变化适应能力。用户可以通过基本的系统配置,进行简单的托拽,就可以实现不同风格的门户系统与分析系统。基于构件的统一门户平台与BI分析系统,将是上层应用发展的趋势。
建立统一的构件化的企业门户系统。将各业务应用做构件化的portlet等,使门户集成更方便快捷。BI分析系统是一个集数据整合、展现、分析挖掘及共享一体的大数据可视化数据平台。BI分析系统中各个元素指标构件化,可以与系统门户集成,也可以采用移动构件化模式,满足快速移动开发。
2 企业实施大数据系统过程中应解决的技术难点
企业在实施大数据建设的过程中需要着重解决以下技术难点,主要包括数据采集处理、数据质量、数据分析等,解决了这些问题,借助于大数据平台对企业海量数据的处理分析,就可以从中挖掘出通过传统信息化手段所不能分析决策数据。
大数据平台优化的系统架构中,中间重平台层面,承载大数据平台核心技术架构,大数据的快速存储、安全性、准确性和实时性等都给大数据平台提出了挑战。
2.1 数据采集处理
大数据环境下,数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。
传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。
非结构化数据是指不方便用数据库二维逻辑表来表现的数据,包括所有格式的文档、图片、XML、HTML、图像和音频/视频信息等等。在处理非结构化信息、全文信息、多媒体信息和海量信息等领域的技术还未成熟,在非结构化数据的管理和全文检索方面需要亟待解决的技术问题。
据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。
数据采集处理完整架构图对ETL功能架构中的抽取、清洗、转换、加载进行了详尽的描述。
数据ETL工具,比较快速、高效、安全、稳定的当属Informatica等系列产品,它具有灵活开发和部署、安全可靠的企业数据、无可比拟的性能和可扩展性等优点。当然也有开源Kettle等轻便、实用的产品。
2.2 数据质量
影响数据质量的因素主要来源于四个方面:数据、技术、流程和管理因素。技术因素是数据质量的基石,为数据质量铺平道路。
技术因素主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。
通过MTC-DQM 数据质量管理管理,数据质量管理系统来解决数据质量问题。数据质量管理系统的技术实现程度很大程度决定数据质量的高低。
2.3 数据分析
大数据发展的另一个大的瓶颈是数据分析技术。数据能发挥的潜力是无穷的。发掘数据,使其发出耀眼的光芒是数据分析重要任务。举一个简单的例子:视频数据与考勤图片分析。视频分析本身就是一个非常困难的问题。我们有很多监控视频,能分析出人物的少之又少,能高阶分析出视频中的规律性信息基本没有。另一个是考勤信息分析,人脸考勤基本都是靠人工一个一个核对,基本没有系统能自动识别出来,并且能分析出深度的考勤信息。另一个例子中国的语言复杂化这对于大数据发展也是一个瓶颈。我们的数据质量差、噪音多,所以造成了数据分析难度的加大。所以这个时候就需要算法和模型进行优化,来满足我们大数据的需求。
并不是要有很完美的数据才能做分析,完美的数据永远是等不来的,因此需要进行数据整合来进行数据分析,把碎片化的数据整合起来形成整体进行分析,做好数据的修正分析工作,这需要相当的技术模型支撑。
数据分析软件面对当今的海量数据已显得力不从心,当然随着数据分析技术的发展,Apache的Hadoop、LexisNexis的HPCC系统等,逐步提升数据分析引擎分析能力,给复杂数据分析提供技术支撑。
大数据分析结果的解读和应用。数据分析师不但能够解读大数据,同时还能发现各个业务要素之间的关联,为数据分析的可靠性和准确性提供更好的保证。
3 发展前景
大数据数据分析能力成为企业核心竞争力。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。
根据大数据发展分析趋势报告,到2020年全球将总共拥有35ZB的数据量,预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。
随着大数据的进一步发展,阻碍大数据的发展的系统瓶颈迎刃而解,这将掀起大数据二次革命,进入大数据的新时代。
【参考文献】
[1]冯永强,张良,冯怡,朱尚杰.大数据应用的现状与展望[J].信息化建设,2015(12).
[2]赵国栋.大数据时代的三大发展趋势[J].高科技与产业化,2013(05).
[3]2016-2022年大数据市场现状调研分析及发展前景报告[R].
[4]张常淳.基于MapReduce的大数据连接算法的设计与优化[D].中国科学技术大学,2014.
[责任编辑:李书培]