APP下载

数据的全生命周期管理

2021-01-02丁海骜

数字商业时代 2021年12期
关键词:王刚数据仓库生命周期

丁海骜

“首先我们相信:数据可以让今天我们认为不可能的事情,通过对数据发掘和数据分析,让这个事情在明天变成可能。”2021年底,履新8个月的Cloudera大中华区区域副总裁王刚(Galen)在一场活动上,谈到专注于大数据软件平台的、基于开源社区的软件公司,Cloudera對大数据有三个基本的理解:“第二,我们认为,人在大数据应用过程中是非常具有决定性的因素:我们可以让机器帮我们做很多事情,让他们做正确的事情,但是是否正确,要由人来判断,所以我们可以赋予人对大数据应用做更深的洞察和发现;第三,我们确认,现在数据无处不在:可以在你的手机上,在你的笔记本上,在公有云上,也可以在机房里面……在任何场合下,我们都可能会用到AI、大数据分析。由于大数据无处不在,所以无论在哪种环境下,我们都可以让大数据继续帮助我们——Cloudera支持在不同的使用环境中应用大数据技术。”

事实上,随着企业数字化转型进程的不断深入,“软件定义”的企业业务模式已经成为一种被广泛认可的趋势,因此企业对于数据价值的认可,基本成为一种共识。而大数据应用作为一种能够真正帮助企业发掘数据价值的手段,也已经被广泛认可。对于应用企业而言,他们的问题往往集中在实际操作环节:企业该如何围绕自身的业务去设计、构建和维护一个有效的数据价值发掘体系?大数据系统如何与企业的现实业务进行更密切的关联?

作为大数据应用平台的提供商,王刚谈到了一个“企业数据生命周期”的概念。

“数据实际上也有自己的生命周期:从出生到长大,再到成年、老年,最终离我们而去。我们要做的,就是管理数据整个生命周期,从数据的获取到对数据进行丰富、整理,再到对数据的展现、服务和预测等。”王刚将数据全生命周期分为5个具体的部分:收集、富华、报告、服务和预测。

其中,对于企业用户而言,数据的来源是非常多元的,“可能在用户的手机上、设备上、电脑上,或者是在后台业务系统里面”,因此企业需要构架一个数据流管理体系,完成对数据进行完整、及时和充分的收集获取。然后第二步的“富化”过程,是利用数据工程,对收集到的数据按照不同的格式、版本和样式,进行丰富、整理和处理,使其变得更加有序。完成数据富化的数据就进入了“数据全生命周期”的第三个环节“报告”阶段,在这个环节,数据被存储在数据仓库中,企业就可以根据自身的业务需求,对数据进行初级的应用:根据不同不同部门、不同职位需求,将数据以各种报表和表格的形式,展示出来,让用户了解企业当前的相关业务情况。“比如,企业管理者要了解公司过去的客户流失情况、业务增长情况,尤其是金融行业用户常常需要通过数据了解当前的业务状况……这些都可以通过数据报表的形式分析出来,这也是绝大多数企业重点投入的部分。”王刚说,此时企业对数据应用的底层IT基础,是数据仓库。

然而这并不是大数据应用的尽头:事实上,让数据真正赋能企业现实业务需求,发掘企业数据真正的价值,往往集中在数据全生命周期的后面两个阶段。

第四个阶段,是服务。在这个阶段中,企业可以将数据直接服务于现实的应用场景:数据仓库中数据经过处理被转移到操作型数据库——这是一个相对专业的数据处理过程,可以简单理解为:为了某个具体的应用,对数据仓库中的数据进行更加详细的分析、建模和转换数据关系模型——此时,就可以利用这些处理过的数据直接支持企业的新应用和新业务场景。进而,就可以进入数据全生命周期的最后一个阶段“预测”环节:利用机器学习、人工智能技术,对数据进行更深入的模型分析和数学计算,面向未来作出更具有参考价值的预测。

“可以预测明年的GDP、双十一的库存、未来订单情况、客户的增长情况……很多的数据模型都是要靠前端非常干净、处理非常好的数据才能进行预测分析。”王刚认为,企业对于大数据技术和工具的应用,需要构建一个全生命周期的概念,即便不能一次性搭建完成,也需要保证最终整个完整应用周期的五个环节缺一不可,因为越是后面较高阶的应用,越是需要足够扎实的低阶应用作为基础。

于此同时,王刚也强调企业在构建数据全生命周期解决方案的过程中,不同节点间的关联关系是影响企业能否成功实践大数据应用的关键。“我们看到:绝大多数大数据解决方案都定位在一个单一系统,只能处理一个单一的环节,如BI、报表、数据仓库、操作型数据库……然而对于企业用户而言,显然一个能够完整覆盖五个环节、能实现从端到端完成整个数据全生命周期管理的的解决方案,是最佳选择。”王刚说,作为企业大数据应用平台的提供者,Cloudera目前不仅能够为企业提供覆盖完整五个环节的解决方案,而且可以通过公有云和私有云两个版本,为用户提供更便捷的部署和应用体验:“Cloudera的大数据平台在当时设计时,就考虑到大数据使用场景下有不同需求:有些业务场景需要把数据放在公有云上;有些敏感数据,交易数据、核心数据需要放在私有云上——Cloudera的两种方案是互相打通的,可以随时根据业务需求互相交流,从而保证企业从成本和性能上,得到更好的应用体验。”

王刚当天出席的活动,是Cloudera与ReadyAI合作编写的儿童电子读物《一杯柠檬水的启蒙》的发布。这是一本针对8至12岁儿童,讲解机器学习模型训练和数据偏差等复杂数据概念的儿童绘本。Cloudera首席运营官Scott Aronson,用“两个小男孩的骄傲父亲”的署名,在书中的结尾写道:“我希望你们和我,还有我的两个儿子一样,都能享受从克拉拉和亚历克斯(这是这本童书中的两个小主人公)身上学习的过程。”

数据的洪流,正在改变世界。也许等这代孩子长大的时候,将会面对一个真正的数字时代:数据成为主导,人类生活依赖于一个又一个的数据全生命周期……所有的这些,都正在从现在开始。

猜你喜欢

王刚数据仓库生命周期
基于云制造模式的产品碳足迹生命周期评价
基于数据仓库的数据倾斜解决方案研究
探索ASP.NET的生命周期
基于生命周期理论的科技型小微企业融资路径选择探析
税收筹划在企业经营管理中的应用探讨
数据仓库系统设计与实现
数据复用在存储数据仓库中的运用
名人读意林
数据仓库技术在档案管理领域的应用
你报我写