重塑传统,打造第四代数据仓库
2019-01-26朱琨
本刊记者/朱琨
常雷带领着偶数科技着力打造的基于HAWQ的分析型数据仓库OushuDB应运而生,同时,该数据仓库融合了机器学习技术,在利用人工智能技术处理海量数据上拥有得天独厚的优势。
在数字化时代,个人移动设备快速普及,各企业机构纷纷利用大数据与各终端设备进行相互连接,来帮助企业提高生产效率,制定经营决策,导致整个社会每天都会产生海量数据。据预测,到2020年,一个人每天将产生约1.5GB数据,一个家庭每天将产生约50GB数据,一辆无人驾驶汽车每天将产生5TB数据。而在整个社会体系中,各机构每日将产生上百TB数据。随着终端设备的不断接入,使得数据呈指数级增长,最终形成庞大的数据洪流。
尽管数据的增长可以为社会带来巨大的商业机会,但同时对于数据的处理也带来了严峻的挑战。对于企业而言,由于项目或业务的多元化发展,导致企业面临不同的数据源。当数据产生时,企业可以利用My SQL或Post gr eSQL等数据库对数据进行存储、查询和处理。有一种说法认为,传统数据库行将就木,而以企业的分析报告和决策支持为目的,对多样的业务数据进行筛选与整合的数据存储集合—数据仓库技术将成燎原之势不断满足数据存储与分析带来的苛刻需求。
三代数据仓库的演进
作为北京偶数科技有限公司(以下简称偶数科技)的掌舵人,常雷在2016年创立了偶数科技。在短短两年时间内,偶数科技依靠自身成熟的数据仓库技术以及Apache HAWQ、Oushu Dat abase新一代数据仓库、OushuLit t l eBoy人工智能系统、Oushu Lava人工智能云平台等产品在市场中迅速站稳脚跟,成为国内领先的AI和大数据软件企业。与此同时,偶数科技在常雷的带领下,在通往第四代数据仓库的快车道上持续迈进,硕果累累。
那么什么是第四代数据仓库?数据仓库的发展又是如何演进的?
在1990年,数据仓库概念由比尔·恩门(Bi l l Inmon)提出,发展至今已有近30年的历史。在常雷看来,数据仓库在30年的发展过程中,主要分为三个阶段。在上世纪80年代,出现了关系型数据库,而Or ac l e和DB2成为关系型数据库的主流产品,被广泛作用到金融行业的交易系统中。
但是金融行业的理财、贷款等业务的不断拓展,导致数据量不断增加。金融行业需要利用数据分析技术来处理数据,所以需要将关系型数据库中的数据和数据源中的数据以及互联网中的数据进行整合,并统一进行分析。因此,依靠其自身小型机或一体机专有的硬件平台,面向传统BI分析的第一代数据仓库由此产生,企业需要将关系型数据库中的数据导入到数据仓库中进行数据分析。
但是由于第一代数据仓库采取的是集中式存储,存储是系统的瓶颈,很难支持突发的应用或密集复杂的计算需求。所以出现了无共享构架的第二代数据仓库。第二代数据仓库是基于专有硬件的Mpp平台,比如Ter adat a。但是常雷讲到,虽然无共享架构是一种技术的突破,但是其价格昂贵,同时在架构方面缺乏弹性,规模很难扩展到上千个机器。
在2000年左右,由于软件技术发展并不成熟,而第二代数据仓库采用的是专有的硬件平台,软件系统只能进行大量的制定化处理,导致第二代数据仓库的使用成本较高,而且由于软件定制化的缘故,使得操作系统的扩展性有限,最终逐渐被历史所淘汰。
为了解决第二代数据仓库的使用成本和系统的扩展性问题,在2010年左右,以X86为基础架构的第三代数据仓库随之出现,第三代数据仓库可根据工作负载弹性伸缩,灵活配置,按需分配资源,可以快速支持突发的应用计算需求。在常雷看来,第三代数据仓库可以分为两个部分:基于X86构架的MPP技术和基于X86构架的Hadoop技术。基于X86构架的MPP普遍采用普通硬件,极大地降低了使用成本,而Hadoop可以形成千、万个节点,解决了扩展性问题,而这两部分并称为第三代数据仓库。
AI+数据库服务打造基于HAWQ的“第四代数据仓库”
2015年,大数据已经被广泛应用到各行各业中,相关技术也日臻成熟,各类新兴应用场景和商业模式开始呈爆发式增长,大数据驱动下的人工智能技术也逐渐呈现出遍地开花之势向各个领域延伸。在常雷看来,以人工智能技术为基础的应用模式正在使市场需求发生变化,所以偶数科技提出了“重塑”概念,希望通过新兴技术来重塑企业的办公方式和人们的生活方式。而数据积累和深度学习便成为了常雷的“手术刀”,并在市场中叫响了打造第四代数据仓库的口号。
在常雷看来,传统的数据仓库对数据进行在线统计、在线分析、数据挖掘、随机查询等工作时具有一定优势,但是伴随着整个社会向人工智能的方向迈进,使得各个应用场景中都充斥着人工智能的影子,而在人工智能场景的影响下,面对海量的数据分析需求,第三代数据仓库就显现出弊端。无论从反馈时长还是设备性能严苛的要求看,第三代数据仓库已无法满足人工智能的发展需求,所以对数据仓库进行迭代迫在眉睫。
而在这一背景下,常雷带领着偶数科技着力打造的基于HAWQ的分析型数据仓库OushuDB应运而生,同时,该数据仓库融合了机器学习技术,在利用人工智能技术处理海量数据上拥有得天独厚的优势。在大数据和人工智能时代的背景下,在安防、金融、工业等领域对于数据仓库的海量数据处理和分析能力提出了更高的要求,而第四代数据仓库可以通过深度学习、Aut o ML、强化学习、计算机视觉、自然语言处理、知识图谱等进行深层的认知和推理。
此外,在安防领域,在人员身份识别、人类轨迹分析等方面,可对视频、图片、电子车牌等不同种类的数据进行快速分析,并发现潜在的联系,抽取有价值的信息,并对可疑行为发出预警,对案件进行关联,协助提高公安部门的案件的侦破效率。
在金融领域,银行在办理贷款业务时,需要对审贷企业进行核查,再通过评委会对核查结果进行评估,而整个审核流程全部需要人工的方式完成。但是一旦核查流程涉及公司业务,银行需要将该企业所有的外部和内部数据按主题进行整合,这就极大地耗费了时间和人工成本,同时也给数据分析带来巨大困难。而借助“第四代数据仓库”的技术优势,偶数科技可以利用数据存储、管理、分析和人工智能算法建模,帮助用户构建审核流程模型并进行模型管理,简化传统的审核过程,减少人工参与并缩短审核时间。
目前,物联网技术在工业领域得到长足发展,在工业企业内部可能部署有近百万甚至千万的物联网传感器,并实时提供传感器数据,而第四代数据仓库完全摒弃了繁琐的存储方案,依靠时空维度和列存储的思想,建立了一种以物联网模式的数据仓库,并根据物联网的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法,来解决物联网的数据管理等问题。
偶数科技所打造的“第四代数据仓库”是以HAWQ为基础所构建的,而在HAWQ的研发层面,常雷也可谓是别出心裁。常雷认为,在2004年左右,Hadoop技术出现,在那个时期有两个系统使用得十分广泛:分布式软件存储HDFS和面向大数据并行处理的计算模型Map Reduce。但是Map Reduce自身的复杂性使得该项技术的使用量逐渐减少,同时Hadoop社区也发现了该项问题。这种情况促进了Hive的出现,Hive可以将SQL语言转换成MapReduce任务运行。
在常雷加入Gr eenpl um之后,2011年常雷便开始组建中国研发团队进行HAWQ的产品化工作。常雷介绍到,SQL-on-Hadoop的引擎的运行速度并不理想,而传统的MPP的运行速度却非常快,所以常雷带领团队将两项技术进行融合形成了HAWQ。同时,常雷从兼容性、性能和可扩展性等方面对新型的SQL-on-Hadoop引擎与传统引擎进行比对并发现,以SQL-on-Hadoop新引擎为代表的HAWQ在运行速度方面提升了近400倍。
在2013年HAWQ正式公布1.0版本,时隔一年HAWQ已成为全球众多大型企业采购的重要产品之一,同时在2015年,HAWQ开源成为Apac he项目。在2016年常雷另立山头,宣告成立了偶数科技。为了满足市场需求,常雷基于HAWQ打造新一代数据仓库Oushu DB,原生支持云计算和人工智能,并在2017年带领偶数科技发布了OushuDB 3.0企业版。
基于原创性HAWQ技术,Oushu DB已经成为目前全球最快的新一代分析型数据仓库引擎。作为偶数的核心产品,OushuDB采用了全新执行器,性能比传统数据仓库与SQL-on-Hadoop引擎快一个数量级,并支持In-Dat abase AI。目前,Oushu DB已经在金融、电信、制造、医疗和互联网等行业得到广泛部署和应用。在今年8月,ApacheHAWQ毕业为顶级项目,彰显了其在业内的非凡影响力,并得到了包括VMware、阿里巴巴、海尔、中兴软创等数百个全球知名企业的认可。
颠覆传统,行走在创新的道路上
在2010年,常雷在EMC公司组建中国研发团队研发HAWQ引擎,并在2016年成立偶数科技,着力于研究与发展数据仓库技术,虽然偶数科技的发展并不长,却已在数据仓库领域极具影响力,而常雷也时常调侃自己真正创业其实是在2010年。此外,随着人工智能、云计算等新兴技术不断涌入市场,常雷也紧跟时代利用人工智能的深度学习技术,自主研发了基于人工智能技术的OushuLit t l eBoy产品,Lit t l eBoy是偶数科技最新推出的人工智能产品,搭载了全球顶尖的自动机器学习Aut o ML技术,该技术可以自动调优,帮助非工程师建模。
常雷坦言,打造“第四代数据仓库”主要目的是为了重塑传统的办公环境和应用场景,我们的发展愿景就是希望一个没有技术背景的人员,在培训半个小时后,可以运用我们“第四代数据仓库”和人工智能产品独立地进行建模。“偶数的数据库可以比传统数据仓库快10倍。性能是数据库的核心,偶数科技的核心产品OushuDB的每个版本迭代都是性能的再一次升级,不断地为客户带来更快、更强的优质产品。”
而对于人工智能如何与新一代数据仓库技术相结合,常雷认为:“目前,市场中的人工智能技术包括人脸识别、语音识别等都属于感知层,我们现在所做的是人工智能的认知层。认知层往往是最难的人工智能技术,它可以独立地思考人们的行为并给出相应的解决方案。”
访谈实录
Q:中国大数据产业生态联盟、《软件和集成电路》杂志社
A:偶数科技创始人兼CEO 常雷
Q:如何定义第四代数据仓库?
A:之前还没有人将此进行正式的定义,偶数正在人工智能的背景下定义第四代数据仓库。随着时代的不断变化,人们会发现每隔10~15年,一定会有一个巨大变革。当大数据和人工智能等技术出现时,怎样才能满足该项技术的需求,也是现在的人们所津津乐道的事情。如果现在的数据库不能支持人工智能,那么在人工智能环境的影响下,发展数据分析显然是不可能的事情,所以这也是驱使着我们开发第四代数据仓库的主要原因之一。目前,人工智能技术的发展时间并不长,还没有出现真正成熟的人工智能技术,所以我们希望偶数科技能够定义这个问题。
Q:打造第四代数据仓库,偶数科技为何要进行市场培育?
A:若要做好一个产品,进行市场培育工作是必然的,而我们从事HAWQ技术的研发时也进行了大量的市场培育。如果没有市场培育工作,你永远会跟着别人的步子走路。我们希望偶数科技所做的事情可以引领世界潮流,而不是等别人把概念变成现实,我们再跟随别人走过的路。无论从技术上突破,还是从应用领域上等待爆发的时机,成功的创业型公司都会经历一些本质上的变化。我认为偶数科技正处在这一阶段,所以我们希望重新定义第四代数据仓库。
Q:偶数科技产品的核心竞争力如何体现?
A:目前有9个城市的公安和多个银行在用我们的产品,在能源领域国家电网和南方电网都是我们的客户,同时我们的产品在向制造业延伸,比如海尔是我们很早期的用户。
我们的产品有较好的市场沉淀,而且我们在开发HAWQ时也得到市场的广泛认可。另外,我们的产品确实解决了用户的痛点,比如当数据量很大的时候用户在计算一个报表时,可能需要等待1小时,而这一问题传统数据库无法解决,那么如何才能解决这一问题呢?我们的人工智能数据仓库,使用了新型硬件指令和算法来提升产品的性能,这就使得我们第四代数据仓库的运行速度比第三代快一个数量级,可以应对庞大的数据分析需求,这也是我们产品的卖点之一,同时也给我们的发展带来更多的机会。
Q:目前,各行业的痛点存在哪些共性?
A:从需求的角度来说,当前人工智能的需求比较强烈,我们也把数据仓库中的机器学习部分独立出来,开发了Lit t l eBoy。那么在业界第一大痛点是什么?其实是人工智能还未形成规模化,比如企业想构建深度学习算法,它需要有统计背景和计算机背景的数据科学家才能进行工作,但是就目前来看,这方面人才十分稀缺。那么如何使普通人员可以使用人工智能技术,就成为了偶数科技的发展愿景。目前,我们的Lit t l eBoy和OushuDB产品,可以使一个没有技术背景的人员,在经过半个小时的培训后,独立做出一个反欺诈模型,这就解决了需求问题。
而第二大痛点就是性能,因为数据量正在不断增加,如果要面对数据洪流进行数据分析,这就会给性能带来极大的考验,只有提升运行速度,才能应对数据的爆发式增长。
图 Oushu Database 主要功能示意图
行业应用案例
案例名称:深圳国税税务大数据平台
核心特点:OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库。该产品采用了存储与计算分离技术架构,具有弹性,支持混合工作负载和高扩展性等优点。遵循ANSISQL标准,兼容Or acl e,Gr eenpl um Dat abase和Post gr e SQL,提供PB级数据交互式查询能力,提供对主要BI工具的描述性分析和AI支持。Oushu DB已在金融、电信、制造、医疗和互联网等行业得到广泛的部署和应用。
应用解读:随着“金税工程”的不断深入,税务数据资源的种类不断丰富,数据量快速增长,特别是近年来飞速增长的电子票据、视频、网页等非结构化数据,已经超出了目前的处理能力。
如何采集、存储和利用庞大的涉税数据,从海量数据中挖掘有价值的信息,已然成为税收信息化面临的重大课题。对复杂类型的数据管理和分析能力是新型税务大数据平台的重点要求。新一代数据仓库Oushu DB完全具备复杂类型数据的快速处理和分析能力。
应用价值:税收大数据平台包括五大板块:一是数据湖,提供数据的智能采集和集中存储;二是数据工厂,负责数据的加工清洗和溯源管理;三是应用广场,实现数据应用各系统的单点登录集成;四是数据超市,呈现多样化数据图标指标和可定制的自助式数据分析服务;五是社区门户,打造数据需求互助和成果交流分享的社区平台。