Datablau:存量数据的交付专家
2017-05-25郑善双
郑善双
日前,北京蓝图明册科技有限公司(简称蓝图明册)创始人王琤正式对外宣布,蓝图明册完成数百万元天使轮融资,投资方为跨境投资机构美国中经合集团,本轮融资将主要用于产品迭代、功能研发以及商务拓展。
蓝图明册成立于2016年,是一家通过对异构数据源的数据发现与基于业务语义进行整合,帮助企业变革数据驱动运营的大数据公司,Datablau是蓝图明册的旗下的数据交付产品和数据资产运营平台。
Datablau通过软件产品提取企业数据资产地图,再进行敏捷数据准备和分析为企业提炼产数据价值,让数据可见、可识、可控、可融,更易挖掘价值。目前,Datablau v1.0已经发布和开放试用。
十年磨一剑
蓝图明册创始人王琤是一个地道的北京爷们儿,北京大学研究生毕业后,先后就职于点击科技、Microsoft等国内外知名公司。2006年,王琤步入了CA的办公大楼,自此之后再未离开,直到2016年自主创业。在CA长达十年的工作生涯中,王琤主要负责CA ERwin数据建模的全球研发工作,也因此积累了十几个软件开发项目全流程经验。
CA ERwin中国团队自2010年4月正式建立,王琤作为CA中国研发中心的领导者,直接向美国的ERwin总经理汇报。面对已经成立多年的美国和印度团队,初建团队相对弱势,王琤积极营造技术氛围,创新企业文化,鼓舞工作士气,用了2年时间,使团队从辅助角色成长为整个ERwin产品开发的中坚力量,最终所有代码贡献都来自中国团队。
强将帐下,必有雄兵。在王琤的带领下,ERwin中国的研发团队持续实践敏捷开发,改进SCRUM(一种迭代式增量软件开发过程)执行效率,第一年转型后,团队交付功能点翻番,并成功攻克数据建模的行业瓶颈,使ERwin在数据库设计和数据库之间建立起强大的native连接,支持正向工程和逆向工程,能自动生成表、视图、索引、参照完整性规则(主键和外键)、缺省值、域/列约束,包括一整套优化的参照完整性触发器模板和丰富的宏语言,用于定制触发器和存储过程。
自2015年开始,大数据的概念被热捧,数据价值得到前所未有的关注。王琤敏锐把握战机,一手策划并建立了与清华大学在大数据技术方面的合作,技术原型得以成功研发,帮助ERwin顺利进入大数据市场。为了解决企业在复杂大数据环境下的数据管理问题,王琤带领团队利用元数据和统一模型(已享有专利)一举攻克了传统关系型数据库迁移到NoSQL和NoSQL数据挖掘商业智能的行业难题。
通过对数据管理领域的深度耕耘和对大数据时代到来的精准预判,王琤带领CA ERwin研发团队在硝烟的IT市场不断冲杀,终于将ERwin扶上数据建模工具市场占有率第一的王座。目前,大部分世界500强企业都在用ERwin进行数据管理,其中包括AT&T、美国银行、DELTA航空、沃尔玛等国际知名公司。
从数据痛点看到创业机遇
多年与数据库和数据管理工具打交道的工作经历,让王琤看到了国内外各大企业在数据挖掘、采集、应用方面存在的行业痛点。“企业经过长期经营,在各种异构数据源中,累积了海量数据。如何快速在不同的数据源中,挖掘存量数据,变现数据价值,是每个企业CIO十分头痛的事。我曾帮助国内某银行完成新一代系统的搭建,涉及一百多个业务系统、八千多张表的数据融合,整个项目耗时两年半,业务繁复,工作量巨大。”王琤这样说道。
在数据就是资源的今天,完善的数据管理对各大企业的业务发展至关重要。如何通过大数据分析手段来优化自身业务流程,提高服務质量,增强市场竞争力,这几乎是各行各业的管理者都在思考的难题。
而我国部分企业数据资产的现状却非常尴尬,由于企业在发展过程中的人员变动、IT架构设计、采购流程、厂商提供的解决方案差异等原因,造成了各种缺乏业务定义的存量数据混杂在一起,难以利用。Gartner曾经指出,如今企业在进行数据分析之前,往往要花费整个项目80%的时间进行数据梳理。这意味着大量的人工与时间投入。
行业痛点往往意味着商业机遇,2016年初,王琤联合当时担任CA ERwin首席架构师的朱金宝及其他几位同事一起走出CA,正式成立蓝图明册,联手开发一款自动化数据交付服务平台,命名为“Datablau”。
Datablau是一个数据资产运营平台,能够帮助企业打通不同业务的数据源,并采用深度行业数据分析模型进行数据分析,为企业决策提供数据支持,提升企业运营效率。说到底,王琤的创业之路也是之前工作经验的延续和发展。
只做数据交付
“与市场上很多大数据厂商不同,我们既不做大数据的分析和可视化,也不承接大数据项目,只是利用Datablau这样一个数据管理工具高效率地打破企业各部门间的数据壁垒,交付高质量的数据资源。”王琤这样概括他的工作。
以汽车企业为例,以往汽车企业的车辆基础信息、销售数据、舆情信息、4S店维修信息以及车辆出险信息等,都可能储存在包括Oracle、DB2、MongoDB、Excel或者云平台中。由于这种复杂的数据环境,业务人员如果希望进行数据关联性分析,需要与IT人员一起沟通、设计数据分析模型,再由IT人员编写脚本进行数据提取与关联。这种人工方式,其效率可想而知。
而在安装部署Datablau之后,IT人员只需将各数据源与平台进行连接,自动获取或手动设置存量/增量数据模型后,就可以让数据科学家或业务专家进行业务视图设计和样例数据分析设置,待完成数据准备后便能够自动生成可视化的数据报表。王琤坦言,能够将各环境下的数据放在同一平台,并用可视化工具进行处理分析,可以极大减少企业在这方面的资源投入。
“这样,分析人员就能直接看出哪些数据之间是有关联的,进而有针对性地对业务进行优化。同时,这些存量数据集除了可以交付给企业,也可以交付给BI与AI产品,进行深度分析和挖掘,产生深度业务价值。这也是我们和市场现有的、以运营数据分析为主的大数据产品的不同之处。”王琤说。
据王琤介绍,Datablau采用C/S架构,提供免费下载,直接部署在企业客户端,使用时需要根据活跃客户端数量与时长进行付费,一次部署仅需大约2个小时。另外,Datablau还提供6个小时的在线培训。对于企业有针对性的定制化需求,Datablau也可满足,但需要额外收费。
高效的数据“搬运工”
就大数据市场各大厂商来说,无论是扎根于哪个领域,有着多么成熟的解决方案和业务模型,在接到大数据项目之后,首先要解决的就是客户的数据梳理问题。“在一个大数据项目中,厂商需要花费大量的人力和时间来进行数据梳理,极耗精力。而Datablau可以完成60%~70%的数据梳理工作,剩下的30%,需要补充业务标签的工作才需要业务人员参与。也就是说,我们把大数据项目中最脏、最乱、很多人不愿意干的活,通过软件解决了。我觉得,Datablau在整个大数据生态链中承担了一个类似数据平台的角色。”王琤如是说道。
对于Datablau,王琤还做了一个形象的比喻,比方说有一个房主,要把一个杂乱不堪、毫无条理的房间进行搬迁。Datablau首先承擔的是一个制图工程师的工作,能将屋子里的一切都描绘在图纸上,让房主知道,屋子里到底都有什么。接下来,Datablau承担一个搬运工的角色,将各种家具、厨具分门别类地搬到一个指定地点,至于房主之后想做什么,怎么摆放,由房主自己决定。
“Datablau是以最有效率的方式,用软件代替人工来做数据梳理工作,之前中国某银行耗时两年半的数据梳理工作,如果采用Datablau,至多只需要两个半月。”王琤对Datablau的工作效率信心十足。
对于今年的计划,王琤透露,2017年Datablau将继续进行产品优化,加大在市场推广方面的投入,不断探索和验证产品的发展方向,并寻求与大数据BI厂商的合作。“我们现在对直销会更积极一点,与一些大型企业的合作也已经提上日程,部分企业POC测试阶段已经做完,开始谈到具体的商务合作。”王琤说道。
在现如今风雨欲来的大数据市场上,时常会有厂商打出“一站式的解决方案”“一揽子服务”等旗号冲进大数据市场,期望成为大数据生态圈的缔造者。但退一步来说,大数据上下游的产业链足够长,大数据技术公司不一定非要做到“大而全”,哪怕只是将产业链上一个横截面的业务做到“小而精”,在市场上也能风生水起。王琤的团队显然属于后者。2016年对于王琤来说,可以说是意义非凡的一年。在公司初创之年,王琤喜得贵子,升级成为一名幸福奶爸。新生儿的降生让父母感到幸福之余,也会使父母不由自主地对他的未来产生憧憬和期许,而初创公司何尝不是像新生儿一样需要我们以发展和希冀的眼光来看待呢。希望王琤这位兼具创始人和父亲双重角色的北京爷们儿,在创业之路上给我们带来更多惊喜。