APP下载

齐红威:开启大数据破冰之旅

2016-05-16程梦瑶

软件和集成电路 2016年5期

程梦瑶

到2015年,数据的价值才逐渐被认知,大数据应用开始全面开花。数据堂的先发优势,经过时间的积累逐渐成为了其强有力的差异化市场竞争力。那么,数据堂又是如何艰难地获取数据的呢?

“把小麦加工成面粉。”数据堂联合创始人、CEO齐红威用这样一个比喻来形容数据堂的商业模式。

寻找数据资源,通过技术处理将获取的数据整合成产品,然后卖产品。齐红威将这样一种商业模式命名为“数据银行”。“数据银行”的终极目标是将数据资产化。

事实上,从2011年数据堂创立至今,在实现数据资产变现或增值的道路上,数据堂成为了中国本土大数据产业生态圈中的标杆型企业。日前,从数据堂披露的2015年年报显示,公司实现营业收入6815万元,同比增长271%。短短5年的时间,数据堂不仅成为了资本界的宠儿,完成了高达2.4亿元的B轮融资,而且成为了新三板第一家大数据企业。

从小麦到面粉

数据的价值如同石油般引人瞩目。数据堂现任CEO齐红威、COO柴银辉、联合创始人肖永红等,在与金融、电信、汽车等行业客户接触的过程中,曾不一而同地发现,客户对于数据的需求正在极大地增加。

“在帮助客户做解决方案的时候,发现找不来数据,尽管客户自己可以提供一些有限的数据,但大量数据还必须从第三方拿取,要么根本找不着,或者需要付出高昂代价。比如一些汽车厂商需要做舆情分析,却没有数据做支撑。”齐红威和他的创始团队在2011年之前都曾从事数据研究的相关工作,对于市场上产生的此类同质化的困境,出于对数据的敏锐嗅觉,使他们迅速地意识到,这种供需不对等的现象,给他们的创业之路带来了发展契机。

在数据堂寻找到“数据银行”这种商业模式之前,他们也曾经做过数据交易方面的尝试,但最终却无法实现。齐红威说:“首先,很多数据涉及到国家安全和个人隐私,无法直接交易。其次,数据拥有方和数据需求方之间诉求不对等。如同小麦和面粉的关系,提供方提供的是小麦,而需求方需要的则是面粉。第三,很多单一数据价值并不高。数据需求方发现,很多时候,他们需要的不是一种数据而是多种数据,需要综合的数据产品。比如银行做征信,需要的是对这个人的综合的信用判断,因此,不是简单的数据对接。”

早期实践证明,以拿数据和卖数据构成的数据交易两段论,是无法直接实现的。齐红威谈到:“很多时候需要不同的数据进行深度整合,这时候整个简单交易平台是做不到的,你需要有一个深度服务平台,把这些数据整合到一起。就如同面粉的价值远超于小麦,将数据进行加工之后,数据安全性、敏感性、数据资产、定价和流通等问题几乎都可以解决,只要大家不要过分关注原始数据本身,好多问题就已经不是问题。”

最终,数据堂确立了“数据银行”的商业模式,“银行的方式是,拿存款,把存款形成各种各样的金融产品。我们的方式是拿数据,把数据整合成不同的数据产品。”齐红威认为,在大数据的产业链中,涉及到的环节多不胜数,专注于数据源领域,从获取数据到数据处理,再到形成产品,完全可以实现数据资产变现或增值,至于其他领域,该舍弃的就应当果断舍弃。

时间效益抢占先发优势

对于“数据银行”而言,数据获取是一个关键环节。齐红威透露,数据堂目前融到的大量资金基本都花在了数据获取层面,接下来,他们也将继续在数据获取上投入大量的资金。

在数据堂成立的2011年前后,大数据在中国市场还处于概念的炒作期,对于“大数据”概念的理解,各行各业都还处于观摩阶段,更遑论数据的开放与共享。

到2015年,数据的价值才逐渐被认知,大数据应用开始全面开花。数据堂的先发优势,经过时间的积累逐渐成为了其强有力的差异化市场竞争力。那么,数据堂又是如何艰难地获取数据的呢?

齐红威将现实世界中的数据划分为四类:其一,纯线下数据,这类基础数据在过去,绝大部分都是通过人工采集形成。比如,出租车司机的行驶路径,为电子地图提供基础数据。超市的购物小票也是数据获取的另一种途径;其二,行业大数据,主要分布在传统企业的主营业务中,涵盖了全国上千万家企业通过业务形成的数据积累;其三,互联网数据,广泛而凌乱;其四,政府数据,要依赖于政府层面对数据开放与共享进程的推进。

对于以上这四大类型数据的获取,数据堂也不断摸索获取途径。齐红威谈到:“数据堂采用的众包方式,通过50多万的兼职人员利用业务时间帮助采集数据。在我们的众包平台上,有几十万实名的用户帮我们采集各种各样的数据,他们被称作众客。让这些数据在我的交易平台上流动起来,这也是我们的数据来源之一。”

而行业大数据则主要通过与行业合作伙伴共同开发获取,至于政府数据,齐红威说:“我们现在和政府合作或者和数据敏感相关部门合作,我们并没有把数据迁移出来,因为这是底线。这时候我们要和合作伙伴商量去解决一个使用权的问题。使用权可以在数据堂这一端使用,也可以在合作伙伴端使用,大家不会担心数据迁移出来之后,会发生许多不可控的问题。”

5年来,数据堂积累下来的源数据量保持了绝对的领先优势。齐红威透露,目前,数据堂拥有的经过处理过的数据量高达2PB。齐红威说:“数据堂有很强的先发优势,在很多人还没明白大数据是什么的时候,数据堂就已经开始了,大数据是有规模效应的,5年前我们就开始做了。”

技术积累是看家本领

在数据堂成立之前,齐红威曾在NEC中国研究院,带领团队做数据挖掘工作,当时,肖永红则在中科院文献情报中心搞科研数据分析。而目前,数据堂的大量技术人员,很多都是来自NEC的研发团队。

齐红威强调,数据堂目前的团队,实际上仍然是一个技术团队,拥有十几年的技术功底。“中国的大数据产业无论数据服务还是数据应用,还远没达到行业应该达到的高度。大数据最终需要的是数据或者是技术的深度整合,真正的分析还没有到来。国内大数据产业犹如万米马拉松,现在最多只跑了1500米。”

对于目前大数据产业的格局划分,齐红威比较赞同的划分方式是,四大类型—大数据基础设施、数据源企业、数据技术企业和数据应用企业。数据堂属于第二个和第三个类型。这类企业专门提供某个垂直领域的数据源,把数据当做一种可交易的产品,形成数据市场,也可以说是数据的电商平台,但比电商更复杂。

目前,数据堂旗下三大核心产品也逐渐在市场上站稳了脚跟。Datamall数据商城,以电商的形式实现大数据资源的在线共享与交易,极大地增强数据变现的空间,提高数据价值的流通;数据云服务,深度整合各类数据资源,全面挖掘数据价值,为客户产品和服务提供数据增值在线支撑平台;数据定制-众客堂,是国内首款数据采集、数据标注、数据爬取的众包平台。

通过获取线下大数据、行业大数据以及政府大数据,数据堂整合了涵盖科技、信用、交通、医疗、卫生、通信、天气、地理、质监、环境、商户、电力等数十大领域的大规模数据。并以此为基础,为客户提供专业数据采集、处理、共享及数据云服务。“我现在关注征信、交通、医疗、营销、人工智能等领域。”齐红威说。

齐红威介绍道:“以金融征信数据运营服务为例,数据征信的核心是从数据广度上将权重加在借款人日常生活的交易数据及社交数据上。比如借款人一般都在哪里消费,月均消费金额是多少,消费支出中的分布情况如何,微博微信之类的社交圈活跃度如何等诸如此类的问题。这类数据具有很好的连贯性,可以从中分析很多的用户特性,习惯并反向推断借款人的实际财务状况,进行风险筛选;也能大幅增加借款人的违约成本,从而警示借款人遵守规则、按期还款。最重要的是,这些数据造假可能性非常低。因为都是大数据环境下的各类碎片信息收集和分析,真实性甚至可以做到百分之百。经过多年积累,数据堂聚集了包括身份数据、涉诉数据、消费数据、出行数据、企业基本信息数据、投资数据等在内的征信大数据集,建立了大数据征信查询平台,针对个人信用和企业信用客户,金融机构可以借此平台快速查询借款人或企业信用评估信息,降低信贷风险,提高审核效率,降低人工核查成本。”

作为一家数据资源服务企业,齐红威认为,数据堂的底线很明确。“我们不做应用,不做侵犯国家安全和个人隐私的事,客户必须获得最终用户的授权。”

2011年成立,2013年开始盈利,2014年挂牌新三板,“数据银行”的可行性不断地得到验证。齐红威说,数据堂的目标是做到千亿元的企业估值。从目前数据堂吸纳资本的能力看,数据堂已经打通了实现路径。