大数据时代的数据主流概念
2014-12-26左磊
左磊
数据主流概念就是介绍聚合数据,聚合数据是一个初创的公司,虽然不是一家大的企业,但是所做的事情并不算小,它为腾讯、百度、京东提供大数据服务,至少覆盖亿人次级别以上,以下更多的是结合数据的模式讲讲对大数据的认识。
模式执勤
说到聚合数据的模式执勤,在PC时代最终用户行为习惯更多的是通过COOKIE,或者是通过IP,到了移动互联网时代需要通过APP和SDK其他的方式获取,但是MBFA并不能够完全地做用户匹配,所以更多的是通过MK结合手机号码来确定一个用户的行为习惯,这也是现在移动互联网最热最重要的一个数据。
大家知道通过APP,SDK获取的数据通过关联以后,会很清晰地对个人贴一些标签,就是所谓的人物画像。在人物画像这块做的最好的是阿里巴巴,它有两个最大的APP,一个是淘宝,一个是支付宝,支付宝有超过3亿人的消费习惯,首先是消费金额,第二个是物流快递地址,还有家庭地址、公司地址,同时支付宝还可以用来冲话费,交燃气和充电费,还有淘宝购物习惯。
大部分年轻人在淘宝数据库里是非常清晰的,虽然在虚拟世界里,但是已经被贴了很多标签,但是阿里并没有满足这些数据,它投入了一系列的投资,比如新浪微博、微信等等,阿里巴巴投资和收购完成以后,把里面的用户打通,因为它投资的这几家企业都拥有上亿的安装量,所以重合度很高,并不像小的APP,假设两个APP,两个都是两千万,可能这两个一千万都没有关联,但是阿里巴巴并购的这些数据后台重合度非常高,根据一个人在什么位置,就知道他做什么工作,了如指掌。
聚合数据就没有这么大,而且也没有钱收购大的APP,更多的是中小型的数据开发者,提供的数据目前大概有100多个,有50或者60个是我们自己在运营,包括天气、网上日记,跟人相关的,包括挂号、12306定火车票等,还有一些通过第三方开发商合作,比如说360、京东,马上会接进来的必应等等,通过有数据源的公司把数据开放出来,从我们公司数据平台再开放出去。
这个是典型的数据模型,这里面介绍了一个人的数据,虽然他不知道这个人长什么样,但是他在聚合数据后台或者是在阿里巴巴后台很清晰,这个人拿了数据票,定了酒店,或者他的身份证号码,他的家庭住址等等是非常清晰的画像模型。
聚合的模式
回到聚合的模式,聚合现在作为第三方最大的公司,每天有超过22万开发者,到明年会有50万开发者,调用量将达到3万亿。聚合最早的爬虫自己去抓取,这是聚合自己做的,但是后来做到一定规模时跟数据中心开始合作,跟360等公司进行合作。另外一方面比如短信运营商,他可能充值10万20万,比如买10万条次数,在聚合开发者平台去销售,所以聚合像是数据银行,通过数据聚合的方式,包括聚合在代理亚马逊,就会把数据方式存储到集合平台上,通过存钱和取钱了解到用户量很大,将这些优质客户留下来做精准的广告投放,做优化。举一个简单的例子,比如精准内容投放,聚合数据有一个违章查询接口,每天违章查询量1200万左右,事实上有重复的数据,真实保存下来的有价值的汽车车牌号,一个月查四次以上,聚合数据平台认为这个用户是有车的,会通过MA和这个用户关联,知道这个用户有车,可以做广告投放,他打开APP时给他提供一些车企的广告,或者提供给他P2P的互联网金融公司信息,提供一些征信的识别。这是聚合做数据银行的模式。
聚合数据的这个平台做了大概三年半,到现在应该有超过22万的开发者,有9万多个应用,或者是网站,或者是微信公众号,还有一些插件利用聚合数据开发,每天的量次数接近5千万次。聚合的模式很简单,一方面通过在线的网站去进行在线充值和在线消费,另一方面为一些大的客户,比如微信、京东提供线下的定制服务,这是两个主要的运营模式。聚合除了做自己的数据挖掘,还和第三方数据研究合作,通常会选某一个领域最好的两家公司进行合作,聚合在平台里面把数据开放出去,通过分成模式,这里面是有典型的客户,包括一些知名客户,这些都在或多或少的用聚合的数据,做开发,做平台业务,都会调用我们的数据。
另外聚合也通过一系列的方式来推广和传播这样的数据服务,包括聚合跟主流的互联网巨头还有一些知名的企业合作,为它们提供很好的服务,帮助它们扩大影响力。
聚合除了跟一些媒体合作也跟一些培训机构合作,主要为了自身提高价值,集成学院是教育平台,现在有三个聚合教学视频在这个平台上运营,免费地被查看,包括CSDN,有几百个老师在使用聚合的帐号做教育培训。明年聚合会正式推出自己的应用数据,因为这个应用数据除了被中国开发者使用外,也同样适合美国的开发者,去拓展美国的视角。