从微信功能扩展分析平台化的大数据战略
2014-12-21刘敏行
刘敏行
“大数据技术与应用的产生发展,表明信息技术革命进入了一个新的转折点,数据资源真正与能源、材料等量齐观,共同推动人类社会的进步。更加广泛深入的大数据应用将出人意料的改变传统产业[1]。”由此可以看出业界共识:大数据的技术与应用方兴未艾,发展迅速。
虽然大数据在国内还处于初级阶段,但是商业价值已经凸显出来。手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;同时,基于数据挖掘会有很多商业模式诞生,引发众多新的业态产生。
然而,我们知道,大数据的基本概念是通过快速获取、处理、分析以从中提取具有价值的海量、多样化的数据,正如《大数据时代》一书中提到的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)[2]。从大数据产业的角度看,其产业链应该包括大数据的采集与挖掘、组织与管理、分析与发现、应用与服务等环节。因此无论是从大数据的概念还是从产业链的角度,我们都可以发现,大数据的关键环节是巨量数据的采集与挖掘。数据采集与数据挖掘涉及众多技术与方法,通过观察与分析腾讯微信平台功能的扩展,发现平台化应该是数据采集与挖掘的关键。
腾讯最近更新了微信5.2版本,打开新版微信,欢迎界面回顾了微信3周年的发展历程,里面记录了微信功能扩展的一个个里程碑——“语音聊天”、“摇一摇”、“朋友圈”、“飞机大战”、“微信支付”等。从这些所谓里程碑的应用扩展,可以管窥腾讯的大数据策略。很多人原以为微信只不过是加入语音的QQ,到后来发现微信迅速涉足了游戏、在线支付,以及依托春节推出“理财通”这个与淘宝的“支付宝”相抗衡的金融工具,人们才真正发现,微信根本不是什么QQ的亲兄弟,而是腾讯在不知不觉中构建的一个大型社交生态平台,这个平台就是大数据平台,依托这一平台,腾讯才真正采集和挖掘了近5亿用户的相关数据。
众所周知,平台化的应用对于数据收集十分方便。由于同处一个平台上,各个分支模块的数据一般会存在一台相同的机器上,互相提取数据显然比独立时要方便许多,还能节省很多信息成本。比如,微信在没有整合入游戏功能之前,腾讯要收集有关游戏方面的数据,就不得不去寻求一些游戏应用开发公司的支持。这一过程,公司不仅需要支付昂贵费用,而且所获数据不一定准确和适用。仍拿微信和游戏公司比较,游戏公司的主攻方向是怎么把游戏情节设计得更加吸引人,画面做的更加炫酷、质量更好,故很多数据都集中在有关游戏设计本身的各个参数上。但作为一个社交平台的微信显然更关心的是人们喜欢玩哪些类型的游戏、人们什么时候会玩游戏、人们一般花多少时间玩游戏等等这些偏用户信息类的数据,需求和取舍不同,有关数据的标准也不同;而如果将游戏应用整合到一个平台上来,那平台管理团队就可以更具针对性的采集数据了,数据的可信度也就有了保证。
同时,平台化有利于数据采集的标准化、规格化。因为来源于同一个平台的数据,存储起来就可以是标准和规格的数据。这既方便数据的提取、检索,更为重要的是,标准化、规格化的存储格式给今后的数据挖掘效率带来了保证。作者曾经动手编写过一项有关数据挖掘的程序,先编写数据挖掘算法程序,然后读入几组“大数据”进行正确性和效率的验证。结果在算法设计及优化上花的时间不多,倒是花在处理数据输入上费了一番功夫,原因就是给的测试数据格式不确定——数据数值之间的空格数不定,有的数据每一行是以windows标准的’ ’结尾,有的却以linux标准的’ ’结尾;验证起来难度很大。有时候,可能程序运行的数据不是原始数据,一开始就错了,最终程序走不通。因此,如果数据本身是以一种比较标准的格式存储的,甚至是用更高效率的数据结构存储的,这对于数据的挖掘应用,就会更加高效和正确。
当然,平台化也给数据挖掘提供了新思路、新价值。[3]“大数据的核心是挖掘出庞大的数据库中独有的价值 ”,重点是要挖掘不同类数据之间潜在的联系,即“交叉数据”的价值。微信平台上有“滴滴打车”应用,还有微信支付支持的电子商城和电影票购买业务。“滴滴打车”应用可以获取两大关键数据,即地点和时间。地点即使用打车应用之前要告知的目的地,时间则是根据路况信息推算出乘客在出租车上大概花费的时间。有了地点,服务器可以马上从平台上搜寻与目的地距离较近的商城或电影院,然后根据乘客的乘车时间推送一定长度的优惠促销信息吸引用户消费。这里,“滴滴打车”的数据分析结果对于商城销售商品发挥了重要作用。另外,像微信这种社交平台,对于游戏设置本身信息的关注可能不多,更关心的是反映用户使用习惯的数据,比如用户每天在什么时候打开游戏,一般愿意花多长时间在游戏上。诸如这样的数据,表面上看反映的是用户玩游戏的习惯,但思路再放开一点,游戏其实是一种放松娱乐的方式。加之,微信平台设置的网游不像大型网游,只是一些小游戏,往往是人们无聊的时候随手玩一两局,玩游戏的时间反映了一个人感到无聊的时间。然而,人们无聊不一定只能玩游戏啊,可能也会愿意看一两篇小文章、小短片来消遣。于是,腾讯大数据平台可以借此在用户无聊的时间里,推送一些小容量小的文章、图片、视频,甚至是小广告,这样游戏应用的数据又产生了难以估量的商业价值。
当然,腾讯具体如何挖掘数据,作者没有深入调查,但从微信平台采集的数据,腾讯完全可以做点大文章。冯小刚拍摄的《私人定制》上映后,结果“私人定制”很快成为一种很火的销售方式,因为针对每个人特定条件、需求的精准营销,专为“私人定制”的商品和服务受到越来越多人的青睐。要想真正做得精准,更加“私人”化,关键在于私人数据的充分挖掘。而平台化的应用,有利于公司整合相关数据,进行更加深入、系统的挖掘与分析,从而使“私人定制”成为可能。作者猜想,腾讯未来一定会借助平台化这一“大数据”挖掘利器,将更多、更广的应用整合到微信平台上,比如说被常用来作为收集、分析数据的搜索和地图工具,也许不久的将来,就会出现在手机的微信应用里。
上述分析,足以说明,腾讯的微信平台是其大数据战略的重要支点。凭借这一支点,腾讯在大数据应用方面必将走在国内众多机构与企业的前头。
其实,采用平台化策略,推动大数据产业的不仅仅是腾讯;国外的facebook、twitter,以及我们熟悉的Google,实际上都是先构建了一个大数据采集平台,然后对海量数据进行深入挖掘分析,最终形成大数据应用的。
平台化战略就是数据整合以及标准和规范的战略。大数据的前提是如何更好地整合巨量数据,没有巨量的数据资源,难以构建大数据应用,更难以形成大数据产业链。采集到了巨量数据,如果没有数据的标准化、规范化,如果不能将非结构化数据转变成结构化数据,如果不能方便快捷地挖掘出不同数据之间的关联性,也难以实现真正的大数据应用[4]。
由此,作者认为,平台化是大数据战略实施的关键,有一个良好的数据整合平台,才能真正构建良好的大数据应用。无疑,拓展大数据应用,发展大数据产业,首先要考虑的是构建一个能够实现数据采集与挖掘的大数据平台。
[1]《中国信息化》杂志2014年第1期第5页
[2]麦肯锡研究报告:《大数据:下一个创新、竞争和生产率的前沿》,2011年5月发布。
[3]维克托.迈尔-舍恩伯格与肯尼恩.库克耶,《大数据时代》,浙江人民出版社出版。
[4] 谢超,《大数据下的数据分析平台架构》,《程序员》杂志2011年第8期。