腾讯的大数据哲学
2014-08-29赵艳秋
赵艳秋
正确的哲学是企业永续经营的灵魂,腾讯正在聚集前后台能力,借助哲学思维发力大数据。
面对慈善活动,男人和女人,谁的心会更柔软些?
结果跟你想的似乎不一样——在腾讯慈善基金会捐款平台上,男性和女性的捐款比例为8∶2,也许男性更加温柔些。
这是腾讯互联网与社会研究院产业经济中心主任孟昭莉带领团队开展的一项有趣研究。研究团队还发现,每晚9点到11点是捐款概率最高的时段;同样,周末的捐款概率高于平时的工作日。
“这告诉我们,慈善广告的有效投放时段是在晚上和周末。”孟昭莉说,“这与一般性商业广告不同,因为腾讯很多广告位最最珍贵的时段是在工作日的下午。”
人们做慈善真的是出于无私吗?在QQ头像前方有一个慈善捐款的爱心Logo,如果你加入了腾讯慈善平台,这个Logo就会被点亮,且永不熄灭。孟昭莉他们发现,在点亮这盏“慈善之灯”后,约有30%~40%的人会继续留下来,坚持他们的慈善行为。这意味着,点亮爱心Logo可能是促使部分人加入腾讯慈善平台的最初动因之一,但会有一部分人会无私地坚持将他们的慈善行为坚持下去。
“研究最重要的是了解数据关系背后的人——什么原因导致人们做出这样或那样的行为。通过了解人性,我们会提出顺应人性的管理方法。”孟昭莉说。而这样的理念并不仅局限于腾讯的慈善事业,其与社会管理也相通。孟昭莉认为,发现数据背后的真相,从而能提出顺应人性的管理方法,提升整个社会的管理效率。
项目隶属的腾讯互联网与社会研究院7月底才正式挂牌。但它并不是从零起步,它将腾讯已有的一些内部资源,如互联网法律研究中心、研究网络犯罪的团队,以及一些业务部门中涉及心理学、社会学研究的资源,整合到了同一平台之上。
“在取名时,我们特意把‘互联网与‘社会这两个词放在其中,这是为了突出对互联网产业发展下社会范畴的关注。”腾讯互联网与社会研究院秘书长司晓说。
移动互联的繁荣度
在互联网高速发展的今天,人们在社会管理、生活、经济等方方面面都遇到了种种新问题和挑战。很多问题不仅在中国,甚至在全球也没有先例可寻。
“面对冲击和挑战,我们往往‘知其然而不知其所以然,缺乏前瞻性的应对。”腾讯高级副总裁、腾讯互联网与社会研究院院长郭凯天说,这也是该研究院成立的最直接因素之一。
腾讯互联网与社会研究院的研究工作有三个大方向,一是法律政策方向,二是腾讯信息安全部门主导的网络犯罪研究方向,三是孟昭莉带的产业经济团队的方向。
目前,研究院中正在开展的一个课题是移动互联行业繁荣度指标指数研究。研究员们利用腾讯QQ的全样本数据,来衡量移动金融、移动社交、移动游戏等移动互联细分行业的活跃度。在得到这些指标指数后,他们会将中国的省市依据这个指标指数进行划分。
这样做有什么意义呢?“假设北京的指数是1000,成都是500;同时,如果我们看到北京在半年之前是500,我们就可以对成都的发展有些前瞻性的把握。”孟昭莉说。
当数据积累到一定程度后,研究员会对这个繁荣度指标指数和其他行业的典型指数,比如GDP或能源、金融行业的核心指标指数开展回归分析。如果能够找到这些指标指数间存在的关系,移动互联行业繁荣度指标指数也许就成为一个前瞻性的风向标或预警,成为互联网时代,社会、经济发展的一个新的衡量标准。
与此同时,人们很快将会在腾讯微信、微博上看到一只聪明睿智、语言犀利的企鹅博士——Doctor Q,它将与公众谈论有趣话题,普及知识,纠正谣言,这些内容是研究院围绕民生的阶段性研究成果,涉及空气质量、旅游、交通和就业。例如,Doctor Q可能会谈论天气与人们心情之间的微妙联系。因为,在研究过程中,研究员们发现,各地用户在微博上的吐槽数量与各地PM2.5指数高度关联。
Doctor Q依靠的是腾讯的大数据资源和数据分析能力。腾讯QQ、微博、微信等社交产品积累了大量数据。
以QQ为例,它的月活跃用户约为8.4亿,同时在线人数超过2.1亿,QQ好友关系超过900亿对,用户每天产生QQ消息155亿条,发表空间说说6500多万条,腾讯每天为处理这些大数据要新增存储200T。用户也在不断通过QQ账号登录其他网站。可以说,QQ展现了国内互联网的一个数据生态。
今年春节,根据QQ登录地点的变化,腾讯分析出人口的迁徙趋势。它们发现,北京每年春节后会有大量新人涌入,今年27%的流动人口是在春节后涌入的;另外,春节期间江苏、广东和北京的市民最喜欢去美国、法国、韩国等地旅游。“这为交通运输管理部门和企业提供了有价值的参考,它们能够以此进行更好的规划;我们还可以根据这些信息去研究中国城镇化进度。”腾讯即通产品部助理总经理冼业成说。
融入哲学思维
腾讯高级执行副总裁、社交网络事业群总裁汤道生专注于如何才能充分利用这些大数据。在腾讯互联网和社会研究院高峰论坛期间,他请教了牛津大学信息哲学与信息伦理学教授Luciano Floridi一个困扰自己的问题——数据的互联互通,对于发挥数据的价值至关重要,但大数据已成为各个组织的商业资产,是否有可能去建立一个数据交换体系,让数据交换正常化,从而让大数据给人类带来更大的价值?
“我想,这个问题触碰到了一些非常敏感的神经。”Luciano说。Luciano是欧洲信息哲学创始人,也是谷歌全球七个独立顾问之一。最近,他被腾讯互联网与社会研究院聘请担任名誉顾问。
“差不多是2012年世界经济论坛宣布大数据成为一种新的经济资产,就像货币或者黄金一样,这是一个全新的局面。现在一些组织确实把大数据看作一种私人资产,但作为一种资源,数据应该是人类共享的。”Luciano说。这里所说的数据资产是匿名数据,也就是避免可以识别某个个体的数据。
Luciano以人类早先对石油资源的应对方式做类比。“唯一在当时采取了正确方式的国家是挪威,他们建立了一个复杂的综合体系去处理自然资源,让整个人群受益”。现在,他认为,人类必须去改善现有的社会运营体系,才能充分利用大数据。针对大数据,政府也需要建立政策法规、创建平台,引导数据开放。同时,那些手握数据的大企业也有责任,把数据的价值扩大到更广泛的人群,这才是正确的方向。“这是一种综合思考,可能这种综合思考的方法还没有形成。”他坦言。
孟昭莉团队也在研究大数据商业模式的构建机制。他们看到,虽然大数据概念才提出三、四年,但大数据的商业模式已从逻辑判断转变到系统思考。
她以Patientslikeme社区在大数据收集、应用上采用的机制为例。这个社区针对的是人类发病率极低的一些慢性病。以往由于信息缺乏,这些疾病很难获得好的诊疗。于是,Patientslikeme让全球类似疾病的患者在社区贡献自己的病症和诊疗数据。这样,从社区里,病患和医护人员能获得珍贵的医疗信息,制药企业可以获得宝贵的疗效信息。“Patientslikeme从第一个环节开始,就激发人们愿意把自己的数据共享出来,而且,生态圈的每位参与者都可以从中受益。”孟昭莉分析说,“这样的机制才能形成一个有序且持续的商业模式。”
司晓认为,谷歌请Luciano这位哲学家担任顾问,说明企业发展到一定规模,已经不只看眼前的问题,要关注哲学更高层面的事。他很认可管理学家稻盛和夫在《经营为什么需要哲学》中的一个理念:哲学可以赋予企业一种优秀的品格,正确的哲学是企业永续经营的灵魂。“一个企业越往前走,越需要哲学思维。因此,我们希望这个研究院,能够超脱于公司的具体利益,前瞻性地去看一些问题。”
法律专业出身的司晓,从研究生时代就开始关注互联网时代的法律体系。去年,在一场名为“北大斯坦福的研讨会”上,他特意组织了一个关于网络游戏产业虚拟物交易的话题,并谈及虚拟物哲学层面的绝对和相对概念。这个话题在美国也很少被提及,却具有很现实的意义——网络游戏运营商在法律、公共政策包括产业竞争层面都遇到了很多现实世界中很难想到的问题,现有法律和政策捉襟见肘。既然中国的网络游戏产业已经位于全球前列,为什么不可以在这些方面做到引领?
孟昭莉非常赞同这样的理念,她曾在德勤、埃森哲、三星经济研究院工作。“我觉得真正伟大的企业一定要看到3年以后的事情。企业的研究院通常以技术为核心,但真正伟大的企业,需要看到整个行业发展的前沿和趋势,它们需要提前把握趋势,占位布局”。
今天,大数据正代表着新的时代方向。2002年,诺贝尔经济学奖颁发给一位心理学家,这位心理学家主要的观点是人们是非理性的,这对经济学界带来的冲击非常大。因为,此前大部分经济学理论基于模型或者数据回归,它们的前提都是假设人们是理性的。由此,人们会感到困惑——我们之前的那些经济理论、社会管理学甚至法律是合理的吗?“我们需要寻找新的研究方法和研究理论。”孟昭莉说,“这也是为什么大数据如此受人关注,我们称它为‘大道之行,大数据的时代到来了。”
计算的未来
芝加哥大学知识实验室主任James A. Evans赞同孟昭莉的观点,他认为大数据可以改变和扩展人们问问题的方式,让人类有更好的思维方式、更大的想象空间。当然,大数据是一个跨学科的研究,需要科学家、计算专家、社会学家的良好合作——不仅要提出有意思的问题,还要找到合理的数据分析技术。
在《大数据时代》一书的开篇中,列举了一个后来被广泛传播的案例——谷歌通过人们的海量搜索数据得到的流感预测,要比美国疾病控制和预防中心快7~10天。不过,牛津大学互联网研究院研究员王宁跟踪了这个案例的系列数据。他发现,谷歌对流感预判是有误判的,特别是对2012年6、7月间的流感预判。
“数据是一种知识源,但除非对数据进行很好的组织加工,并提供给正确的人,按照正确的方式进行决策。否则,它就是一种负担,不是一种收益。”王宁说。
腾讯云平台部总经理陈磊坦言,在腾讯,大数据也面临精准性挑战。“腾讯每天要对上百亿条用户行为反馈进行机器学习。但有效数据到底在哪儿?这是一个需要我们去思考的问题”。为此,他们采取了一些处理方式。例如QQ注册,很多用户的注册年龄是0~4岁。在这种情况下,陈磊他们要通过用户的关系链、社交行为、关注的事情等,一步一步找到用户的准确信息。对数据进行优化,是大数据应用的一个重要前提。
与此同时,面对每天新增的200T甚至更为庞大的数据,以前腾讯采用一种叫“T+1”的方式进行机器学习,但这种方式似乎太慢了。
“我们越来越发现,用户实时或准实时的行为才是最有效的。使用昨天的用户行为无法指导今天的广告投放。”陈磊说。为此,他们利用新的计算架构和模型,将用户行为的数据分析从早期的延迟1小时,缩短到延迟15分钟,于是,广告点击率提升了22%。现在,他们又将数据延迟缩短到秒级。
对庞大的数据进行实时和准实时的分析,这是计算专家们正持续追求的一件事。而陈磊最关注的还是数据安全,他认为这是大数据的基石,也是大数据面临的最大挑战。
司晓曾举例说,仅仅在网络游戏领域,就有分工细密到出乎意料的黑色产业链。云平台部曾对90个要求用户使用信用卡或银行卡进行支付的电商网站进行安全扫描分析,发现其中60多个商家或多或少都存在5类安全问题,有20多个商家存在非常严重的安全问题。“我们希望业界建立起对安全问题的重视。大数据面临安全、海量、精准和实时这几个挑战,在采集、处理、建模、投放、应用等环节,要去克服这些挑战,最后才能做出符合用户预期的数据体系。”陈磊说。
“腾讯现投入很多资源做云计算。”汤道生说,“我们认为,未来,每个人身上都有移动设备在不断收集数据,在某一点上,这些数据必须要进行整合,进行更多的综合分析,我们确信这是计算的未来。”