厚数据,给大数据以灵魂
2015-05-30叶丽雅
叶丽雅
2009年,人类学者Tricia在与外来打工者、街头小贩和网吧等地和低收入者混迹数月之后,给当时她的老板,NOKIA,写了一份详尽的市场报告,告诉NOKIA自己观察并捕捉到的大量市场信号——低收入者已经准备好为更为昂贵的智能手机买单——建议NOKIA投入研发价格适中、面向低收入者的智能手机。
NOKIA总部本来还挺欣赏Tricia的报告,但看到她的样本只有100个的时候就纠结了,最后放弃——和他们成百上千万的样本量相比,Tricia的报告完全微不足道。后面的事情大家显然都知道。
NOKIA的案例问题不在于报告本身,而在于面对有场景、有故事、有标的的小规模数据,不论数据本身多么说明问题,NOKIA选择相信更抽象的大数据。在人人都提大数据、乃至迷恋大数据,不提大数据无以为营销、无以为新商业模式的今天,关于厚数据(thick data)的逆向思维或许不仅仅是新意,更是对数据的一个重新定义。
厚数据是由已故人类学者Clifford Geertz最早提出的,Tricia去年开始引用厚数据,指用人类学定性研究法来阐释的数据,旨在揭示感情、故事和意义。Tricia现在是PL Data公司联合创始人,并参加了著名设计公司为期3个月的驻地专家计划。PL Data是一家致力于帮助企业组织在大数据时代进行创新的初创公司。大数据则是剔除了个性化元素和背景信息的标准化数据,需要庞大的数据支持,以备发现,是定量研究法,厚数据是通过小样本分析找出特定人群的需求;大数据呈现的是数据,厚数据呈现的是故事;前者揭示的是“是什么”,后者展现的是“为什么”。厚数据的确缺乏广度,但大数据缺乏深度也是不争的事实,两者结合似乎才是数据挖掘的未来之道。
早年采访过一位来自英国的数据挖掘专家,一直记得他为当地超市做的最重要的一个贡献就是,通过大数据发现超市里西班牙食品总是伴随着清洁用品一起被消费,经过实地调查后终于搞明白,当地大量雇佣西班牙女佣,他们再帮主顾家采购清洁用品的时候,顺道总是要给自己采购食品。超市就此调整货架安排逻辑,销量果然大涨。
当然,回顾下大家各自在淘宝的购物经验就会发现,淘宝上最成功的推荐从来不是你买一件衣服,它就为你推荐同款或者同风格其他衣服,你在淘宝上搜索珍珠饰品,接下来的淘宝推荐都是整屏的珍珠饰品,而是在你买验孕棒的时候给你推荐叶酸,买孕妇装的时候,帮你推荐新生儿的内衣、玩具、纸尿布、乃至奶粉等一应产品。因为服装选择个人风格可以多变,但孕产期整个生理过程的场景推荐却是大同小异。
IDEO在一次样本调查中发现,新技术的狂热者,除了传说中的技术爱好者,即“高科技极客男”,实际上可能还有一波俗务缠身的“效率极客女”,这部分用户并非科技追随者,却是效率死忠粉。此后经过严格的大数据调查,他们发现在科技潮人领域内,效率极客女还是一批不小的族群,占到早期使用者14%的份额,这波人和其他极客一样生活中片刻不离移动设备,她们有类似喜好,受超过20个价值驱动因素影响,而且是第一代pad中使用频率最高的。有了这个深入的人群定位和分析之后,后面的研发、推广自然顺理成章。
无论是从定性的厚数据开始还是从定量的大数据开始,所有成功的数据挖掘似乎都在证明一件事,光有大数据是不够的,大数据给人以洞察,厚数据则给人以灵感,帮助人们找出数据之后的原因,并支持灵感走向现实。
想象下当年的Henry Ford如果也有大数据,他得到的应该和他观察到的相差不大,“如果我问人们需要什么,他们会说要一匹跑得更快的马。”只有加上更人性的调查,才有T型车横空出世,改变人类的出行规则。
大数据的风险在于,人们会倾向于过分依赖从某种算法得到的结果来做决策,只关注到显著相关的部分,而忽略了算法本来就带有一定的主观性。而且数据在标准化过程中,去掉了所有与人性相关的部分,它的确是事实,但也只是部分的事实。
更不论在这个虚拟和现实越来越交融的世界里,长尾的重要性远非昔日可比,因为关注大部分而放弃小部分人的选择并不见得明智。就像交朋友一样,大部分人不需要,至少不追求有成千上万的朋友,你只需要和你脾胃相投的几个朋友;做生意的当然希望有更多客人,但现代商业已经不都是大商超,越来越多商业成为追求特定目标群体的伙伴式营销/商业。
据说,公司在大数据上每投资1美元,带来的回报仅为55美分,而他们最初的期待回报时3.5美元。不一定都是大数据的错,或许只是我们需要一个更多维的角度去看数据,还有数据所揭示的人本身。那么,厚数据显然是值得一提的一个纬度。