小样本挖掘
2015-11-17叶丽雅
爱你 2015年17期
◎ 叶丽雅
小样本挖掘
◎ 叶丽雅
2009年,人类学者Tricia给诺基亚总部写了一份详尽的市场报告,说低收入者已经准备好为更昂贵的智能手机买单,建议诺基亚研发面向低收入者的价格适中的智能手机。诺基亚总部本来还挺欣赏Tricia的报告,但看到她的样本只有100个的时候放弃了,转而选择相信更抽象的大数据,后面的事情大家显然都知道了。
在人人都提大数据乃至迷恋大数据的今天,厚数据的逆向思维是一个新的定义。
厚数据是由已故人类学者Clifford Geertz提出的。大数据是剔除了个性化元素和背景信息的标准化数据,厚数据则通过小样本分析找出特定人群的需求。前者揭示的是“是什么”,后者展现的是“为什么”。
一位英国的数据挖掘专家通过大数据发现超市里的西班牙食品总是和清洁用品一起被消费,经过实地调查后终于搞明白:当地大量雇佣西班牙女佣,她们在帮主顾家采购清洁用品的时候顺道给自己采购食品。超市就此调整货架安排,销量果然大涨。
淘宝上最成功的推荐从来不是你买一件衣服它就为你推荐同款或者同风格的其他衣服,而是在你买验孕棒的时候给你推荐叶酸,买孕妇装的时候给你推荐新生儿的内衣、玩具、纸尿裤乃至奶粉等一应产品。
大数据的风险在于数据在标准化过程中去掉了所有与人性相关的部分,它的确是事实,但也只是部分事实。因为关注大部分人而放弃小部分人的选择并不明智,就像交朋友一样,大部分人不追求有成千上万的朋友,只需要几个和自己脾性相投的朋友。
现在越来越多的商家追求特定目标群体的伙伴式营销,将大数据的广度与厚数据的深度结合才是数据挖掘的未来之道。
(摘自《IT经理世界》2015年第6期)