数据的身份与污染
2016-08-31陈禹安
陈禹安
自“大数据”成为热门以来,几乎一夜之间,很多公司都开始标榜自己“具备强大的数据挖掘能力”。但实际上,大数据正值萌芽期,所谓的大数据应用远远没有到达“神乎其神”的程度。
4月21日,亚马逊中国与新华网联合开展“2016全民阅读调查”,通过覆盖全国500多个城市、11800多位受访用户的数据调查,并结合多年来对中国市场的深入研究以及读者在线消费行为的分析,发布了一份调查报告。
不过,这份报告的结论却难有说服力。比如,70后爱读生活和少儿类图书,80后对经管以及孕产育儿类书籍情有独钟。
不同年龄段的读者在题材选择上确实会有所不同,但着重突出70后对于生活类和少儿类图书的热爱,与身边的现实情形相差较大。70后中年纪最大的已经46岁、最小的37岁,这一头一尾的差别显然不能用“爱读生活和少儿类图书”来统一。
而且,70后确实可能买少儿类图书,但未必就是“爱读”。
显然,亚马逊对于数据的解读太过粗疏,也经不起推敲。而导致这一结果的原因可能是调查样本偏差,也可能是数据在采集时就已经被污染。
前者是调查方式的问题,如是后者,则与“数据身份归属”密切相关,因为无论是通过亚马逊网站还是kindle采集的信息,都可能无法精准认证。
在互联网技术支撑下,数据采集已经不是什么难题,但针对任何数据的分析、评估、研判乃至具体的应用,首先就要明确数据的身份归属。
也就是说,某一组数据到底是由哪一个具体的鲜活个体产生的。
如果数据不是由某个确定的单一个体产生的,显然就无法依据这种被污染了的数据来做出正确的分析,合理的判断。
这个问题看似简单,但在现实场景中却存在着至少两类数据身份归属不明的情形。
第一类是数据身份错位。
基于互联网技术的商业应用,往往需要用户在使用之前进行注册。
比如,使用Uber、滴滴打车等APP,用户必须将自己的一些身份信息填写上传,才能正常使用。而后台则根据这些身份信息,进行对应身份的数据分析与挖掘。
但是,因为互联网新技术存在着学习门槛,并不是所有有意成为用户的人都能轻松克服学习的阻抗,只能请求他人帮助或代劳。
记得一次使用Uber叫车服务时,我从手机端看到的信息是一位年轻的女司机,但随后的电话沟通却表明是一位年长的男性。等上车进行交谈后,才知道这是女儿为了让退休在家的父亲有事可做而注册了Uber司机账号,但她是用自己的身份而不是父亲的身份注册。这就造成了数据身份错位。
如果Uber以此账号来认证这一数据身份的行为,就可能出现偏差。
举一个极端的例子,当这位女士作为乘客享用Uber服务的同时,她(实际上是她的父亲,但后台系统却无法自动识别)又作为司机在为别的乘客提供Uber服务。
还有一种情形,施以援手者尽管也是以被帮助者本人的身份信息注册的,但还是有可能夹杂了部分自己的信息。
比如,2015年“双十二”时,支付宝为了增加用户,与线下3万家超市便利店合作,凡使用支付宝支付的,全线五折,50元封顶。
这一优惠力度对那些高度价格敏感者(大妈大伯们)的诱惑力不言而喻,但他们大多从来没有使用过支付宝。
于是,在活动现场,就出现了超市或便利店的收银员帮助他们下载、安装、注册支付宝APP而排长队的场景。
为了尽快完成,收银员们并不会完全按照大伯大妈的真实身份信息注册,而是潦草完成,能略则略,或是直接将某个默认的选择用之于所有人。这样的数据身份显然是有瑕疵的。
第二类是数据身份共享。
浙江义乌一位经商的赵先生,为了方便女儿玩手机,把12岁女儿乐乐的指纹也加入了手机开锁密码。不料,乐乐在父亲手机里的一款社交K歌APP上听歌时,竟然在3天内打赏出去16万人民币。
对于这款APP来说,如果开展后台数据统计分析,一定会将打赏行为视为赵先生本人所为,却不知道这是她年幼的女儿共享了赵先生的数据身份所致。
再以我的亲身经历为例。我的孩子有段时间在一个培训机构补课,中午需要自行解决午餐。于是,用我的身份信息资料以及信用卡注册的支付宝就成了孩子的支付工具。孩子除了支付中午的外卖之外,也会用支付宝在淘宝上购买一些她所喜欢的小东西。如果将一个小孩的购物行为归结到大人身上,岂不是张冠李戴?
中国人的个人边界意识较之于西方人是十分淡漠的。在各种亲密关系中,这类数据身份共享是一种常态。诸如丈夫请妻子用自己的淘宝账号购物,员工用自己的私人账号为公家采购都是符合中国国情的。但数据身份的共享却为后续的大数据处理带来了极大麻烦。
这又是另一类型的大数据污染。
大数据的应用显然是向着精准预测的方向演进的。据悉,电商巨头亚马逊已经申请了预测式发货的新专利。亚马逊会根据某个用户之前的订单、商品搜索记录、愿望清单、购物车、甚至包括用户的鼠标在某件商品上悬停的时间等数据,预测用户的购物习惯,从而在他实际下单前便将包裹发出。
显然,亚马逊的这一大数据应用是建立在历史数据的高纯净度的前提之下的。
如果历史数据因为数据身份错位或共享而被污染,所谓的“用户画像”就是失真的,也就不可能成为数据分析与预测决策的依据。
从这个角度来说,要想彻底杜绝大数据污染,必须把好“数据身份认证关”。这才是大数据应用之基。
做不好这项基础工作的互联网公司,就不要急着奢谈“强大的数据挖掘能力”。而消费者们也要保持清醒,不要轻易相信那些所谓的“大数据奇迹”。