“猜你喜欢”如何打量你
2014-06-10约翰·里德尔
约翰·里德尔
你有没有想过自己在亚马逊眼中是什么样子?答案是:你是一个很大很大的表格里一串很长的数字。这串数字描述了你所看过的每一样东西、你点击的每一个链接以及你在亚马逊上买的每一件商品;表格里的其余部分则代表了其他数百万到亚马逊购物的人。你每次登录网站,你的数字就会发生改变;在此期间,你在网站上每动一下,这个数字就会跟着改变。这个信息又会反过来影响你在访问的每个页面上会看到什么,还有你会从亚马逊公司收到什么邮件和优惠信息。
“猜你喜欢”怎么猜中
许多年来,商家都会使用推荐系统用各种各样的方法来采集和解析所有数据,比如个性化协同推荐的算法。这也是亚马逊、Netflix、Facebook 的好友推荐的核心算法。说它 “个性化”,是因为这种算法会追踪用户的每一个行为(如浏览过的页面、订单记录和商品评分),以此进行推荐,它们可不是瞎猫碰上死耗子——全凭运气。说它 “协同”,则是因为它会根据许多其他的顾客也购买了这些商品或者对其显示出好感,而将两样物品视为彼此关联,它不是通过分析商品特征或者关键词来进行判断的,而是通过一些特别的算法。
User-User:用户之间的相似度
如果吉姆和简都给《电子世界争霸战》这部电影打了 5 分,那么他们之间的距离就是 0。如果吉姆给它的续集《创:战纪》这部电影打了 5 分,而简只打了 3 分,那么他们之间的距离就变大了。
Item-Item:物品之间的关联
喜欢汤姆·克兰西书的人很可能会给克莱夫·卡斯勒的作品打高分,因此克兰西和卡斯勒的书就共处一个集合中。一对物品之间的距离可能是根据成百上千万用户的评分计算得出,在一段时间里往往保持相对稳定,因此推荐系统可以预先计算距离,并更快地生成推荐结果。
降维算法:把事物特征一般化
你可以把你爱吃的东西用一个巨型矩阵表示出来,每一条竖线代表一样食物。上面或许会显示你给了烤牛排5颗星、红烧小排4星半、烤鸡翅2颗星、冻豆腐卷1颗星、奶酪烤蘑菇5颗星、盐水毛豆4颗星等。
然而,使用这个矩阵并不关心你给哪种食物评了多少颗星。它想要了解的是你一般而言的喜好,这样它可以将这个信息应用到更丰富多样的食物上。比如说,基于你上面给出的信息,算法可能会认为你喜欢牛肉、咸的东西和烤制菜品,不喜欢鸡肉和任何油炸的东西,不喜欢也不讨厌蔬菜,以此类推。
当然,商家使用推荐系统还可以解决两个最重要的问题:第一,在弄清楚你和其他购物者的相似度有多高之前,必须先弄明白你真正喜欢什么;第二,所有的推荐必须依照一组商业规则运行,以确保推荐结果既让你觉得有用,也有利可图。
如何从你的信任中挣钱
记录你每一个动作
举个例子,亚马逊的艺术品商店有这样几个方法来评估你的喜好。它会让你在 1 到 5 颗星的等级上给某一件艺术作品打分,它也会记录下你把哪些画点击放大了来看,哪些画你反反复复看了好多次,你把哪些放进了心愿单,还有你最终实际下单买了什么,它还会追踪在你浏览过的每一个页面上都显示了哪些画作。在线零售商会使用你在其网站上行进的路径(你浏览过的页面和点击商品的链接)来向你推荐相关联的商品。此外,它还把你的购买记录和打分信息结合起来,建立一个你长期购买偏好的档案。
像亚马逊这样的公司会收集大量此类有关客户的数据。在你登录期间,你在它网站上的几乎每一个动作都会被记下来,留作将来使用。多亏有了浏览器 cookie,连匿名购物者的上网记录商家也能维持,最终这些数据将在匿名购物者创建账户或者登录时,链接到顾客的个人资料。这种爆炸式的数据采集并非为在线商家所独有,沃尔玛便以其对现金收据数据的深入挖掘而著称于业界。但是,网上商店处在一个更有利的位置去查看和记录,不止是消费者买了些什么,还包括你曾考虑过、浏览过和决定不买哪些商品。在全世界大部分地区,所有这类活动都是任人监视和记录的,只有在欧洲,数据隐私法在一定程度上限制了这种操作。
当然,不论法律如何,顾客发现自己的数据被人滥用后,都会产生强烈的抵触情绪。早在 2000 年 9 月,亚马逊吃过一次苦头:有一部分顾客发现他们收到的报价更高,因为网站将他们识别为老顾客,而不是匿名进入或是从某个比价网站转接进来的顾客。亚马逊声称这只是一项随机的价格测试,其呈现出来的结果与老顾客身份之间的关联纯属巧合。话是这样说,它还是叫停了这项操作。
不做愚蠢的推荐
为防止算法给出愚蠢的推荐,在线零售商也要遵循种种商业规则约束推荐系统。最起码,应该避免人们说的超市悖论。例如,差不多每个去超市的人都喜欢吃香蕉,也经常会买一些。那么,推荐系统该不该向每一位顾客都推荐香蕉呢?答案是否定的——这样做既帮不上顾客,也提高不了香蕉的销量。所以,智能的超市推荐系统始终会有一条规则,明确地将香蕉排除在推荐结果之外。
这个例子可能听起来没什么,但在我早期经手的一个项目中,我们的网站就曾经向几乎每一个到访者推荐披头士的《白色专辑》。从统计学的意义上讲,这是个很棒的推荐:顾客此前都没有从这个网站购买过这张专辑,而大多数顾客对《白色专辑》的评价都很高。尽管如此,这个推荐仍然是无效的——任何一个对《白色专辑》感兴趣的人都已经有一张了。
当然,大部分的推荐规则都是更加微妙的。比如,当你在 Netflix 搜索动作影片时,尚没有租借版的影片在结果中不会出现,但你会被导向其他可以播放的影片。
其他的规则还包括禁止推荐为招徕顾客而亏本销售的商品;反过来,鼓励推荐滞销品。
赢取你的信任
然而,这种事情很快就会变得棘手起来。一个只会推销高利润商品的推荐算法是不会赢得顾客信任的。这就像是去餐馆,那儿的服务生极力向你推荐某道鱼一样。这个鱼真的是他觉得最好吃的吗?还是大厨催着底下的人赶在鱼变质前把它给卖出去?
为了建立信任感,商家希望推荐系统会尽力保持一定的透明度,让顾客对为什么会向自己推荐这件商品有一个大致的概念,并且在不喜欢收到的推荐结果时,可以更改他们的个人资料。比如说,你可以删除你在亚马逊上买来送礼的购物记录;毕竟,那些东西反映的不是你个人的喜好。你还可以知道系统为什么会向你推荐某些产品。当亚马逊为你挑选了乔纳森·弗兰岑的小说《自由》之后,你点击标签上的链接“为什么推荐给我?”随即显示出一份简要的说明,原来是你放在心愿单里的几本书触发了这一推荐。
但是,完善个人资料和解释推荐结果往往不足以保证系统不出错。2012年,亚马逊用高清大屏幕电视机的促销电子邮件对乔进行了轰炸——每周 3 封,连续扔了一个月。除了给乔寄了过多的电子邮件,这家零售商还没有意识到,乔已经用他妻子的账户买了一台电视机。此外,这些电子邮件并没有提供一种很明显的方法,让乔可以说“谢谢,但我不感兴趣”。最终,乔取消了他在亚马逊的一些邮件订阅;他并不在意收不到各种信息,而且他有了更多的时间来看他的电视。
[编辑 代永华]
E-mail:dyh@chinacbr.com