APP下载

难以决策?做个实验吧

2021-12-17迈克尔·卢卡马克斯·巴泽曼

商业评论 2021年12期
关键词:优惠券购物车顾客

迈克尔·卢卡 马克斯·巴泽曼

假设你供职于谷歌(Google)的广告团队,现在需要就广告该使用蓝色背景还是黄色背景的问题做出决定。你觉得黄色会吸引更多的点击,你的同事们则认为蓝色的效果会更好。那么,你该如何决策?

在早期的谷歌,像这样意见相左的两派肯定会争论不休,直至一方屈服,或者双方都同意将决定权交给老板。不过最终,谷歌上上下下的领导者渐渐明白过来,很多类似这样的争论和决策都是毫无必要的。

“我们并不想看到高管们讨论蓝色还是黄色背景能带来更多广告点击。”谷歌的首席经济学家哈尔·瓦里安(Hal Varian)告诉我们说,“为什么要争论这样的问题?我们简单做一个实验,结果不就出来了吗?”

瓦里安和团队合作,开发出了谷歌的系统化实验方案。如今,谷歌开展的实验数量达到了惊人的规模——每年超过1万例。这些实验结果为广告销售、搜索引擎参数设置等各种情境下的管理决策提供了决策依据。

从更广泛的层面来看,实验思维已经渗透到了科技行业的大部分领域,而且正在向更大的范围传播。眼下,大多数主流科技公司,譬如亚马逊(Amazon)、脸书(Facebook)、优步(Uber)和Yelp,在没有通过实验验证的情况下,都不会对自家平台轻易做出重大改变,因为它们不清楚这样的改变会对用户行为构成怎样的影响。一些传统企业,例如金宝汤公司(Campbell Soup),数十年来也一直在谨慎地开展实验。随着数字化转型的启动,更多公司加大了对实验的投入力度。随机对照实验不再只是学术研究领域里的玄奥工具,而是成为企业的主流。初创公司、跨国集团和政府机构都运用这一新工具来测试各种想法,了解自家产品和服务所带来的影响。

实验结论以证据为基础,对直觉和猜测起到了补充作用。我们曾亲眼见证了实验给组织带来的巨大回报。例如,eBay就通过实验警觉地发现,自己每年在广告上浪费了数百万美元。(参见副栏“实验的回报”)实验的兴起通常是件好事:首先,它有利于公司,公司可以利用实验结果来改进人事和运营方式,改善产品;其次,它有利于政府,政府可以利用实验结果来更好地设计和提供基本服务;最后,如果经过细心地设计和监控,实验也会给客户和公民带来好处。

与此同时,我们必须具备一定的判断力,才能有效地将实验结果融入决策之中,确定合适的实验时间和方式。举例来说,来自宾夕法尼亚大学(University of Pennsylvania)的行为经济学家凯蒂·米尔克曼(Katy Milkman)和心理学家安杰拉·达克沃思(Angela Duckworth),曾经为健身连锁品牌24 Hour Fitness设计了一系列实验,旨在确定能够有效提高健身房出勤率的方法。在实验过程中,他们通过追踪每周健身房签到次数以及几个月内的锻炼时长等行为数据,寻找与健身房长期出勤率密切相关的策略。米尔克曼和达克沃思的方案凸显了实验中核心设计的价值:如果仅跟踪几周以内健身房的出勤情况(实验只持续几天是很常见的现象),他们就有可能得出完全不同的结论,而24 Hour Fitness依此来推行的变革可能在短期内有用,几个月后其功效就会逐渐消失。

另外更重要的是,实验通常伴随着一定的风险。实验加剧了人们对于透明度问题的担忧,尤其是考虑到全球的实验结果多半存储于企业的数据库中,它们既不会被公之于众,还可能会被用于未知用途。有的实验让人觉得有侵犯性,粗暴武断,甚至会招致愤怒。例如,Facebook当年开展实验来测试悲伤或消极的帖子是否会影响用户的情绪,招致了大量非议。此外,对于那些需要依赖客户数据来做实验的公司来说,还会引发客户对数据隐私和安全性的担忧。

实验也有可能导致一输一赢局面的出现。以StubHub为例,这家公司进行了一项实验,从而确定了手续费可以在顾客购票之前的最后阶段附加上去,而非在整个购买过程中都予以明示。相关研究揭示了公司所谓的“费用掩盖”决策及其给顾客带来的最终影响。结果表明,费用掩盖的短期价值颇为显著:有更多顾客购票。不过,它给公司带来的长期价值并不明朗,因为次年重新光顾的顾客更少了。

當前我们正处于商业实验的早期阶段。设计和诠释这些实验都非常具有挑战性,它需要将较强的技术能力、分析技巧和管理判断力综合在一起。随着实验在企业内的应用越来越普遍,管理者更需要制定框架来有效地开展实验,并以一种对于企业和客户而言都同样富有成效和价值的方式,从结论过渡到决策。在本文中,我们将会围绕着四则经验展开探讨。这些启示有的来自我们对几十家大型公司主持实验的管理者的访谈,还有的来自实验领域的诸多专家;既包括我们在为研究生设计、讲授实验和管理决策课程时得出的洞见,也包含了我们在给公司和政府客户开发、测试基于行为经济学的干预时收获的经验。

经验1:将实验系统化地纳入公司的决策过程

对于管理者而言,参与实验的设计和诠释是非常重要的,这样做不但可以保证实验能够得益于管理者的见解和经验,同时也有助于管理者培养“测试”敏感度,他们会变得更倾向于在日常决策过程中,检验自己的假设和寻找证据。除此之外,公司还应当设立基础机制,使得实验之风能够盛行于整个组织。这样一来,实验就不会在各自封闭的状态下进行。

我们以数字旅游平台缤客网(Booking. com)的方法为例。它之所以同时受到管理者和商业学者的关注,部分原因在于它通过某种方式让实验更贴近管理决策。在缤客网,所有业务领域都开展了实验,既包括面向顾客的平台实验,也包括面向合作伙伴的实验。公司大约有1,500名员工会参与到实验中来——其中很多人都拥有管理学或工程学背景,但他们对统计学和实验学所知有限。缤客网的产品经理可以轻松地开展实验来测试产品的新功能,然后再全面向顾客推出。事实上,缤客网约80%的产品开发团队都在积极地开展各种实验。

缤客网还实施了各种各样的管理变革,譬如让公司内部的数据科学家举办培训课程,并为单个实验提供定制性的分析支持,其中就包括实验主任卢卡斯·弗米尔(Lukas Vermeer),他为我们介绍了当前实验的大致流程。这些变革使得团队能够更轻松地设计和发起有效实验,助力公司决策。

一旦实验得以开展,相应结果就会被记录到一个集中式存储库中,全公司的员工都可以详细审阅這些内容,以及先前实验所得到的结果。每个人都能看到实验测试了哪些功能,无论这些功能最终是否得到了实现。虽然实验报告默认采用一套标准的衡量指标,但团队也可以为特定实验定制衡量指标。

缤客网的这些做法,使得它可以为团队决策提供实验证据,且团队能够掌控如何从实验结果过渡到决策阶段。此外,就结果分析和权重分配而言,实验团队也具有一定的灵活性。集成化系统亦有助于在整个公司内部,推广对于实验方法和概念的基本了解。这些方法和概念包括假设验证、实际显著性(即影响程度)和统计学显著性,以及不同度量方法的优点和局限性(更宽泛地说,实验的优缺点)。

经验2:从探求新手段是否有效,升华至探求它们为什么有效

中国的电子商务巨头阿里巴巴允许零售合作伙伴在其平台上自行定价,但对于用户最终支付的价格,它依然保留了一定的控制权——这种控制,部分是通过决定卖家能否给顾客提供折扣来实现的。为了充分利用这种控制机制,阿里巴巴决定通过实验来确认从用户参与和留存的角度来看,在何种情形下,折扣会给平台带来最大价值。

举例来说,为了提升销量,阿里巴巴允许卖家向那些将特定“促销商品”放在购物车中超过24小时的顾客提供较大折扣。但这些优惠券的存在,实际上真的改变了顾客的购物行为吗?这正是阿里巴巴公司领导层希望得到解答的疑惑。

2016年年初,一个管理研究小组联合阿里巴巴,在该公司的两个平台上开展了一项随机现场实验,以衡量购物车促销方案究竟会产生怎样的效果。研究人员随机挑选了100万名阿里巴巴平台上的顾客,他们从2016年3月12日到2016年4月11日,至少被平台上的一项促销活动触达过。研究人员将这些顾客分别列入对照组和实验组。实验组的顾客会收到特定促销商品的优惠券,通常这些商品在顾客的购物车中保留了一天以上。与此同时,对照组的顾客将不会得到任何优惠券。

阿里巴巴和研究小组非常关注两类问题的答案:(1)当拿到优惠券时,顾客买下购物车中商品的可能性是否会更高?(2)就总体而言,相比那些没有得到优惠券的顾客,拿到优惠券的顾客是否会从阿里巴巴的平台上购买更多的商品?

实验结果表明,购物车方案有些鸡肋:对某些卖家来说,它是好事,但对另外一些卖家而言,它是坏事。结果还显示该方案整体而言似乎并没有增加阿里巴巴平台上的购买量。基于这一实验结果,公司决定不再推广购物车优惠券方案。

不过,我们需要注意的是此案例中提出的问题。阿里巴巴实验主要想解开的疑惑是“购物车方案会带来什么影响”,而不是“这一方案应当如何设计”。这是一个重要的区别,因为优惠券之所以作用不大,可能只是因为设计不合理,而不是因为这类折扣天生存在缺陷。尽管这项实验证明了当前的购物车方案促销效果不是特别好,但我们还是想知道是否有效果更好的替代方案。

具体来说,阿里巴巴可以考虑对购物车方案的若干要点进行测试。首先,促销活动通常因为较低的曝光度而夭折——三分之一的用户在优惠券到期之前,都没有再次看过自己的购物车,因此他们根本不知道有折扣。其次,方案允许卖家选择优惠券折扣的幅度,这就阻碍了实验者探究优惠券价值对于购买行为的影响。再者,优惠券方案对于用户满意度以及阿里巴巴平台长期参与度的影响依旧不明朗,还需要进一步探索。

阿里巴巴的实验凸显了利用实验来指导管理决策的前景和挑战。公司用数据代替了直觉,研究者则完成了一项有用的实验。但是,和其他任何实验一样,它只是解开了一部分谜团。在组织中要成功地开展实验,不仅要解答疑问,更重要的是提出正确的问题,而且提出的正确问题要足够多。管理者不仅应该把注意力放在测试现有方案上,还要着重于建立合理的框架,助力未来的潜在方案决策。这就意味着我们要对边界条件和机制进行梳理——在上述案例中,实验者要研究的不仅是特定的定价形式能否“生效”,还有它为什么生效、如何生效以及怎样才能取得更好的效果。

我们需要通过管理判断来确定实验可以解答哪些疑惑。诺贝尔奖获得者阿尔·罗思(Al Roth)在实验经济学领域曾做过开创性的研究工作。在一次交谈中,他告诉我们,在《实验经济学手册》(The Handbook of Experimental Economics)的开篇,他就有意用“系列实验”的说法替代了单个实验。罗思的理由很简单:他不希望读者有这样的错觉,以为单个实验就能回答他们所有的疑问。同样,管理者也需要去思考,如何利用更广泛的证据来制定决策。此外,他们还需要认识到实验自身的局限性,并结合其他基于数据的证据来思考实验。

经验3:针对长期综合效果进行测试

管理者通常比较关注实验中过于狭隘或短期的效果,因为这些效果是他们最希望得到的,而且易于衡量。但管理者也应当从长远考虑,去衡量几个月乃至更长时间内的效果。这就意味着他们必须明确哪些是对业务最重要的长期效果,然后将其纳入对实验设计和诠释的理解。

宾夕法尼亚大学行为改变计划(Behavior Change for Good, BCFG)主任米尔克曼和达克沃思,希望与24 Hour Fitness公司合作,共同寻找能够敦促人们锻炼的干预措施。24 Hour Fitness拥有370万名会员,分布在美国13个州的420座城市中。人们锻炼得越多,对24 Hour Fitness来说,就意味着越高的收入和利润机会,所以它自然对这一合作充满期待。

2017年5月,米尔克曼和达克沃思召集行为改变团队的科研人员,召开了首次会议。他们向科研人员介绍了StepUp,这是一个干预锻炼行为的网络平台。科研人员可以利用这一实验平台,测试和跟踪特定的干预措施,往注册流程里补充内容和问题,定制参与者接收的电子邮件和文本信息。

实验的初步结果显示,很多干预措施,譬如签署承诺和制订锻炼计划,都可以产生一些短期效果,不过等拉长到几个月的跨度再看,有些干预措施的效果就不尽如人意了。用达克沃思的话说:“行为改变真是太××难了。”

对于实验主义者来说,这既是十分重要的经验总结,也是一个老大难问题。如果行为改变计划只跟踪短期效果,那么结果看起来或许完全不同。像24 Hour Fitness這样的公司的领导者,需要同时思考管理决策的短期和长期效果。获得短期成效一般更容易些(根据定义来看,也会更快些),但它们通常无法持久。更糟糕的是,它们还会削弱长期效果。

2018年,优步公司(Uber)在决定是否要推出名为Express Pool的拼车服务时,也遭遇了评估方面的难题。在使用Express Pool时,叫车人需要多等一会并且多走几步,才能到达约定目的地。在等待过程中,候选的搭车人(即可以在指定的“快捷”会合地点搭车的乘客)将会由算法进行匹配。从结果来看,拼车服务可能更耗时,但为乘客省了钱。

优步拼车定价和市场实验数据科学团队的经理兼经济学家邓肯·吉尔克里斯特(Duncan Gilchrist)博士,承担了解析Express Pool服务价值的重任。他很快就点出了该课题的难点。举例来说,假如优步在没有做前期测试的情况下,就贸然推出了该服务,即便它广受欢迎,我们也很难预料它是否会和优步的其他服务(Uber X、Uber Pool等)形成同室操戈的局面。现在我们假设,优步向波士顿的半数乘客开放了Express Pool服务,那么另一半乘客就成了本实验中“可怜”的对照组,因为他们的乘车体验(包括等待时间)受到了其他乘客(包括实验组乘客)需求的影响。这类溢出效应在实验中很常见。

为了避免溢出效应,同时了解Express Pool会对公司整个产品线带来何种影响,优步选择了一组大型市场,并从中随机挑选了6座城市推出该项服务。借助实验工具,包括一种可以采用其他城市的加权组合形成“综合”对照组的办法,吉尔克里斯特和他的团队梳理出了新服务的上线会从哪些方面对公司构成影响。

不出所料,Express Pool服务产生了新型的旅程匹配。不过,上述实验也解释了此项服务对于优步其他服务的影响,而且明确了该服务的推出有充分的商业依据。最终,优步信心满满地将Express Pool服务推向了各大市场。如果没有广泛的实验作支撑,这种自信以及激发信心的新发现,都将是无源之水、无本之末。

经验4:提高透明度

各公司每年会开展数以万计的实验,并将实验结果与具体的用户行为挂钩,同时利用它们来塑造顾客同自家产品和服务的交互方式。然而,公众对于这些实验所知甚少,部分原因在于公司担心顾客会觉得自己受到了操纵而忿忿不平。

我们以Facebook多年前开展的一项大规模实验为例,当时这家公司希望检验帖子的情绪基调是否会影响用户情绪,这种影响又有多大。为此,Facebook操控了一组随机选择用户所收到的推送。相比其他用户,平台呈现给这些用户的帖子都更消极。随后,研究人员在一篇论文中公布了实验结果,并总结道:“Facebook上他人的情绪表达会影响我们自己的情绪,这为社交网络上的大规模情绪蔓延提供了实验证据。”

虽然上述实验揭示的情绪改变效应并不明显,但引发的最终结果令人大开眼界。Facebook遭遇了来自用户颇为强烈的抵制,他们先前可能一直没有意识到,一旦登录这个平台,自己就默认成为实验对象。此外,这项实验也引发了来自媒体的广泛关注,而且这些关注多半是负面的。

现在回顾此次实验,当时很多批评意见都聚焦于Facebook是本着对情绪影响的理解来改变产品设计。不过,人们没有必要对此感到大惊小怪——Facebook的设计选择当然会影响用户情绪。但对于大众而言,更令人不爽的地方在于,Facebook默不作声地完成了实验。这让人感觉就像是在暗中监视。

或许这是意料之中的事情,Facebook并没有对抵制情绪做出反应,譬如试图让平台变成更快乐或更中立的网络空间,这表明制造积极的情绪影响并非这家公司的主要目标。然而,针对实验本身的担忧,Facebook还是通过其他途径做出了回应。风波结束以后,Facebook很快就叫停了一些对外研究,对于公司内部开展的实验也开始甚少透露。不过值得赞扬的是,Facebook在公司内部成立了一个由5名员工组成的研究伦理委员会,由委员会负责审查选定的实验(尽管该委员会的工作方式亦并非完全透明)。

事实上,Facebook和其他公司会得益于实验透明度的改善。公司应当建立一个透明流程来澄清它们采用的实验方案,而不是遮掩实验过程(或者将相关解释埋藏在根本没人会认真阅读的用户协议中)。这些行动必须达成以下目标:

● 大体上承认公司经常通过实验来评估用户的反应(没错,我们还会将这些反应分享给银行);

● 向公司、顾客和其他利益相关者解释实验的价值;

● 尽可能鼓励人们讨论公司的实验目标和实验方案;

● 在适当的时候公开实验结果。

实验不仅对公司有价值,对顾客也同样有价值。想必顾客也不希望体验公司拍脑袋决策而提供的低质服务,而服务质量本可以通过数据就轻松得到改善。这意味着,顾客其实乐于接受实验,只要他们的隐私和其他利益能得到尊重,而公司则应当停止对实验流程遮遮掩掩的保密做法。

顾客心里其实明白得很,他们知道公司会对产品和服务做微调,借此揣测自己的反应。但公司对于实验过程中的透明度和伦理问题,应该以高标准来要求自己。换句话说,如果公司能够开诚布公地做研究,它们就可以化解疑虑,获取支持,甚至可以加强与顾客之间的互动。

我们正处在实验革命的初期。很多公司都在开展各种实验,有些实验的规模相当大。但对于如何有效实验,这些公司尚处于学习阶段。系统地看待实验和决策过程,仔细斟酌测试方案和希望取得的结果,多多思考结果带来的长期影响,对利益相关者保持透明……只有做到这些,实验才能为公司、为顾客创造价值。

猜你喜欢

优惠券购物车顾客
“一站式”服务满足顾客
淘宝直播优惠券怎么设置
巧用优惠券
被疫情改变的购物车
推购物车购物
购物车里的“时间线”
清空购物车了吗!
基于地理定向的移动优惠券策略
以顾客为关注焦点
日假麦当劳券疑为中国造