APP下载

因果推断方法在互联网行业的应用研究综述

2022-06-16柯珍梅

南北桥 2022年3期
关键词:优惠券断点悖论

[ 作者简介 ]

柯珍梅,女,广东茂名人,中国人民大学,本科,研究方向:概率论与数理统计。

[ 摘要 ]

在大数据时代,因果推断的重要性很高,是人工智能的基础,在互联网行业得到深度应用。本文对因果推断相关研究成果进行总结,并对因果推断在互联网行业的应用场景进行思考。

[ 关键词 ]

因果推断;互联网

中图分类号:G30

文献标识码:A

DOI:10.3969/j.issn.1672-0407.2022.03.010

1 因果推断介绍

朱迪亚·珀尔在《为什么:关于因果关系的新科学》一书中提到,理解因果关系是理解世界的关键,他认为因果关系有三个层次:相关性、干预、反事实。干预指的是若实施某种行动会有什么影响,反事实指的是假如之前实施了某种行动会有什么影响。

在大数据时代,因果推断显得非常重要,它是人工智能的基础,在互联网行业得到非常广泛的应用。在互联网行业中我们经常会遇到很多需要进行因果推断的案例,例如:

(1)功能迭代之后,体验了某个新功能的用户留存更高,那么这些用户的高留存是因为这个新功能上线带来的吗?这个新功能究竟对留存的提升有多大作用?

(2)看到了某个App投放广告的用户激活率更高,那么这些用户的高激活率有多大程度是由广告带来的呢?有没有可能就算不投放广告,这批用户的激活率也会明显高于其他用户呢?

(3)电商平台对部分用户发放优惠券,发现发放了优惠券的用户订单转化率更高,那么这些用户的高订单转化率有多少是由优惠券带来的呢?有没有可能就算不投放广告,这批用户的订单转化率也会明显高于其他用户呢?

以上是在互联网行业常见的案例,经常需要通过运用因果推断方法来解决。

2 因果推断的必要性

目前大部分机器学习方法是基于相关关系,但基于相关关系进行数据分析可能得到一些荒谬的结论,可能出现辛普森悖论、伯克森悖论以及互为因果等异常数据现象。

第一个悖论是辛普森悖论。辛普森悖论是英国统计学家辛普森于1951年提出的悖论,指的是在某个条件下的两组数据,分别统计时都会满足某种规律,可是一旦合并统计,却可能导致相反的结论。举一个例子,某个学院只有2个专业,按专业分别统计,女生录取率均比男生要高,但合并计算时,发现女生整体录取率却比男生要低,这种数据现象反映的就是辛普森悖论。

第二个悖论是伯克森悖论。在现实中,我们可能会发现一种数据现象,有些变量在数据上呈现出较强的相关性,但事实上这些变量之间并无关系,这就是由伯克森在1946年提出的伯克森悖论。这个悖论产生的根本原因是统计样本选择存在偏差导致两个本来无关的变量在统计上呈现出貌似较强的相关关系。举一个案例,在出国留学的学生中,家庭条件较差的学生可能平均成绩更好,那么是否可以得出寒门更容易出贵子的结论呢?显然不能,这种数据现象是由样本选择偏差导致的,能够出国的学生,要么是家庭条件较差但比较优秀可以争取到奖学金的学生,要么是家庭条件较好可以承担出国费用的学生,这个样本的构成导致家庭条件与学生成绩呈现负相关的统计悖论。

第三个悖论是反向因果。反向因果关系这个概念是由Marquis在1997年提出,他在研究儿童期发育障碍和母乳喂养之间的关系时,发现越是虚弱的婴儿,其需要哺乳的时间越长,但并非发育不良导致母乳摄入量增加,而是母乳摄入量不足导致了发育不良,这就是所谓的反向因果关系。这个概念在流行病学研究中出现得较多。Coresh在1998年提出逆流行病学现象,是基于透析患者心血管疾病危险因素的反向因果关系发现的。杨庆伟在2009年也对逆流行病学现象进行了探索分析。

3 因果推断的方法

关于如何判定因果关系,J.S.Mill在《逻辑体系》一书中提到变量之间因果关系的判定需满足三个条件:第一,“因”变量发生时间应该在“果”变量之前;第二,“因”变量和“果”变量存在相关关系,如果“因”变量发生了变化,那么“果”变量也需要呈现相应的变化;第三,控制其他可能对“因”变量和“果”变量同时具有影响的其他变量。基于对过往文献的阅读,发现当前做因果推断的最常用的方法主要有随机实验方法、准实验设计方法和联合模型方法这三类。

3.1 随机实验

随机实验方法是當前应用最普遍的因果推断方法,在互联网行业,为监控不同产品策略的实际效果,AB测试是业务迭代过程中最常用的一种方法。关于这种方法,有大量学者做了相关研究和探索。Aral等人以Facebook用户为研究对象,使用随机实验方法研究好友关系对用户使用行为的影响。

随机实验方法有两个关键环节,分别是控制变量和随机分流。控制变量是随机实验的核心,以互联网行业的AB实验为例,如果我们希望通过随机实验来验证不同产品方案的效果,那么需要确保除方案变量外其他变量一致,方可判断指标差异是方案不同造成的,从而可以选择优胜产品方案上线。除了控制变量,随机实验的另外一个关键环节是随机分流,Fisher在19世纪20年代就尝试将随机化的原则应用于实验设计中,以上面的互联网行业的AB实验为例,需要保证各个产品方案针对的人群特征分布相同,从而避免除产品方案之外的影响因素影响实验结果。

3.2 准实验设计

准实验设计常用的方法是断点回归和倾向得分匹配方法,这在计量经济学领域是比较常用的一种因果推断方法。

3.2.1 断点回归

断点回归与随机实验有一定相似性,也是尝试利用两组在特征分布上无显著差异的随机样本进行比较,但断点回归的对照样本是基于自然发生的事件(例如自然灾害、已实施的政策等)构造,而非人为事先就设计好的。在外来因素干预下,如果干预因素对观察对象有因果效应,观察对象的相关变量会在取值上出现一个断点,以干预因素出现的时间点为分割点,将观察对象随机分配为控制组和处理组,断点回归的目的就是检测断点是否存在,也就是检测干预手段是否导致观察对象的相关变量出现明显变化。Angrist&Lavy曾使用断点回归对小班教学的效果进行研究,证明小班教学能在一定程度上提升学生的学业成绩。

3.2.2 倾向得分匹配

倾向得分匹配,是基于反事实推断模型理论框架的一种统计方法,目的是对干预效应进行分析,但所使用的数据是观测数据。该方法的原理是将多维协变量转变为一个一维变量(倾向得分),用于解决针对多个可观察特征对比匹配问题,从而明显提升匹配的成功率。例如研究吸烟对于健康的影响,所能得到的数据基本是觀察研究数据,而若不做匹配直接对抽烟人群和不抽烟人群进行整体对比分析,容易出现辛普森悖论,通过倾向得分匹配可以构造类似随机实验的实验组和对照组,可以相对准确地评估吸烟对于健康的影响情况。

胡永远和周志凤提出倾向得分匹配主要包括模型和协变量选择、匹配方法选择、倾向得分计算、平均处理效应估计、敏感性检验等几个步骤。

3.3 联合模型

最常用的因果推断模型有两个,分别为潜在结果模型和因果图模型。

3.3.1 因果图模型

因果图模型由Judea Pearl于 1995 年提出。近些年,关于因果推断的图模型的研究有很多,其中大部分是关于DAG(有向无环图)。因果推断中常用的DAG是基于贝叶斯网络,随机变量用贝叶斯网络的节点来代表,而不同变量之间的因果关系由节点间的边代表,每个节点都附有一个概率分布,根节点所附的概率分布是边缘概率分布,而非根节点所附的概率分布是条件概率分布。

3.3.2 潜在结果模型

潜在结果模型由Rubin于 1978 年提出,该模型主要用于对同一个个体施加不同干预导致的产出差异进行评估,其核心关注指标为干预效应,用于评估给定的干预措施(例如优惠券发放)与目标结果变量(例如顾客购买)之间的因果关系。

关于潜在结果模型的研究比较多,Varian提出,可通过偏最小二乘、逐步回归、主成分回归等方法进行变量选择,并可以通过K近邻、决策树、随机森林等方法进行建模。

4 因果推断在互联网行业的应用

因果推断在互联网行业主要有两个应用方向,第一个是基于A/B测试评估功能/策略迭代效果,第二个是主要基于Uplift model来预测营销手段的增量收益,第二个方向主要运用于智能营销场景(例如广告投放、电影票票补、电商购物优惠券补贴、打车软件智能定价等)。

以优惠券的发放为例,有两个用户群对优惠券的使用转化率分别是2 %和4 %,在优惠券总金额有限制的情况下,应该向哪类用户发放优惠券呢?基于营销模型,我们可以将营销人群划分为自然转化人群、无动于衷人群、反作用人群、营销敏感人群,智能营销的关键是定位到营销敏感人群,而在分析中我们可能会用到两类模型,分别是响应模型和增益模型,响应模型预测的是用户收到优惠券之后的转化概率,本质是预测相关性,无法区分自然转化人群(就算不发放优惠券也会转化的用户)和营销敏感人群(因为发放了优惠券才转化的用户),而增益模型可以预测用户因为收到优惠券而转化的概率,可以估计用户对优惠券的敏感程度,预测的是增量收益,可以将效益最大化,这是一个将因果推断方法应用于智能营销的场景,类似场景还有广告智能投放、电影票智能票补、电商购物优惠券、打车软件智能补贴等。

增益模型的目的是预测某种干预手段给被干预对象带来的因果效应的大小。主要有两种建模方式,分别是Meta-Learning Method和Tree-Based Method。Meta-Learning Method是基于Meta-Learner进行Uplift预估,可以运用任意的既有的LR、SVM、RF、GBDT等预测算法,根据Meta-Learner的组合不同,通常可以分为S-Learner、T-Learner、X-Learner、R-Learner,其中S-Learner和T-Learner可以运用既有预测算法,相对简单,而X-Learner和R-Learner可以解决更复杂的问题。Tree-Based Method是基于树的方法,仿照标准CART树,根据信息增益的大小不断对特征进行分割,常用算法包括Uplift-Tree、CausalForest、CTS等。

关于因果推断在互联网行业的相应用研究不算很多,罗锐尝试运用因果推断分析方法对推荐算法的平均因果效应进行计算。

5 总结和思考

互联网行业是应用大数据最为广泛的行业,在大数据场景下,理解因果关系有助于推动行业的快速发展,因果推断是一个相对成熟的学科,已经有很多成熟的方法,然而当前的研究主要还是集中于经济学、医学、公共卫生等传统领域,关于该方法在互联网行业的应用研究相对不多,如何将当前在其他领域应用得比较成熟的方法更好地应用于当前发展快速的互联网行业,是值得深入思考的问题。

参考文献

[1]朱迪亚·珀尔. 为什么: 关于因果关系的新科学[M]. 江生,于华,译. 北京: 中信出版集团,2019.

[2]章中信. 常见的统计学谬误之一——伯克森悖论[J]. 语数外学习(高中版上旬),2020(11): 58-59.

[3]杨庆伟. 一种常见的逆流行病学现象分析[J]. 中华流行病学杂志,2009(12): 1315-1316.

[4]胡永远,周志凤. 基于倾向得分匹配法的政策参与效应评估[J].中国行政管理,2014(1): 98-101.

[5]托马斯·科尔曼. 算法导论(原书第3版)[M]. 北京: 机械工业出版社,2013.

[6]罗锐. 因果推断在推荐算法A/B测试分析中的应用[J].通信与信息技术,2021(5): 67-70.

猜你喜欢

优惠券断点悖论
视神经炎的悖论
海岛悖论
淘宝直播优惠券怎么设置
巧用优惠券
一类无限可能问题的解法
“帽子悖论”
主导电回路发生断点故障判断方法探讨
基于地理定向的移动优惠券策略
TKScope仿真调试Cortex-M3内核的高级手段
基于属性重要性的贪心算法的改进算法