莫把数据的相关性当成因果关系
2016-04-20董晓静
董晓静
核心提示:不要将相关性当作因果关系去指导决策,这一区别的重要性在大数据时代显得更为突出。
大数据时代,很多商学院都会讲到这个经典案例:沃尔玛发现啤酒和尿布的销售量是相关的,但究竟是因为啤酒销量增高导致尿布销量增高,还是反过来?沃尔玛不需要做太深入的研究,有了相关性的分析结果,就足以把啤酒和尿布放在一起卖,从而提高销量。
这个成果非常有意思,但没有理论根据。换句话讲,相关性可以不需要理论支持,只需要用统计学的方法描述数据。这样的结果,在很多时候非常有用,但如果把相关性当成因果关系来指导决策,可能就会有害。
不妨再看看下面几个例子。
在日常生活中,我们经常听到有的妈妈说,“我一定要把孩子送到那个补习班,那个补习班的孩子很多都考上好大学了。”这句话背后隐含着一个观察分析结果:去这个补习班的孩子,比不去的考上好大学的多得多。
这个结论就源自简单的相关性分析,但这位家长可能犯下一个错误:把相关性分析当作因果关系,进而据此决策。其实,上这个补习班只是那些孩子考上好大学的其中一个原因(相关数据),两者之间是否构成因果关系,需要更复杂的分析,仅一个相关系数远远不够。
再举一个例子。去年在美国的很多新闻媒体报道过一篇论文,论文作者分析了14万篇学术论文后,通过相关性分析发现题目比较短的论文更容易被引用。作者认为他们用了大数据,对此,我提出两点。
第一,大数据在这里是帮助他们找出结论,还是“害”了他们呢?在统计学中,衡量统计结果是不是比较确定,需要计算这个统计结果的方差。方差的大小跟数据量大小有关,当所有其他条件一样时,数据量越大,方差值越小,统计结果的确定性越大,包括错误的结果。也就是说,作者利用大数据得到了比较确定的相关系数的结果,但可能还有很多变量之间的相关系数比较高。除了标题长短,是不是文章长短、图表应用等因素都相关呢?
第二,这个结果完全靠相关系数得到,同前面补习班的例子一样,不能当作因果关系来指导决策。如果一篇文章的标题短被引用得多,另一篇文章标题长被引用得少,没有任何意义,两篇文章本就不同。
大数据时代,数据之间的相关性分析,有时就足以给人带来惊喜的结果,但决策者一定要既知其一又知其二。相关性不等于因果关系,因果关系需要严格的分析和推理。
统计学的方法,是用来帮助指导商业决策的一个非常有用的工具,如何正确地使用这个工具,还需要具有对商业行为和决策的深入理解。
很多商家经常用优惠券来吸引客户,但不是随便发给每个人。如果大量的优惠券给到的就是常去店里买东西的客户,没有优惠券,他们依然常来,因为优惠券,反而可能使商家的盈利降低了。这就是将相关性当成因果关系,进而做出错误决策的常见案例。
所以,企业家切记:不要将相关性当作因果关系去指导决策,这一区别的重要性在大数据时代显得更为突出。(支点杂志2016年4月刊)