如何理解“所有的模型都是错误的”?
2020-06-04袁曦
袁 曦
一、背景与问题
《精算通讯》邀我谈谈“计量”在风险决策中的作用,我的心情是蛮复杂的。从哲学角度的方法论说,量化是观察世界的重要手段之一,而我们选择用于认识世界的这种方法,正面临着各种错误的解读,其中之一便是“所有的模型都是错误的(All models are wrong)”。
比如在《风险与好的决策》这本书中,列举了很多让“计量经济学者崩溃的事实”,然而作者也仍然认同好的决策需要运用统计学思维、经验法则和风险行为心理学。
笔者的观点是:量化和模型是对复杂现象的简化处理和描述,是人们在工业化社会中赖以工作的基础。但也正因为是一种对复杂事物的简化,必然会有考虑不足的地方,由此造成一种称为“假性精确”(pseudo accuracy)的现象,也确实可能损害、违背初衷。因此,应用者需要对模型有通透的理解,只有了解模型的起因、结果以及局限性,才能透过现象看到本质,从而作出合理决策。
二、因果与统计
在我们面对的纷繁世界中,每一个结果都是由多个因素合成的,并随时间的变化而变化。身处大数据时代,我们透过数据分析事实的能力是否加强了?
这个问题还待商榷。在美剧《量子疑云》中,宇宙在无限扩展的时候,每一个事实发展都会包括该事件的所有可能,并将每一个可能无限延续,就像一棵无限生长的树,在每个树杈分出多个分支并继续下去。我们所看到的因与果,是否有直接的联系,或是其直接影响已经在互相作用中弥散,这是需要仔细考究的。
在社交网络时代,简单的、吸引眼球的、有时候惊世骇俗的结论往往得到更广泛的传播,分析能力反而退步了,杂音更多了。快餐文化、武断结论、先入立场,都阻挡了我们追求真相的脚步。自媒体拉平了交流的平台,但是投入资源的、全面调查的、覆盖统计各个角度的结论反而被湮没了。不知道是幸还是不幸。
在统计学家的世界里,现象是各种统计结果汇总的结果,没有一个因素能起决定性的作用,除非显著(significant)到一定程度。不能因为几个单独的事件得出一个普遍结论,即使在某个阶段非常紧跟潮流、媒体大量传播的事也一样。马云曾经说过,每个国家都有1%的混蛋,如果我们纠结于这1%的混蛋而忘记99%的善良,这将是人类的灾难。马云显然是一个有统计思维的大咖。对于平常人来说,因为那1%说话声音更响,说的次数更多,很可能看不见那99%。这就是为什么统计思维很重要。
三、导致模型错误的内因
回到“所有的模型都是错误的”这个命题,如果将其看作“果”,我们探讨“因”,为什么所有的模型都是错误的呢?
典型模型错误的原因,有的来自模型的内部,有的来自模型的外部。内部原因能归结为三类:
(一)模型样本不周全,所谓幸存者偏差(Survivorship bias bias)
如果从一个房间里连续出来五个人都是穿红衣服的,我们是否可以认定这房间里的人都穿红衣服?假设事实是房间里有60个人均匀分布在红黄蓝三种颜色衣服上面,以上现象发生的概率大概为0.3%。大数据工具的增加并不等于有效数据观测点的增加,就好像用大炮打蚊子。在未来数据科学中除了发现更有效和有力的处理工具,如何去伪存真、如何摒弃杂音同样重要。精算师致力于研究各种算法的利与弊,从手写到绳结、到表格、到计算机,再到现在更先进的工具,核心是找到数据后面的实际因果。
(二)模型未能囊括所有可能的状况
帝国理工大学新冠肺炎预测模型最大的问题在于,它假设不管传播的快慢,感染病毒的人数总量是不变的并且不可重复。打破次元壁,需要大量的假设和想象力,没有在模型中的变量可造成根基性的错误(model error)。我们对冠状病毒的很多医学特性不清楚,是否免疫了就不再复阳,免疫能够持续多久等。
(三)使用模型的立场是错误的
比如传播甚广的“搞垮华尔街”的模型,以李祥林教授应用高斯连接(Gaussian copula)作为尾部风险量化工具:李教授的模型因为专攻尾部相关性希望能更好地考虑到极端事件的影响,虽然没有使用更加保守的Weibull copula,但是也强胜一般的VaR。然而,为了授信次贷产品并通过公司的风险审核,借用李教授公式固化部分风险并予以推广,用看上去非常复杂的模型掩盖了实际的风险事实,可以看到,搞垮华尔街的是贪婪,以及对模型背后事实的忽视。因此,在精算师的职业操守里面,“正直(integrity)”是放在最前面的,这才是模型的最终基础。
四、导致模型错误的外因
外部原因,主要来自使用者对模型的误读和误用。
最常见的误读是媒体的断章取义、搏眼球、蹭热点、语不惊人死不休,实际并没有从头到尾阅读严谨的论文,导致失之毫厘,谬之千里。
举例而言,前段时间牛津大学有学者采用模型来预测新冠病毒感染规律,其中提到68%的人已经“暴露在(exposed)”病毒之下(原文是“It also estimated that,as of last week,68%of the population had been exposed to the virus”),而媒体的解读是“超过一半的人感染了新冠病毒”。
“暴露”是指可能发生的病毒接触。同时,该数据只是在有疫苗和无疫苗的情景测试中的一个结果,还有其他影响情景存在,比如最好的情景是只有小部分严重患者,媒体则没有提及。
误用,则是在不适合的场合使用模型(mis-use the model)。
模型往往是对现实世界的简化,每个模型都有其应用目的,为了达到目的,统计学家会在模型中对与结论不重要的部分进行简化,并集中力量探讨需要论述的问题。因此,脱离模型原有应用目的的使用可能会导致灾难。比如精算师用于评估准备金充足性的模型,就不能用作公司的整体估值。所以,精算师要注意保护自己的报告使用的语境。
五、结语
模型及量化,是探寻真理的重要工具之一,但不是全部。
能否用好模型及量化工具,首先需要对这套工具有正确的理解,需要将“管理大局观”与对一个具体事实的追寻统一起来,既能对大趋势作出判断,又能将其与其他因素进行妥协。
就算“模型是错误”的,但我们每跑一次模型,都是一次纠偏,离真理更近一步。
希望在这个变化多端的世界里,更多人能够更好地使用量化作为工具之一来探寻真理,尤其在其他工具缺失的情况之下。