肥尾效应：直击世界的本质与真相

2022-09-05姚斌

证券市场周刊 2022年32期

姚斌

纳西姆· 塔勒布/著

继《随机致富的傻瓜》《黑天鹅》和《反脆弱》系列论著出版后，《肥尾效应》这部神书又横空出世了。这是纳西姆·塔勒布不确定性研究的延续。然而，这不是一部容易读懂的书。如果没有具备一定的数学基础，可以直接忽略。

价值投资通常并不涉及或依赖于复杂的数学及其模型。沃伦·巴菲特很早就看出类似于布莱克-斯科尔斯那样的公式“在金融领域己近神圣”，不过，如果将该公式应用在较长时间段，那么就有可能会导致“荒谬”的结果。然而，不涉及或不依赖复杂的数学，并不等于完全置之不理，特别是像塔勒布那样由数学推导出的不确定性结论，可以让我们更加接近世界的真相。

《肥尾效应》来自塔勒布的不确定性系列及其相关的量化研究，主要讲述产生极端事件的统计分布类型，以及在这类分布下如何进行统计推断和做出决策。其主题是我们应该如何在一个不确定性结构过于复杂的现实世界中生活。所谓的“厚尾”，指的是比高斯分布峰度更高的分布。所谓的肥尾，塔勒布将其限定于“幂律”或“正规变化”。“肥尾”从严格意义上说，更像“极度厚尾”。

在塔勒布不确定性的世界，有两种状态：平均斯坦（薄尾）和极端斯坦（厚尾）。在平均斯坦中，随着样本量逐渐扩大，没有任何单一的观测可以真正改变统计特征;而在极端斯坦中，尾部（罕见事件）在决定统计特性方面发挥了极大的作用。这就是说，在我们所处的世界上，有些事物表现出相当的平均性，大部分个体都靠近均值，离均值越远则个体数量越稀少，与均值的偏离达到一定程度的个体数量将趋近于零。有些事物则表现出相当的极端性，均值这个概念在这个领域没有太多的意义，剧烈偏离均值的个体大量存在，而且偏离程度大得惊人。前者是平均斯坦，后者是极端斯坦。

极端斯坦清晰地展示了两个大类之间的差异，对于亚指数类分布来说，破产更可能来自某次极端时间，而不是一系列糟糕事件的积累。这一逻辑在20世纪早期由精算学家菲利普·伦德伯格提出，到20世纪30年代由哈拉尔德·克拉默整理完善，对传统风险管理理论形成了巨大挑战。但如今，很多经济学家完全忽视了这一点。从保险角度讲，分散化有效的前提是，损失更可能来自一系列事件而不是单个事件。保险只能在平均斯坦中起作用，存在巨大风险的情况下，永远不要出售一种损失无上限的保险，这一点被称为灾难原则。

偏离中心很远的极端事件扮演了非常重要的角色。黑天鹅的核心并非“频繁出现”，而在于出现时的影响更大。最肥的肥尾分布只会有一次非常大的极端偏离，而不是多次较大的偏离。如果采用高斯分布并开始逐渐增肥尾部，那么超过给定标准差的样本数量就会下降。事件若在一个标准差范围内的概率是68%。随着尾部增肥，以金融市场的回报为例，一个事件落在一个标准差内的概率会上升75%至95%。所以，尾部增肥会让峰度更高，肩部缩小，发生大偏差的概率增加。

对极度厚尾的现象来说，除了真正的尾部大偏差，所有普通偏差包含的信息量都很小。这样一来，分布的中间部分完全变成了噪声，虽然基于实证的科学研究可能无法理解这一点。但在此类情况下，中心部分并不包含实证的信息。这个性质解释了在存在尾部大偏差的领域中，由于单次样本的信息含量很低，大数定律作用缓慢。这就解释了为什么观察到100万只白天鹅依然不能否认黑天鹅的存在，或者为什么进行100万次肯定性观察还赶不上一次否定性观察。

很多人都在讨论统计学意义并不显著的“证据”，或者使用对随机变量完全不适用且毫无信息量的统计指标，比如推断伪变量的均值或者相关性。因为塔勒布看到了（a）统计学教学上对高斯分布和其他薄尾变量的强调;（b）死记硬背统计术语的时候缺乏对统计知识的理解;（c）对于维度性质毫无概念。这样就形成了“伪经验主义”。譬如，比较恐怖袭击或埃博拉病毒等流行病的致死率（肥尾）和从梯子上跌落的死亡率（薄尾）。这种看似实证的“实证主义”是现代科学研究中的一种顽疾，在多维和肥尾条件下完全失效。实际上，我们并不需要去区分肥尾和高斯随机变量就可以看出这种行为的不严谨：没有达到简单的统计显著性标准。

在现实世界中，大数定律即便有效，其奏效速度也会很慢。我们可能无法想象，仅仅这一条就否定了绝大多数统计估计方法。大数定律是指随机事件多次重复发生，它的结果呈现出长期的稳定性，重复的次数越多，结果就越趋近于稳定值。比如，交通事故是随机事件，但一个城市每年的交通事故会呈现相对稳定的结果。再比如，抛一枚硬币，出现正面朝上的概率是50%，即使前面已经连续扔了50次都是正面朝上，而第51次正面朝上的概率仍然只有50%，但是“賭徒谬误”要么认为下一次还是正面朝上，要么认为抛了这么多正面，总该有反面。实际上，之所以没有得出50%的结果，是因为目前的数据量还不够大。在现实生活中，我们根本无法观察到稳定分布。稳定分布只存在于理论数学的研究中，但帕累托20/80分布很常见。

样本均值大概率不会贴近分布的实际均值，尤其是遇到偏态分布时，均值的估计量会持续被小样本效应主导。这是样本不足问题的一种体现。一般的幂律分布（符合80/20法则的分布）会有92%的观察值落在真实均值以下。为了让样本均值有意义，我们需要永远超出我们正常所拥有的数据量。经济学家从未真正理解这一点，但交易员对此有直观感受。

“维特根斯坦的尺子”是一个哲学比喻：我们是在用尺子量桌子，还是在用桌子量尺子？这主要取决于结果。假设存在两种分布：高斯分布和幂律分布，当出现一个超大偏差的时候，比如“6个标准差”事件，那就意味着原分布属于幂律分布。

1998年夏季，长期资本管理公司（LTCM）在市场的一系列超大波动中破产了。这是极其不寻常的事件，因为其中两名合伙人还获得诺贝尔经济学奖。更令人称奇的是，这个基金影响了大量的金融学教授，很多金融学教授都在模仿LTCM的投资模式。在此期间，至少有60名金融学博士因进行了与LTCM类似的交易，并采用相同的风险管理方法而爆仓。至少有两名合伙人声称这是一个“10个西格玛”（10个标准差）事件，因此他们可以免去对自身不称职的指控。

方差和标准差这样的统计量是不可用的。即使分布背后的统计量存在，甚至各阶统计量均存在，它们在样本之外也一定会失效。假设有人让你测量过去5天你所在城市气温（或某股票的价格）的“每日平均偏差”，相应的数值为（-23，7，-3，20，-1），你会如何做？（a）将每个观察值平方求和，取平均值再开方，（b）或去掉符号，直接求平均值。这两种计算方法完全不同，前者的平均值为15.7，后者为10.8。前者的正式名称为均方根偏差，而后者的正式名称是平均绝对偏差（MAD）。相比较而言，MAD的概念更适用于“真实世界”。

实际上，每当获得标准差数据时，人们在决策中还是会把它当成平均差来用，甚至大量数据科学家（很多都是博士）在现实生活中也是这样犯错。这也解释了为什么经济学家无法预测未来——他们采用了错误的方法并构建了错误的置信区间。他们的理论在样本内成立，但在样本外会失效——因为样本是有限的，样本的矩也是有限的。如果实际分布的方差或峰度是无限的，我们在有限的样本内就永远不会得到无限值。

贝塔系数、夏普比率和其他惯用的金融统计量均无参考意义。如果依赖这些统计量，我们要么需要更多的数据，要么需要某种尚未被发现的模型。夏普比率不仅对样本之外的表现完全没有预测作用，甚至不能作为一个有效防止破产的指标。夏普比率在样本外的糟糕的预测能力，几乎起到完全相反的效果。实际上，所有经济金融领域的变量和证券回报都是厚尾分布的。塔勒布统计了超过4万只证券的时间序列，没有一直满足薄尾分布，这也是经济金融研究中的最大误区。

对此，柏基投资的詹姆斯·安德森的研究也显示，长期股票表现的分布比人们通常认为的要倾斜得多。它不是正态分布的。例如，在1926年至2015年期间，美国股市创造的财富中有33%来自26，000支上市股票中的30家公司。这种回报模式也适用于大多数成功的投资者：无论他们如何投资，无论他们在哪里投资，无论他们是否接受，结果都是高度不对称和头重脚轻的。

标准普尔500指数的回报率服从幂律分布。按照维特根斯坦的尺子，我们用任何其他类型的模型来拟合它都不合适。因此，学术界使用的标准分析方法完全错误，如现代投资组合理论MPT或所谓的“基础崩盘概率”（认为人们高估了尾部事件概率）。超过7万篇论文和几个大的研究领域都存在问题，这还不包括基础经济学领域依赖于“方差”和“相关性”的大约106量级的论文。我们必须知道这些统计量存在问题，并学会和它们共存。

经验可证实和可证伪之间的差距远比常规统计能覆盖的范围更大，即不能证明和证明不可行之间的差异变得更大了。所谓“基于证据”的科学，除非经过严格的验证，否则通常是经验外推的，其证据既不充分也不算科学。塔勒布曾经与语言学家和科普作家斯蒂芬·平克有过一次争论：从最近的数据变化中得出结论（或归纳出理论）并不可行，除非满足一定的置信度条件，这就需要在厚尾的条件下有更多的数据（和缓慢的大数定律逻辑相同）。因此，根据最近一年或十年非自然死亡人数的下降，得出“暴力致死行为有所下降”这样的结论并不科学。

在塔勒布的《随机致富的傻瓜》一书中，某人被问，到月底市场更有可能上涨还是下跌？他表示上涨的可能性很大，但后来发现，他在押注市场下跌。对不懂概率的人来说，这似乎很矛盾，但对交易员来说再正常不过了，尤其是在非标准分布的情况下。确实，市场更有可能上涨，但如果下跌会跌得更多。这个例子表明，人们常常混淆预测和风险敞口。在这个例子中，一个非常基本的错误是将发生概率理解为单个数学而非分布结果。而在进一步研究之后，我们会发现很多并不明显或不为人知的类似悖论式问题。简单来说，将“概率”作为最终标的，甚至作为决策“基础”来讨论并不严谨。

在现实世界，一个人所获的不是概率，而是直接的财富。这时，分布的尾部越肥，就越需要关心收益空间——“收益远胜于概率”。如果犯错的成本够低，决策者可以经常犯错，只要收益是凸性的（也即当他正确的时候会获得很大的收益）。反过来，决策者可以在预测的准确率达到99.99%的情况下破产。实际上，破产的可能性说不定更大：在2008-2009年金融危机期间，破产的基金恰恰是那些之前业绩无可挑剔的基金。

对于极端斯坦的事件，我们不考虑概率，而要关注其影响。而对于平均斯坦的事件，那就主要考虑降低其发生概率——事件的发生频率。对此，可以思考一下1982年美国央行在危机中失去了之前历史上赚到的所有钱。银行看上去非常赚钱，而一旦发生危机就会失去所有资产，甚至还要拿纳税人的钱去填窟窿。我们会经常看到，某人在一次极端事件中赔掉之前的所有积蓄。而同样的事情会在很多行业发生，如汽车业和航空业。

但是，对于战争，我们则无法关注频率而不考虑其量级。人生的核心是收益而非概率，在极端市场下，两者的差异尤其明显。因此，我们不观察概率分布，只观察事件的结果。概率分布无法告诉你某事件的结果是否属于它。

至少从塞克斯都·恩披里柯的经验主义开始，我们就知道退化性无法被排除，但在某些情况下，我们可以排除非退化性。如果看到一个没有随机性的分布，我们不能说它一定不是随机的，也就是说，我们不能否定黑天鵝的存在。现在，加入一个观测值，我们可以看到它是随机的，就可以排除退化性，可以说它不是“非随机的”。我们看到了一只黑天鹅，因此关于没有黑天鹅的说法是错误的。这正是西方科学的反向经验主义的基础，当收集信息时，我们可以排除一些可能性。

如果看到一个20倍标准差的事件，我们就可以直接排除薄尾分布。但如果没有看到大的偏差，就无法排除薄尾分布，除非我们对分布背后的整个过程了如指掌。这就是塔勒布对分布排序的方法。

如果我们看到某事件存在一个极小的破产概率，且事件频繁发生，那么随着时间的推移结果一定是破产。到目前为止，行为金融学领域还是从统计而非机理的角度进行推理总结，所以仍然不够完备。它机械地把对比抽离出来，并得出了人们总是非理性地高估尾部风险的结论。但是，灾难性事件是一个吸收壁，没有任何一个风险事件可以被独立看待：风险会不断累积。

每个幸存下来的风险承担者都理解这一点，沃伦·巴菲特理解这一点，高盛集团也理解这一点。他们想要的不是极小的风险，而是完全杜绝风险，因为这才是一家公司能够存活20年、30年甚至100年的关键。对尾部风险的态度解释了高盛149年来长盛不衰的原因——它以无限责任的合伙企业的形式运行了130年，然后在转型为银行后的2009年侥幸逃生。在厚尾条件下，一犯错误就结束了;而在薄尾条件下，犯错误可以成为宝贵的学习机会。

至此，塔勒布向我们展示了肥尾基本效应，让我们看到了金融现象背后的真相。虽然这本书看似十分学术化，但在学术化背后证实了黑天鹅的思想，呈现了这个世界的不确定性本质。