数学与谎言
2020-08-09崔鹏
崔鹏
投资者有办法鉴别出那些千变万化的骗子吗?
说实话这可真不是件容易的事。浑水的卡森·布洛克在这方面做得不错,先于那些投资银行和煞有介事的投资引导大咖发现了瑞幸咖啡的骗局。不过据说他为此雇佣了92名全职员工和1418名兼职员工,对瑞幸620家门店进行监控,并记录了流量—总共花费大概上千万美元。
也许布洛克能通过做空瑞幸的股票把那些花销赚回来。但可以肯定,这种布局普通人无论如何都做不到—如果识破骗局这么贵,那还是让骗子骗我吧。
有其他更便宜、更簡单的做法吗?数学家和行为学家为我们准备了一些,来试试下面这个。
先来个故事。大约一百年前,美国纽约有个电气公司的工程师,叫弗兰克·本福特。有一次工作中本福特要用到对数。在当时还没有计算器,要知道对数值就得到图书馆用对数表来查。
你还记得高中时数学老师带着大家查的对数表吗?本福特要用的也就是那个。他在查表的时候有一个发现,这种小册子前边的页已经被使用者翻得很旧了,后边的页却和新的一样。这是为什么呢?
本福特对这种现象有个假设,就是在生活中,人们接触到各个数字的频率是不一样的。为了满足这个好奇,他对能接触到的数字做了普查,结果还是挺惊人的。
本福特发现对数表前边页码被用旧的速度远大于后边页码的原因是,生活中遇到的以1和2开头的数字远多于以8和9开头的数字。
经过几位数学家对本福特发现的填补,他们总结出、以1到9开头的数字,在生活中所占比例分别是:30.1%、17.6%、12.5%、9.7%、7.9%、6.7%、5.8%、5.1%、4.6%。
这个规律被命名为“本福特定律”。
但是,说了半天,这个定律对鉴别骗子有什么用呢?
有挺大的用呢。
你可以用这个定律的逆否命题,来判断别人是不是在骗你—也就是说,如果你发现别人提供给你的一大堆数字,它们的首位数的所占比例分配和本福特定律所说的相差很大,那么这些数字可能就是人为编出来的。
当然,在识别骗子的游戏中应用本福特定律,要满足两个条件,一个是你统计的数字是商业活动中随机的,第二统计的数字不能太少,比如起码要多于200个。
不过,由于“域”的问题,像成年人的年龄、体重和身高,即使满足我上边说的两个条件,它们也不会符合本福特定律。
本福特定律更适合的领域是商业问题。这不正是大家想要的吗?
有没有令你生疑的投资品或者上市公司的业绩?可以用它来试一下。
先说下我做的。
我怀疑的公司是个明星公司,马斯克的特斯拉。这家公司的问题除了从去年年底激增的应收账款,还有可能存在财务造假。用芒格的话说就是,马斯克太想把事办好了,但事情的难度要比马斯克所具有的能力稍高一些。在这种情况下,人们撒谎的概率就会增加。
如果识别骗子的成本太高,你可以试试那些有趣的数学方式。
我的方法是,从特斯拉公司的公开财务数据中搜罗了552个所谓的随机数(它们都是生产、销售、费用等运营行为产生的数字),这些数字覆盖了从2018年开始的财报。
我对这些数据按照首位数字从1到9归类,然后和本福特规律对比。
特斯拉的数据和本福特曲线相比似乎并不是特别不着边。但它有它的问题,那就是以1开头的数字相当多,达到了35%,比本福特曲线的比例高了5%。这种情况会发生在怎样的公司呢?
特斯拉的这张图有个影子版本,那就是费尔菲尔德·森特里月度回报数据基金的本福特分布图。费尔菲尔德·森特里基金就是大名鼎鼎的麦道夫骗局基金。
伯纳德·麦道夫曾经是纳斯达克主席,大约从1992年他就开始编织他的庞氏骗局基金,一直骗到了2008年年底受金融危机影响才露馅。麦道夫本人被判了150年徒刑。
麦道夫的基金的数字也有这个特点—“1”多。为什么会有这种现象呢?因为麦道夫的基金要给客户平稳赢利的印象,所以他的基金就像完成作业一样有很多个月的收益都是1%多一点。对于对冲基金来说这几乎是不可能的,那些数据中有很多是麦道夫和他的助手编造的,有的数字甚至是他打高尔夫球时的得分。
一般来说,人们会把自己公司的目标定立为以“1”开头的数字。如果公司运营完成了这些目标,那么在报表中以“1”开头的记录就会特别多,同时以“7”“8”“9”开头的数字会很少。
但总是能如约完成计划的公司是非常令人怀疑的—怎么会总是这么巧呢?
当然了,只凭一张本福特表格不能构成对一家公司的指控,但已经可以增加投资者的怀疑了。
另外,本福特定律除了首位数字统计,还有更厉害的杀手锏,那就是末尾两位数字谎言识别。
末尾两位数字谎言识别,就是统计相当数量的随机数字的末尾两位数字,如果它们真的是随机的,那么这种分布应该是下面这个样子。
从00到99一共100个数字,这些数字的末两位出现的数如果是随机的,它们出现的平均概率应该是1%。
为了验证一下末尾两位数字的测谎功能,我找到了一份我的一个熟人和别人合伙开店的财务单子(很久以前的事了),从中搜罗了449个数据,然后统计了它们的末尾两位数出现情况的概率分布。
怎么从末尾两位数看这些数据是不是瞎编的?
大概可以用下面三个“筛子”,看看这些数字是否异常。
① 某些末两位数出现的频率是否太高?重点关注出现频率占比超过4%的两位数。同时,根本不出现的两位数是否太多?如果这种情况严重,数据经过人为编造的可能性增加。
② 末两位为重复数字的占比是否过低?如果是,数据经过编造的可能性增加。重复数字就是00、55、99之类的数。
③ 降序数字是否过多?如果过多,其中有编造数据的可能性增加。所谓的降序数字就是32、43、54这类数。
通过分析,很遗憾,这是一份令人怀疑的报表。
① 首先,出现频率超过4%的数字有3个,这有点离谱,特别是以36结尾的数字,出现了18次。另外有5个两位数从未出现过,有13个两位数只出现了1次。
总体来说,这些数字的不平均状况有点夸张。
② 重复数字的出现概率比较低,10个两位数一共出现了19次,比平均数低了26次。
③ 降序数频繁出现,一共87次,超过平均数42次。
实际上,总体来说,用本福特定律检查数据是否真实,在民间的应用将更有效。这是因为那些上市公司的数字即使是编造的,但大多数经过了多重美化。但民间的这些往来报表,如果是编造的,那就是赤裸裸的编造,用本福特首数和尾数检测法,大多可以令其原形毕露。