大数据可以用来“证伪”却不能用来证明
2018-01-05李迅雷
李迅雷
3年前,我曾经以《相信奇迹还是相信逻辑》为题做过一次演讲。核心观点是,从古至今,国人的形象思维比较发达,但形式逻辑偏弱,建议用数据说话,提倡理性思考。今天,在人人都讲大数据的时代,我们该如何看待和运用大数据?当大数据不合逻辑时,究竟是相信大数据还是相信逻辑?
相信个案还是相信大数据
大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。
数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据成为赢得竞争的关键。
2011年诺贝尔经济学奖获得者托马斯·萨金特近期在中国公开演讲时认为,人工智能实质上就是统计学。我觉得他说的有一定道理,但过于简单粗暴。其实他想表达的是,人工智能中运用的不少方法就是过去的统计方法。
又有人认为大数据就是全样本统计,这样理解大数据未免有点浅薄,全样本统计只是大数据的一种形式而已。大数据的涵义要比传统意义上的统计数据广泛,但又具有统计数据的很多属性,因此大数据需要通过合适的方法,才能发挥其作用。
两年半前,我曾从蚂蚁金服公布的居民网络消费数据中发现天津在网络消费上的怪异现象:作为直辖市的天津,人均网消水平明显低于上海、北京、浙江、江苏、海南、福建、广东,甚至低于全国平均水平(因为前七个省市的消费权重较大)。
天津人均GDP在2016年及之前一直为全国省市自治区中排名第一,为何网购数据那么弱呢?我当时认为天津有夸大GDP的可能。因为查阅《统计年鉴》,发现天津的人均可支配收入与人均GDP水平不匹配。即人均可支配收入不仅低于北京和上海,而且低于浙江、江苏。
如2015年浙江城镇居民可支配收入占GDP之比为56.3%,上海51.3%,但天津只有31.9%,与前者相差20%左右。如果说人均可支配收入偏低与通过大数据获得的人均网购额比较匹配,那么,人均GDP或GDP总额就极大偏离正常水平了。
今年年初,天津重新调整了其滨海新区2016年GDP的数据,从过去公布的10002.31亿元,调整为6654亿元,缩水3348亿元,缩水幅度达三分之一。可见,如果把从支付宝获得的网购大数据与统计部门公布的数据进行相互比对,就可以及早发现问题所在。
我曾举过一个例子:让1000只猴子掷硬币,每次出现正面的概率为50%,如果让所有猴子连续掷硬币10次,那么,连续10次均为正面的概率就是50%的10次方,约等于千分之一,即一千只猴子中应该有一只猴子会连掷硬币10次均为正面。难道我们需要把这只猴子作为典型案例,号召所有猴子向它学习,将其“成功”掷币的经验进行推广吗?
在国内,类似“成功学”的书特别畅销,但就“成功”本身而言,其比例很低,否则就不叫成功了。也就是说,成功只能是个案,但大部分人只对成功的个案有兴趣,对成功率茫然无知。
盲目相信大数据并不可取
过度迷信大数据也有问题。以股市为例,目前A股市场的上市公司数量超过3000家,所有上市公司的盈利等财务数据累加起来,也构成了大数据。
从2016年开始,上市公司的整体ROE(股权收益率)都在上升,但为何股市的估值水平却在下移呢?为何商品房销量屡创新高,房企的盈利也出现了高增长,但房地产股却大幅下跌?说明借助大数据预测未来,必须搞清楚数据与预测对象之间的逻辑关系。股价应该是领先指标(或称晴雨表),大数据则是滞后指标。房地产股的下跌,或是反映了股市投资者对国内楼市未来下跌的担忧。
2017-2018年上市企业盈利整体增速超过两位数,但并不意味着2019年盈利增速不下降。当投资者看到经济增速下行的长期趋势,就会对企业未来的盈利前景感到担忧。
大数据总量数据固然重要,但“内部结构”还需要分析:为何这两年股市中的“中小创”跌幅较大?是因为其历史的估值水平较高,尽管其盈利增速并不低,但面临市场趋向理性之后的估值水平下移压力。
所以,盲目偏信大数据反而容易产生误判,只有运用合理的逻辑分析方法,才能把大数据的结构和特征描述清楚。例如,由于A股中大市值公司的估值水平比较低,如银行股的利润总额加起来占所有上市公司总利润的一半左右,且大部分银行的PE只有5-7倍;所有上市公司PE加权平均之后,就很低了,但从PE的中位数看,估值水平仍然不低(目前23倍左右)。
为何会发生黑天鹅事件
17世纪之前,欧洲人都认为天鹅都是白色的,因为他们所见到的各大洲(欧洲、亚洲、非洲)及各个地方的天鹅,无一例外地都是白色——这就是用归纳法对大数据处理所得出的结论。一直到人们在澳洲发现第一只黑天鹅之后,天鹅都是白色的结论才被推翻。
从此之后,人们就把意想不到事件的发生,称之为黑天鹅事件。这说明大数据的缺陷所在——样本不能被穷尽,因此,大数据可以用来“证伪”,却不能用来证明。
而大数据的运用,大部分采用归纳法——人类思维中90%以上的机率都在使用归纳法,因為归纳法不需要运用太多知识。不像演绎法,它先要掌握不少知识或定理,然后再据此去推理。
前段时间英国皇家学会前主席阿提亚爵士宣称证明了黎曼猜想。是否真的证明了姑且不论,但证明过程所需要的深奥专业知识,肯定不是一般人所能触及的。
事实上,西方在基础研究领域的巨大成就,大部分都是在17世纪之后取得的,远没有跨入大数据时代,且大部分没有采取实验室研究的方式,但至今大部分成果都被广泛应用到社会经济、科技生产的各个领域。也就是说,17世纪之后,西方抽象思维得到极大发展,建立了数学、物理的科学体系,进而又推动了科技进步,从而拉大了中西方在科技领域的差距。
相比之下,从中国历史上所取得的科学成果看,能体现抽象思维的东西比较少,形式逻辑在中国没有充分发展,如公孙龙(前320年-前250年)就提出了“白马非马”之说。因此,中国历朝历代的思维还是见长于归纳法和辩证法。
由于形式逻辑、演绎法在中国五千年的漫长历史中没有得到充分发展,这才是导致我国近代科技发展迟缓的根本原因,而不是所谓的制度因素。为什么哲学、宗教、文化乃至医学等都有中西方之分,但数理化就没有“中国数理化”?因为这些学科都不能通过经验(或称大数据归纳)、传承或辩证法来创设。
3年前,我提出要相信逻辑,不要相信奇迹(个案)。如今,进入了大数据时代,我仍然提倡:在大数据面前,更要相信逻辑,虽然大数据比个案更有说服力,但大数据同样存在失真、变异、滞后甚至被操纵的可能性。
去年以来公布的统计数据显示,企业的盈利增速大幅提高,但为何企业的投资增速却大幅下降呢?大数据不能解释,但逻辑却可以作合理解释:供给侧改革、环保标准提高等导致供给端被压缩,进而导致上游商品价格上涨,大企业盈利增速上升。
社会经济的发展,看似千姿百态,但也有其共性。比如,二战之后的今天,市场经济最终成为全球几乎所有国家的共同体制,说明这个体制合乎经济可持续增长的逻辑。这正如价值投资成为全球绝大部分资本市场的共同理念一样,唯有如此,才能获得较大的回报。
纵观全球各国经济走势,都会发生波动,尽管波动剧烈时政府部门会采取逆周期的政策,试图通过干预市场避免发生危机,但事实上却很难避免。也有些国家尽管没有爆发危机,但其代价往往是经济停滞和债务高企。因此,就像价值投资理念对资本市场的影响一样,逻辑产生作用可能会迟到,但不会缺席。