相信大数据还是相信逻辑
2018-10-24中泰证券李迅雷
中泰证券 李迅雷
在人人都在讲大数据的时代,我们该如何来看待和运用大数据,当大数据不合逻辑时,究竟是相信大数据还是相信逻辑?
相信个案还是相信大数据
“大数据”是指以多元形式,通过许多来源搜集而来的庞大数据组,往往具有实时性。大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇。如美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。
此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。
又有人认为大数据就是全样本统计,这样理解大数据未免有点浅薄了,全样本统计只是大数据的一种形式而已。因此,大数据的涵义要比传统意义上的统计数据广泛,但确实又具有统计数据的很多属性,因此大数据需要通过合适的方法,才能发挥其作用。
因此,步入信息社会,大数据概念的流行对于习惯于形象思维的国人是一个很好开阔眼界机会,从古到今,相信奇迹的人为数不少,而相信常识或相信概率的却不那么多。例如,为何澳门博彩业会如此繁荣,规模是拉斯维加斯的四五倍呢?就是因为“相信奇迹(一夜暴富)”的国人太多了。
在国内,你会发现类似“成功学”的书特别好销,但就“成功”本身而言,其比例一般都很低,否则就不叫成功了。也就是说,成功只能是个案,但大部分人只对成功的个案有兴趣,对成功率茫然无知。
盲目相信大数据并不可取
大数据比个案更有说服力,但是过度迷信大数据也有问题。以股市为例,目前A股市场的上市公司数量超过3000家,所有上市公司的盈利等财务数据累加起来,也构成了大数据。
从2016年开始,上市公司的整体ROE都在上升,但为何股市的估值水平却在下移呢?为何商品房销量屡创新高,房企的盈利也出现了高增长,但房地产股却大幅下跌?说明借助大数据来预测未来,必须搞清楚数据与预测对象之间的逻辑关系。其实,股价应该是领先指标(或称晴雨表),大数据则是滞后指标。房地产股的下跌,或是反映了股市投资者对国内楼市未来下跌的担忧。
同样,2017-18年上市企业盈利整体增速超过两位数,但不意味着2019年盈利增速不下降,当投资者看到经济增速下行的长期趋势,就会对企业未来的盈利前景感到担忧。
此外,大数据总量数据固然重要,但“内部结构”还需要分析:为何这两年股市中的“中小创”跌幅较大?是因为其历史的估值水平较高,尽管其盈利增速并不低,但面临市场趋向理性之后的估值水平下移压力。
所以,盲目偏信大数据反而容易产生误判,只有运用合适逻辑分析方法,才能把大数据的结构和特征描述清楚。例如,由于A股中大市值公司的估值水平比较低,如银行股的利润总额加起来要占到所有上市公司总利润的一半左右,且大部分银行的PE只有5-7倍;所有上市公司PE加权平均之后,就很低了,但从PE的中位数看,估值水平仍然不低(目前23倍左右)。
我国的成语中也有类似对大数据“滞后”特性的描述,如盛极而衰,表示数据虽然非常好看,但可能意味着衰退。而且,正是由于人们偏爱“用数据说话”,因此,数据作假现象也屡见不鲜,从而导致总量数据与实际相背离,或者数据之间的勾稽关系出现矛盾。
为何会发生黑天鹅事件:还是要相信逻辑
大数据的运用,大部分采用归纳法——人类思维中90%以上的机率都在使用归纳法,因为归纳法不需要运用太多的知识;不像演绎法,它先要掌握不少知识或定理,然后再据此去推理。
例如前段时间英国皇家学会前主席阿提亚爵士宣称证明了黎曼猜想,是否真的证明了姑且不论,但证明过程所需要的深奥专业知识,肯定不是一般人所能触及的。
事实上,西方在基础研究领域的巨大成就,大部分都是在17世纪之后取得的,远没有跨入大数据时代,且大部分没有采取实验室研究的方式,但至今大部分成果都被广泛应用到社会经济、科技生产的各个领域。也就是说,17世纪之后,西方抽象思维得到极大发展,建立了数学、物理的科学体系,进而又推动了科技进步,从而拉大了中西方在科技领域的差距。
相比之下,从中国历史上所取得的科学成果看,能体现抽象思维的东西比较少,形式逻辑在中国没有充分发展,春秋战国时代,形式逻辑也曾有过发展,但最终却演变成了“诡辩术”,因此,中国历朝历代的思维还是见长于归纳法和辩证法。
由于形式逻辑、演绎法在中国五千年的漫长历史中没有得到充分发展,这才是导致我国近代科技发展迟缓的根本原因,而不是所谓的制度因素。为什么哲学、宗教、文化乃至医学等都有中西方之分,但数理化就没有“中国数理化”而是照搬西方的呢?因为这些学科都不能通过经验(或称大数据归纳)、传承或辩证法来创设的。
三年前,我提出要相信逻辑,不要相信奇迹(个案)。如今进入了大数据时代,仍然提倡:在大数据面前,更要相信逻辑,虽然大数据比个案更有说服力,但大数据同样存在失真、变异、滞后甚至被操纵的可能性。
纵观全球各国经济走势,都会发生波动,尽管波动剧烈时政府部门会采取逆周期的政策,试图通过干预市场来避免发生危机,但事实上却很难避免。也有些国家尽管没有爆发危机,但其代价是往往经济停滞和债务高企。因此,就像价值投资理念对资本市场的影响一样,逻辑产生作用可能会迟到,但不会缺席。
图:2017年以来大市值公司ROE改善明显优于小市值公司