大数据时代与经济史计量研究
2017-11-21陈争平
文/陈争平
大数据时代与经济史计量研究
文/陈争平
为何要抛弃“计量史学”?
近年来国内关于量化历史(Quantitative History)的研究正在升温,它与20世纪80年代开始在国内流传的计量史学(Cliometrics)有何区别?李伯重教授认为“计量史学”与“量化历史”就是一回事。笔者后来又对Cliometrics与Quantitative History的定义及发展历程等进行检索,发现二者确实是一回事。
客观地从名称上看,Cliometrics比Quantitative History更简洁更有学术性。那么,近年来推动量化历史研究的一些学者为何要抛弃Cliometrics这一名称,而宁愿采用Quantitative History这一较次的选择?联系到吴承明先生关于计量史学发展业绩评议,想来由于计量史学发展业绩不好,名声坏了,“人自宋后羞名桧”。所以后来那些学者抛弃“计量史学”而改用“量化历史”(Quantitative History)这一名称。
以往计量史学业绩差的原因,主要是因为存在四方面问题:
第一方面是以往一些计量史学方法的倡导者过分夸大了历史数据的客观性及代表性。细考中国历史上一些数据来源,往往会发现它们来自于某个官员或士子的估算,后来又有一些研究者再根据这些估算作进一步推论,使得结论的主观性更强,客观性更低。一些中国近代农史研究者推崇民国初年的卜凯调查,实际上这一调查在地区的选择、指标的规定等方面都有较大主观性。卜凯所用调查人员多是年轻学生,他们多出生于富足人家,所以当时才能上大学,回乡调查也是多问自家长辈和管家等,有关数据就会偏向富人,对于当时农村总体而言代表性较差。卜凯的著作中提到的贵州遵义平均单位面积产量,大大高于另一外国教授在实地调查中得到的数字。该教授认为,造成这种较大差异的原因在于,卜凯著作仅以优质土地为样本,而实际上这种土地在遵义的耕地中只占非常小的比例。
第二方面是夸大计量方法的作用,甚至断言用计量方法就能把历史学变成真正的科学。这种夸大不但不能提高真正业绩,还会引起一些史学家的反感,导致计量史学一再遭遇质疑和批评,一些计量史学倡导者热情冷却又回归到传统叙事方法。笔者认为,计量方法只是史学走向科学的必要条件,而不是充要条件。把必要条件当做作充要条件,就会使人狭隘,所得出的研究成果也会有偏差。计量方法仅是众多研究方法中的一种。正如吴承明先生所言:“研究经济史应根据不同对象和史料条件,采取不同方法。”总的来说,史学研究还是要走定性分析与定量分析相结合之路。
第三方面是各种数量模型的应用都有各自的前提条件,以往一些计量史学研究不论时空差异盲目套用模型,以致扭曲历史真相,甚至会得出一些荒谬结论。当然,也并非任何模型都不能用,要视具体情况作具体分析。
第四方面是历史数据缺失,使得计量分析面临极大的史料困难。吴承明先生认为,在计量方法中,必须有连续十年的系列数据才能建立一个模型。在中国,这种连续十年的系列历史数据严重缺失,以致于在20世纪八九十年代国内那些计量史学的鼓吹者自己也始终停留在鼓吹阶段,没有做出什么业绩,身体力行的只有吴承明先生。
既然“量化历史”原本是改名换姓的“计量史学”,那么导致以往计量史学发展业绩差的四方面问题,就值得现在从事量化历史研究的学者们警惕。
大数据时代来临
英国学者维克托·迈尔-舍恩伯格、肯尼思·库克耶在《大数据时代:生活、工作与思维的大变革》一书中宣告:大数据时代来临。大数据时代的精髓与三个重大的思维转变有关,这三个转变是相互联系和相互作用的,这些转变将改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,而不再依赖于随机采样。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。
第二个转变就是,当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
第三个转变是,在大数据时代我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。因果关系只是一种特殊的相关关系。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。大数据的相关关系分析更准确、更快,而且不易受偏见影响。
大数据绝不会叫嚣“理论已死”,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。
经济史计量研究中的三大学派
吴承明先生指出,定量分析可以检验已有的定性分析以尽量避免随意性定性判断,它还可以揭示多种变量相互之间的内在关系,揭示经济事物发展变化趋势,可以使人们对许多历史问题的认识不断深化。经济史计量分析大致有统计学、计量经济学、计量史学三大类方法。他告诫我们,计量研究是一项要小心谨慎、要下苦功的工作,统计是经济史计量研究的基础。
对于计量经济学方法,吴老认为它可以用于“检验已有的定性分析,而不宜用它创立新的论点”,“计量经济学方法用于经济史研究有很大局限性”。他不主张用小数据样本加数量模型来研究经济史,还有一个主要原因是数量模型里无“人”,看不见“人”的主观能动性。
至于计量史学,吴老认为它“已消失生气”。所以吴老指出,经济史计量研究仍然“主要是统计学方法”。
实际上,从计量经济史学派(亦可称之为“模型派”)、量化历史派(亦可称之为“计量史学派”)已有成果看,他们所用的计量方法仍然常用频率分析、回归分析等基本统计方法。主成分分析、判别分析与聚类分析等高级统计方法在史学界还很少有人用,更遑论灰色系统理论及GM模型的运用了。高级统计方法在中国史学研究中的运用,还有待年轻学者去努力实践。
受吴老启发,对于经济史计量研究中三大学派之争,我们认为,统计学派更加贴近大数据时代的主要特点,更符合时代要求。这是因为:(1)大数据的“大”是相对而言,意思就是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。我们的国家社科基金重大项目“近代中国经济统计研究”工作就是要尽最大可能收集整理与近代中国经济相关的所有数据,在此基础上开展计量分析。(2)《大数据时代》书中有这样的论断——“大数据的简单算法比小数据的复杂算法更有效”。据此可以推论以统计为基础的经济史计量研究比小数据样本加数量模型更可靠、更有效。(3)需要强调的是:大数据建设对于加强国际竞争力有重要意义,而本项目研究是中国大数据建设的一部分。笔者认为,在一定场合,方法仍然有优劣之分:“孤证”优于“无证”(细考以往已发表的计量史学成果,有不少数据来源“无证”,纯属研究者臆断),“罗列”优于“孤证”,“统计”优于“罗列”。所以笔者赞同吴老说的经济史计量研究仍然“主要是统计学方法”的观点。
近几年经济史计量研究三大学派在我国发展形势有喜人变化:三大学派都有中青年学者参与。吴老注重统计的思想需要有人践行,我们的“近代中国经济统计研究”项目团队有数十位中青年学者正在披荆斩棘,努力做好这方面工作,我们这一拨算是统计学派;陈志武先生主办的三届“量化历史讲习班”吸引了一批又一批青年学人,他们以后在方法论上究竟会有什么走向还不好说,我们暂时按照讲习班的名称把讲习班师生这一拨归为年轻的计量史学派;广东外语外贸大学刘巍教授组建了中国计量经济史研究中心,编印了《中国计量经济史研究动态》学术通讯,发表了一系列重要成果,从他们所用方法来看,应属于模型派代表。新时期三大学派各自努力,互相激励,都在推动我国经济史计量研究。三大学派可以说现在都在打基础,尤其是我们统计学派打基础需要花费更多精力。笔者相信,三大学派各自会做出何种业绩,预计10年后可以初见分晓。
建设经得起检验的数据库
现在中国经济史计量研究状况有两大问题,一是历史数据资料缺乏仍然很严重,二是已有的数据资料集存在较多问题,需要进行检验,不能拿来就用。我们现在进行数据库建设,既要注意数量,使得规模尽可能大,又要抓好质量,要建设经得起检验的数据库。
习近平主席最近提出要“以数据集中和共享为途径,建设全国一体化的国家大数据中心”。我们要做的“关于中国近代经济统计研究”的两大系列数据库,是中国大数据建设的一部分,对于经济学、统计学、历史学学科建设都有着重要意义,也是我们进一步展开分析的基础,将按基金管理有关规定提供给社会各界使用。
经济史计量研究与经济学理论发展
吴老在给研究生讲课时曾经指出,定量分析可以检验已有的定性分析,以尽量避免随意性定性判断,它还可以揭示多种变量相互之间的内在关系,揭示经济事物发展变化趋势,可以使人们对许多历史问题的认识不断深化。他曾以清代江西景德镇制瓷业研究为例,告诉我们:从当时史料数量看,景德镇官窑留下的史料多,民窑的很少,不做计量研究则会给人清代景德镇制瓷业是以官窑为主的印象,做了计量研究才发现当时官窑的产量和占用的技术力量都不到民窑的1%。吴老还列举其他一些案例,使我们对经济史研究中计量方法的重要性有了较深的印象。
吴老也告诫我们,定量分析要与定性分析相结合,“已有的定性分析常有不确切、不肯定或以偏概全的毛病,用计量学方法加以检验,可给予肯定、修正或否定”;而计量经济学方法可以用于“检验已有的定性分析,而不宜用它创立新的论点”。
吴老肯定了经济史计量研究对检验已有的定性分析的作用。至于吴老的后一句,笔者要表示一点不同意见。笔者认为,经济史计量研究也可以帮助创立新的论点。诺贝尔经济学奖获得主M.弗里德曼等人通过对1867-1960年美国货币史的统计研究,推导出了著名的货币层次理论及货币供应决定模型,就是这方面的一个典型案例。
19世纪中叶德国统计学家恩格尔的工作也是这方面的一个典型案例。恩格尔对当时比利时三个阶层的消费结构作了统计调查,推出了经济学上著名的恩格尔定律。笔者认为,恩格尔定律仍有较大的拓展空间。可以推论:随着收入的增加,消费结构中食物支出比例(恩格尔系数)下降时,其他方面的支出所占总支出比例会相应上升。我们进一步要问的是:消费结构其他方面的变化又有什么规律?明太祖九世孙、“东方百科全书式的人物”朱载堉创作的散曲《山坡羊·十不足》,结合恩格尔关于比利时不同家庭消费结构的统计表第3列数据,可以提出有关假设:
《十不足》讲:“逐日奔忙只为饥,才得有食又思衣。”贫民一旦填饱肚子,就要考虑穿衣问题。结合恩格尔关于比利时不同家庭消费结构的统计表数据,可以假设:当恩格尔系数由59%移向50%时,人们由“糊口”走向“温饱”时,消费重心开始向“穿”的方向移动,衣着所占总支出比例会有较大幅度上升。《十不足》接着讲:“置下绫罗身上穿,抬头又嫌房屋低。”据此可以假设:当恩格尔系数由50%移向40%,人们由“温饱”走向“小康”时,消费重心开始向“住”和“用”的方向移动,住房及日用必需品等支出所占总支出比例会有较大幅度上升。我们还可以继续推论:当恩格尔系数由40%移向30%,人们由“小康”奔向“富裕”时,消费重心开始向“文体娱乐”方向移动,文教卫生娱乐费(包括旅游交通费及雇佣仆人费用)等支出所占总支出比例会有较大幅度上升。当恩格尔系数由30%下移,人们由“富裕”迈向“最富裕”时,消费重心开始向“社会公益事业”方向移动,慈善活动费及社会公益费用等支出所占总支出比例会有较大幅度上升。
当然,上述关于恩格尔定律拓展的思考,只是受《十不足》前两句的启迪而作出的理论猜想,还有待经济史统计的证明。如果能得到证明,可以将其命名为“扩展型恩格尔定律”(恩格尔定律+消费结构其他方面变化规律),以向著名统计学家恩格尔致敬。
(作者单位:山东大学经济研究院、中南财经政法大学经济学院教授;摘自《中国经济史研究》2016年第6期)