量化历史研究的过去与未来
2017-11-21陈志武
文/陈志武
量化历史研究的过去与未来
文/陈志武
2013年,笔者与清华大学龙登高、伦敦经济学院马德斌、香港科技大学龚启圣等教授一起举办了第一届量化历史讲习班。之后,我们每年办一届。与4年前相比,国内学界对量化历史研究的认知和兴趣已有了很大的变化。虽然参与过讲习班和量化历史年会的同仁还未必都能用量化方法研究历史话题,但至少都了解到了量化方法的优势和不足,当然也不乏对量化史学存有质疑的。
按照经济史学者诺斯的追溯,用量化方法研究经济史问题大致起源于1957年,当时几位学者尝试研究美国黑奴历史的经济逻辑。随后,量化方法也用到了其他历史研究领域,包括诺斯对欧洲政治制度史、西波拉对西方的教育史与宗教史的研究。到1960~70年代,量化史学变得流行,这股风潮后来有所消退。但是,1990年代中期后,新一轮量化历史研究热潮再度崛起,引人注目。就以国际五大量化历史数据库为例,2006~2010年间,新发表的学术论文中运用这些数据库的就达2360余篇。催生新一轮量化历史研究的经典作品主要来自经济学领域。而且,在如何利用大数据论证历史假说方面,经济史学者做了许多方法论上的创新,改变了以往社会学家、人口学家只注重历史数据描述性分析、相关性分析的传统,将历史研究进一步往科学化的方向推进。
今天,计算机和互联网已相当普及,不仅许多历史资料的数据库化变得可能,而且使这些历史数据库的跨地区、跨国共享成为可能。在互联网上有数不清的各国历史资料库可以免费得到,用起来方便,成本也低。这是以前的历史学者做梦也想不到的。
当然,众多量化历史数据库只是研究的基础,关键要看研究方法与分析框架是否跟得上。许多同仁说:量化史学不是曾经时兴一段,但后来势头下降了吗? 这次为什么会不同呢? 我们必须看到,1980年代之前电脑没有普及,更没有互联网,那时整理历史大数据很难,做统计回归分析并检验假说也很难。但是,现在没有这些问题了。今天“大数据”是个时髦话题,可是,很多人没有看到历史资料是真正的大数据。比如,仅清代刑科题本档案就有近60万本,平均每本大约30页手稿,加在一起就是1800万页资料。更不用说其他明清及民国期间留下的奏折、公文、实录、文书、契约、方志等史料,加在一起至少有数亿页。如果举一个极端例子,正如哈佛大学包弼德( Peter Bol)所说,仅2013年那一年,世界上的网站数量超过5亿、共480亿网页,相当于6720亿GB 的信息量,是所有美国图书馆藏书总和的50万倍!将来研究今天世界史或中国史的学者会如何作为呢?
首先要看到,采用细读个案的传统历史方法,不仅会让我们偏重树木而忽视森林,而且,在历史资料规模超过一定水平时,这种方法很难行得通。海量历史资料带来两个现象:一是近代史比远古史更难研究,因为明清资料太多而古代资料很少。因为传统方法强调细读一手史料,远古资料少,使其相对可行,近代史海量资料反倒使其不好研究,只有靠引入新的研究方法才能改变这种奇怪局面;另一现象是由于传统方法强调个案细节、不强调大样本,但历史上的社会现象又错综复杂,研究者很多时候都能根据需要挑选到“合意”的历史案例。所以,在不同学者根据需要去找合意个案的习惯下,得出的结论当然各异。于是,就有了“历史被任意打扮”的嫌疑。我们需要改变这些现象,这就要靠大样本量化方法。
中国历史资料丰富,这是中华文明的优势。但是,要发挥这种优势、增加我们自己乃至全人类对我们过去的认知,就必须改进研究方法。量化历史方法既受益于现代互联网技术,也受益于现代社会科学分析范式的进步,是历史研究领域的与时俱进。
接下来,本文分别回答以下几个常见疑问:第一,量化历史方法跟传统历史方法是什么关系? 第二,历史能够量化吗? 第三,1990年代末期以来的量化历史研究方法跟之前的量化方法区别在哪里? 最后,量化史学除了证明或证伪传统史学提出的假说外,能带给我们对历史的新认知吗?
量化历史研究方法
量化历史方法不是要取代传统历史研究方法,而是对后者的一种补充,是把科学研究方法的全过程带入历史领域。整理考证史料、注重文献是历史学研究的传统,量化史学同样注重对历史文献的考证、确认,这一点没有区别。如果原始史料整理出了问题,不管采用什么研究方法,由此推出的结论都难言可信。两者差别在于量化方法会强调在史料的基础上尽可能寻找其中的数据,或者即使没有明显的数据也可以努力去量化。
不管是自然科学还是社会科学领域,科学研究方法的基本流程是一样的。其中,第一步是提出问题和假说。第二步是根据提出的研究问题和假说去找数据,或者通过设计实验产生数据。第三步是做统计分析、检验假说的真伪,包括选择合适的统计分析方法识别因果关系、做因果推断,避免把虚假的相关性看成因果关系。第四,根据分析检验的结果做出解释,如果是证伪了原假说,那原假说为什么错了?如果验证了当初的假说,又是为什么?这里挖掘清楚“因”导致“果”的实际传导机制甚为重要。为给出令人信服的解释,既可通过统计方法认证逻辑传导机制,也可通过简单数学模型验证传导机制的逻辑一致性。第五步就是写报告或者文章,把科学过程研究出的结果报告出来。
传统的历史研究范式基本停留在上述科学方法的第一步和第二步,也就是要么先提出问题或假说,觉得“历史应该是这样”,然后去找历史中的个案或少数几个案例,只要假说与这些个案相符,就认为假说对历史的解释是成立的。或者,先通过对历史个案的透彻研究,学者得出关于历史现象中因果关系的假说或猜想,认为历史中就是这样由这个“因”导致那个“果”的,然后研究就到此结束了。——但是,从上面讲到的科学研究流程来看,这显然只是研究过程中的一步或两步,不是全部过程。史料整理是建立历史数据库的基础,在没有经过大样本的检验之前,这些假说和猜想还仅仅是一种假说,不一定真的成立。
量化研究是在传统研究方法的基础上,把科学方法中的第二步(收集大样本数据)做好、做完,并且把第三、第四步也做完。只有这样得到的历史现象背后的“历史规律”,才让人能接受,才能避免“以偏概全”。所以,量化历史方法是对传统方法的补充,而不是取代。量化历史研究也不只是简单的“用数据说话”。数据是量化研究的基础,但这只是其中一个环节,同样重要的是要根据历史大数据对我们感兴趣的猜想进行统计检验,看这个猜想是否能得到大样本的支持,而这一点是传统历史方法难以做到的。过去,胡适也讲过“大胆假设,小心求证”,只不过当时他所讲的求证,还只是一般的寻求证据(主要是文献方面的),并不是统计学分析与大样本检验。
历史研究能够量化吗?
一个经常听到的问题是:历史能够量化吗?这问得有道理,因为许多历史现象和因素确实难以量化,即使是今天,有许多事物包括情感等因素都难以量化。但是,难以量化不等于都不能量化,尤其不等于要放弃想象力、放弃创新的努力。只要努力创新,很多因素还是能够量化的,尽管有时候并不一定那么完美。
以香港科技大学龚启圣和山东大学马驰骋最近的一份研究为例,他们的核心问题是如何测度儒家文化的影响并评估其实际贡献。他们尝试用间接代理指标来量化“儒家文化影响的强弱”。其研究的目标是清代1644~1910 年间山东107个县的农民暴动情况,看儒家文化是否会显著降低各地遭遇灾荒冲击时农民暴动的冲动。通过检索《清实录》等资料,他们发现,清时期山东南部各县农民暴动最频、次数最多,其次是青岛周边山东东北角的这些县;而孔庙数量的分布则倒过来:中部各县孔庙数量最多,以南部和北部县为最少。在排除各种其他因素的影响之后(包括每个县的收入水平、起初发达程度、教育水平、社会流动性等),受儒家文化影响越深的县(即孔庙数量或列女数量越多),即使遭遇灾荒冲击(通过粮价高低测度灾荒严重度),其在清代农民暴动的频率也更低,尤其以南部县域孔庙少、暴动频,中部县域则反之。之所以有这样显著的结果,机理在于:儒家文化影响深的地区,家族宗族网络越强,在面对灾荒冲击时宗族内部互通互助的程度就越高,亦即隐性互相保险的程度就越强;这就减少灾荒迫使农民走投无路、求助于暴力的必要性。在缺乏保险市场等金融产品的社会里,儒家文化就是这样促使社会稳定、减少暴力冲突的。或许我们可以对他们的量化研究提出质疑或者提出改进建议,但是,他们的创意价值显而易见,不仅增加了我们对清朝历史的理解,而且给我们提供了研究儒家文化以及其他文化的新方法,深化对文化影响社会、影响生活的机理的认知,不再泛泛而谈。当然,我们可以列举更多文化史量化研究的著作,但基本结论是一样的:有许多表面看上去不能量化的研究课题,其实只要我们发挥想象力,还是可以找到代理变量,或者通过创造性研究设计把不容易量化的研究变得可以量化。
量化历史研究不只是“用数据说话”
1950年代以及之后的几十年里,如果历史学者能用数据说话,那可能就算很前沿的量化历史研究了。诺斯、麦迪森、西波拉等历史学家,以及中国史学界的吴承明、赵冈、郭松义、李伯重等史学家,都是这方面的开拓者,包括估算GDP、收入、识字率、经济规模、耕地面积、城市化率、家庭数据等等。他们通过收集资料、量化各种指标,然后计算相关系数或者通过画图展示相关性,并把相关性看成因果关系,得出结论。相对于早期的定性研究而言,他们做的已经是非常量化的研究。当然,我们知道相关性不等于因果关系,他们做的主要是描述性的,完全的量化研究必须做更多,需要对因果关系进行统计检测。
也正因为以上原因,许多历史学者就说“量化史学只是把历史学家已经知道的结论用数据说一遍”!但这是一个比较普遍的误解。统计检验的价值之一是让我们在针对同一历史现象的多种假说中排除一些假说、支持一个或几个其他假说,而如果没有量化检验的方法就很难做到这一点。比如,最近南京师范大学地理学教授吴庆龙领导的考古学家和地质学家团队在《科学》( Science) 杂志发表一篇文章,称已经找到发生过一场大规模洪水并由此导致夏朝诞生的证据,说这可能就是一些中国史书中提到的那场大洪水。之所以大洪水会发生,是因为地震引起山体滑坡,形成了横跨黄河的巨型天然堤坝,使从青藏高原流过来的黄河水无法穿过积石峡,这样,在6至9个月时间里,河水都汇聚在坝体后边新形成堰塞湖。接着,坝体在湖水漫过坝顶之际迅速溃决,这是过去一万年来规模最大的洪水之一。溃坝洪水可能向下游奔涌了2000公里之远,冲毁了黄河的天然河岸,令许多地方被淹,甚至导致了黄河改道,使接下来的治水挑战史无前例,催生夏朝的形成。
我们姑且不管吴庆龙教授团队的结论能否最终得到更多证据的充分证明,他们的研究之所以引起轰动,就是因为到目前为止还没有考古证据直接证明夏朝的存在,同时关于其存在过的假说很多。那么,如果有任何考古证据排除其中一些假说并同时支持另外一些假说,其学术贡献就很大。
许多历史事件的解释也面对同样的挑战:假说或学说很多,但难以找到公认的方法和证据排除一些、保留另一些。比如,关于传统中国社会的高利贷,解释就很多,既有剥削论,也有道义经济论、市场供需关系论等等。那么,到底哪一种假说更接近真实呢?以前,许多历史学者通过个案做了解释或佐证,但不管清代、明代还是其他朝代,借贷交易全国每天有千千万万起,交易关系和交易结局千差万别,佐证学者自己观点的例子应该都能找到。所以,各种学说都有提出,都难以被否定。但是,哪种假说最能反映其中的主要规律呢?陈志武、林展和彭凯翔利用清代1732~1895 年间刑科题本中近5000命案记录,对民间借贷双方的关系进行了定量分析。他们发现,在借贷纠纷引发的命案中,一旦借贷利率高于零,被打死方为贷方的概率为60%,而且利率越高,被打死的是贷方的可能性也随之增加,这说明一旦发生债务违约,贷方面对包括生命风险在内的违约成本是不对称地更高。这一发现与传统“高利贷剥削”论和放贷者“超经济强制”论的推断相反,道义经济论可能最接近历史真实,因为在他们的借贷命案大样本中,如果借贷是无息,被打死的一方更可能是借方,但借贷利率越高,被打死的一方越可能是贷方。而之所以是这样,一个重要原因还是在于哪一方有“道义制高点”、“哪一方理亏”。这些基于量化研究的结论,一方面说明历史现象远比简单假说要复杂,另一方面说明高利贷的成因之一是民间借贷背后包含了不小的生命风险,这些高生命风险迫使借贷利率必须高,否则没有人愿意把钱放贷出去,这符合我们今天熟悉的市场逻辑。如果忽视契约执行时可能的暴力冲突所要求的风险溢价,人们可能难以完整解释民间借贷的高额利率。
量化史学带来新认知
有一个流行的说法,“量化历史研究只能对已有的假说做认证,但出不了新东西”,笔者用自己近几年的一些合作研究说明这一点。
在学界甚至社会中,对中华文明的悠久历史论著很多,也有大量中西文化对比的论著,但是这些论著基本停留在对中西文化经典的对比、定性讨论上,没有落实到具体的量化指标上。各文明的经典之所以为经典,是因为它们汇集了人类真善美的理想愿景,反映了各版本的“仁义礼智信”,所以,如果只是停留在基于价值观的定性判断上,的确难以有令人信服的比较结论。于是,就有了文化多元论的说法,“不同文化各有各的好”。但是,一个文化体系的优劣、一个社会文明还是不文明,最好是依据量化业绩指标来评估。而在这一方面,经济史文献做的比较多,从斯密到马克思、韦伯、诺斯以及包括Acemoglu、Johnson、Robinson在内的新一批经济史与社会史学者,都以经济表现尤其以生产率的量化指标对文化体系做评估比较,于是,哪个文明体系下的人均收入、城市化水平最高或增长最快,那么,哪个文明体系就最优。可是,除了物质收入、货币化收入之外,人类关注的还有“安全感”“幸福感”这些未必跟物质收入100%相关的发展维度。比如,社会是充满野蛮暴力、缺乏安全感,还是平和、安定? 这些维度可以落实到文明化的具体数据指标上,比如每年每10万人口中有多少死于凶杀等暴力,一个“更文明”的社会应该是命案率更低的社会,“文明化”应该是一个命案率、暴力率不断降低的历程,而文字上“文明了”并非等于事实上的文明化。关于暴力史的研究,到目前基本都集中于欧洲社会,比如Gurr、Eisner、Elias 等,他们发现,自1200年以来,欧洲社会的命案率大约下降了60 到100倍,文明化进程显而易见,普通欧洲人的安全感显著提升!但是,关于中国的普通暴力史、命案率史,就我们所知,还是一个空白,没有系统的研究。
基于此,陈志武、彭凯翔和朱礼军做了尝试,利用清代命案要案档案中的黄册统计和题本数据等资料,建立并研究了1661~1898年间清代的命案率历史。他们发现,从康熙朝到嘉庆朝末年,中国命案率(不包括战争死亡)一直呈上升趋势,1820年后开始下降。可是,即使在普通人命案率达到高峰的1820年左右,每年10万人中只有1.6个死于一般暴力,而西欧同时期每年每10万人有4到8个死于一般暴力。也就是说,虽然欧洲自中世纪中期开始命案率一直在下降、文明化进程在进行,但是,到17至19世纪,其暴力死亡率还是远高于同期的清朝中国,到19世纪末才接近中国。在这个意义上定义的“文明化”程度,西欧社会落后于中国,后者比欧洲社会更显得“温情脉脉”。
虽然在比较中国和西欧普通人、普通社会的命案率时有以上发现,但是,在更高制度建设层面,结论又大为不同。陈志武和林展对中国自秦朝以来658位皇帝是如何死的进行了系统研究,发现38%左右的皇帝死于非命,其中71%是死于亲戚或宫廷大臣之手。历代皇帝的平均统治时间为12.5年。在中国朝代历史中,每年皇帝死于非命的概率大约是3.1%,比普通人死于非命的概率高1000多倍。按照剑桥大学对现代战场的定义,每年死亡概率超过0.5%的地方就是“战场”(battlefield),那么,中国历代皇宫里死于非命的概率是现代战场标准的6倍!根据Eisner对600至1800年间欧洲1513个国王的死亡经历研究,22%的欧洲国王死于非命,是中国皇帝死于非命比例的一半多一点;每年国王死于非命的概率大约为1%,是中国历朝皇帝面对的暴力死亡率的1/3。比较积极的一面是,中国和欧洲的君主所面对的暴力死亡率,从1000多年前开始都在逐步下降,说明中西制度文明都在进步。
从这些量化研究看,西方和中国的文明化历程很不同。儒家文化早于欧洲解决了社会底层的治理秩序问题,基于中华文明的命案率低于同期欧洲,这个局面一直维持到19世纪末、20世纪初,但儒家没有解决好国家治理问题,在君主传承等制度文化建设方面,欧洲更早地发展起来,使权力的分享与交接秩序更早地文明化,致使西欧君主的暴力死亡率很早就远低于中国皇帝。制度文明秩序降低了君主面对的凶恶风险。由此,我们看到,量化历史研究不只是帮助证明、证伪历史学者过去提出的假说,而且也会带来对历史的全新认识,引出新的研究话题与视角。
结束语
未来10年、20年会是国内量化历史研究的黄金期。原因在于,一是对量化方法的了解、接受和应用会越来越多,特别是许多年轻学者会加入这个行列。二是中国史料很多,但绝大多数史料以前没有被数据库化。随着更多历史数据库的建立并且可以低成本地获得这些数据库,许多相对容易做的量化史学研究一下子变得可行,所以,从这个意义讲,越早进入这个领域,就越容易出一些很有新意的成果,也越容易发表,但十几、20年后情况会不同。
公认、统一的历史数据库对量化历史研究来说非常关键,是基础建设工作。就以金融经济学为例,1960年由芝加哥大学建立的“CRSP 证券价格数据库”对之后世界金融学术研究起到了革命性的贡献,1960年代是金融学研究正式开始从经济学剥离出来的起点,而如果没有CRSP 证券数据库,实证金融学的突飞猛进可能要大打折扣!原因在于,有了公认、统一并且学者都很熟悉的数据库之后,各路学者就不用花时间去争论数据来源是否可靠了,而是把精力和争论都集中在所研究的问题上。金融学的经历对量化史学有很高的借鉴价值。
没有充分、完整、公认可信的史料(包括能量化和不能量化的史料),研究当然无法做。所以,过去十几年我们团队一直致力于建立基础数据库,希望更多同仁也能共同努力,挖掘出更多历史数据库资源。这也需要各家历史档案馆、博物馆、文物收藏单位给予帮助,如果他们把更多史料开放并电子化,那会是对历史研究、对中国社会功德无量的事情。特别是对于年轻学者而言,由于他们经费和时间都有限,更多历史档案的电子化以及成本壁垒的降低都是非常关键的,这些会决定国内学术事业是否能顺利发展。在这些方面,技术条件都已经成熟,只是历史档案是否能开放、是否有经费的问题。
量化历史研究的发展也需要各家学术期刊的支持,需要它们开放更多空间让这类论文发表,激励更多学者热情加入。同时,这也对历史学教学课程提出新的要求,而不是像现在这样很少或没机会跟统计学沾边。
最后,我们也应该看到,虽然量化史学强调使用现代社会科学尤其经济学的分析范式、重视大样本与统计方法,但是,量化历史研究不只是找到一组历史数据并对其进行回归分析,然后就完成研究了,而是也要认真考究史料、摸清史料的历史背景与社会制度环境。只有这样才能更贴切把握所研究的因果关系链条和传导机制,增加研究成果的价值。
(作者系耶鲁大学金融经济学教授、香港大学冯氏基金讲席教授、北京大学经济学院特聘教授;摘自《清史研究》2016年第4期)