从求实到求是:数字史学的价值与追求
——兼与成一农教授讨论
2022-06-09李中清
梁 晨 李中清
近年来,大数据、数字人文等数字化教研工作越来越受重视,它们不仅被视为新时代人文研究升级进化的抓手和当下“新文科”建设的核心内容,也吸引了越来越多的年轻学人投身其中。学术热情的激扬,在不断激励年轻学人砥砺前行的同时,也引起了一些学者的警惕和质疑。云南大学成一农长期从事历史地理学研究,对技术化的历史地理信息系统和历史数据整理与研究等富有经验,他撰写的《抛弃人性的历史学没有存在价值——“大数据”“数字人文”以及历史地理信息系统在历史研究中的价值》①成一农:《抛弃人性的历史学没有存在价值——“大数据”“数字人文”以及历史地理信息系统在历史研究中的价值》,《清华大学学报》2021年第1期。(以下简称《成文》)一文是这类冷静反思的代表。《成文》一方面紧盯数字技术的最新发展及其在历史研究中的运用,认为“‘大数据’‘数字人文’等技术将会在史料的挖掘,甚至考订‘史实’的研究层面带来彻底的变革”,道出了数字史学研究者的共同感受;另一方面又认为历史学的终极目标不是“求真”,而是有目的和有人性的“解释”和“预测未来”。在这一层面,数字技术的影响有限,数字史学对历史研究的价值只是基础性的,对实现终极目标没有多少帮助。同时,《成文》认为,相比较于强调推进数字化研究,我国史学研究中长期忽视主观性和人性才是更严重的问题。
作为主要从事量化史学和社会科学化历史研究的学者,对数字技术方法在史学研究中的效能与限度以及何以能做出有思想的数字史学研究等问题,我们也同样有所关注和思考。我们认为《成文》再次重申了史学研究中人性追求的核心地位,有助于数字史学研究者不断检讨研究方式、方法与研究目的辩证关系,在深入反思研究方法不断数据化、科学化的同时,②科学概念具有相当的复杂性,这里更多是规范性认识。切不可一味追求技术的应用而忽视历史研究所应具备的渗透力和思想性。但同时,《成文》认为史学研究的终极目标在于解释和预测,数字史学只在史实考订层面有作用,在解释层面则无可作为,对历史研究的价值不大的判断,在分析逻辑和对数字史学功能的理解上都颇可商榷。解释本身是历史研究求真目标中不可分割的部分,将解释从求真的目标中剥离出来,甚至对立起来,是从比较狭隘的角度理解历史研究求真的内涵。尽管几乎所有的学科都要做解释工作,但历史学必须以求真为标准,解释不能仅建立在理论、价值观和政治立场之上,必须基于客观和广泛的史料掌握、严格的史料考订和规范的史料解读。史学研究当然具有多维度“人”的属性,具有主观性,但“客观先行”,先“求实”再“求是”,“主、客结合”才是历史研究求真的真谛和正确的人性。
数字史学不仅在大规模利用史料、进行史实考订上有优势,在沟通求实和求是、形成更有穿透力的解释上更具有不可替代的作用。在数字技术蔚然成风的当下,数字化研究是史学未来发展绕不开的方向之一。将主观与客观、科学与人文割裂甚至对立起来,将技术的引入和数字史学等异化为抛弃人性的“另一种”史学研究,不仅是对数字史学的误读,也不利于历史学界积极迎接数字化生存时代的到来,努力走出学术研究的“舒适区”,①王涛认为数字化带来了史料外延的扩展、研究方法的改进和思想观念的转变。数字人文不仅是学术范式的转变,也是历史知识生产的转型。历史学家应该跳出舒适区,去学习新的技术,历史学的发展才具有更光明的未来。王跟上时代发展的步伐。为此,本文针对《成文》对历史学目的的论述,以数字史学,特别是量化历史数据库的构建与量化分析为基础,在检讨历史学求真目标及其方式的同时,尝试探究数字史学在实现历史研究目标和学科发展方面的作用与价值。
一、求真:历史学的唯一标准
从16世纪的“科学革命”到19世纪近代学科体系的形成,学科标准的明确和宣扬愈发重要,学科畛域亦不断加深。1959年,英国化学家查尔斯·珀西·斯诺(Charles Percy Snow)在其著名的以《两种文化》(The Two Cultures)为题的演讲中就指出了人文与科学的学术分歧:“科学研究面对未来,而人文研究则是对于过去的回应。”②C.P.Snow,The Two Cultures,London:Cambridge University Press,1959,p.6.此后,人文研究重主观、重感受,科学研究重规律、重客观的标签也不断被强化,并影响到了各自学科自我标准的认定。不过,作为研究人类过往的历史学,虽归属人文学科,但求真不仅是其最高原则,也是学科的唯一标准,先实事再求是的理路和科学研究有相通之处。前贤已指出历史学是一门具有人文和社会科学多维面向的学科,不宜简单地归类为人文或科学。如何兆武认为,历史学有两个层次,一个是对史实的认知,另一个是对史实的理解和诠释,前者是科学的,后者是人文的。“历史学是一种人文知识(geisteswissenschaft),而不是自然科学(naturwissenschaft)意义上的那种科学”,虽然性质有别,但两者应该有共同的“科学规范、纪律或准则”。③何兆武:《对历史学的若干反思》,《史学理论研究》1996年第2期。这类看法,不仅继承与发扬了马克思“唯一的历史科学”说,也是李伯重观察到欧美史学界越来越多历史学家认可历史学是一门科学的原因所在。④《成文》批评李伯重夸大历史学科学化的定位和在欧美学界的发展情况,但没有注意到这一看法自马克思以来在西方学科中的发展。此外,仅就个人观察,这种科学化或社会科学化历史研究的倾向在欧美学界确实比较普遍,如北美的社会科学化历史研究学会(SSHA)就是规模庞大、参与学者众多的学术组织。此外,《历史学宣言》一书也指出,20世纪70年代,欧美历史学界已经开启量化转向,社会科学化的研究有长足发展。乔·古尔迪(Jo Guldi)、大卫·阿米蒂奇(David Armitage):《历史学宣言》,孙岳译,上海:格致出版社、上海人民出版社,2017年,第119页。英国历史学家卡尔对拒绝将历史看作科学的观点也坚决反对,认为“这样就会证明所谓‘两种文化’(Two Cultures)之间的鸿沟合法性,并使之长
涛:《历史书写的数字化转向》,https://export.shobserver.com/baijiahao/html/336438.html,2022年1月20日。久存在下去。鸿沟本身是这种古老偏见的产物,这是以英国社会的阶级结构为基础的,而英国社会本身又属于过去;我本人并不相信,使历史学家与地质学家相分离的那个裂口比使地质学家与物理学家相分裂的那个裂口更深,也更加不可弥补”。①E.H.卡尔:《历史是什么?》,陈恒译,北京:商务印书馆,2007年,第181页。可见,科学和人文不应该是对立关系。
求真是历史学的学科标准和人性所在。历史研究应以客观事实而非价值观为基础,这是中西方史学家长久以来共同追求的核心守则,实事才能求是。理解或诠释,当然是史学研究的魅力所在,但发现与考订史实不仅是历史理解的基础,更是验证历史理解以及实现历史理论更新演进的关键所在。当然不能简单地认为历史学的求真能够完整还原历史,真实是有限度的;但无论是扎实地历史还原,还是借助学术想象力的历史再现或认识,都必须在客观的原则下,借由史料的分析来开展。因此,桑兵认为,历史学虽然是自然科学和艺术的结合,但历史研究的再现,必须是以严谨考证为基础的“以实证虚”。②桑兵:《傅斯年“史学只是史料学”再析》,《近代史研究》2007年第5期。历史学解释的发展、进步,往往要从史料的新发现、新解读起步,这也使得历史研究须臾不可远离史料。《成文》认为通过史料并不能完全复原绝对的真实历史,傅斯年提倡的“历史学只是史料学”由此已经过时。但我们认为,历史学始终是一门求真、求实的学科,尊重史料、重视史料,恰是历史学能够存在和发展的关键所在;因此,傅斯年的口号不仅没有过时,也不会过时。
《成文》认为,历史学的终极目的,除解释之外,还有预测,即史学具有“鉴往知来”的功能。“后顾前瞻”虽然的确是历史学的特点之一,但绝非历史学所独有,至少在社会科学中也颇普遍。德国政治理论家尤尔根·哈贝马斯(Jürgen Habermas)就曾从长时段的历史中积累证据,以充实、建构新生的民主理论。③乔·古尔迪、大卫·阿米蒂奇:《历史学宣言》,第27页。法国经济学家托马斯·皮凯蒂(Thomas Piketty)通过收集和分析18世纪工业革命以来近300年的工资、纳税和财富等数据,证明近几十年来,不平等现象已经扩大,同时预测这种现象很快会变得更加严重。为此,他一方面建议发达国家应该通过推行征收资本税、强迫银行提高透明度、提高通货膨胀等手段进行政策干预,另一方面,呼吁西方国家应该加强民主制度对资本主义的制约,进而有效率地降低财富不平等现象。④托马斯·皮凯蒂(Thomas Piketty):《21世纪资本论》,巴曙松等译,北京:中信出版社,2014年,第561、573、586—587页。因此,历史学“后顾前瞻”的学科特色或边界,恰恰在于“前瞻”必须紧紧建立在“后顾”之上,“后顾”又必须须臾不离史料,在收集史料的同时,更要深入地考证史料和利用史料,即“一切以史料为中心”。
以求真为标准、尊重史料,也使得历史学能够接近科学。傅斯年本人学术思想的发展历程对此就是很好的诠释。新文化运动时,傅斯年已经认识到:“我们是人,我们有人性,用人性去观察世界,所见的所得的自然免不了一层人性的采色,犹之乎戴上蓝眼镜看东西,没有一件不是蓝的。纯粹的客观是不可能的。”⑤傅斯年:《对于中国今日谈哲学者之感念》,《新潮》1919年第1卷第5号。由人来开展,又以研究人或社会为目标的历史学,自然是不可能脱离人性的,必然具有主观性。但经过海外社会学科理论与方法的学习,归国后的傅斯年不仅转而聚焦史学研究,也从强调“人性”转变为重视“史料”。傅斯年认为历史学的求真必须以客观性为基础。虽然没有纯粹或绝对的客观,但史学的客观性是指立论不可仅以价值观或推论为基础,更不可以假设或错误的史实为基础,历史学的求真,基础在于对史料,特别是一手史料进行精细的编纂和细致的考订。⑥1923—1926年傅斯年留学德国时,深受兰克学派影响。对于兰克学派的风格和影响,美国历史学家查尔斯·K.亚当斯(Charles K.Adams)在1889年曾总结指出:“目前,世界上没有任何完备的历史教学不是建立在……德国的研讨班一开始设定的细致、准确和细微地检查史料的基础之上。”林·亨特:《历史学为什么重要》,李果译,北京:北京大学出版社,2020年,第55页。他指出:“近代的历史学只是史料学,利用自然科学供给我们的一切工具,整理一切可逢着的史料。”“材料之内使他发见无遗”。①傅斯年:《历史语言研究所工作之旨趣》,《国立中央研究院历史语言研究所集刊》1928年第1本第1分。如何无遗?技术的进步,带来史料整理、分析方式的变化,也是向着无遗努力的重要方式。这也就是傅斯年在《史料与史学》发刊词中所谓的“不以空论为学问,亦不以‘史观’为急图,乃纯就史料以探史实也”。②傅斯年:《〈史料与史学〉发刊词》,见国立中央研究院历史语言研究所编:《史料与史学》第1本(上),重庆:独立出版社,1944年,第2页。余英时对此又做了进一步阐发:“史学论著必须论证(argument)和证据(evidence)兼而有之,此古今中外之所同。不过二者相较,证据显然占有更基本的地位。证据充分而论证不足,其结果可能是比较粗糙的史学;论证满纸而证据薄弱则并不能成其为史学。”③余英时:《关于韦伯、马克思与中国史研究的几点反省——〈中国近世宗教伦理与商人精神〉自序》,见何俊编:《余英时学术思想文选》,上海:上海古籍出版社,2010年,第523页。
傅斯年主张“历史学即史料学”,但并非狭隘地认为历史学研究只是收集和整理材料的学问。在何兆武看来,历史学应该,也必须由史料出发,但不等同于止步史料或者史料收集,这才是傅斯年“历史学即史料学”口号的真谛。④何兆武:《回忆傅斯年先生二三事》,《社会科学论坛》2004年第9期。桑兵认为,傅斯年“史学即史料学”,在逻辑上是有丰富的理解空间的。“史料与史观其实相互连通而非彼此冲突。在将史料与史观对立的学人看来,史料不过是立说的基础或凭借,只有史料,或者只强调整理史料,至多是文籍史实的考订与编撰,何来史学?殊不知傅斯年的所谓史学便是史料学,史学的工作是整理史料,并非一般的考订排比,或者说,考订与排比远非一般所以为的那样简单,尤其不是批判者眼中的琐碎饾饤末学”。⑤桑兵:《傅斯年“史学只是史料学”再析》,《近代史研究》2007年第5期。因此,尽管今日的史学者已经不像19世纪经验主义的客观史学家们那样,过分乐观地认为掌握了史料,就能复原真实的历史;而是普遍相信,受可掌握材料和研究者视野的限制,研究者无法简单地复原全部历史——研究者所展示的历史,具有主观性和片面性,以至于当代中国史学专业大学生的官方教材里都非常明确地指出“人类社会客观存在的历史”和“史家纂写的历史”是性质不同的两个概念。⑥《史学概论》编写组:《史学概论》,北京:高等教育出版社,2009年,第4—5页。但史学家们同样明白,这不仅不可以被理解为史料无用,或者史学研究可以放弃史料,仅依靠想象、价值观或任何预设的规律进行研究;反而是进一步告诫历史学家要更审慎、更谦卑地对待史料,更全面、更深入地掌握史料,更科学、更合理地利用史料——无论是建构新的历史解说,还是打破旧有陈论,都必须从旧史料新解或新史料发现出发。
因此,尽管文史哲都是人文学科,彼此间也确实存在着密不可分的关系,但以求真为目的、为标准,才使得历史学既不会是哲学,也不会是文学,反而在精神与方法上更接近科学。同样以傅斯年为例:“九·一八”以后,面对日本对东北乃至中国的不断侵占,傅斯年出于知识分子的责任感和爱国的价值观,撰写了《东北史纲》。尽管傅斯年“不可能不知道中国历代王朝并没有完全统治东北,以及东北一直与朝鲜和日本保持着广泛的联系”,但在“日本已经吞并了朝鲜并进而觊觎东北之时,他决定对有利于日方宣传资料的证据不予重视”,在证明东北自古以来就是中国所有的同时,“驳斥日本学者中流行的满洲、蒙古、西藏最初并非中国领土的观点”。⑦王汎森:《傅斯年:中国近代历史与政治中的个体生命》,王晓冰译,北京:三联书店,2012年,第168—169页。尽管有着正确的价值观,但这一著作在材料上的漏洞,不仅引发了缪凤林等学者的强烈批评,甚至“五十年后傅斯年的同事编辑他的全集时,《东北史纲》仍被排除在外”。⑧王汎森:《傅斯年:中国近代历史与政治中的个体生命》,第168页。同样,当史料不足时,借助想象或文学创作的方式进行历史写作也无法成为好的史学研究。史景迁(Jonathan D.Spence)是当代美国最著名的汉学家之一,他曾撰写过一部研究清初山东农村基层妇女生活状况的名著《王氏之死:大历史背后的小人物命运》。尽管这是一部非常前沿且有趣的新文化史、微观史著作,但由于地方志等史料中缺乏基层女性的生活材料,史氏一方面使用了《聊斋志异》等纯文学材料,另一方面又发挥文学想象,对王氏这位具体女性的日常生活进行了诸多细致的细节联想。显然,这部作品“不是妇人王氏的‘信史’”,①史景迁:《王氏之死:大历史背后的小人物命运》,李孝恺译,桂林:广西师范大学出版社,2011年(2019年重印),总序第v—vi页。它或可代表一种历史书写的方式,但不宜被看成历史研究的范本。正如周振鹤指出的,兼具科学和人文两重属性的历史学,“往前进一步是哲学,往后退一步是演义(即文学)”。②周振鹤:《历史学:在人文与科学之间?》,《复旦学报》2002年第5期。也就是说,如果历史学不强调客观性,不以求真为标准,不坚持历史解释、理论或背后所代表的价值观、意识形态等都必须建立在以史料考订、史料分析为基础的“真实”之上,那么,历史学在人文领域的学科属性就会被消解,失去存在的必要。所以,“史学即史料学”,既是融合主客观,充满弹性和张力的睿智之见,更是历史学成为独立学科的立足点,不仅不会过时,而且丝毫不可动摇。
求真是史学的标准,先实事再求是是历史研究的基本规范与逻辑。从“实”到“识”再到“是”,研究过程的递进伴随着主观性的增强,但客观性基础并不能动摇。章学诚认为“古人未尝离事而言理”,“即器以明道”,③章学诚著,叶瑛校注:《文史通义校注》上,北京:中华书局,2014年,第1、4—5页。道不离器,如影不离形,这就是历史学先求实再求是的过程。同时,他还说:“盖欲为良史者,当慎辨于天人之际,尽其天而不益以人也。尽其天而不益以人,虽未能至,苟允知之,亦足以称著述者之心术矣。”④章学诚著,叶瑛校注:《文史通义校注》上,第258页。天,可理解为客观性;人,则为主观性。历史学的人性,就是以求真来说理的人性,没有了求真,就没有了历史学的人性,这也就是促使科学、规范地考订史料和分析史料成为史学研究工作的核心并独立于人文学科的关键所在。
历史研究要求事实尽可能准确,但阐释与理解却可以多维多样。⑤王奇生认为:“我们做历史研究老是强调求真,其实求解也同样重要。‘真’是唯一的,‘解’可能是多元的。”黄道炫认为:“首先是求真,不能因为无法复原完全的真就放弃努力,就像我们不会因为绝对准确的度量无法做到就不使用斤、两一样。求真还要求解,如果不去求解,那求真的意义在哪儿?”王奇生、黄道炫:《六零后历史学者对谈:求真求解对粗疏学风的反驳》,《北京青年报》2015年3月20日。很多历史现象或者人类社会的现象确实难以用科学原理来解释,比如智商分布应该是随机的,可是人才分布却似乎并不随机,那是因为背后有各种文化和经济的影响存在。但对人类现象的分析,是可以也应当使用科学化或规范性的方法进行研究的。没有规范性的研究就无从开展学术讨论。历史学在研究规范、操作程序上可以说是一门更接近科学的“朴学”,因为先收集事实、再解释成因的研究路径,既是历史归纳法,也是科学研究方法。有人认为历史研究特殊,科学则研究一般,其实也不全然。由于“一般”所涉及的范围广,史料不易得,也不易分析,因此,研究难度大,使得史学研究或倾向于选择特殊对象,或者如阿米蒂奇所说当研究的材料不够,“习惯性地求助于理论,而非事实”,⑥乔·古尔迪、大卫·阿米蒂奇:《历史学宣言》,第3页。但这只是技术或材料不够之下的选择,并非史学研究逻辑本身的追求。同时,任何特殊都要以一般为基础,否则就没有特殊,历史研究不能将独特与普遍截然分开。所以,历史事实是多层面、多维度的,尽管可以有不同的理解与解释,但事实依然是事实,是有科学性的。
二、从求实到求是:数字史学的价值
如果认可历史学当以求真为标准和目标,那么更广泛的史料收集、更深入史料内部进行比较与分析研究,就不是对史学发展无足轻重之事,而是推动史学发展的关键所在。因此,《成文》一方面认为数字技术对史学研究无用,或者有用性很小;但另一方面,又花了较多笔墨,指出数字技术在组织史料和分析史料上,已经越来越鲜明地呈现出人力所不及的效率和优势。仅此一点,恰恰已经说明不断发展的数字技术和数字史学,对推进历史研究具有重要价值,绝非无足轻重。更为重要的是,我们认为数字史学的能力和目标,也绝非仅仅局限于直接的史料处理上,而是能够通过更高效和更有深度的史料勾连,形成长时段或多代际、大规模甚至整体性的群体信息集,在帮助历史学家更直接观察中观研究对象长时段变迁的同时,发现新的中观史实,进而对话旧有的宏观认识,建立新的宏观解释,形成更有基础和穿透力的解释,并沟通求实和求是,更好地实践历史求真的研究要求并实现史学研究模式的演进。
很多学者都已意识到,数字化时代的到来能帮助历史学者“广”而“全”地掌握史料,部分满足《成文》指出的历史学者“穷尽所有材料”的心理;但实际上,数字技术还能更为“智慧”地帮助历史学者“专”且“深”地构建大群体、长时段甚至多代际的数据集合,为中观层面的研究提供有效的分析平台。数字史学的作用,远不止更方便、广泛地获取史料,还在于能帮助研究者更有效率地发现史料信息,并更深入地将相关史料信息连接起来,从而帮助研究者发现史料中隐藏的诸多史实。“互联”“互动”是互联网的重要特点,在从事数字史学研究时,一样要非常重视数据库自身信息的“内连接”和数据库之间信息的“外连接”,从而尽可能实现“数据追踪”。这既能体现出电子数据库相对传统纸质史料的重要优势,更能推动史学研究的深化与发展。
比如,当前各类文献型电子史料数据库中蕴藏着大量各级各类历史人物的信息。过往研究中,资料库主要起到类似词典的作用,帮助学者发掘一两个人或十来个人的个人信息;而当研究对象规模较大时,如民国留美学生这样以千、万为单位的群体——很多大规模文献数据库中所收藏的任命公文、讣告、个人传记、回忆录甚至社会新闻,都可能含有某位留美生的信息——如果仅靠个人纯手工进行史料挖掘,收集信息,是非常艰难和缓慢的。笔者最初开展民国清华留美生研究时,采用纯人工方式,在有限的几个数据库中对1 600多位清华留美生逐一检索,①这些数据库主要包括上海图书馆建设的晚清民国报刊数据库、中国历史研究院近代史研究所建设的抗日战争与近代中日关系文献数据平台、爱如生公司建设的申报数据库以及读秀学术搜索、CNKI工具书馆等。完成一个年度留美生信息的收集就需要3个月左右,全部完成可能要5年。通过与技术专家合作,使用Python软件的Selenium包——一个低速、无害的小型爬虫,通过正则表达式(regular expression)对不禁止抓取的数据库的文献进行解析,能够24小时不间断抓取指定的人物信息,并将信息呈现为便于查阅的形式。前后只花了一年左右的时间,便完成了信息收集和整理工作。后续史学家只需要进一步考订、梳理抓取的信息,再进行分析即可,使得过往个人、小团队都无法开展的研究,特别是一些基础性研究得以实现。
借助技术手段,历史学家不仅提升了发现史料信息的效率,实现群体研究,还能在海量的史料中进行信息连接,勾连不同史料中的相关信息,从而实现长时段研究。②梁晨:《推动数据连接 促进史学研究》,《中国社会科学报》2019年7月29日,第5版。收集与考证史料总是历史学家研究工作的起步与基础,③何炳松:《历史研究法》,《民铎杂志》1929年第10卷第1号。之所以形成“穷尽史料”的心态,主要是因为史料本就是过往发生的残余,依靠史料也仅能部分还原历史,只有尽可能地将所能收集的各类相关史料整合、勾连与编排,学者才能尽可能发现和呈现多面向的历史,不至于过于局限。随着史料不断电子化和可检索化,依靠数字技术,历史学者能够对海量的资料进行自动、半自动的信息连接。大规模群体历史人物的研究是传统研究中的一个难点,而现有的检索工具和统计软件等完全可以对姓名、籍贯等人物信息进行查找与匹配,为实现史料信息的连接提供了可能。比如,李中清—康文林研究团队建设有清代《缙绅录》数据库。④有关缙绅录数据库的情况,参见香港科技大学李中清—康文林研究团队主页上的相关介绍:https://www.shss.ust.hk/lee-campbell-group/projects/china-government-employee-database-qing-cged-q/,2022年1月20日。缙绅录是记录清朝职官姓名、出身、籍贯等的专书,包含了从乾隆到宣统时期几乎全部的官员信息,其中宣统年间的数据可以与“民国大学生信息数据库”早期学生家长的数据进行匹配,以帮助我们更好地研究这一时期大学生的家庭来源。“民国大学生信息数据库”还可以和袁同礼所编《中国留美同学博士论文目录,1905—1960》(A Guide to Doctoral Dissertations by Chinese Students in America,1905-1960)进行匹配。该书包括有1905—1960年间近3千名在美国获得博士学位的中国学生记录,信息包括学生姓名、生卒年、在美所获博士学位学校名称、获得博士学位时间、博士论文题目等。①Tung Li Yuan,A Guide to Doctoral Dissertations by Chinese Students in America,1905-1960,Washington D.C.:Sino-American Cultural Society,Inc.1961.通过学生姓名将两个资料库的信息进行匹配,能够在“民国大学生信息数据库”中追踪到549名留美博士。这一方面可以帮助理解留美博士的本科学校分布,另一方面也可部分理解民国大学生的毕业去向和职业轨迹。
史料的连接,不仅能够使得研究对象的规模大为增加,更能引入时间轴,形成多代际的数据,在实现“追踪数据”“智慧数据”的同时,更形成了包含个体对象某项特征和时间维度的三维数据,能更好地、动态地观察研究对象的特征变迁,而这恰恰能更直接、更扎实地复原历史,特别是中观层面的历史。电子化史料经过信息挖掘和连接等工作,最终呈现出的往往是结构化和可量化的二维数据表格,时间轴介入后,二维表就会在时间序列上形成连贯、系列的三维数据。比如我们正在研究的民国清华留美生归国后的职业发展——借助软件,从海量数据库中自动抓取了所有约1 500位归国留美生的多个职业信息,在技术的帮助下,目前总计从8 286种材料中发现了清华留美生的个人信息,平均每个留美生使用了近8种材料,职业信息从最初依靠某个单一材料、平均每人0.6个职业,增长到目前约8个职业。同时,这样就形成了三维矩阵式的数据,不仅能够分析总体职业获得的特征、职业生涯的发展情况,还能交叉研究同事关系、上下级关系甚至同乡、亲属关系等,从而大大丰富和深化我们对留学生群体职业发展的认识。
技术方法的介入和数字史学的不断发展,能切实有效地从巨量史料中勾连起长时段或多代际的历史信息并构建成可量化的群体数据集,以实现真正有史料基础的扎实的群体或中观研究。数字技术帮助构建规模性群体的信息,其价值在于能够构成社会体系中的某个中观群体,而时间轴的获得,又进一步给研究者提供了发现规律或趋势,进而求是的可能。历史资料中行政系统的各类登记、企事业单位的账目和人事资料等数据信息往往是连续的,延续几十年甚至上百年的都不罕见。这样的数据被提取和建库之后,量化分析工具完全能够展现出各变量在时间轴上的变化。具有时间跨度的微观数据集合,可以帮助历史学家观察到中观研究对象在时间轴上变化的过程和结果,进而为量化发现中观对象长时段的特征和变化规律提供基础。变化、变异等常常是历史研究的起点。一般来说,传统史学陈述历史变迁的手段是叙事,史学家将解释与理解结合起来,把对个案、细节和独特之处的探究与对格局、架构和规律的理解加以归并。②如邹谠先生就曾经提倡在政治史研究中,将微观机制的探讨与宏观结构的认识相结合,以求沟通微观与宏观,这但在社会科学家看来,“变异是人类社会的本质。没有一种定量的方法,我们就无法表述这种变异性”。尽管“思辨、内省、个人体验、观察和直觉”,也是可选择的理解变迁的方法,“能够起到补充作用”,但“不应取代定量方法”。③谢宇:《社会学方法与定量研究》,北京:社会科学文献出版社,2006年,第7—8页。对于理解变化或变异,量化分析当是核心方法,其他方法只能是补充。中观的历史数据集合或数据库恰恰契合了这样的研究逻辑,使得研究在获得更多史实的同时,比较自然地呈现变化规律或趋势。
这样的数字史学工作,不仅具有技术性,更具有人性与智慧。数字技术或方法在今天已经从技术变成了生存的环境,是时代的最重要标志,历史学没有理由拒绝,也不会因此而不再人性。傅斯年认
一研究方法被称为整合式历史研究法。Tang Tsou,Interpreting the Revolution in China:Macrohistory and Micromechanisms,Modern China,Vol.26,No.2,2000.为史学工作的核心有两个:一曰到处找新材料,二曰用新方法(科学付给之工具)来整理材料,以努力达成“聪明的考证”。①傅斯年:《历史语言研究所工作之旨趣》。数字史学的“聪明”或“智慧”,除了上述连接和中观之外,也能够很好地兼顾特殊与一般,融合上层与下层,相较于传统研究能够更人性。数字史学以大规模群体为研究基础,就是要眼光向下,在开展服务群体研究和长时段研究的同时,将大规模群体的特征呈现出来,这可能比仅仅分析一两个资料易得的精英、帝王更有人性。②数字史学因为能够较好地分析大规模史料数据,因此也更擅长研究社会群体,这也被很多人看成是“无人的历史”,缺少人性。但王晴佳认为:社会史家常常注重社会阶层的互动及其经济活动,但如此一来,也会让其论著充斥许多数据,而缺少对具体个人行为的描述。因此社会史的论著,往往枯燥无味,被人讥为“没有人的历史”(history without people)。其实更好的说法也许是“没有个人的历史”,因为以前的历史著作,往往以个别精英人物的活动为主要考察对象,而社会史的写作侧重研究的是社会团体的行为。王晴佳:《历史研究的碎片化与现代史学思潮》,《近代史研究》2012年第5期。德国社会科学哲学家威廉·文德尔班(Wilhelm Windelband)提出:“历史学家善于把个殊式(idiographic)研究与通则式(nomothetic)研究结合在一起”,他“把前者归于人文学科的强项,而后者则属于社会科学的强项”。③转引自乔·古尔迪、大卫·阿米蒂奇:《历史学宣言》,第16页。数字史学则能将两者有机结合。以个人(individual-level)或单元级(unit-level)微观史料数据(信息)为基础构建量化数据库,开展多变量描述性统计分析的数字史学研究,能更有效地集合大规模、长时段微观史料,形成扎实的中观研究,从而将微观个体和宏观认识有机结合起来,为构建宏观史论提供宽广且坚实的基础,在沟通微观与宏观的同时,亦为更好地平衡求实与求是提供新路径。
可见,数字史学绝非只能在“数字”或“数据”上有能动性,在研究史学,回应史学问题上同样也大有可为。这也促使数字史学在最近几年初步形成的同时,不断进化、升级自己的研究理路——逐步明确不仅必须进行数据处理(考订)和数据公开,④经济史学家梁方仲先生曾指出,经济史统计工作的基本原则之一,就是要“重视定量的实证研究,重视对数据的校勘求真,重视对数据产生机制的考察”,这应该为所有经济史工作者所遵循。陈争平、常旭:《梁方仲对经济史统计工作的贡献——兼评经济史研究中的统计方法与计量经济学方法》,《清华大学学报》2011年第2期。我们认为数字史学研究也应该遵循同样的原则。重视史料使用的去伪存真和同行检验、资料共享,在研究过程中也必须将发现与解释相统一(见图1),如此才能构成完整的数字史学研究。这样的研究范式,一方面经由技术的介入,有趋向于科学的趋势——现代科学在方法上的核心特点是可观测或可重复试验,量化数据库的建立,为可观测和有基础的讨论提供了可能,也就向着科学主义的要求迈进了一步;另一方面,这种研究模式重视技术,但绝非盲目崇拜技术或唯技术,而是强调方法的使用与人性的理解相结合。由经济学出身而转入历史研究的吴承明认为“统计分析很重要,计量学分析则有很大局限性”,⑤吴承明:《研究经济史的一些体会》,《近代史研究》2005年第3期。“计量学方法应该主要用于检验已有的定性分析,而不宜用它建立新的理论”。⑥吴承明:《经济史:历史观与方法论》,《中国经济史研究》2001年第3期。依靠量化数据库开展的量化史学研究,并不强调高明的计量分析方法——后者是过去计量史学走进死胡同的症结。只需要依靠描述性统计,⑦本文作者认为,在获取史实方面,依靠简单的变量描述统计,如频数、平均值、标准差、比例和列联表等,量化数据库就能够提供许多集合数据或个案研究无法提供的信息和视角,同时当结合长时段数据,这种作用尤其明显。梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期。就可以对变量的变迁以及可能存在的相关性进行观察,强调的是通过连续的数据呈现,让时间变量清晰起来,从而便于理解历史的过程。借用西方学者对今日量化分析的定位,数字史学研究不应只是单纯地对数据简单描述统计和相关分析,而应以理论为导向从大规模数据中发现“已知”和“未知”规律并回应、补充或升华已有理论的有效工具。⑧Onno Boonstra,Leen Breure and Peter Doorn,Past,Present and Future of Historical Information Science,Historical Social Research/Historische Sozialforschung,Vol.29,No.2,2004.可见,大规模数据是非常重要的学术工具(big data is a big deal),能提升包括历史学在内的众多学科的研究模式与深度。①Jonathan Shaw,Why“Big Data”Is a Big Deal:Information Science Promises to Change the World,Harvard Magazine,March-April,2014.
图1 数字史学数据库构建与研究基本流程
总的来说,技术手段能有效帮助历史学者极大地拓展史料利用范围、掌握信息的规模与时间跨度,为长时段、大群体研究提供基础。过去学界多认为利用数据库进行史学研究,最重要的优点是对史料的大规模使用,能够“广”而“全”地使用史料。现在,随着越来越多数据库的构建和向学界开放,数据库数据在技术支持下,实现各种“连接”的可能大为增加,“数据追踪”越来越成为数据库研究的重要方法。这使得存储于数据库中的相关信息逐步从静态走向“追踪”,使得历史上的人与事能够丰富和连续地呈现出来。同时也说明数字史学的优势在于,不仅能够“广”而“全”,也越来越能够“专”且“深”。因此,当我们在说数字史学的研究可以更客观更有效的时候,并非是说这是一个技术的“无人”的研究,而是说它能够超越视野和个人能力的局限,综合更大规模史料和更长时段观察。
总之,数字史学的价值,绝非简单化的技术介入或更多更广的材料占有,而是能够依靠历史信息的数据化重组,更客观、深入地发现历史,形成新的历史解释,从而在发现和解释之间搭起更为直接的桥梁。用古尔迪和阿米蒂奇的话来说,就是“数据有能力改造理论”,②乔·古尔迪、大卫·阿米蒂奇:《历史学宣言》,第92页。理论则是解释的提升。卡鲁斯(A.W.Carus)等人认为近些年国际学术界的很多研究之所以能取得重要进展,是因为从过去追求定性的历史证据转变为了追求定量的历史证据,强调历史研究要“量化使用定性证据”(using qualitative evidence quantitatively)。③A.W.Carus and Sheilagh Ogilvie,Turning Qualitative into Quantitative Evidence:A Well-used Method Made Explicit,The Economic History Review,Vol.64,No.4,2009.其中影响最大的一项研究进展,是19世纪60年代,马克思在《资本论》中提出了资本剥削劳动的理论观点,差不多150年后,2014年法国经济学家托马斯·皮凯蒂(Thomas Piketty)依靠各国长期历史数据结合收入分配理论,给出了定量检验并进一步揭示了资本收入远超劳动收入的历史趋势。④Thomas Piketty,Capital in the Twenty-First Century,Cambridge:The Belknap Press of Harvard University Press,2014.李中清和王丰《人类的四分之一:马尔萨斯的神话与中国的现实》一书依靠对中国人口数据的整理、分析,指出马尔萨斯理论中对中国人口行为的认识有与实际不相符合的地方,对其理论的适用性提出了重要质疑。⑤李中清、王丰:《人类的四分之一:马尔萨斯的神话与中国的现实》,陈卫、姚远译,北京:三联书店,2000年,第12—14页。李伯重在《江南的早期工业化(1550—1850年)》一书中,基于地方志书中众多江南手工业信息的收集、整理和分析,对曾一度笼罩中国史研究的“资本主义萌芽论”理论,进行了反思和修正,指出既往学界过于重视生产关系的研究,忽略了对生产力的探讨,继而提出了“早期工业化”的理论。⑥李伯重:《江南的早期工业化(1550—1850年)》,北京:社会科学文献出版社,2000年。
无论是重视人文属性,还是强调科学性面向,数字史学对历史研究都具有重要价值。历史研究的目的总是力求真实地追溯和还原人类社会的过往,以此为基础来理解个人或群体的行为并判断趋势与规律。而连接今天与过往的桥梁,是各类史料。只有对史料深入地辨析,才能知道桥梁那头是怎样的过往;只有对史料深入地挖掘,才能对桥梁那头的过往观察得更远更多。无论是辨析还是挖掘,都需要方法的严谨与规范,作为科学方法的逻辑和数学就是这样的代表。逻辑分析,史学家已经熟悉,但对数学方法的认可,更多还是局限于经济史内部。实际上,以强调数据分析和量化发现为重要特征的数学,同样反映了人们积极进取的意志、缜密周详的逻辑推理,将其适当地用在史料分析和历史研究上,既是可能,更是必要。
余论:融合技术,发展学科
20世纪初的新史学前贤就已指出:“历史无固定的范围,全赖他种科学的帮助。”①于炳祥:《读新史学(New History)》,《史地丛刊》1923年第2卷第2/3期。在坚持求真标准的前提下,吸收其他学科的理论与方法,某种程度上也是历史学科的生存之道和魅力所在。技术作为方法,虽然是非人格化的,但一旦为人所用,无论是运用于生活,还是运用于人文社科的研究领域,它本身就会被赋予人格化的因素,也会使得技术越来越具有人性化的倾向。“史学之树常青”,学术研究的方法与理论总在不停演进,历史学必须和时代同呼吸共命运。
历史学的人性关怀,从来不是抽象的,也绝非仅仅依靠体验或感悟来开展,技术手段和量化分析等都大有用武之地。如果说人性是神性的对照物,那么人性与人的行为不仅不能分割,而且很多探讨和理解都应有“量”的介入。比如,对人性之下所体现出的行为,对群体的综合分析和个人的长时段研究,是否应该通过量来展示其基本特征和变迁、变化?这种量的研究难道不是同样充满人性价值吗?又比如,对人物思想的理解,虽可能更需要参透的能力,但思想形成过程中的变迁以及思想影响的对象、传播的方式,也应是同样重要的基础问题。这些研究是不是也应该引入量的观察与判断?如果是,历史学作为研究人性的学科,是不是也应该有多样化的手段和分析方法?数字史学无论在群体的量,还是时间的量上,都对人性的史学研究有着直接的作用。
数字史学研究对史学的意义应该是研究方法的创新,而不仅是技术的创新。观察技术介入后的研究,我们对待史料的态度和史学功能的理解,看似没有超越傅斯年的思想,而是沿着他的逻辑,在收集和整理史料的办法上有所增进而已,但这种增进的意义,并非点滴,而是能对史料起到“扭转乾坤”的效果,以得到更多扎实与不同的认识。长期致力于中国古代科学技术史研究的德国马克斯·普朗克科学史研究所所长薛凤(Dagmar Schäfer)就认为,“把历史数据转到一个新的结构或做成一个新的数据库时,我们也同时会对该历史事件有一个新的了解,发掘出新的意义”,“像从文本中提取数据,以新的方法排列并重组数据,这些重组和展示工具定义了整个时代,就是new database construction的时代”。②此处所引内容为2020年6月北京论坛云端国际论坛系列之“数字人文视角下的中国历史研究”中薛凤教授所做的《新方法开辟新领域,历史研究中的数字人文》主题演讲。此论坛由北京大学数字人文研究中心组织,笔者为此次论坛的主持人。https://news.pku.edu.cn/xwzh/28b8868a55e7407a9dce38b95134059d.htm,2020年6月9日。
有研究者将数字技术比喻成显微镜,因为它能帮助学者观察到更多微观史实,其实数字技术或数据库平台还可以是微观信息的加速器或对撞机。1976年,美国华裔物理学家丁肇中获得诺贝尔奖。评奖委员会形容他发现微小粒子的工作成就,就如同在一架巨型喷气飞机发动机的轰鸣声中,听到了不同寻常的细微之声(like hearing a cricket near a jumbo jet)。③News Feature:Sam Ting’s Last Fling,Nature,Vol.455,16 October,2008.而大规模历史数据库的构建,正如同搭建了一个大型仪器平台——数据库运转(计算分析)后,在各种数据的交叉和对撞过程中,会产生很多大大小小的声音(现象),研究者需要从其中挑选出能分析理解、能颠覆固有认识甚至多个现象串联后,能推动认识更新和理论演进的部分,以实现新的数据驱动研究方式的价值。因此,数字技术的介入,对史学研究的发展可以起到非常积极和深层次的推动作用,且这种作用不是背离,而是更深化史学研究的根本目的,所以不宜将技术与人文简单对立,将技术使用视为人性的丧失。
数字史学虽然强调数字技术的利用,研究的程序甚或范式亦与传统史学有所不同,但其根本研究逻辑,仍与传统史学一致,即强调历史求真,要求从实事出发,以达求是,进而实事求是。技术的借用或进入,还是为了更有效和深入地挖掘史料,特别是大规模的史料信息,并不代表人性的弱化。评价一项历史研究是否具有人性,不在于采用的是哪种方法,而在于研究者对材料是否尊重以及研究的问题是否有人本或社会性的价值。
同样需要注意的是,作为中国数字史学的“先行者”,成一农对数字史学的看法,虽有将人文与科技对立之偏向,但其所提出的警示又是数字史学者不能不重视的。新潮初起的数字人文学界,有一些研究,特别是跨学科学者主导下的研究,存在着两种趋势或问题:一是不加考订,望文生义,随意使用史料或历史数据,没有注意到历史数据的内涵和不同时段、不同地区数据背后的复杂差异,粗放和草率的统计与“耸人听闻”的新发现,已完全背离了历史本真;二是过度强调数据呈现,忽视或无力将数据反映的现象放置于历史的背景中去解释其形成的机制,没有与既有理论对话,没有真正发挥出数字史学应有的价值。①除《成文》之外,2019年《澳门理工学报》曾组织一期数字史学专栏,多位学者都指出了数字人文研究中存在的类似问题。张耀铭认为:“某些数字人文倡导者重数据轻思想、重图像轻文字、重印证轻发现,推崇数据中心论,从而使人文研究失去人文意义,削弱甚至消解了研究者的主体性。”见张耀铭:《数字人文的价值与悖论》,《澳门理工学报》2019年第4期。王涛指出很多所谓数字人文研究,只是“(表面上)使用了数字人文的方法”,“数字人文依然需要关注传统人文学科的价值观,讨论和分析人文学科(历史、文学、哲学等)试图解决的问题”。王涛:《什么不是数字人文》,《澳门理工学报》2019年第4期。邱伟云认为数字人文研究“算法必须密切结合人文理论(由人的思考而成的理论),而对数据的解读也必须要有人文价值”。邱伟云:《判别数字人文的两个准则》,《澳门理工学报》2019年第4期。
成功的数字史学研究,不仅能帮助史学家发现更多隐藏于巨量史料中,无法通过传统阅读发现的史实,在史实认知层面提供新知识,更能促使史学家通过新知,形成新的历史理解、解释或理论,这也是数字史学具有学术人性和生命力的体现。虽然数字史学在一定程度上是数理分析规范、信息技术方法和社会分析相结合的交叉,但目标仍旧在于发现或呈现历史和解释历史。科学方法的使用,当然并不意味着绝对真理或真实的出现,而是可探讨性和可证明性的增加。邓小南的看法则更为深入,她认为:“数字人文”不仅是一种技术,不仅是人文学者使用渐多的查询检索方法,也体现着传统治学方式与数字技术关联融通的开放态度;它开启了新的研究窗口,改变着我们惯用的工作方式,也不同程度地影响着我们组织学术议题的思维方式。我们不宜将其与人文学科的终极价值、人文学者的学术想象力对立看待,而应当意识到,“数字人文”的应用为我们提升研究水准、回应多面向问题提供了新的可能。②邓小南:《数字人文与中国历史研究》,《中国文化》第53期,2021年春季号。