“E考据”在人文社科研究中的应用
——以《永乐大典》中的“文件”为例
2019-01-10张全海中国人民大学信息资源管理学院
张全海/中国人民大学信息资源管理学院
近年来随着古文献数字化和商业数据库建设的长足发展,检索的快捷性给学术研究带来了极大的便利,文献挖掘能力已发生了革命性改变,同时也对海量材料的驾驭和分析能力提出了新要求。笔者在读研期间(2001—2004)开始接触这个领域。早期研究文献挖掘技术的网络论坛叫“网上读书园地”(www.readfree.net),一大批“发烧友”聚集于此,他们十几年来一直醉心于文献挖掘技术的研发、数据库的应用等。早期的中文文献数据库主要为“超星数字图书馆”,后来开发出“读秀学术搜索引擎”等一系列产品,至今仍是这个领域的龙头老大,网上流传的各种扫描版电子书多源于此。后又有“中美百万”(www.cadal.zju.edu.cn)等公益性数字图书馆面世,丰富了数字化中文文献的来源。早期的数字化文献交流论坛有“国学数典论坛”“爱如生论坛”“先秦史论坛”“读书中文网”等,来自全世界的爱好者长期活跃在这些论坛上,现在很多单位购买的“爱如生”系列数据库资源就是来自这里。
笔者在撰写硕士学位论文时就已经开始应用数据库挖掘史料,后不断将这种手段运用于诸多学科研究领域,如姓氏谱牒、武术史、戏曲史、档案史、史前文化、区域历史文化等,取得了非常好的效果。如先后对“巫”字的起源[1]、架阁库[2]、史前八角纹[3]、兰台[4]、同安监[5]等多个重要问题做过探索性考证,都获得了突破性研究结果。
台湾的黄一农先生将这种研究手段方法总结叫作“E考据”,虽然学界对此还存在争议,甚至有人认为所谓“E考据”就是在数据库里“简单一搜”,但不可否认的是,这种方法已经越来越多地为人所接受。“E考据”绝不是“简单一搜”而已,它首先需要研究者在该领域有一定的学术积淀,在研究某个问题时借助于文献数据库来挖掘所需材料,然后对所获得的材料进行深入分析研究,从而推进解决问题。这就像在碎片化阅读的当代,我们不能将碎片化阅读作为全部,而应该是首先要有某领域比较完备的知识结构,然后在碎片化阅读中获取知识的补充,绝不能“反客为主”。
在文书学、秘书学、档案学及行政管理学等诸多学科中,“文件”都是其核心名词之一,但学界对于“文件”词源的考证较少,且目前多认为此词清晚期才出现[6],虽然同行付出了较多努力,但长久没有得到明显的推进。虽然这种考证是有限的,因为没有人能够穷尽文献,即使是存世文献也难以穷尽,但这种有限的考证又是必要的,因为它会使得我们更进一步接近真相。
就目前来说,“超星数字图书馆”是世界上最大的中文书刊数据库,其“读秀学术搜索引擎”可以实现全文检索,但超星没有开发针对古文献检索的专门产品,所以当用普通关键词进行检索时,往往会得出数量惊人的结果。如用“文件”检索,结果高达1000万多条。除非是检索特殊的关键词,或者使用组合检索,否则太多的结果让人无法使用。爱如生数据库则主要是针对古文献开发的产品,其“中国基本古籍库”“中国方志库”“中国谱牒库”等基本涵盖了传世中文典籍,如在“中国基本古籍库”检索“文件”可得535条结果、“中国方志库”733条、“中国谱牒库”2874条,虽然从这些子库中检索所得的结果也不少,但爱如生提供了检索年代限定(不够完善),如经过进一步筛选,会发现以上检索结果均为明代以后的文献,也就是说以上数据库所收清代以前的文献中没有“文件”一词。再检索“书同文”“瀚堂典藏”“鼎秀古籍”“中国金石总录”“中国地方历史文献”等更多数据库,结果也基本是这样。
由于爱如生开发的子库很多,其他比较重要的还有“中国金石库”“敦煌文献库”“明清档案库”,而要么一般机构单位不会购买这么多产品,要么有些子库尚在建设中,暂时不能提供利用。所以要检索爱如生所有子库中的数据,存在一定的难度。
笔者在对爱如生“永乐大典”子库进行检索后得到1条结果,出自第一四五七五卷:“每上下半月,开具递过文件及各各日时。”在其他商业数据库中检索也可得到同样的结果。
《永乐大典》正本早已失踪,现今存世的真品皆为嘉靖年间抄录的副本,其总量不及原书的4%,在失踪的1万多册副本中是否还有“文件”不得而知。此外,还有一些明代文献没有被爱如生收录,如《中国明朝档案总汇》《万历邸钞》《万历起居注》《国朝典故》等。笔者粗略翻阅了101册《中国明朝档案总汇》没有发现线索,全文检索了《明实录》也没有查到“文件”。可见就笔者目力所及,《永乐大典》中的“文件”属于孤例。
虽然说“孤证不立”,但却不能排除孤证成立的可能性,所以需要在有限的条件下对这则孤例详加考据。《永乐大典》第一四五七四卷至第一四五七六卷为“铺”,前两卷专讲“急递铺”的历史情况。为研究之方便,现将其中涉及“文件”一节的内容迻录如下(标点为笔者所加):
英宗皇帝至治三年,兵部奉中书省劄付,海北广东道肃政廉访司照磨言,随处急递铺反匿损坏公文、有失设法等事送本部,议得置邮传命,古今良法,行之既久,不能无弊。盖其法每十里设置一铺,排列道次,凡递文字,止凭一铺司承受发遣,其铺司率皆村野愚民,不知利害,不通文理,一铺历尚然不整,岂能表率铺兵,使之依法走递?其铺兵人数,老幼充应,多不堪役,州县官司视同泛常,又不依期亲历整点,遂致文字稽迟损坏,至于沉匿,无从追究,为弊至此,岂宜坐视不加整治?其元立程式,非有可以更张者,但为别无专管之人,以致如斯。所据上项长引隔眼,固是可用,未能悉救其弊。又相离数千里去处,亦难每铺摽写,以此参详,拟合每十铺设一邮长,于州县籍记司吏内差充,一周岁交承,其拘该两州县去处,从铺多者差设,相等者递年轮差,使之专督其事,时常于所管铺分往来廵视,务要修置亭舍,什物完备,附写铺历明白,照依元立程式走递,但有老幼铺兵,随即申覆补换。凡入递文字从始发官司,约量地里远近,印帖长引隔眼于上,明白摽写件数、发行日时,至各各邮长去处,摽写发放转递。每上下半月,开具递过文件及各各日时,申覆提调官,依期亲历刷勘整点,署押文案,具报廉访司照刷。若各铺稽迟损坏文字,或附写不明不实,本管邮长就便治罪。其在别管铺分,亦须互相举呈,所属上司行移究治。若邮长不能尽职,致有稽迟者,提调官量事轻重议罪。三犯者替罢,仍出去州县籍记姓名。其于一岁之内,克尽乃役,略无稽迟者,即许从优先行补用。若提调官吏,不行依期用心刷勘整治者,廉访司严加究治,仍于年终将断过此等官吏,通类另行呈台,备呈都省验事,别议黜降。如此责委既专,自能尽心于事,前弊可得渐除。如蒙准呈,宜从都省移咨各处行省,劄付御史台,照会本部依上施行。今将再立到隔眼样式粘连在前,具呈照详都省,仰遍行合属依上施行。
“急递铺”在先秦时期已经起源,其主要功能是传递官方文书,因此《永乐大典》“急递铺”中大量涉及“公文”“文书”“文字”等名词,还较多涉及“文册”“文历”“文案”“文卷”“文簿”“文卷簿籍”“文檄”“文牒”“文解”“文状”“咨文”“文匣”等名词,而“文件”仅一见。
笔者在传世元代文献《元典章》《文献通考》《通制条格》等典籍中没有找到该段文字,仅在“四部丛刊”影印涵芬楼藏元至正本《国朝文类》(即《元文类》)中发现其别本(标点为笔者所加):“至治三年,以反匿损破公文有失设法,兵部议:每十铺设邮长一人,于州县籍记司吏内差充,一岁交承,两州县相接之处,铺多者差,相等者递年轮差,使之专督其事,于所管铺分往来廵视,务要修置亭舍,什物完备,附写铺历明白,依程式走递文字,从始官司,量地远近,印帖长引隔眼于上,明白标写件数、发行日时,至各各邮长去处,标写发放转递。上下半月,具递过文字及各各日时,申提调官,依期亲历刷勘整点,署押文案,报廉访司照刷。各铺稽滞损失文字,或附写不明不实,邮长罪之。罪在别铺,亦须互相举呈,上司行移究治。邮长不能尽职,提调官罪之。三犯替罢,仍去州县籍记姓名。一岁之内,克尽乃役,略无稽违者,即从优先补。”
《永乐大典》《国朝文类》所辑该内容都是出自元《经世大典》,但篇幅长短及文字内容均有所不同,《永乐大典》中的“开具递过文件”在《国朝文类》中却是“具递过文字”。虽然《经世大典》原书已佚失,很难判定谁更接近原文,但综合考之,似当以《国朝文类》的“文字”为是。不过要弄清《经世大典》原文到底是哪个,还需进一步考证。
然而如果中华书局与台湾大化书局影印的《永乐大典》确为明嘉靖时所抄副本的话,那么可以说最晚在明嘉靖时已有“文件”(如果副本此处文字与《永乐大典》正本一致的话,时间则要提前到明初),虽然有误写的可能性(也有“文字件数”简写的可能性),但毕竟已经存在事实。且不能完全排除它对后世“文件”一词的出现存在影响,如乾隆朝在编修四库全书时就极为重视《永乐大典》的校勘与辑佚工作。
另外值得注意的是,在明代及以前的文献中有较多“文字名件”“公文件数”“文书物件”等复合词(这类词可以同时在“读秀”中检索)。名词的产生往往有其演变过程,如笔者在兰台考中研究“佩兰”词源时就发现其是从“佩戴兰草”简写发展而成。“文件”是不是由以上复合词(及“文字件数”)演变而来值得关注,再者曾被广泛使用的文书学名词“文字”“名件”后来失传,而“文件”一词的出现与勃兴又是否与之有关也值得思考。
在明代及之前的文献中没有发现更多的“文件”线索,进一步研究则需要考察清初是否出现了这个名词。通过检索“爱如生”“书同文”等诸家数据库,没有发现清雍正朝及之前的文献中有“文件”一词,但同时发现“文报”“报匣”等词使用频率很高。在乾隆朝文献中发现有三条“文件”记录:《皇清奏议》卷六十七的鄂辉、成德《议西藏善后事宜疏(乾隆五十四年)》第一条中有“所安各塘不过以备驰递文件之用”;乾隆五十七年《八旬万寿盛典》卷八十四有“近以各直省咨部文件往复稽延,命分别设立月限,以清庶务”;乾隆三十九年《琼州府志》卷三“钞课”中有“附知府于霈详请豁免杂税文件”。另外在《高宗纯皇帝实录》中找到两条记录:乾隆十八年六月己酉,“军机大臣议覆,盛京兵部侍郎卞塔海奏称,来岁巡幸盛京,凡经由程站,驿马、车辆俱应豫行饬备……往来驰送文件,请饬盛京将军,于八旗骁骑校内挑十二员,兵二十四名,分拨各站备。”;乾隆三十三年九月辛亥,“谕军机大臣等,巴尔品奏,近日哈萨克阿布勒比斯来文,殊欠明晰,且有交付字样,业经所呈文件,分别申饬等语,所办甚是”。
对于以上检索结果,须再加考证。关于《琼州府志》,经查超星数字图书馆,收有故宫所藏刻本的影印本,经比对发现,爱如生等数据库里该卷次为抄配本,年代不详,而刻本中无相应内容。因此这条记录存疑,可结合康熙、道光两朝府志进行综合考订,这两种府志在“超星数字图书馆”里均有资源,经初步比对,发现康熙府志中有“钞课”一节但无相应内容,道光府志中无相关节目及内容,所以对于此抄配本的相关问题需要进一步考证,但这已不属于本文的关键任务,因此从略。
关于《议西藏善后事宜疏》,通过使用“鄂辉”“驰送文件”等多个关键词在“读秀”中进行全文检索发现,此奏疏有多种别本存世,除《皇清奏议》外,《钦定巴勒布纪略》《明清史料·庚编》及中国社会科学院近代史所藏清乾隆年间毓奇、福康安、鄂辉等大臣奏折底稿抄本中均有辑录。但《钦定巴勒布纪略》为节录本,无“所安各塘不过以备驰递文件之用”一句。社科院所藏抄本原件笔者未寓目,据鲁波点校《清初各边疆大臣奏折底稿(续)》(载《清史研究》1996年第2期)显示,该句内容与《皇清奏议》一致,但因该抄本的出处及年代均未详,故不能遽下定论。
而《明清史料·庚编》所录该文情况比较复杂,其文为“□安各塘不过以备持备(疑误)递文□之用”,在关键处竟是表示不可释读的“□”。该书所给的题名是“内阁抄出鄂辉等奏折(移会抄件)”,其文首句为“乾隆五十四年七月初十日内阁抄出”,这些内容均为别本所无。又因鄂辉奏折第一条中还有“所驻官兵不过防范地方、接送文报之用”一句,诸本皆同,所以此处“文□”是否也应为“文报”?《明清史料》虽然是依据档案转录而成,但因其编辑加工比较粗糙,内容杂乱、错讹较多,况且其关键文字处阙如,所以也不能轻易作为实据。要想弄清这个问题,可能需要查检台湾版《宫中档乾隆朝奏折》《明清档案》等大型丛书,其中或许影印了这件奏折。
另外通过检索“读秀”还发现,对于学界称之为“鄂辉章程”的这件奏疏,已有相当多的关注和研究,如邓锐龄《清前期治藏政策探赜》、张羽新《清朝治藏典章研究》《元以来西藏地方与中央政府关系档案史料汇编第2册》等论著或史料汇编中都有相关内容的收录或研究,但都没有涉及本文关注的这个细节问题。虽然他们注意到了版本的不同,但均未予深究。
《八旬万寿盛典》有武英殿活字本和四库全书本传世,为乾隆时期原文献无疑,所以本书中的“文件”是为确证。且从文句语意上看,此处“文件”一词的运用相当娴熟,说明当时此词已经通行。
需要特别指出的是,《高宗纯皇帝实录》并非乾隆时期形成的文献,而是修于嘉庆朝,所以严格意义上讲,它不是乾隆时期的原文献。但其文字内容形成于乾隆时期的可能性较大,因此乾隆实录中的两条“文件”记录,可做参考佐证之用,如有条件,还可查阅相关档案文献加以核实确定。
由于清代文献存世量巨大,尤其是与“文件”关系密切的历史档案还有大量原件没有公开,已经影印出版的奏折、谕旨等也多无商业数据库提供专业检索(“读秀”全文检索可能会指向这类文献,但仍因结果太多而无法利用),所以目前如要进一步弄清乾隆朝之前“文件”是否已出现的问题,可能仍需采用古老的手工查检方法。
另外目前各种文献数据库较多,除少数提供全文检索的外,还有大量目录库、提要库和影像库等,甚至是很多个人和项目建设的内部文献数据库,中国港台地区及美国、日本等区域也都有建设,研究者很难做到逐一尝试,但这其中肯定还有更多的线索待查。
通过检索部分数据库还可以发现,乾隆朝之后“文件”已较多出现,到晚清时普遍使用,同时还发现“文件”一词的使用似与军机处有着较大的关联[7],另外与公文有关的名词在古代驿递文献中出现的频率较高[8],这些问题都值得进一步探索研究。
对于从数据库检索所得的记录,一定要核对原文,有的数据库是文字和影像对照可以查证,有的数据库只提供文本内容,这就需要另找原文核对,可以是扫描的影像,也可以是纸质影印本,甚至找古籍原本。这里试举一例,在“国学大师”网络数据库中用关键词“文件”进行全文检索可得899条结果,经粗略浏览发现,其《全辽备考》中有这样一段文字(标点为笔者所加):“牌档:边外文字,多书于木,往来传递者曰牌子,以削木片若牌故也。存贮年久者曰档案,曰档子,以积累多,贯皮条挂壁,若文件故也……”其中赫然出现了“文件”一词!《全辽备考》一名《金辽备考》,为《柳边纪略》的别本,内容基本相同而略有差异。查续修四库全书所收筠石山房本《柳边纪略》[9]对应内容为:“边外文字,多书于木,往来传递者曰牌子,以削木片若牌故也。存贮年久者曰档案,曰档子,以积累多,贯皮条挂壁,若档故也……”另查“辽海丛书”所辑《全辽备考》中相应段落也是“若档故也”。另外“国学大师”中《柳边纪略》的相应段落中两处“档”字亦为“文件”,不知是录入致误还是其数据来源的问题。
以上是笔者用“以案说法”的形式来讨论在人文社科研究中如何应用“E考据”的问题,囿于篇幅的限制、数据库权限的不足及纸质文献借阅的不易等因,本探讨无法实现更为全面的铺陈,仅为有限示例而已。但仅此足以说明“E考据”并非“简单一搜”而已,更不是“伪考据”[10],要想将“E考据”更好地应用于学术研究,除了要有相应的学术积累外,还要有一定的材料驾驭能力和分析能力,有时候还要结合运用其他的方法手段[11]。“E考据”是“立体性”的,绝不是单纯仰赖于数据库,切不可把数据库检索当作攻无不克的利器,而在有限的数据库中检索到有限的信息后就急于下断语。
在本文撰写完成后,笔者看到《光明日报》刊登了这样一篇报道《“新文科”要培养什么样的人才》[12],其中引用马费成教授的一段话:“当代信息技术高度发展和广泛应用带来了全新研究场景,全新的研究工具和研究方法的应用,使整个文科的研究方式正在发生深刻变化,使得过去许多不能开展的人文社会问题都有了新的研究手段。”可见“E考据”被主动引入人文社科研究中已是不可逆转的大趋势。