融合与聚焦:数字人文促进家谱世系的研究与应用*
2022-06-27楼向英
楼向英
(浙江理工大学图书馆 杭州 310018)
1 数字人文背景下的家谱研究现状
据英文维基百科对Digital Humanities(数字人文)的解释,数字人文可被定义为进行学术研究的新方式,涉及协作、跨学科与计算参与的研究、教学和出版。它为人文学科的研究提供了数字工具和方法,印刷文字不再是知识生产和分配的主要媒介[1]。虽然学界对数字人文的定义有很多种,而且它的内涵也在不断发展,但我们可以把数字人文理解成一种研究方法[2],一种适应时代大趋势并把广义的计算机技术应用于人文领域的研究方法。数字人文技术体系主要包括数字化技术、数据管理技术、数据分析技术、可视化技术、VR/AR技术、机器学习技术等[3]。
近20年来,数字人文研究方法被广泛应用于语言、文学、历史地理、图书情报与档案等学科领域。2021年7月中旬,笔者利用中国知网数据库高级检索栏目,以“(篇关摘:家谱 + 宗谱 + 族谱 + 谱牒 + 家乘 + 玉牒)AND(篇关摘:数字人文)”这一比较宽泛的检索式进行检索,检索范围为总库,时间不限,旨在相对查全数字人文视域下与家谱研究相关的文献,结果仅有12篇命中。究其原因,一方面在于数字人文在家谱的专门性研究中尚未普及,另一方面在于部分研究成果尽管没有同时明确使用“数字人文”和“家谱”等概念,但其在实际研究中已运用了知识图谱等数字人文技术[4-12]。
笔者通过分析上述直接相关、间接相关的两类研究文献,发现上海图书馆对数字人文在家谱研究领域的应用做了大量工作,包括将馆藏的家谱数字化[13],利用基于语义万维网的规范控制方法、基于知识本体的知识组织方法以及关联数据技术、社会化网络技术(SNS)、可视化技术,实现面向知识发现的家谱数字人文服务[14-18],甚至将家谱纳入集文献库和知识库于一体的人文数据基础设施中[19]。
此外,有学者尝试将数字人文研究方法引入家谱研究。如许鑫、陆柳梦[20]以家谱语料为基础,以毗陵庄氏家谱为实例,通过社会网络分析法,提取出明清江南世家之间的姻娅关系,为数字人文在家谱研究中的应用提供了一个新途径。朱兰兰、薄田雅[21]从数字人文视角出发,分析了利用数字人文技术手段(文本挖掘技术、可视化分析工具等)对家谱档案资源进行多元化开发的可行性。此类文献数量不少,不一一赘述。
综合分析以上两类研究成果,笔者发现数字人文方法在家谱研究中的应用已初现雏形,但绝大部分成果仍是将家谱作为一个整体来研究,尚未对世系即家谱内容中最核心的人物给予足够的重视。
2 家谱世系的重要意义
大部分学者倾向于将家谱视为与国史、地方志并列的历史文献。近世以降的中国家谱一般包括该家族的来源及迁徙、世系传承、名宦乡贤、田产祠墓、族规家训等诸多内容,其中世系主要记录以男性为中心的家族血缘关系,往往是家谱内容中最重要也是占比最大的部分。
笔者认为,数字人文研究方法可以从根本上拓展当前家谱研究与应用的思路,包括但不限于家谱数据的获取、标注、分析与展现。把重要家谱的世系提取出来并建立人物数据库,可更有效地聚焦以世系为核心的家谱研究。例如,商业化的“ancestry.com”网站与美国犹他家谱学会的“family search.org”网站,被视为以人物为中心而非以文献为中心的家谱平台;由上海图书馆建设的中国家谱知识服务平台[22]也已将胡适、盛宣怀、李鸿章三位人物所属家谱中的世系以可视化的形式析出。
在乡村振兴的新时代背景下,若加以科学引导,旧谱新修仍可成为弘扬传统、增进认同、完善治理并激活地方创生的重要方式。而在新谱与旧谱之间,真正起桥梁作用的恰恰是人,也就是构成家谱主体的世系部分。家谱作为历史文献是非常特殊的,中国人向来讲究“修身、齐家、治国、平天下”,历代流传的优良家教家风和垂范百世的名人故事,将个体的修身处世与家庭责任、国家情怀紧密联系在一起。传统家谱会因为世系中提及的人物与活在当下的人有所联系而重新获得生机,并由此给人们提供不断寻根究底、追本溯源的可能性,这正是家谱世系的恒久意义所在。
中国国家图书馆珍藏的《仙源类谱》和《宗藩庆系录》是目前仅存的两种赵宋皇族写本谱牒,其编修年代距今已超过800年,是迄今为止各大家谱目录中所见传世最早的谱牒文献。《仙源类谱》按照不同世系,详细记载了宋代宗室的官爵、功罪、生卒、子女甚至女婿等信息,内容较《宗藩庆系录》更为完备。因此,下文将主要以宋写本《仙源类谱》为案例,尝试结合数字人文方法与传统家谱文献,探索以世系为核心的家谱研究与应用的新路径,以期更好地挖掘中国家谱资源的宝贵价值。
3 融合:纳入“中国历代人物传记资料库”
笔者利用在哈佛大学量化社会科学研究所访学的机会,与“中国历代人物传记资料库”(下文简称CBDB数据库)开展项目合作,致力于将《仙源类谱》记录的赵宋宗子、宗女等信息纳入该关系型历史人物数据库。“中国历代人物传记资料库” 是由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、台湾相关研究机构的历史语言研究所共同主持的学术数据库,旨在系统收录中国历史上所有的人物传记资料,将其整理为数据,免费供学术研究使用。
3.1 文本化
在中国国家图书馆早已完成《仙源类谱》文献缩微的前提下,对宋写本家谱进行文本化是将其纳入数据库的第一步。
笔者通过手动录入和人工校对,将类似图1所示的家谱缩微胶片中的原文整理成文字。与此同时,利用OCR识别软件等工具和现有数字化资源,仔细比对《宋史·宗室世系表》等相关内容来对《仙源类谱》进行文本化处理。
图1 中国国家图书馆藏《仙源类谱》缩微胶片示例
以赵世智次子赵令祈为例,其在《仙源类谱》中的完整信息经文本化处理后具体如下:次令祈,至和三年七月二十三日生,赐名授太子右内率府副率。该遇嘉祐八年三月二十九日英宗皇帝即位,转太子右监门率府率。该遇治平四年正月八日神宗皇帝即位,转右千牛卫将军。累转右监门卫大将军,领荣州刺史。该遇元丰八年三月五日哲宗皇帝即位,转右武卫大将军,领饶州团练使。该大观二年八宝赦,转领永州防御使,改领文州。政和三年三月十一日卒,赠保康军节度观察留后,追封房陵郡公,再赠保宁军节度使。
结合宋写本《仙源类谱》与元修《宋史·宗室世系表》等文献史料,我们可以清晰地了解赵令祈出自宋太祖赵匡胤长子即燕王赵德昭一房,由此我们能够进一步还原自赵匡胤至赵令祈的完整传承世系:赵匡胤—赵德昭—赵惟正—赵从谠—赵世智—赵令祈。赵令祈又生有子坚、子惠、子荐、子举、子韫、子傅、子昌、子荣诸子。
3.2 数据化
文本化工作完成之后,将文字内容数据化是第二步。数据化在这里是指使文本内容具有一定的数据结构,便于计算机的后续处理。根据中国历代人物传记资料库的要求,数据化工作要尽可能多地提取出文本中的有效信息,如人名、生卒、职官、亲属婚姻等社会关系类型信息,并通过编程和正则表达式的应用,将其整理成符合CBDB数据库导入要求的Excel表格。
仍以赵令祈为例,数据化后,其信息在Excel表格中具体被导入多个子表。
子表“biogmain scratch”:此表给每一位人物赋予一个临时ID(供过渡用,导入CBDB数据库后将有专门的ID),赵令祈的临时ID为13。
子表“biogmain”:此表是主表,包含人物的基本信息,如姓氏、名字、生年、卒年、所属时代等。赵令祈在主表中的基本信息经整理如图2,利用年代转化工具,将生年与卒年的年号纪年转换为公元纪年。由此可知,赵令祈生于公元1056年,卒于公元1113年,享年58岁(此处按中国惯例计虚岁)。
图2 数据化后赵令祈的基本信息
子表“kinship1 ”:此表提取人物关系,结果如图3所示,证明赵世智与赵令祈的关系为父子。
图3 数据化后赵令祈的父子信息
子表“kinship2”:此表提取人物关系,结果如图4,显示二人关系为子父。
图4 数据化后赵令祈的子父信息
Entry:此表提取入仕途径。赵令祈职官信息数据化后的结果参见图5。
图5 数据化后赵令祈的职官信息
这些数据化工作完成后,我们将所得信息与CBDB数据库中已收录的约2 500个宋代赵姓人物(由于一般赵宋宗室取名严格使用行辈联名,故此处统计数据不含赵姓单名人数)进行比对查重,发现人物实际重复率较低。仅利用《仙源类谱》这一种宋写本谱牒,至少可以增补1 056个CBDB 数据库中尚未收录的宋代人物,其中包括宗子 512人、宗女324人、 宗女婿220 人。
3.3 文本化、数据化过程中问题的处理
宋代皇族人口繁衍迅速,为避免子孙大量重名,他们习惯在取名时使用生僻字。因此,在谱牒的文本化过程中,不时会遇到无法常规输入的字。考虑到后续数据化工作和CBDB数据库的自身特点,使用特殊造字法并不可行。为此,对无法常规输入的字,已明确为异体字者,笔者原则上直接改用正字;无法明确是否为异体字者,则暂用最近似的字代替,并做好相应标记。
一定程度的失真是文本化过程中不得不承受的损失。同样,数据化一方面是将重要信息精炼的过程,另一方面也是原文信息逐渐失真的过程。比如,为方便后续研究,原文中薨、亡、崩、卒等词,数据化后一律作 “卒”处理。
另外,在进行数据化工作的同时,笔者也会对一些语义进行明确。主要涉及以下两种情况:一是原文中名字缺失或文字漫漶难识的宗子,其父子、兄弟关系明确者,通过核查《宋史·宗室世系表》,将人物信息补充完整。如赵令缉第五子的名字在宋写本中阙如,在数据化过程中则通过史学考证确定为子。二是语义的显性化。如原文“绍熙三年闰二月磨勘转秉义郎,五年二月九日亡”,在数据化过程中则需要根据上下文将卒年明确为绍熙五年。又如“该遇郊祀大礼,绍熙三年闰二月复旧官”,应联系上下文,在数据化过程中将“旧官”明确为“右监门卫大将军”。
这些实例生动揭示了一点:在谱牒文献的文本化、数据化过程中,每向前推进一步,都需要信息技术专家与人文学者的往复沟通、彼此合作。
完成宋写本谱牒内容的文本化、数据化后,最终将有技术人员把整体内容导入CBDB数据库。值得注意的是,该大型数据库此前已收录宋代人物约5万人,导入《仙源类谱》等皇族资料,不仅能够扩充同时代的历史人物信息,而且也必将提升宋写本谱牒的利用率与历史价值。因为仅《仙源类谱》和《宗藩庆系录》所撬动的关联人物就或可达万人,这对于更全面地探讨宋人社会网络关系,分析赵宋皇族人口乃至社会上下流动诸问题,都有积极意义。
当然,宋写本谱牒的内容除了可以融入CBDB数据库,还可以整合到更为多元的大数据平台,如中国家谱知识服务平台。在数字人文迅速发展的大背景下,印刷文字不再是知识生产和分配的主要媒介,理当更积极地看待重要家谱的数字化和数据化,积极进行内容共享和传播,而不是仅以秘笈善本等形式将其深藏不用。
4 聚焦: 凸显世系人物与姓氏群体
CBDB数据库是把人物有关信息进行拆分后再纳入的关系型数据库,它将《仙源类谱》涉及的人物纳入了一个全球共享的广阔平台,但这也容易导致赵宋宗室的人物信息湮没在大数据海洋里。因此,融入CBDB数据库仅是万里长征的第一步,除了鼓励数据融入、整合之外,如何通过聚焦家谱世系以凸显人物的价值同样十分重要。
就《仙源类谱》而言,聚焦世系将有助于对宋代皇族的人物关系进行全面梳理与勘误。例如,太祖皇帝下第六世《仙源类谱》卷一明确记载赵匡胤来孙赵令琯,嘉祐五年三月二十四日生,政和五年八月二十五日卒,赠感德军节度观察留后,追封华原郡公。《宋史·宗室世系表》却将赵令琯卒后的追赠信息误作“赠感德军节度使、华原郡公”[23]5663。又如,太祖皇帝下第七世《仙源类谱》卷二十二记载赵令渥长子为右迪功郎赵子淇,但在《宋史·宗室世系表》中“子淇”名字作“子洱”[23]6015。元人编纂宋代“宗室世系表”时,主要参照了原有的赵宋皇族谱牒资料,因此宋写本《仙源类谱》作为第一手史料,其价值不言而喻。需要指出的是,尽管《仙源类谱》的数据化工作已经完成,但囿于《宋史·宗室世系表》尚未实现科学有效的数据化,校对比勘工作仍不便利用计算机辅助进行。此外,存世的《仙源类谱》所载多为赵匡胤、赵光义、赵廷美三兄弟下第六世、第七世子孙,而正史宗室世系表保存了共十三代、总数超过六万人的皇族人口数据,要对后者加以系统整理,尚需要更多的历史材料支撑。
若从更长远的角度出发,对宋代宗室世系的校勘还原工作仍然只是基础。研究的远期目标,还应是进一步结合宋写本谱牒、正史宗室世系表、宗室传记、碑志(如北宋皇陵等出土的墓志铭、宋人文集中的皇族墓志铭)、登科录宗子应举、地方志散见科举、仕宦、人物事迹等多元化历史文本信息,以及历代不断递修的重要赵氏族谱等资料,利用知识图谱、本体等技术,建成开放共享的宋代皇族人物数据库及赵氏家谱网。如近年浙江台州黄岩考古新发现了赵匡胤七世孙赵伯澐夫妇墓,其中赵伯澐为妻子李氏撰写的墓志铭提及了人物生卒年月日、下葬时间等具体细节,与1993年重修的《黄岩西桥赵氏宗谱》中的记载竟完全吻合,足证中国家谱千百年来传承有序,不宜因其民间性而轻易忽视。但要真正大规模开发家谱的价值,还是离不开数字人文技术与方法的支撑。
若想实现上述研究与应用愿景,需要进一步完善我国数字人文基础设施,也需要联合各方力量,如高校、科研院所、图书馆乃至各地各姓氏宗亲会等共同参与。总之,以世系为核心,聚焦人物关系及姓氏群体的变迁,或不失为数字人文新趋势下推进家谱利用的可行路径。
5 结语
对于家谱而言,数字人文不仅是一种研究方法,其发展更多地是为了打破公众和学术的壁垒、打破学术研究和普及应用的壁垒。而聚焦世系、以人为本将会是家谱与数字人文相结合的入手点。
文章将宋代皇家谱牒《仙源类谱》融入CBDB数据库,尝试聚焦《仙源类谱》的世系来进一步凸显家谱价值,以实践的方式初步证实了从这一入手点开始研究的可行性。最终证明了数字人文将以需求为导向,将信息技术与需求相融合渗透到家谱研究与实际应用的方方面面。