APP下载

数字人文在《清实录》中应用的研究现状

2020-01-10毛星懿

开封文化艺术职业学院学报 2020年6期
关键词:论文人文数字

毛星懿

(暨南大学 文学院,广东 广州 510632)

实录体史书是源于南朝萧梁时期、以皇帝及其朝政为记载中心的特殊的史学体裁。它的编纂体例是“以皇帝的编年为纲,以大臣的小传为纬;以编年体为主体,以纪传体中的列传为辅助”[1]68。此后,唐代至清代皆根据每一朝皇帝修撰一部实录,基本都维持这样的体例,仅元、清的少数民族政权的实录略有些不同[1]68。因而,用数字人文方法处理实录体的另一优势是其文本撰写遵循一定的格式,计算机语言易于读取。

《清实录》卷帙浩繁,由13种记录组成。目前,关于《清实录》的数字人文研究主要有两种:一是将《清实录》整体作为研究对象;二是具体选择一个或几个朝代的实录文本作为研究对象。

一、关于《清实录》整体的研究

目前,网络平台提供的工具较为丰富,能解决基本的人、事、时、地、物标注与提取的问题,为《清实录》人名、地名、时间等基本信息的研究提供了条件。

(一)《清实录》时间研究

2011年,陈品谚《〈清实录〉之文本分析与时间标记初探》[2]将《清实录》进行切分、标记,然后以中国台湾历史数位图书馆(THDL)为模型建置了《清实录》查询系统(QSDL),进而利用该系统进行分析。该论文对《清实录》的时间条目进行公历转换,指出纸本《清实录》存在12处日期错误。若不是用计算机来处理全部的时间信息,人工将很难检核到这些细微的错误。研究创建的《清实录》查询系统(QSDL),考虑到文本上下文可能具有关联性,因而增加了相邻文件和同日文件浏览的功能。文末展示了《清实录》的数字化应用。该论文呈现数据较多,提出一些有趣的现象,但背后的原因仍有待充分解读。

(二)《清实录》人名研究

2012年,刘士纲在《〈清实录〉人名撷取自动化》一文中[3]以前人搭建好的《清实录》查询系统来撷取人名,再使用统计式的断词方法进行补充。关于汉人人名的撷取,主要是通过双字词的筛选与百家姓的辅助来完成的。因男性满人只提名不提姓,因而需人工验证结果。该论文叙述略为散乱,章节3.2.7节使用merge的方法对字词进行处理,与章节3.1前处理中字与字之间加上“*”的处理目的重复。另外,研究结果删除已知人名,呈现的是不完整的人名清单,意义不大。

(三)《清实录》地名研究

2013年,高欣恺《历史文件自动地名标注:以〈清实录〉为例》一文[4]利用Text Mining技术、Google Map API及Timemap时间轴工具,建立起一个简易的历史地理资讯系统(HGIS),以期降低该工具的使用门槛。该系统可由使用者自行上传文档。

以《清实录》为实例的部分,研究仅展示了《康熙朝实录》中顺治十八年(公元1661年)4月8日的事件。研究首先取《清实录》“康熙朝”“乾隆朝”日期、标题、内文三方面的数据来训练系统。系统采用词库式地名辨识,找出《清实录》与空间数据库中重合的地名。对于同名异地的处理,系统设计了选择邻近区域取点的功能。

以上3篇论文都是花大篇幅介绍各自的计算方法与系统建立的原则,属于工具介绍型的文章。时间研究建立的《清实录》查询系统没有公开使用,地名研究建立的历史文件自动地名标注系统在台湾大学数字典藏与自动推论实验室的网站①上可以查到,但不可用。

二、关于《清实录》的主题研究——人物关系研究

2008年,朱政吉《由史料中探勘社会网络:以乾隆时期为例》一文[5]根据乾隆时期是清朝的转折期的观点,选择《清实录》中的《高宗纯皇帝实录》为研究对象;论文以“权臣”为主题词,对以“权臣”为首的人脉关系进行分析。该论文首先以人名前的官名对《高宗纯皇帝实录》进行人名识别,再利用左右词夹子为顿号的方法补召人名;然后以“年”为单位找出共现人物,建立每年的有无权重的两种人脉网络;接着通过“菁英”为中介,找出“权力团体”;最后对“凝聚子集团”进行分析,比较后2年的时间里权臣中心性差异度、权利团体的差异程度。

2012年,阙伯丞等人合作的《由史料中探勘职官年表:以〈清圣祖实录〉为例》[6]选择《清圣祖实录》为研究对象,利用词夹子对文本进行人名识别,分析官名与人名。首先撷取《清圣祖实录》中含官职名称的句子,将句子以概率组合的方式转换为二字词集合,利用频繁区间的概念提取候选人名;然后结合官职变动率、平均任期、官职品第之平均变化率与官职名称之平均字距这四个因素对候选人名排名;最后进行升官序列、共升样式、社群网络的计算,呈现可视化人脉网络。以官职变动来看人物关系,此方法得出的人脉网络更为客观。

三、比较与反思

前文分析了我国台湾地区5篇以数字人文的方法来研究《清实录》的论文,这些创见为传统人文研究提供了新的题目与阐释空间,并提供了更有说服力的论据。但是,由于专业的限制,数字人文探讨问题的面向与传统人文不太相同。计算机专业的数字人文研究一般倾向于说明算法的原理及系统设计的原则等,属于量性研究,而非传统人文的质性研究。

《〈清实录〉人名撷取自动化》在前人建设好的数据库的基础上,利用算法呈现《清实录》扣除已知人名的人名清单。即便是提供工具,其实用性也受到质疑。一般实录常是国史的史源[1]65,《清史稿》与《清实录》有着密切的联系,1996年中华书局出版的《清史稿纪表传人名索引》可以作为研究的重要参考文献,可为该研究以提供训练人名识别系统的材料。

《由史料中探勘社会网络:以乾隆时期为例》通过复杂的计算与严密的修订,最后给出了“权臣探勘”“军机领班大臣”“重要的内阁大学士之解职时间”等表格,为解释人物在朝廷具体有何作为、如何影响历史进程提供了数据支撑,遗憾的是,其没有联系具体的史料进行进一步阐释[5]。《由史料中探勘职官年表:以〈清圣祖实录〉为例》呈现的可视化人脉网络也值得进一步分析,如该群体在地域分布上有何特点、如何对朝廷政治及地方文化发挥影响等。

《历史文件自动地名标注:以〈清实录〉为例》提供了一种降低GIS使用门槛的新工具,这种普及型的研究与成果十分有利于数字人文研究的兴盛[4]。《〈清实录〉之文本分析与时间标记初探》示范了结合计算机技术能解决何种历史问题,该研究切实顾及了开拓与应用[2]。二者对当前的传统人文研究具有较大的启发性。

反观内地,目前还没有以数字人文的方法来研究《清实录》的文章。2015年朱文君《〈清实录〉列女旌表概观:以咸丰、同治、光绪、宣统时期为例》[7]、2016年段振华《〈清实录〉列女旌表概观:以干嘉道三朝为例》[8]这2篇学位论文利用了量化的方法,提供了很多统计表、饼状图、折线图等。而实录体的女旌表仅列人名,格式统一,有规律可循,非常适合计算机处理,两文同样也是受专业的限制,未能高效、科学地处理材料。

结语

目前的数字人文研究总体上仍偏向于计算机专业,更倾向于展示具体的研究过程,计算方式、模型建置、数据修订、结果检验等是重要环节;而传统人文研究比较偏向于利用研究结果,结合具体的史料去说明问题、阐释原因。数字人文的研究是发现新问题的途径,数据化之后的结果也能为论述提供更有说服力的论据。《清实录》自身的研究还有很大的挖掘空间。目前关于《清实录》的研究具有示范性的作用,研究方法也可以迁移至其他朝代的实录,且可以借用数字人文的方法,联系现在发展的文体学进行开拓创新。

注释

①数字典藏与自动推论实验室的网址为:archimedes.csie.ntu.edu.tw/tools.php。

猜你喜欢

论文人文数字
美在山水,魂在人文
最朴素的人文
本期论文英文摘要
答数字
本期论文英文摘要
数字看G20
人文社科
本期论文英文摘要
成双成对
2013年5—12月最佳论文