APP下载

探微知著:从知识库和科举文献中构建历史社会网络
——以明代进士群体为中心*

2021-05-11

图书馆论坛 2021年5期
关键词:进士群体

潘 俊

0 引言

自秦汉至晚清的中国社会被认为是选举(察选考举)社会,秦汉的选举是一种自上而下“以贤选贤”的推荐,选举过程主要由门阀世族把持[1]。随着士族阶层兴起,选举的中心环节逐渐由推荐转向考试,最终于隋唐之际催生了绵延上千年、对中国社会产生深远影响的科举取士制度。迨至明代,科举制已趋完备,成为国家的抡才大典,并在一定范围内促进了社会阶层的流动[2]。有明一代登科进士总数24,595人[3]。这些经由乡试、会试、殿试而跻身朝堂的进士群体是明代维系国家秩序和运转的核心政治力量。在这一群体之间,广泛存在着宗族姻亲、同年同乡、同社同门、座师门生、学派师承、交游酬唱等一系列错综复杂的社会关系,形成一个经纬交织、纷繁庞杂的网络。研究这一网络的形成、维系和演化过程,探索隐藏其中的丰富微妙的历史细节和线索,有助于进一步认识明代社会结构和政治文化的变迁,厘清历史事件背后人际因素的影响,从而为相关史学观点和争议提供新的辨析视角和实证依据,乃至根据线索提出新的问题,按图索骥寻求新的答案。

以士人社会关系为切入点的历史研究由来已久。以往工作多以某个人物为个案,考证论述交游情况,或聚焦于某一家族、某一群体的人际交往[4-5]。这些研究主要依赖于研究者的思辨性和经验性,强调对相关史料文献的搜集、梳理和考证能力,这也是传统人文历史研究最主要的研究范式。近年随着信息技术飞速发展,人文历史研究环境逐渐发生变化,面向数字人文的数据驱动型研究范式吸引了众多领域学者的研究兴趣[6]。与此同时,一批基于开放互联理念的数字人文基础设施正在逐步建成和完善[7-8],典型项目包括中国历代人物传记资料库(CBDB)、中国历史地理信息系统(CHGIS)、唐宋文学编年地图等。尽管现阶段对数字人文的研究范式仍存在争议[9],但作为趋势,数据驱动的人文社科研究有望成为新的学术生长点[10]。以历史社会学为例,已经出现了不少新成果。然而从技术角度看,现有方法还不够深入,同时由于数据获取等原因,针对中国历史人物群体的工作,目前集中于唐宋社会,以明代社会士大夫精英群体为对象的研究较少。

为弥补当前研究中的不足,本文基于数字人文理念,以明代进士群体为中心,从数据获取与集成、网络构建与分析、关系挖掘与可视化3个方面展开实证研究。首先基于循证原则[11],从科举文献中整理并获取明代进士人物关系数据,与现有知识库数据进行集成;其次构建进士社会关系网络,计算网络特征指标并分析其与明代政治、文化及社会结构变迁的关系;最后从多个维度对明代进士社会网络进行关系挖掘,探微知著,与现有的史学观点相互印证。

1 大数据视域下的历史社会网络分析

社会网络属于复杂网络的范畴,用于表示具有社会属性的关系网络,其中网络节点代表独立的个体或组织,网络连边代表节点之间因接触、关联产生的一种或多种联系。作为实证手段,社会网络分析已成为人文社科领域的重要工具。殷沈琴等构建论文作者的社会网络图谱,分析数字图书馆研究中的主要学术合作群体[12]。黄娟等采用社会网络分析方法,从多维度分析文献著者的社会属性和社会关系[13]。易明等依托社会化标签系统中的社会网络,构建基于社会网络的知识推送网络演化模型[14]。王双等利用社会网络分析方法,研究科技人才成长的一般特征和规律[15]。这些工作的思路是采集数据,构建关系网络,分析网络结构特征和演化过程,发现节点间某些交互模式和规律,作为阐释社会现象的基础[16]。

一般来说,社会网络分析的研究对象是当下的社会,而社会学与历史学又有着天然联系[17]。早在1940年代,费孝通就提出“差序格局”的经典概念[18],拓宽了中国历史社会学的论域。不同于传统历史研究强调的宏大叙事,历史社会网络分析聚焦于众多微小的历史细节和线索,旨在通过对历史人物社会关系网络的重现和探索,获得对某些历史问题更为丰富、立体而深刻的认识。

历史社会网络分析的开创性工作可追溯到1993年约翰·帕吉特(John Padgett)等对文艺复习时期佛罗伦萨梅迪奇(Medici)家族的研究,基于文献资料构建梅迪奇家族与各种政治势力的社会关系网络,认为该网络是家族崛起并保持其政治地位的主要因素[19]。由于数据获取和分析技术的局限,早期工作所构建的网络规模通常较小。近年随着信息技术的进展和数据的积累,从整体上研究不同历史时期的社会网络具备了基础条件,出现了一些代表性成果。杰克逊·康奈尔(Jackson Cornell)基于中世纪苏格兰人物数据库构建社会关系网络,以寻找当时社会的意见领袖[20]。王涛从《德意志人物志》中抽取数据,使用社会网络分析方法,研究德国社会的形态变迁[21]。包弼德(Peter Bol)基于CBDB和CHGIS数据库,从群体人物和地理信息两个方面探讨社会网络对宋代道学传播的影响[22]。严承希等通过符号网络构建宋代政治网络,分析宋代相党政治和党争格局的演化[23]。这些工作不同程度涉及文本挖掘、数据建模、网络科学、可视化等技术在人文学科的应用,彰显了数字人文跨学科研究的潜力。

数据驱动型研究首重数据。对当下社会,可以采用问卷、访谈、日志抽取等方式采集用户信息以及关系数据。而对历史上的社会,只能从浩如烟海的历史文献中采集数据,这对文献的选择鉴别、对数据的抽取清洗都提出较高的要求。要保证数据质量,较可靠的方式是人工从文献史料中获取关系数据。严程整理“秋红吟社”女性诗人的往来诗作,构建以顾太清为中心的交游网络[24]。阿帕姆·巴苏(Aupam Basu)等整理文献,构建早期英国剧作家、剧团和剧场的协作关系网络[25]。然而,人工获取数据依赖专家知识,耗时耗力,因此相关研究往往是针对个体、家族或地域性的小规模网络。

为获得大规模数据,一些学者致力于从文献中自动抽取人物关系的研究,但相关技术离实用还有较大距离,较为常用的是共现统计法,即统计人名在文本中的共现模式,自动为人物建立关联。许超等基于《左传》人物事件表,将属于同一历史事件中的人物视作关联人物,构建人物关系矩阵[26]。马蒂(Matje V.D.C.)等基于《荷兰社会工人运动人物传记辞典》,依据人名共现和词汇特征构建社会网络[27]。共现统计法建立在分布式假设[28]基础上,这一假设认为语义相关的词语往往会出现在相似的上下文中。然而,依据此假设自动生成的人物关系,尽管在宏观上能反映人物之间可能存在的统计学关联,但从微观看,每条人物关系记录缺少相关证据支撑,因此难以用于人物关系的深度挖掘研究中。

中国历代人物资料库(CBDB)是由哈佛大学、北京大学等机构联合开发维护的开放数据库,旨在对中国历史人物传记资料进行数字化处理,为群体传记学和历史社会网络分析提供支撑[29]。其数据来源包括正史、文集、墓志、墓表等原始文献,以及经过考订的人物传记资料、人物年表等工具类文献。CBDB是在唐宋史研究中发展起来的,关于宋代人物的数据最丰富,对其他断代资料的收录相对不足,这或许也是基于CBDB的相关研究主要集中于唐宋时期的原因之一。本文认为,从“辨章学术、考镜源流”角度看,要构建历史社会网络并进行关系挖掘,所抽取的人物关系数据应是可循证回溯的。为此,以CBDB 为主要数据源,并从《明代登科录》《皇明贡举考》《明朝馆选录》等明代科举文献中,整理了明代进士社会关系的部分数据,与CBDB现有数据集成后,生成统一视图的数据集,基于该数据集构建明代进士群体社会关系网络,最后从多个维度展开关系挖掘和循证分析,从而对部分学者的研究成果和理论观点给出实证支撑。

2 基于知识库和文献的历史人物关系挖掘

基于知识库和文献的历史人物关系挖掘,主要内容包括:(1)人物关系数据的获取以及与人物信息、历史事件等多源数据的融合;(2)关系网络的定义,以及相关网络指标的计算分析;(3)基于关系网络的知识挖掘与可视化。

2.1 数据获取与集成

本研究的数据主要来源于CBDB数据库和明代科举文献。CBDB数据库中的人物数据包含人名、时间、地址、职官、入仕途径、社会区分、亲属关系、社会关系、事件等,其中社会关系和亲属关系是构建人物关系知识库的主要数据源。统计指数年段1368-1644年的明代人物,CBDB收录107,290人。本文关注明代进士这一特定群体,为此编写脚本抽取自洪武四年辛亥科(1371年)至崇祯十六年癸未科(1643年)的进士人物(含通过会试但未参加殿试的贡士),共计22,956人,其中庶吉士952 人。由于进士人物的社会关系有其独特性,进一步从科举文献中抽取人物关系数据并与CBDB 数据集成。所构建或扩充的主要社会关系包括座师门生关系、庶吉士同学关系、馆师庶吉士师生关系、同年进士关系、同乡进士关系以及宗族和姻娅关系。基于上述构建的社会关系,通过映射规则将关系数据与CBDB 数据集成,采用数据核查技术来清洗噪点数据。考虑到有据可考的明代进士总数为24,595 人[3],庶吉士总数为1,204 人[30],该数据集可视作具有一定代表性的明代进士抽样数据集。表1以李东阳为例,给出了进士人物特征及其部分社会关系。

表1 明代进士人物及社会关系特征样本(以李东阳为例,部分)

2.2 网络构建与分析

要构建具体的社会关系网络,还需确定网络类型和特征指标等参数,考虑到本实证研究的目标和数据集特征,将网络表示为一个加权图,并采用特征向量中心性来反映节点在网络中的重要程度或影响力。特征向量中心性具有很强的现实意义,其节点影响力同时取决于该节点的邻居数量及邻居的影响力。也就是说,影响力高的人物,要么与重要人物拥有亲密关系,要么具有很广的人脉,或兼而有之。在人物关系网络中,每种关系的权重先由人工按三分制标注。由于两个节点之间往往存在多条边,且有可能是单向边(如举荐关系)或双向边(如朋友关系),可能会导致两个人物互指的亲密度不一致。为此,在人物关系可视化呈现时,合并节点间的多条边,亲密度不一致时则取其较大值。同时,为简化网络,进一步删除亲密度小于指定阈值的冗余边,最后计算节点的特征向量中心性并作为节点的权重。以指数年1550-1600 年段为例,采用ForceAtlas2图布局算法对这一时期进士社会关系网络进行可视化,如图1所示。

社会关系网络的拓扑结构可以用统计特征指标来描述,包括网络直径、平均路径长度、聚类系数、平均度等。通过NetworkX①工具包对本文网络,以及FaceBook②、豆瓣③、Digg friends④、Youtube⑤等公开数据集构建的网络进行特征指标计算,表2给出了计算结果。

表2 明代进士关系网络与典型社交网络统计特征对比

图1 明代进士社会关系网络可视化(指数年1550-1600)

从网络规模看,本研究构建的明代进士社会关系网络尚不及现代社交网络,但通过网络统计特征的对比,依然发现了一些相似的性质。由表2可知,本文构建的明代进士网络中的人物,平均只需约4 至5 步就可建立联系,每个人物平均与3 至4 个其他人物有联系,每个人物的关系人之间,彼此存在联系的概率为18.8%。这表明明代进士群体之间存在和现代社交网络非常类似的小世界特性;并且从聚类系数看,明代进士群体之间的联系还更紧密,呈现出较为典型的“六度分隔”特征。为探索网络特征指标的历时变化规律,进一步以20年为单位时间片来切分明代进士关系网络,并计算历时统计特征,如图2所示。从图2看出,明代进士社会关系网络的平均路径长度相对稳定,介于3.8~4.4,而节点的平均度则从洪武时期的2.3逐渐上升,至弘治朝达到3.8,在万历朝达到顶峰值4.1,这表明网络节点的活跃度存在一个随着社会发展而逐步提升,并趋于平稳的过程。另一方面,反映邻居节点连接紧密程度的平均聚类系数,从洪武时期的0.142 逐步上升,在弘治朝达到高点,并长期保持相对平稳。图2 的曲线变化从侧面表明,明代社会风气在弘治时期有一个较大的变化,进士人物的社会活跃程度显著增加,进士群体之间的交往也更为紧密,这种趋势一直持续到了万历朝。

当然,本文构建的进士网络本质上是一个人工网络,无论数据的代表性和真实性如何提高,也始终是对真实网络的部分还原,但依旧可以从明代社会的思想文化变化来解释图2所反映的变迁:明初对思想文化钳制较严厉,程朱理学一统思想领域,法网严密,士人群体的社会活跃度较低;成弘之际,纪纲渐宽,思想文化渐趋活跃;正嘉时,陈献章、王守仁的心学思想对程朱理学造成极大的冲击,推动了士人的思想解放和个性解放,进士群体的思想观念发生了显著变化,整个社会的活跃度不断提升;而到了隆万时期,商品经济空前繁荣,社会风尚急剧变化,王守仁心学在发展过程中逐渐变异,士大夫心态出现嬗变,社会交往呈现更为多元化的特征。

为进一步理解这一具体变化,本文抽取不同时期进士人物的社会交往对象进行对比,发现成弘之前士人的社会交往多集中在士人群体内部,大约在正嘉之后士大夫的交往对象出现较明显的阶层下移与扩大现象,商人、画家、隐士、僧人、传教士、艺妓、工匠、乐师等各阶层人物纷纷进入士大夫的交游圈。图3展示了晚明社会各阶层人物与晚明进士群体交游的部分例子。可以看出,晚明社会风气开放而包容,以往传统士大夫耻于为伍的商贾、工匠、乐师等阶层的社会地位得到极大的提升;还出现了不少绝意仕进,转而追求人生适意的名士、隐士和山人,表明晚明士人的心态发生较大变化。从图3还看出,晚明社会思想活跃,艺术文化领域空前繁荣,可用晚明江西文人徐世溥在其信札中的一句评述来概括:“若……袁嘉兴之穷理,焦秣林之博物,董华亭之书画,徐上海、利西士之历法,汤临川之词曲,李奉祠之本草……下而时氏之陶,顾氏之冶,方氏、程氏之墨、陆氏攻玉,何氏刻印,皆可与故作者同敝天壤。”可以预见,当数据持续积累时,还可以进一步应用社会网络分析方法来分析网络的动态演化,揭示网络特征演进所折射出的不同历史时期的社会结构和风尚的变迁过程。

图3 晚明各阶层人物与进士群体的社会交往

2.3 人物关系挖掘

本研究基于数据集提供的维表,尝试从更多维度观察明代进士社会网络,探索人物社会关系和亲属关系的分布,并结合史料进行循证分析、量化统计和关系挖掘。

2.3.1 高亲密度进士人物发现与分析

通过对指数年段1368-1644 年的明代进士社会关系网络的量化统计与分析,发现生活在科举社会的士大夫群体,以血缘、地缘、学缘、业缘等关系为经纬,形成了一个错综复杂的多元化社会关系网络,他们之间通过唱和雅集、赠诗作文、序跋应酬、举荐结社等一系列形形色色的社会活动,建立并维系着不同层次的社会关系,实现并强化彼此的身份认同。进一步定义两个人物之间的亲密度为节点之间全部关系以及关系发生次数的加权和,表3列出了归一化后具有较高亲密度的部分代表性人物及其具体关系,其中年号为人物的主要活动时期。由表3 可知,从横向看,这些关系密切的进士之间普遍存在同乡、同社、同年、同门、姻亲等关系。

首先是以地缘为中心的乡党关系。对表中所列人物的循证分析表明,不少同乡士子在入仕前,通过会讲、会课等形式结成文社,相互砥砺学习。比如,顾清与李希颜是华亭同乡,二人为诸生时与钱福、黄明、曹闵、顾斌等共结六人社,互相辨析义理,探讨制艺文章,后钱福于弘治三年高中状元,顾清、李希颜、黄明三人于弘治六年考中进士。在京同乡进士也常组织宴会雅集。比如,徐源与王鏊是苏州府吴县同乡,二人与吴宽、毛珵、李杰、陈璚等在京苏籍进士,结成吴中文字会,轮流举办雅集,增进同乡情谊。

其次是因会试缔结的同年关系。应试举子来自两京十三省,虽然地域出身不同,但通过同年会等形式建立起新的社会关系,事实上,在明代,同年进士几乎具有兄弟之义。例如,徐阶以座师身份为《嘉靖癸丑科进士便览录》作序时便曾言:“有能明于兄弟之义者,可语于事君矣。”同年进士在官场上往往互相照应,形成重要的圈子网络。

表3 具有高亲密度的明代进士人物及主要关系(部分)

最后是同年同乡进士之间,更易联姻结亲,使得进士之间的关系更为紧密。比如,表3中杨守祉之女就嫁于同乡进士陆瑜的从孙陆偁(弘治六年进士);顾清与李希颜、王鏊与毛珵等也都结成儿女亲家;张居正与李幼滋不仅是姻亲,而且二人在政治上互为奥援,张居正父亲去世,正是李幼滋首倡“夺情”。此外,舅甥关系自古密切。表3 中张璁与王激、徐溥与吴俨就属舅甥关系,张璁长王激四岁,二人都从学于李阶(正德六年进士),而吴俨选庶吉士时,其舅徐溥时任吏部左侍郎兼翰林学士,对吴俨提携有加。明代进士之间的这种横向联系,吴宽曾概括为:“同时也,同乡也,同朝也,而又同志也,同道也,因名之曰‘五同会’。”而“诸同”之间的婚娅网络,进一步巩固了群体成员之间的联结。

明代科举社会中的功名具有序列性,其等级意识通过称谓、服饰、地位等不断得到强化。即便是没有功名的童生,其社会地位已高于平民,获得生员功名后,可享有廪膳月供、徭役优免等特权,并能通过各种形式参与地方政治。举人、进士的社会地位与庶民相比更是判若云泥。因此,明代科举竞争异常激烈,要获得最低的生员功名,一般也要经县、府、道三试。而考取举人、进士的乡试、会试,更带有偶然性。所以,科举各级考试的主试官,因其对所录考生的提携赏识之恩,往往被考生尊为座师。以会试产生的师生关系为例,一旦缔结,座师门生名分终生不变,座师举荐提携门生不遗余力,门生则事座师如父,若师生同朝为官,往往互为奥援,甚至结成朋党[31]。从纵向看,表3所列进士人物中,座主门生之间的交往非常密切。以弘治六年进士何孟春与其座师李东阳为例,经循证分析发现,李东阳对何孟春极为赏识,常将孟春之作介绍给同僚,称“此吾楚后来之杰也”;何孟春则终身追慕李东阳,是李东阳茶陵派的核心成员,在其为李东阳百首《拟古乐府》所作的注解中,表明对李东阳师古观的全面接受,而其所著《余冬诗话》也被视为对李东阳《怀麓堂诗话》的延续与变新。此外,庶吉士在3年的学习生涯中,往往会与馆师结下深厚情谊。比如,隆庆二年庶吉士于慎行,曾将馆师殷士儋的文集《金舆山房集》编次成书,并在序言中叙其恩泽;殷士儋去世后,于慎行“驰往伏哭”,亲作祭文和行状缅怀其师,多年后又造访旧居并作诗怀念。

2.3.2 进士核心人物量化分析

通过网络节点的特征向量中心性,可以对明代进士人物按影响力进行排序,表4列出了指数年1368-1644 年,特征向量中心性排名前100的核心进士人物。这些人物在当时社会享有较高的声望和影响力,其中有李东阳、严嵩、张居正、王世贞等明代习见的著名人物,也有宋仪望、郭子章等未受重视的各类人物。

表4 基于特征向量中心性的明代进士Top100核心人物(指数年段1368-1644年)

通过对核心人物节点的相关维度特征的统计分析,发现这一具有高声望的核心进士群体,呈现出3个特点。

(1)高科名现象。在表4的核心人物中,一甲进士13人,二甲进士44人,庶吉士37人,会试名次在百名以内的57人,乡试解元10人。实际上,明代官员铨选虽有多种途径,但宣德之后选官以科甲为重,尤重翰林,天顺之后逐渐形成非翰林不入内阁的趋势。庶吉士虽无品级,但3年后散馆一般会得授翰林或科道等台谏官,这些都是被视作“清华之选”的重要职位,《明史选举志》更称:“庶吉士始进之时,已群目为储相。”表4 中,王恕、刘大夏、王廷相、张邦奇、吕本、王维桢、王材、殷士儋、许国、赵用贤等10人原为三甲进士,本来大多要被外放,但通过馆选后成为庶吉士,散馆后顺利进入高层决策圈,这充分显示高科名进士在政治上的绝对优势。

(2)高官阶或高学术影响力。从仕途经历看,表4中仕至内阁学士21人,其中曾任内阁首辅的14人。此外,曾任会试考官的13人,担任庶吉士教习的9 人。值得注意的是,21 名内阁辅臣中,有14人曾主持过会试,这说明通过座师门生关系建立政治势力是普遍现象。还有一类声望较高的人物为名宗宿儒或书院山长,如“气学”代表人物罗钦顺和王廷相、“甘泉学派”的湛若水、“心学”的王守仁及其门人邹守益、罗洪先、王畿。实际上,明中期之后,程朱理学受到以“心学”为代表的其他学说的不同程度的冲击,这些聚合在学术领袖周围的同门士子切磋学问,游从聚合,对文化学术和政治生活产生了重要影响。从这个意义上讲,立功与立言始终是明代士大夫群体的两个主要目标。

(3)中进士时年龄低,生源主要来自国子监。据郭培贵考证,明代进士群体中式时的平均年龄为33.4岁[32],而表4中百名核心人物中进士时的平均年龄仅为28.5岁,其中年纪最小的何景明只有17岁,李东阳和杨一清均为18岁,成化二十三年状元费宏20岁,是明代最年轻的状元。当然,无论是庶吉士选考,还是吏部铨选,对进士的年龄都有限制,因此一些考生往往会少报年龄,即所谓的官年现象[33],但相对来看,本文构建的进士社会网络中的核心人物,中进士时的平均年龄比整体进士的年龄要小5岁,表明年轻的进士更容易获得政治资源,具有更大的仕途发展空间。此外,从生源看,核心进士中国子生出身的占到半数,当然这与监生本身的学业素质有关系,一是优贡选贡的生源本身质量高,二是国子监每科都会吸收落第举人入监学习,因而中式率更高,但也表明作为国家最高学府,明代国子监教育水平居于全国前列。

2.3.3 关系子图分析

对一些重要的进士人物,通过网络关系子图进一步来观察他们之间的社会关系。以张居正为例,提取其政治类社会关系的子图,如图4 所示。张居正的改革政治群体以及反对者群体,主要由同年、同乡、门生、姻亲等人物组成。通过图4提供的线索,经循证分析可知,隆庆六年张居正担任内阁首辅后,为顺利推行新政,开始大规模构筑政治势力网络。网络成员主要包括殷正茂、宋仪望、凌云翼、徐栻、汪道昆、吴百朋、刘应节、李幼滋等嘉靖二十六年的同年进士;梁梦龙、庞尚鹏、张学颜、刘尧诲、陈瑞等嘉靖三十二年的门生进士;商为正、林应训、朱琏、傅作舟等隆庆五年的门生进士,以及方逢时、耿定向、曾省吾、王宗载、李维桢等湖广同乡进士。这一进士群体在张居正主持的平定西南叛乱和东南倭寇、整饬边防、治理漕河、清丈田亩和推行一条鞭法等历史事件和过程中发挥了重要作用。

图4 张居正与反对者的政治关系网络

然而,改革不可避免会触及各个阶层的利益,在新政推进过程中,张居正也不断遇到阻力。一是万历五年爆发的反对张居正“夺情”的事件,其反对派成员主要包括以吴中行为首的隆庆五年进士群体,以及以赵志皋为首的隆庆二年庶吉士群体。进一步观察发现,这些进士中不少人是江西籍进士,他们对张居正重用楚人感到不满,借机上疏极谏张居正丁忧守制。然而,在张居正的强势打压下,反对派进士绝大部分被贬谪罢黜乃至下狱。“夺情”风波之后,次辅张四维与张居正关系开始恶化。万历十年张居正卒后,当权的张四维起复了大批之前被张居正贬谪的人,并与其万历五年的门生进士形成倒张联盟,对张居正改革群体开始清算。图4中的礼部尚书潘晟、吏部尚书梁梦龙、工部尚书曾省吾、兵部尚书吴兑、左副都御史劳堪、南京刑部尚书殷正茂、两广总督陈瑞、湖广巡抚陈省、兵部左侍郎高文荐、光禄寺少卿傅作舟等张居正改革派核心人物,纷纷被弹劾罢斥。由此可见,以座师门生、年谊乡谊、宗族姻亲等关系为基础的社会关系网络演化到最后,容易形成政治同盟或政治对抗。有学者认为,晚明的门户党争,在张居正夺情之争时已埋下祸根,张居正去世之后,朋党政治遽然兴起,遂无法遏制[34],图4从另一个视角印证了这一观点。

3 讨论与总结

随着数字人文等概念的提出和兴起,数据驱动的研究范式受到越来越多的关注。在此背景下,本文基于数字人文理念,提出一个基于知识库和文献的历史人物关系挖掘方法,并对明代进士群体的社会网络进行了实证研究。借助社会网络分析技术和量化统计方法,得到如下结果:

(1)明代进士社会关系网络具有类似现代社交网络的小世界特性与高联结现象,从网络的平均度和聚类系数看,以弘治为界,明代中后期的网络活跃度显著高于明前期,反映明初思想文化钳制严厉,弘治之后开始松动。此外,在晚明进士的社交圈中,不乏僧道、山人、工匠、乐伎、传教士等社会各阶层人物,表明随着社会文化变迁,晚明社会风气趋向开放,士人心态更加包容。

(2)明代科举社会的进士群体形成一个纵横交错的关系网络,表现在同年、同乡、同学、同门等诸同关系,以及由各级科举考试产生的座主门生、学术师承等关系。通过诗文唱和、记咏序跋、雅集宴饮等日常交游,以及荐举保任、官场奥援、联姻结亲等行为,这些关系得以维系和加强,对明代社会的发展产生了深远的影响。

(3)明代进士群体的核心人物具有鲜明的时代特征。基于特征向量中心性的核心人物群体特征表明,高影响力人物普遍具有高科名、高官阶或高学术声望等特点,中进士时的平均年龄显著低于整体平均年龄,表明年轻进士更容易获得政治资源。此外,分析核心人物的历官可以发现,内阁首辅和学术大儒最具社会声望,从侧面说明在明代士大夫的精神世界中,事功和立言始终为其主要目标。

(4)核心政治人物的社会关系呈现类似差序格局的特点,无论是张居正新政群体,反对张居正“夺情”的群体还是张居正死后对其进行清算的群体,都是以座师门生、同乡同年、宗族姻亲等关系为基础结成政治同盟,反映了晚明社会朋党政治的结构特征。

作为一项实证研究,上述结果是对本文所构建的明代进士社会网络的一种探索和尝试。在本文框架下,可以继续构建各种面向学术主题的数据集,并根据需求构建包括符号网络在内的各种其他类型的网络,运用社会网络分析技术和量化统计方法进一步展开研究,如探讨晚明党争、东林书院网络、内阁政治变迁等一系列问题。需要说明的是,对任何历史社会关系网络的重建,只是数据化史料中反映的历史,是对史实的“近真与头绪”。因此,史料数据是否具有代表性和真实性是提炼相关观点或发现的前提。此外,CBDB采用众包方式,虽然积累了相当规模的数据,但仍不可避免存在疏漏缺失之处,这就要求在使用CBDB时要充分考虑数据分布并作数据预处理。从这个角度来说,传统研究范式所强调的对古籍史料的甄别思辨能力,在大数据背景下不但没有削弱,反而显得更重要了。事实上,从数据抽取与集成,网络构建与分析,到知识挖掘和循证分析,每个阶段都深感结合史料来思考和体悟的重要性。

本研究的意义在于为大数据环境下的历史社会学研究提供了一种新思路,也展现了数据驱动的知识生产范式的潜力。通过构建历史社会关系网络,运用社会网络分析方法,得以从全局的时空视角观察明代进士网络的特征与演变,并得到量化的、可复现的结果,而这些结果是传统史料辨析方法难以发现,或者至少难以轻易发现的。随着网络科学和机器学习等信息技术的进一步发展,以及更多更有效的数据获取和分析手段的出现,相信这种跨学科融合的多元化研究范式会带来学术上的创新。然而,本研究仍然存在局限性,如数据的获取依赖于领域知识,较难支持大批资料的系统化处理;而从传统学者角度看,本文实证研究的相关结论可能仍显“表浅”。未来笔者将继续探索机器学习技术在历史人物关系抽取中的应用,以获得更大规模的数据,并与相关领域学者合作,进行更有深度的人文知识挖掘研究。

注释

①http://networkx.github.io/.

②数据来源:http://socialnetworks.mpi-sws.org/datawosn2009.html.

③数据来源:http://socialcomputing.asu.edu/datasets/Douban.

④数据来源:https://www.isi.edu/~lerman/downloads/digg2009.html.

⑤数据来源:http://snap.stanford.edu/data/com-Youtube.html.

猜你喜欢

进士群体
秀才捉弄进士
沭阳:一园三进士,深藏哪些不为人知的秘密
四进士(上)
“群体失语”需要警惕——“为官不言”也是腐败
为特殊青少年群体遮风挡雨
关爱特殊群体不畏难
不容忽视的校园“小群体”
特殊群体要给予特殊的关爱
帮扶青少年中的特殊群体的实践与思考
进士桥