基于共词网络分析视角的词典考古新探
——以《辞海》为例
2022-09-10龚琪峰
龚琪峰
(南京大学外国语学院,江苏南京 210023)
0.引言
Robert Ilson(1986:127-136)提出的词典考古采用比较词典学的研究方法。该方法在比较“相同词典不同版本、来源于相同材料的不同词典、同一出版社出版的不同词典”的基础上,揭示和挖掘词典在历时演变中的相互关系,以服务于“词汇史、词典编纂、词典批评以及词典编纂人员培训”等领域。国内外词典考古研究主要包括词汇史和词典学两个视角。词汇史相关研究主要用词典语料以辅证词汇史研究(Baider 2007;Westveer et al.2018);词典史相关研究则基本遵循词典考古所预设的研究路径(Sidney 1994;Coinnigh 2012;Traci 2014;Choi 2016;Kamiński 2017)。另外,将网络分析应用于词典的相关研究也不乏其例(Polguère 2009;Torner & Arias-Badia 2019;徐德宽等2016;张相明2017;郑飞2019);同时,共词分析也构成了语言网络研究的重要组成部分(刘知远等2008;刘海涛2009,2011;梁伟等2012;韩普等2014)。
总体而言,现有的词典考古多为定性研究,虽然有基于统计的研究案例,但多对比分析语文词典特定词条或某类词条;而基于复杂网络分析的词典研究则主要分析网络特征,部分忽略了“形式研究的主要意义和价值是通过形式掌握它的内容”(刘海涛,郑国锋2021:11);同时,此类研究也缺乏词典考古所强调历时比较研究视角。最后,将共词分析与复杂网络特征分析相结合的词典相关研究也有待探索。因此,本文拟以《辞海》(1979/2019)中含“资本”词目的释义文本为语料,历时对比与分析共词网络特征,探索综合性辞典的词典考古新方法,以期在利用大数据分析方法和工具的基础上重新发现词典考古在词典史、词典编纂以及词汇史等领域理论和实践价值。
1.《辞海》知识的系统层级结构
“在人类的语言和知识建构中,词典是最成熟、最具有清晰结构和形式的一种公共化的集合”(史雷鸣2019:37)。那么,综合性辞典则就是通过公共化语言资源的结构和形式来表征和建构的知识系统。然而,“它(《辞海》)把众多学科完整的‘大块’知识打碎,分解成12万多个‘小块’(条目)……难免会割裂知识系统的内在联系,使原来的知识系统变成不联系的信息组合”(乐嘉民1999:34)。因此,面向综合性辞典知识系统的词典考古需要通过语言系统将“不联系的信息组合”组织起来形成“有联系”知识系统。
所谓系统是指“处在一定相互联系中与环境发生关系的各组成部分的整体……系统又不是要素的简单相加,它还包括要素间的关系,要素有机地组织起来才构成系统整体”(同上:33-34)。要素间的有机关联是构成系统整体的基础。同时,系统也存在着复杂的层级关系。《中国大百科全书哲学卷I》(1987)把层级定义为表征系统内部结构不同等级的范畴。系统内部分要素关联并协同整合为统一系统;而该系统又是更大系统的子系统,这样作为要素的子系统又构成了更高级别的系统。可以说,要素间关联是子系统内层级关系的基础;而子系统间的相互关联是系统整体运行的基础。就《辞海》而言,释义成分间关联在各词目内形成了相对独立的子系统。然而,《辞海》的整体系统体现在以词目系统的形式关联为基础的释义成分的内容关联之中。其中,词目系统性直观地体现在词目间的共同构词成分的形式关联,而词目释义成分的有机组织则形成了词目系统的内容关联。同时,“知识本身和知识载体间存在着各种关联,这种联系对外表现出一定的结构特征,如有线性结构、非线性结构、链式结构、等级结构以及网络结构等”(阮光册,夏磊2017:1249)。《辞海》内的知识系统性需要将形式系统性深入到释义文本所体现的内容系统性并在系统的结构特征中体现层级特征,从而构建由表及里的词典考古分析路径。
2.共词网络构建与特征分析
本文所采用的共词网络方法打破了词目内部释义文本的线性结构;形成释义成分的跨词目的网络结构,共词网络分析的层级聚类又将“不联系的信息”重新组合为有联系的层级聚类结构。具体而言,Louvain社区通过释义文本共词网络中节点间的关联量化进行层级聚类,各社区以聚类形式呈现,形成以聚类为基础的知识主题并将词目系统性呈现于知识主题的核心要素之中;而各知识主题的核心要素则通过社区内的节点的度中心性(Degree Centrality)得以量化。其中,节点聚类所形成的子网络代表了释义文本的子系统,节点间的量化关联特征是聚类依据,也是形成子网络层级特征的基础。与此同时,聚类所形成的子网络又相互关联,从而形成释义文本的总体系统特征。各聚类中节点数量代表了该聚类的系统复杂程度以及主要内容。共词网络的历时对比与分析则相应地呈现了不同历史时期《辞海》知识的系统层级结构的变迁。
2.1 共词网络构建
“共词分析方法属于内容分析方法的一种,它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映这些词之间的亲属关系,进而分析这些词所代表的学科和主题的结构变化”(赵蓉英2017:33)。文本中词语间的共现关系形成的网络是语言网络。“网络是对一组相互关联实体的简单描写。实体是网络的节点;而关联是网络的边”(Menczer & Fortunato 2020:1)。语言网络的基本构成成分包括节点、边、权值、度值等。其中,节点和边是网络的直观构成成分,权值和度值是网络中节点及节点间共现关系的数值体现。本研究基于词目释义文本所构建的共词网络中,节点是词目释义成分,而边则代表释义成分之间关系,权值代表网络中释义成分之间的共现强度,而度值就是网络中节点词所拥有的边的总数,即与该节点词有直接连接的其他节点的个数,反映了特定节点的联通性。以《辞海》含“资本”词目释义文本为基础语料,共获得123条词目。其中,《辞海》(1979)含51条;《辞海》(2019)含72条①。由于语料规模较小,本文采取人工分词。若两个词语在句内具有共现关系,则形成邻接矩阵内的顶点,即共词网络中的节点;两个词语的共现频次即为共现强度,也相应形成了共词网络的节点间边权值。
2.2 共词网络特征分析
上述共词网络特征仅是网络成分及其数值特征,而释义文本的共词网络分析需要将网络成分和数值形式进行组合聚类,以便发现《辞海》释义文本中知识单元关联性基础上的系统性和层级性特征。依据上文所提到的共词网络的数值特征,本文欲采用复杂网络的Louvain社区(Louvain Community Detection Method)和度中心性(Degree Centrality)。前者呈现共词网络的层级聚类特性;后者呈现共词网络中各层级所形成的子网络的中心所在。
2.2.1 Louvain社区
《辞海》释义文本的词目内释义要素和词目间共有的释义要素关联相对较为紧密,但词目间的相关性需要进一步挖掘和分析,这极有可能会形成词目内高互联,而词目间相对稀疏关联。“社区”正是指复杂网络内具有大量内部连接和很少外部连接(到网络的其余部分)的节点集,即“社区内高互联,社区间高稀疏的网络”(褚叶祺,丁佳骏2021:258)。Louvain社区发现本质上是一种聚类方法,它的基本思路是通过模块度优化划分精度,以有效辨别网络内的社区层次结构;同时也支持对社区的再次聚类,能更精确地发现各社区的核心所在。Louvain社区发现的主要参数包括模块度(Modularity,记作Q)②,用于描述社区内部节点的紧密程度。其计算公式如下:
上式中,Aij指网络中任意节两个节点i与j之间的边权值,ki与kj分别指所有节点与任意节点i和j之间的边权值表示平均边权值。c为社区,而ci,cj分别是在任意节点i和j所在的社区。σ表示同一社区,当节点i与j在同一社区时,σ=1;否则σ=0;m则表示网络中总边数。
2.2.2 度中心性
度中心性表示特定节点和其他节点直接联系和交互的能力。如该节点与网络中的较多节点有直接的联系,则该节点就处于中心地位。度中心性主要考虑节点及其邻近的节点,反映了节点在局部子网络中的重要性,可用以呈现共词网络的子网络中心所在,该子网络中心衔接了整体网络和子网络,代表了子网络非中心词的词汇意义通过子网络中心词与整体网络建立起相关性关系;该相关性关系也相应地将中心词意义传递至子网络内。度中心性的计算公式如下:
上面的公式是计算节点pk的度值,其中n为词共现网络中节点的个数;pi代表第i个节点。a(pi,pk)的值见下面的公式:
将Louvain社区与度中心性结合起来分析《辞海》释义文本的共词网络,既能发现知识主题的系统层级聚类,又能突显知识主题中度值最高的节点,发现知识主题的中心所在。同时,对“资本”所在社区的再次层次聚类分析则是共有构词成分在释义文本中释义因素的体现,是“资本”的概念内核所在;这一概念内核也在相应释义文本中得以展开;而对两版《辞海》释义文本共词网络的节点差异的再聚类则体现了两版《辞海》知识主题的变迁。
3.《辞海》(1979/2019)含“资本”词目释义文本的共词网络对比分析
考虑到《辞海》释义文本的知识主要是显性知识或陈述性知识,而名词通常是陈述性知识中最小的知识单元,所以本文共词网络仅保留名词性词语节点。本文采用“肖航汉语分词工具”(Corpus Word Parser)③对分词结果词性标注。随后利用Text Ming④自编程序提取文本词语的共现关系,构建共词网络;利用Pajek⑤进行网络特征分析,进而对比分析两版《辞海》共词网络所体现的系统特征差异。
3.1《辞海》(1979)
《辞海》(1979)共有51条含“资本”词目。图1中共词网络的具体参数如下:词对共现阈值为1(全网节点统计);节点数(437);边(7,650);平均度值(19);分类参数(Louvain社区发现,模块度0.49);矢量参数(度中心性)。
图1 :《辞海》(1979)含“资本”词目释义文本Louvain和度中心分析
在Louvain社区和度中心性分析基础上,统计各社区节点数量和占比;同时,筛选社区内中心节点词(即度值前五的节点词),以辅助共词网络的知识主题分析。
表1 :图1中各社区节点统计及中心节点列表
?
《辞海》(1979)含“资本”词目的释义文本共形成了10个社区。各社区中,“资本”所在的社区4代表了《辞海》(1979)最核心的知识主题。我们提取“资本”所在社区并再次Louvain社区和度中心性分析。
图2中,词对共现阈值为1(全网节点统计);节点数(94);边(1,367);平均度值(27);分类参数(Louvain社区发现,模块度0.68);矢量参数(度中心性)。图2“资本”所在社区中,与“资本”关联强度较高的节点分别是“生产资料”“剩余价值”“生产过程”“工人”和“劳动力”。该社区代表了《辞海》(1979)含“资本”词目的核心释义要素。同时,图2呈现了以“资本”“资本家”“过程”和“预付资本”为中心节点的社区。我们仅将前三个社区作为例子分析。
图2 :《辞海》(1979)“资本”所在社区Louvain和度中心分析
如图2所示,首先,在任何社会条件中,生产资料都是人们从事生产所不可缺少的物质条件,劳动力只有同生产资料结合才能进行生产。然而,“资本”关联节点“剩余价值”与“生产剩余价值”则将劳动力与生产资料的结合方式限制于资本主义制度之中。这也与《辞海》(1979)中“资本”经典定义一致,即“资本是一种带来剩余价值的价值”⑦。这形成了该版《辞海》含“资本”词目知识系统的底层逻辑。如图1中社区2主要阐述在生产、流通与交换过程中,由于生产资料与劳动力的结合,“资本的不同组成部分在价值增殖过程中执行着不同的职能”(马克思2018:52),从而产生多种资本形式,如“不变资本”“可变资本”和“职能资本等”。
其次,图2以“资本家”为中心节点的社区中,“货币资本”“资本循环”“生产资本”“商品”和“流通过程”与其关联强度较高。上述节点间的关联符合马克思将商品作为资本研究的起点,从商品—货币—资本的进路揭示资本的本质内涵和特征。正如马克思所言,“总过程表现为生产过程和流通过程的统一;生产过程成为流通过程的中介,反之亦然”(马克思2012:86)。同时,生产与流通过程中,资本发生的形态变化引起了资本主义生产方式的变迁。图1社区1中,工业资本与银行资本结合形成的垄断资本是从自由资本主义向垄断资本主义(帝国主义)过渡的基础。垄断资本主义时期,生产与社会需求之间的矛盾所产生的剩余资本的循环与流通会输出到世界市场,尤其是殖民地国家并在输入国形成外国垄断资本。同时,图1社区9以银行与企业间的资本运作为背景,阐述资本积累的规模与银行信用体系对于资本主义社会生产的重要性;同时,资本主义社会的信用体系易造成资本集中和垄断;这也是社区9中孙中山提出的“三民主义”中节制资本的背景。
最后,以“过程”为中心节点的社区主要阐述资本主义发展历史。如“圈地运动”“土地”等节点词表示资本主义生产方式在西欧国家的建立过程;同时,“殖民地”节点则说明资本的扩张本性以及资本原始积累时期相关内容。比如图1中社区3主要强调资本在不同社会制度中(前资本主义社会和资本主义社会)的存在形态以及资本主义制度下的资本形态的特殊性。图1中社区10则以银行为背景讨论资本主义社会的资本运作以及资本在半殖民地半封建国家与地主与封建买办势力结合所形成的国家垄断资本。
正如《辞海》(1979)中“资本”的释义所示:“带来剩余价值的价值。生产资料和货币本身并不是资本,只有在一定的历史条件下,即当它们为资本家占有并用作剥削手段时,才成为资本。所以,资本不是物,而是通过物来表现的资本家对工人的剥削关系”⑧。“资本”以价值形态存在于资本主义生产方式,在资本主义的历史条件下,体现了资本主义社会的剥削关系。这奠定了《辞海》(1979)含“资本”词目释义文本知识系统的底层逻辑。该底层逻辑形成了“资本”所在社区的4大基础知识主题并拓展至释义文本,构成了词目释义文本共词网络中所隐含的系统层级知识。
3.2《辞海》(2019)
《辞海》(2019)共有72条含“资本”词目。下图3共词网络的具体参数如下:词对共现阈值为1(全网节点统计);节点数(781);边(13,846);平均度值(35);分类参数(Louvain社区发现,模块度0.6);矢量参数(度中心性)。
图3 :《辞海》(2019)含“资本”词目释义文本Louvain和度中心分析
在Louvain社区和度中心性分析基础之上,我们统计各社区中节点数量和节点占比;同时,筛选社区内中心节点词(即度值前五的节点词),以辅助共词网络的知识主题分析。
表2 :图3中各社区节点统计及中心节点列表
?
《辞海》(2019)72条含“资本”词目的释义文本共形成了12个社区。各社区节点数量表明,“资本”所在的社区8代表了核心的知识主题。本文提取该社区并再次进行Louvain社区和度中心性分析。共发现6个分别以“资本”“流动资产”“殖民地”“商业资本”“资本集中”和“过程”为中心节点的社区。
“辞书与一般著述(甚至学术著作)很不相同的特点就在于它们具有更明显的继承性”(邵重,赫迎红2004:53),这也相应地体现在两版《辞海》的共词网络中。首先,“资本”为中心节点社区中出现与《辞海》(1979)相同的“资本家”“工人”“剥削关系”等节点,同时,该社区中“生产资料”也与“资本主义生产方式”和“资本主义的形成”等节点相关联。其次,以“殖民地”为中心节点的社区中,“买办资本”“官僚资本”和“外国垄断资本”是资本输出和海外扩张的常用“手段”。在以“过程”为中心节点的社区中,“资本主义生产方式”在西欧国家中通过圈地运动、掠夺土地等方式,实现生产资料与所有者的分离,雇佣工人只能以出卖劳动力的方式获得基本生活资料。再次,在以“商业资本”为中心节点的社区中,“高利贷资本”和“生息资本”在前资本主义社会是“资本”商品货币属性的本质表现,而二者又是商业资本的重要形式;体现着社会制度中的贫富不均与阶级对立。上述社区均体现了《辞海》(2019)对《辞海》(1979)“资本”概念要素的部分继承。
虽然图4共词网络反映了“资本”核心概念要素在两版《辞海》间的继承性,但图4中,“资本”所在社区中,“资本”与“市场经济条件”、“我国”以及“社会主义经济”等节点均存在关联。这反映了《辞海》(2019)“资本”的部分释义,即“社会主义市场经济条件下投于企业生产和经营活动的固定资产和流动资产的价值形态”⑨。可见,《辞海》(2019)中,资本的价值形态已部分地脱离资本主义知识背景,强调在社会主义市场经济条件下价值实现。这也必然体现在《辞海》(2019)释义文本的共词网络之中。我们将《辞海》(2019)共词网络节点与《辞海》(1979)共词网络节点去重,提取《辞海》(2019)特有节点及其词共现关系,进行Louvain社区及度中心性分析。最终,共词网络参数包括节点数(278);边(3,466);平均度值(25);分类参数(Louvain社区发现,模块度0.7);矢量参数(度中心性)。
图4 :《辞海》(2019)“资本”所在社区Louvain和度中心分析
如图5所示,与《辞海》(1979)相比,《辞海》(2019)含“资本”词目释义文本的共词网络新增了以“企业”“无形资产”“资产”“社会”“社会关系”“效益”和“单位资本”等为中心节点的社区。
图5 :《辞海》(2019)节点去重后共词网络对比分析
首先,以“企业”为中心的社区,节点数量最多。该社区主要阐述企业运用资本的投资行为,以股份形式参与到企业经营中的资本及表现形式。这体现在社区“企业注册资本”“股份资本”和“股份公司”等节点。同时,以“效益”为中心节点社区中,“注册资本”“股权”“发行债券”“市场法则”和“转增股本”均以“资本”的虚拟形式(股票、证券)在企业中的运作为中心,阐述虚拟资本在市场法则中的运行和收益。其次,以“资产”为中心节点的社区则主要围绕资本在资本市场中作为进行具体价值创造的媒介,将企业或公司所拥有的资源转化为资产,从而获得价值并以收益的形式回馈给投资者。最后,围绕节点“社会关系”主要阐述了资本的多元表现形式,尤其是资本在非物质维度的拓展,比如“文化资本”“智力资本”和“无形资本”等;多元的社会文化因素也成为资本非物质性质的构成要素,比如社会资源、文化、资格、文化价值和学历证书等。同时,以“社会”为中心节点的社区中,主要阐述社会行为主体通过社会规范、社会结构和信任关系所获得的资源,这也是社会学中社会资本概念的核心内容。
综上,《辞海》(2019)既继承了1979年版《辞海》的“资本”在资本主义制度下的知识内容,又具备了新内涵,尤其是“资本”概念要素在社会主义公有制和市场经济条件下所具备的价值形态。一方面“资本”的价值形态从资本主义制度下的剩余价值形态向社会主义制度下“资本中性”转移,使资本回归到其经济增殖本质上来;从而使资本在市场、企业和社会关系层面具备了新的内容;另一方面,“资本”从物质维度向非物质维度的拓展,使资本的增殖性也从经济领域拓展至社会领域,也形成了多种体现社会属性的资本样态。这奠定了《辞海》(2019)含“资本”词目释义文本知识系统的新的底层逻辑,即作为“资本中性”的资本在社会主义条件下,在经济与社会领域具备的新价值形态。这一新的底层逻辑形成了“资本”的新知识主题并拓展至释义文本之中,从而形成了《辞海》(2019)含“资本”词目释义文本中所隐含的系统层级知识。
4.结语
传统的词典考古无法全面和有效地分析综合性辞典内知识的系统性和层级性特点。因此,本文以两版《辞海》含“资本”词目释义文本为语料,结合共词网络分析方法,历时对比和分析了二者在知识系统层级性的不同之处。通过将共词网络分析方法引入词典考古研究中,将面向语文词典的特定词条的词典考古方法推进到历时定量层面,推动了该方法朝着量化分析的方向发展。另外,本研究以综合性辞典为研究对象并在研究方法上突破了辞书词目限制,将词目系统的形式关联深化到释义文本的内容关联,分析和对比了不同时期《辞海》的知识系统层级性特征。在一定程度上,本研究拓宽了词典考古的研究视野和研究方法,这也对共词网络分析的拓展和深化也有一定的推动作用。但受限于语料规模和研究水平,本文也存在诸多不足,比如基于综合性辞典词目的学科划分分析特定学科在综合性辞典内的系统层级特征有待更为全面和深入的研究。
注释:
①含“资本”词目数量统计未统计“资本”“资本论”,含“资本主义”“资本家”词目以及著作或书名;同时,同一词目下不同释义做合并处理。
②学界一般认为模块度大于0.4,即表明网络具有明确的聚类倾向。
③http://corpus.bfsu.edu.cn/CorpusWordParser.zip该软件支持用户词典以定义分词条目及其词性。
④https://mp.weixin.qq.com/s/sechQ54kNqZqpJUa-8-b0g该软件为自编程序,主要应用于文本挖掘等研究领域。本文已获得使用授权。
⑤http://mrvar.fdv.uni-lj.si/pajek/本文主要利用pajek分类(partition)的Louvain Methods以及矢量(vector)的degree centrality。
⑥社区2中“不变资本”和“可变资本”度值一致,因此二者做统一处理。
⑦http://chlb.cishu.com.cn/VersionInfo/3?fd=hw&key=%E8%B5%84%E6%9C%AC&mode=0&fg=1&version=6-5-401-4-3-301-2-1
⑧http://chlb.cishu.com.cn/VersionInfo/3?fd=hw&key=%E8%B5%84%E6%9C%AC&mode=0&fg=1&version=6-5-401-4-3-301-2-1
⑨https://www.cihai.com.cn/baike/detail/72/5648284?q=%E8%B5%84%E6%9C%AC