APP下载

基于CiteSpace的国际词汇语义学研究动态可视化分析

2020-06-05燕,邓

乐山师范学院学报 2020年5期
关键词:语义学图谱聚类

郭 燕,邓 宇

(四川外国语大学 a.研究生院,b.语言与脑科学中心, 重庆 400031)

词汇语义学旨在探析词的意义,其发展路径与语义学的发展轨迹密不可分,尤其是结构主义语义学、生成语义学和认知语义学。结构主义主要研究词的内部结构,如直接成分分析法、词义上下义、同义、反义、词汇语义场理论等;生成语义学侧重词汇语义的形式化分析以及深层结构与表层结构之间的转换;认知语义学则关注词的概念化、范畴化、隐喻转喻扩展、词义的认知模型及框架网络等[1-2]。词汇语义学一直是当代语言学的重点学科和议题,并受到心理学、人工智能、计算机科学、神经科学等交叉学科的青睐。因此,把握国际词汇语义学的最新动态和趋势,厘清其关注的核心议题和前沿,对于当代语言学及其相关的交叉学科来说十分必要。本文借助CiteSpace这一科学计量学方法,对近十年(2008—2018)国际词汇语义学的研究现状与趋势进行了动态计量分析,通过绘制科学知识图谱,来客观呈现国际词汇语义学的最新动态和热点,以期为国内词汇语义学未来研究提供参考和建议。

一、研究设计

(一)研究目标

本研究旨在运用CiteSpace对国际词汇语义学进行动态计量的可视化分析,拟呈现词汇语义学的地域研究和学科交叉情况,分析该领域高被引作者和文献,并通过被引文献的聚类分析探寻其演进发展过程。最后通过共词分析,从历时的角度管窥国际词汇语义学的发展趋势,以探寻其研究热点和前沿。

(二)研究工具

本文借助由陈超美团队开发的CiteSpace 软件对国际词汇语义学研究动态进行图谱分析。CiteSpace是基于Java语言开发的一款在科学计量学、数据和信息可视化背景下发展起来的信息可视化软件[3]。该软件基于共引分析理论和寻径网络算法等,对特定学科范畴的文献进行计量统计和分析,以探寻出特定学科的演变路径和拐点,具备多元、分时和动态的特征。该软件可得出作者、机构的合作网络图谱,主题、关键词的共现图谱,文献、作者、期刊的共被引图谱等[4]。其绘制的可视化图谱足以充分地显示某个学科范围演变的潜在动力机制和探测学科发展的前沿[5]。本研究采用的是CiteSpace5.3版本。

(三)数据来源

本文研究数据下载于Web of Science数据库。首先,分别以“lexical semantics”“sense relation”“lexical relation”“synonymy”“antonymy”“polysemy” 和“cognitive lexical semantics”为检索词在Web of Science-SSCI核心合集中进行主题检索(检索到19 670 个结果),再设定刊物类别为“linguistics”和“language linguistics”,时间跨度为“2008年至2018年”,剔除重复项,最终本文共确定了1106项有效文献来进行深度分析。

(四)数据处理过程

将这1106 篇文献的基本信息导入Cite Space5.3,具体操作如下:时间跨度选择为2008—2018年,1年为切割分区,切成10个分段处理;术语来源(term source)同时勾选标题(title)、摘要(abstract)、作者关键词(author keywords)和关键词(keywords plus);节点类型(node types)分别勾选合作网络分析中的国家(country),共现网络分析中的关键词,共被引网络分析的被引文献以及被引作者;阈值阀门选择TOP50;在网络裁剪功能区(pruning)参数勾选“寻径网络算法(pathfinder network)”和“对合并后的网络进行剪裁(pruning the merged network)的剪裁方法”。将CiteSpace 5.3分析出来的数据结果,主要呈现ClusterView,TimezoneView两种可视化分析模式,得到各个知识图谱,再制成可供科学分析的直观图表。经过同类归并,并结合有关文献进行具体分析。

二、词汇语义学发文情况与学科分布

(一)发文国家、地区分析

本文基于CiteSpace提取出国际词汇语义学2008—2018年发文量前10的国家,绘制为表1(如下)。由表1来看,发文量排名前10的国家的文献总和为757篇,占全数总文献量的68.44%。其中北美国家2个、欧洲国家7个、亚洲国家1个。美国在词汇语义学研究领域最活跃,数量为215篇,约占总数的19.44%,可见美国是国际词汇语义学研究的学科中心。位列第二的英国发文111篇,占总数的10.04%。中国总文献量排名第6位,占总发刊文献量的5.24%。总体来看,母语为英语的国家在词汇语义学研究领域的发文量占有优势。

表1 各国/地区(TOP10)发文数量及其中心性(2008—2018)

从中心性强弱程度来看,英国的中心性最高,说明尽管在2008—2018年该国的研究成果仅有美国的一半,但这些成果大部分是具有重要意义的关键节点文献。值得一提的是,中国的发文中心性位居前列,这表明中国学者在词汇语义学领域的研究成果亦有较大的国际影响力。

(二)学科共现分析

图1 词汇语义学学科共现图谱

Category提供学科共现分析功能,用于交叉学科的分析,通过构建学科的关系网络,以展现各个学科之间的内在联系。通过可视化分析,在 CiteSpace生成的学科共现知识图谱中,共展现出23门学科以及61条学科之间的连线(N=23,E=61),学科间的网络密集度为0.2411(Density=0.2411)。网络密度表明节点间合作的紧密程度。固定空间内的节点之间的连线越多,网络密集度便越大[6]。总体上来讲,学科合作网络密集度反映了国际词汇语义学研究的跨学科性较强,学科间的合作较多,关系较为密切(见图1)。图中最大节点的是Linguistics,其次是Language,这两个学科研究内容与词汇语义学的研究内容相近,故而词汇语义学学科的相关研究大多与此两个学科相关联。同时,与词汇语义学结合紧密的学科还有心理学,计算机科学,听力-言语病理学、教育学、人工智能等。可见词汇的研究广涉认知、计算机、教育学、病理学、人工智能化等诸多前沿领域,是一门应用十分广泛的交叉学科。

(三)词汇语义学热点与前沿

1.高被引作者分析

美国德雷克赛大学怀特博士表示,作者共引频次越高则作者学术相关性越强[7]。在CiteSpace生成的作者共被引科学知识图谱中,共显示出 308个作者和728条作者之间的连线(见图2)。图中,节点越大,表示该作者在国际词汇语义学领域越有突出贡献。从图中可以看出, 语义学家Lyons,生成语言学家Chomsky、Pustejovsky,系统功能语言学奠基人Halliday,认知语言学家Lakoff、Langacker、Talmy、Croft 、Cruse、Fellbaum等学者从不同语言学视角对词汇的结构、网络、功能、认知等层面做了广泛研究,这些知名学者的引领性研究把词汇语义学带入了诸多语言流派,使得词汇的研究成为语言学的风向标。

图2 近十年词汇语义学高被引作者

2.高被引文献分析

(1)词汇语义学高影响力文献

一个研究领域(Specialty)可以被概念化成一个从研究前沿(Research Front)到知识基础的时变对偶(Time- variant duality)或是时间映射,该研究领域的知识基础即由原始数据中的被引文献构成。基于1106项文献,我们绘制了词汇语义学研究的文献共被引知识图谱,见图3。如图 3所示,彩色的节点和节点间连线构成较为宏观的知识图谱。节点代表文献,其大小代表该文献被引用的总频次——节点越大,表明其被引频次越高;节点由代表不同时间分区的年轮呈现,不同颜色表示不同的时间。若节点间连线越粗,说明共被引强度越大,文献之间的关系越密切[5]。根据引文数据的总被引频次来看,词汇语义学的认知转向颇为显著。

图3 国际词汇语义学研究的文献共被引知识图谱

比如,位于图谱正中间,最显著的节点——“Croft, W. & Cruse, D. A.(2004).Cognitivelinguistics”是近十年词汇语义学认知研究中影响力最大的文献,总计被引23次。该著作从原型范畴理论、ICM、隐喻、转喻等多个认知视角探究了词汇语义的认知关系,如多义、同义、上下义、反义和互补等[8]。Croft尤其注重基于用法的研究视角,这对于词汇语义学的实证研究范式具有推动作用。

又如第二大影响力的文献,位于第一大节点右下方——“Goldberg, A.(2006).Constructionsatwork:Thenatureofgeneralizationinlanguage”,总计被引15次。构式语法强调形式与功能的互动,词汇意义与构式意义的连续统关系在词汇使用和习得之中愈发重要[9]。按照激进构式观,词汇亦可视作构式,可见词汇的构式研究极大拓展了词汇语义学的研究对象以及研究视角。

词汇语义学研究第三大影响力的文献位于前两大节点中间——“Baayen(2008),AnalyzingLinguisticDataAPracticalIntroductiontoStatisticsUsingR”,总计被引 14 次。该书以词汇研究为例,重点讨论了词汇语义学研究可能创新的实证方法,如聚类、回归建模策略、混合效应模型,以及用嵌套和数据集分析所需的模型交叉重复法[10]。该书折射出词汇研究的定量趋势,尤其是词汇研究大数据视角是未来的前沿。

(2)词汇语义学研究中的转折点文献

每个学科研究领域在一定时间范围内还会出现转折点文献,可通过计算文献的中介中心性(Betweenness Centrality)来辨识。在CiteSpace中,中介中心性是节点在关系网络图谱中度量连接作用大小的一个重要的指标,常用此指标来衡量某文献的重要性,中心性超过0.1的称为关键节点[4]。表2汇总了近十年国际词汇语义学研究中介中心性前五的文献。

表2 高中介性的文献(2008—2018)

首先,中介性最高的也是上述高被引第三的文献。Baayen利用R语言技术为研究词汇意义提供了更为科学的方法论,也是词汇语义学定量转向的标志。Gries和Stefanowitsch探索词汇与更大语言单位句法和构式的互动,Gries ST 以语料库为基础,量化分析句法和词汇的关系[11];Stefanowitsch则重点通过新的构式搭配的分析方法来揭示词汇意义和构式意义的互动关系[12]。Klepousniotou和Tyler 均转向词汇语义学多义词领域的研究[13-14]。Klepousniotou用脑电图来研究英语中同名词和多义词的隐喻和转喻现象,这是词汇语义学研究与脑神经科学、心理学相结合的一大科学研究趋势;且根据学科共现分析,笔者认为这一趋势会在未来几十年内成为潜在的新型研究热点。

(3)词汇语义学的前沿课题

CiteSpace可根据文献间的共被引关系通过自动抽取施引文献的关键词或名词短语显示聚类(Cluster)标识,用于归结研究热点,每个聚类可以被认定为一个关系较为密切的独立研究领域[15]。将图3进行自动聚类运算生成科学知识聚类,然后通过LLR算法,从引用聚类的相关施引文献中提取关键词,以此表征相对应的知识背景和研究前沿[4]。一般来说,聚类值Modularity Q值>0.3表示划分出来的社团结构是显著的;聚类内部相似度指标Silouette S值>0.7表示聚类是高效率令人信服的,可以说明“聚类内节点的主题联系比较强,结果有参考价值”[15]。通过对聚类的分析,我们可以从历时的角度对词汇语义学研究进行梳理,把握该学科的历史与现状。

图4 词汇语义学文献共被引聚类知识图谱

通过CiteSpace软件,总共生成131个聚类结果,本文着重提取Q值>0.3,S值>0.7的13个聚类如图(见表3)。词汇语义学这一研究领域显著的13个聚类分别为“Conceptual metaphor(#0)”、“Polysemy(#1)”、“Semantic analysis(#2)”、“Antonymy(#3)”、“Near-synonymy(#4)”、“Subsumption(#5)”、“Pluricentric languages(#6)”、“Computational linguistics(#7)”和“Vocabulary(#8)”、“Speech event feature(#9)”、“Discourse makers(#10)”、“Semantic ambiguity(#12)”、“Concept similarity(#22)”这13个聚类在一定程度上代表了词汇语义学的研究热点和前沿。其中,最大的三个聚类是“Conceptual metaphor”、“Polysemy”和“Semantic analysis”,节点数分别为39,36和35,聚类“Semantic ambiguity”代表了国际词汇语义学的最新研究主题(平均发表时间为2011年)。

表3 文献共被引聚类信息(2008—2018)

3.关键词共现分析

一个领域的研究热点和前沿动态可以通过研究关键词在其领域出现的频率来确定。关键词浓缩和提炼了论文的核心观点和研究主题,根据关键词频次数目可以分析出研究中的热点。关键词的频次越高,代表其研究热度越强[4]。同时,研究领域的研究热点也可由中心度来判断。作为节点在网络图谱中连接作用大小的度量,中心性(Centrality)大的节点文献往往被视为该领域知识发展过程中的关键文献。关键节点在整个网络中起战略性作用,展现了关键词之间的内部关联。节点的中心度越高,连接和传达信息的关键词越多,说明其在整个网络中的“媒介”作用能力也就越强[4]。表4是由CiteSpace软件统计得出的2008-2018年间国际词汇语义学的高频关键词和高中心度的关键词,而图5则是由CiteSpace软件所生成的高频关键词的聚类图。表 4列举了2008-2018年共现频次前15的关键词。从表 4 中可以看到,“polysemy”是出现频率最高的关键词,出现频次为119次;其次是“language”,出现频次为99次;而后是“English”“semantics”和“discourse”等。这五大高频关键词在一定程度上显示了研究者的研究倾向性及其所关注的核心话题。

图5 高频关键词共现图

我们抽取Centrality>=0.1的结果15条。如表 4 显示,中心度排在前三位的关键词依次是“vocabulary”、“language”、“word”,这是由于词汇语义学紧紧地与词义联系;随后依次为“working memory”“children”“sentence comprehension(comprehension)”“polysemy”与语篇相关的关键词,它们在国际词汇语义学研究的知识网络中也具有重要的中介作用。但是,并非所有的高频次、高中心度的关键词都有明确的倾向性和指向性,如“vocabulary”“language”“word”“semantics”等所指笼统宽泛,难以说明其研究的趋势,在统计时需剔除此类词汇。如此可见,“working memory”“comprehension”“children”“polysemy”“acquisition”等关键词为国际词汇语义学研究的热点和关注聚焦中心。

表4 高频关键词(TOP15)及其中心度(2008—2018)

(四)研究热点的演化路径

为揭示国际词汇语义学研究主题的变化趋势,本研究通过Citespace 的 “Timezone View”关键词时区划分功能,以1年作为一个时区,分别对2008-2012年和2013-2018年两个时间段的研究主题演进进行了分析,筛选出最为显著的关键词,结果见图6和图7。在CiteSpace的关键词时区图中,每个十字标记都代表一个关键词,且关键词一旦出现,便固定在其首次出现的年份,相同时区中集结了相同时间范围内出现的关键主题词,而十字标记的大小则对应该词从首现年份开始以后共出现的频次多少;各时间段之间的连线代表各时间段之间的顺承关系,连线的多少对应关键词间顺承关系的强弱[16]。从图6可看出,2008年最早的研究视野主要集中在“polysemy”“English”“language”“semantics”和“discourse”等议题;逐步出现“corpus linguistics”“children”“acquisition”等主题,表明词汇语义学在2008—2012年间与语料库结合和研究儿童语言习得相结合。而后又出现了“learner”“syntax”以及“wordnet”等将语义与句法和学习者相结合的主题。图7显示,2013—2018年“polysemy”“English”“language”“semantics”和“discourse”仍然是研究的热点所在。后来相继出现了“working memory”“grammar”等认知记忆和语法的研究主题。而后又出现了与“metaphor”“lexical semantics”“cooccurrence”“construction”“proficiency”和“recognition”等词汇隐喻认知的相关主题,尤其是2006年首现的词汇和构式的互动关系为目前词汇认知研究的研究热点。此外值得注意的是,在2017年出现新兴的关键词“autism spectrum disorder”和“alzheimers disease”等与病理学有关的关键词,正好照应了上文词汇语义学和病理语言学的学科交叉性。综合来看,2008—2018年间,与“polysemy”“semantics”“metaphor”和“discourse”等相关热点主题的研究较为丰硕,后继学者在认知词汇语义学上的探索可以借鉴此类主题的研究,并加以深入发掘,或是拓展此领域相对兴起的与“construction”“proficiency”“disease”和“language disorder”等相关的研究主题。

图6 2008—2012年关键词演化

图7 2013—2018年关键词演化

本文通过CiteSpace可视化工具揭示了近十年国际词汇语义学研究的热点和前沿。研究发现本学科的主流地域为美国、英国等欧美国家,这些国家主导着国际词汇语义学研究的话语权,中国在词汇语义学研究的国际影响力也在逐渐提升。同时,词汇语义学领域也涌现出了一批高影响力作者,引领着词汇语义学的发展前沿。词汇语义学领域近十年普遍关注的热点主题是 “polysemy”“discourse”“metaphor”“semantic analysis”“computational linguistics”等,这些高频关键词在某种程度上代表了在 2008 年到2018 年间国际范围内词汇语义学界普遍关注的热点领域;且词汇语义学和心理学、计算机科学、病理语言学以及神经科学结合是研究趋势和前沿。总体而言,词汇语义学研究的认知转向和定量转向颇为显著,代表着词汇语义学未来的总体研究方向。

猜你喜欢

语义学图谱聚类
条约演化解释:合法性、语义学分析及近似概念
绘一张成长图谱
卢曼理论中“Semantik”一词的翻译问题:语意/语义还是语义学——基于现象学方法论的探讨
基于K-means聚类的车-地无线通信场强研究
Hiddleston’s Causal Modeling Semantics and the Distinction between Forward-Tracking and Backtracking Counterfactuals*
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法