APP下载

2000-2017国外关系从句研究动态的科学知识图谱分析

2016-09-03

中国地震 2016年2期
关键词:热点图谱聚类

( 湘潭大学 外国语学院,湖南 湘潭 411105 )

一、引言

关系从句是名词性成分的小句定语,由一个中心名词和一个限制成分组成。因其结构复杂、类型独特,一直是语言学界语法研究的热点。国外关系从句的研究主要沿着:①语言类型学[1][2][3][4][5][6]等;②生成语法[7][8]等;③认知语言学等[9][10];④语言变异[11][12]等几种思路展开,取得了出色的成果,但也存在诸多争议。因此对有关关系从句的国外研究动态做一次精要回顾很有必要。目前学界尚未见到这方面的研究,因此笔者打算做一番尝试,弥补这方面的研究缺憾。本文力图弄清三个问题:1)近十五年来,国外“关系从句”研究的历时进程和整体研究现状是怎样的?2)国外关系从句的研究热点包括哪些?3)国外关系从句研究的前沿领域又在何处?与传统的基于少数经典文献梳理与解析的综述路径相比,文献计量学的研究方法具有数据全面、方法可重复的优点[13],能够客观真实地反映某一研究领域的现状,便于“克服研究者对其研究领域进展做出主观性评价的缺陷”[14],有助于科研人员在相关领域内开展定量和定性相结合的研究[15]。本文拟用文献计量学中经典的CiteSpace信息可视化技术,对21世纪以来国外关于关系从句研究的文献进行科学知识图谱分析,厘清现状,探赜热点,察明发展动向,以期对未来的关系从句研究提供借鉴和启示。

(一)研究工具和思路

本文运用美国 Drexel 大学陈超美教授开发的CiteSpaceIII(版本号:4. 5. R1. 8. 17. 2016)引文可视化分析软件进行研究。CiteSpace 主要着眼于分析文献数据中蕴藏的潜在知识,通过可视化手段来呈现科学知识的结构、规律和分布情况。对于某一学科发展历程和热点主题的分析以及对研究前沿的预测,CiteSpace已经表现出强大的优越性与精确性,其生成的“可视化图形被称为科学知识图谱”[16]。为求解上述三个问题,我们先利用CiteSpace 软件生成文献年度分布图,并从宏观、中观、微观三个维度对数据进行国家(地区)、机构和作者的合作网络分析,以廓清整体研究现状;接下来,通过关键词共现聚类分析来锚定该研究领域的热点;最后对文献进行共被引分析,从而锁定关系从句研究的前沿领域。

(二)数据获取与处理

研究的文献数据均是来源于Web of Science TM核心合集。主题词确定为“relative clause”或“relative construction”,文献类型选为“article”,语种选为“English”,时间跨度设定为 2000-2017(文献下载时间为2017年12月28日),检索后得到1332篇论文。经过人工筛查,滤除内容和关系从句研究不相关的文献,最终得到 881篇研究论文。选中这些文献后,再导出功能区选择Save to Other File Formats,在 Record Content 中选择 Full Record and Cited References,在File Format 中选择Plain Text,保存格式为download_relative clause。然后启动CitespaceIII软件对所保存的英文期刊论文数据进行除重处理,生成按时间进行分割的小文本数据,这样既便于运行软件生成其他图谱,也有助于我们了解文献数据的年度分布情况。

图1 国内外关系从句研究的论文分布图

二、研究现状

一定时间节点内科学文献的数量变化能够侧显某一研究领域中知识量的累积状况,从“量”的维度为我们把握这一领域的发展状况提供重要参数。图1是近18年国内、国外关系从句研究的年发文量分布图。观察图1可以发现,关系从句研究近15年来国外发文量较多的年度区间为自2012至2017年;年均发文量近73篇;发文量最多的为2016和2017年,各有97篇。结合国内和国外发文量两条折线总体来看,国内外年发文量在起伏中基本都保持着增长的趋势,这表明,学者们对关系从句研究越来越感兴趣和重视。同时,图 1显示,国内外“关系从句”研究的增长势头存在较大差异。国外的增长势头明显强于国内。因此,国内“关系从句”这一选题的相关研究还亟待拓展和深化。

发表相关研究成果的国家(地区)、机构、作者分布状况如何呢?我们把数据导入 CiteSpace软件,将“Time Slicing”设置为“2000—2017”,时间分区设为“1”年,术语来源选择“Title”、“Abstract”、“Author Keywords”和“Keywords Plus”。在节点类型中选中“Author”、“Institution”、“Country”,每个时间切片内的对象数量 N 值设定为 50,采用最小生成树算法(MST)并运行软件,自动生成国家(地区)——机构——作者合作网络知识图谱,手动调整后显示如下:

图2 国外关系从句研究文献的国家或地区、机构、作者合作网络图谱

图2中节点的大小代表了国家(地区)、机构或作者发表论文的数量,节点越大说明发文量越大。通过对数据的读取,我们发现国外关于关系从句研究的文献主要来自18个国家和地区。发文量占前8名的国家分别是美国(286篇)、德国(78篇)、英国(77篇)、中国(43篇)、荷兰(39篇)、加拿大(36篇)、日本(26篇)、意大利(25篇)、法国(24篇);发文机构主要包括235个,前6名是以色列的特拉维夫大学(26篇)、英国的曼切斯特城市大学(20篇)、美国的麻省理工学院(18篇)、德国的波茨坦大学(15篇)、英国的爱丁堡大学(14篇)、意大利的比可卡大学(14篇)。中国大陆和港、澳、台地区的学者发文量总计排名第四,这表明中国学者在关系从句研究领域贡献逐渐增大。但是与相同年份区间 CNKI上核心文献的载文量相比,发现比例(43:331,见图1)过于悬殊,这说明国内学者关系从句研究成果向国外推介力度有待加强。

图 2中节点间的连线说明研究机构之间存在科学合作关系,连线的数量表明合作关系的强度。科学合作关系是指“一篇论文中同时出现不同的作者、机构或者国家/地区”[16]。上图中美国、德国、英国、中国、荷兰、加拿大、日本、意大利、法国等国家以及相关研究机构和学者间都存在连线,这说明关系从句研究的国外合作在一定程度上已经开展并逐渐加强。中国上海外国语大学的吴芙芸和美国南加州大学的Elsi Kaiser以及Elaine Andersen于2012年合作发表的文章[17],就是这种合作关系的最佳例证。

概言之,上文中的合作网络图谱有利于我们洞察该研究领域内作者、机构、国家或地区之间的学术合作关系,还对国内从事关系从句研究的学者海外访学,及时追踪国外研究热点以及国内院校开展相关国外合作研究、学术资源引进和学术成果评估等有着一定的参考价值。

三、研究热点

研究热点就是在某个领域内“学者们共同关注的一个或者多个话题”[16],是这些学术共同体成员在一个具体时间区间内,通过撰写一定数量有着内在关联的论文来集中探讨的科学问题。研究热点可以通过高频关键词来锁定。将数据输入CiteSpaceIII,然后按照 2.1 小节中的步骤进行设定,区别在于节点类型处只选中“Keyword”,每个时间切片内的对象数量N 值设定为50,采用寻径算法(pathfinder),运行软件生成关键词共现图谱。图3中一共生成159个大小不一的关键词节点,节点间的连线共有 715条。节点大小代表关键词出现的频次,节点间的连线表示关键词的共现强度。

图3 国外关系从句研究的关键词共现图谱

图3是以“relative clause”这个最大节点为中心形成的高频关键词共现知识图谱,排名前五位的关键词为“sentence comprehension”,“acquisition”、“syntax”,“complexity”,“eye-movement”。这些关键词是学者们对自己研究主题的高度概括和浓缩,能够反映他们在这一领域关注的焦点所在。图中有些节点由多个不同年轮组成,每个年轮代表一个时间分区,按照由内到外的顺序来对应关键词由远及近的出现时间。同时有一部分节点被紫色光圈包围,意指该关键词在这个网络图谱中有着很高的中心度(centrality),在整个网络图谱中起到桥接其他节点的重要作用。比如,图 3中排名前五位的关键词节点“sentence comprehension”,“acquisition”,“syntax”,“complexity”,“eye-movement”都被紫色光圈包围。它们之间在节点大小和年轮宽度、年轮颜色存在一定差异,其中节点最大、年轮最宽的是“relative clause”,但年轮颜色最趋近于暖色调红色的却不是“relative clause”,而是“sentence comprehension”,“ acquisition”,“ syntax”,“ complexity”,“eye-movement”。这说明,后五个关键词具有很高的中心度,它们比“relative clause”发挥更多的桥接作用,它们才是关系从句这一研究领域的核心热点。观察图3,通过节点的大小、带有紫色光圈的节点和节点间连线的密集度,可以初步判定,研究热点集中出现在2005-2011年间(这跟后面图6的突变术语实现了相互印证)。图3中的159个关键词之间有着密切的内部关联,某些关键词基于不同的亲疏程度可形成不同的聚类,识别这些聚类就可以更加直观地廓清关系从句研究的各个热点子域。对关键词进行聚类分析操作,生成关键词共现聚类图谱,见图4。

图4 国外关系从句研究关键词共现聚类图谱

图 4中总共形成 7个聚类。网络模块值(Modularity Q)为 0.4334,平均轮廓值为 0.4201,说明视图中聚类内节点的主题均具有很强的关联性,聚类结果具有较高信度和参考价值。图中每个聚类都有自己的命名标签,这些标签主要是通过标题提取聚类名称并进行“tf*idf 加权算法”得到的。CiteSpace 生成的聚类规模越大,即聚类中包含的成员数量越多,则编号越小,所以图 4中最大的聚类为#0,最小的聚类为#6。由于篇幅限制,本文只分析图4的前四个聚类。

图4中最大的聚类是聚类#0,命名标签为“topic”。其中高频关键词“discourse constraint”,“speaker”,“nominalization”,“word order”,“corpus”和“ambiguity resolution”等都存在于这个聚类当中。该聚类说明,关系从句的研究热点一开始在于传统语言学视角下的研究,主要关注对象是“说者”,采用的工具是“语料库”,聚焦的问题有“语篇制约”、“语义消歧”、“话题”、“名物化”和“语序”等方面。

聚类#1是图 4中的第二大聚类,命名标签为“sentence processing”。 高频关键词 “language working memory”,“individual different model”,“interfere short meme deficit”,“eye-tracking”和“sentence complexity” 等都出现在这个聚类中。该聚类的文献主要以实验为切入点,重点探讨关系从句加工或理解过程中的人类处理和加工信息的模型和机制,兼顾探讨并挖掘能影响句法加工难易程度的因素及其规律。

聚类#2是该共现网络中的第三大聚类,命名标签为“parsing”。高频关键词“semantic ambiguity”,“semantic influence”,“animacy”,“garden path sentence”,“presentation”和 “event-related form”等出现在这个聚类中。这一热点领域主要研究关系从句的句法、语义特征。关系从句类型独特,某些语言中关系从句的句法、语义特点非常奇异,能为语法系统的建构提供有价值的参考依据。因此,我们可以结合前人已取得的类型学研究成果,大力挖掘汉语关系从句这一独特语法现象的类型特征,深入认识隐藏于关系从句加工和理解过程之中的语言能力和认知机制。

聚类#3是该共现网络中的第四大聚类,命名标签为“acquisition”。 高频关键词“structure dependence”,“child language”,“syntax”,“agreement”,“relativization”,“prosody”,“wh-question”和“impair ellipsis”等都位于这个聚类。属于该聚类的研究文献主要探讨的是关系从句的习得规律。比如在“儿童语言习得领域”、在“关系化”、“韵律结构”和“降低省略”等加工或理解等处理方面,做有益的尝试。

综上所述,国外关系从句的研究热点主要集中在“sentence processing”,“sentence comprehension”,“parsing”和“acquisition”等四个方面。

四、研究前沿

某一领域的研究前沿是指“正在兴起的理论趋势和新主题的涌现”[16]。在文献共被引分析中,施引文献集合构成了与这些聚类相关的研究前沿[18]。CiteSpace 能够用于对Web of Science 数据库中的文献进行共被引分析,帮助锚定某一学科的研究前沿。我们将数据输CiteSpaceIII,然后按照2.2 小节中的步骤进行设定,区别在于节点类型处只选中“Cited Reference”,同时采用最小生成树算法(MST),运行软件生成文献共被引聚类语言视图,如下。

节点的中介中心性是图中通过该节点的连线与整个图中连线数的比例。通过该节点的连线越多,该节点的中介中心性越大。同时,节点-中介中心性也反映了节点对网络中信息传导的承载程度。节点——中介中心性越大的节点往往是不同焦点、不同领域之间信息沟通的“桥梁”,因此其地位非常重要。换句话说,在一个图谱网络中,如果一个节点拥有较高的节点——中介中心性,那么该节点可能位于整个图谱网络的中心,其桥梁作用最大。观察上图发现,文献共被引聚类语言视图中一共生成了 273个节点,节点之间的连线 307条。图中被大圆圈圈中的节点均为具有高中介中心性的节点(节点的信息包括研究文献的关键词、标题、摘要、发文单位、发文作者等信息)。节点——中介中心性最高的前 8篇文章的作者以及中介中心性分别是:Reali F. (0.5);Kidd. E. (0.43); Gennari. SP. (0.43); Macdonald. MC.(0.42); Warren. T. (0.32); Hsiao. F. (0.27); Baayen. RH.(0.25) 和 Arnon. I. (0.23)[19][20][21][22][23][24][25]。

图5 国外关系从句研究的文献共被引聚类语言视图

图6 国外关系从句研究的突变术语知识图谱

通过对文献共被引知识图谱分析发现,关系从句研究领域影响力最大的前3篇文献是:1)Keenan& Comrie(1977)“Noun phrase accessibility and universal grammar”,考察了50种语言中的关系化过程,从功能的角度提出了著名的假设:“The Hierarchy,Sequence of noun phrase accessibility(名词短语可及性等级序列)”;2)IA Sag(1997)“English relative clause constructions (英语关系从句的建构)”,基于构式类型和构式制约条件,描写了英语关系从句的语法特征,并构建其内部的构式承继等级网络;3)WM Mak,W Vonk,H. Schriefers的论文 “The Influence of Animacy on Relative Clause Processing (关系从句加工受生命度的影响)”提出在荷兰语和德语中,生命性是决定主、宾语关系从句分布和加工的重要决定因素。通过文献共被引分析锁定关系从句研究的前沿领域涵盖:“指量词”、“句法理论”、“词汇附带习得”、“生命性”、“语料库”、“认知加工机制”、“工作记忆”、“结构启动”、“浅层结构假说”、“主、宾语关系从句和关系化”等十一个子域。

此外,CiteSpace 的“突发词检测”(detect bursts)算法也可用来观察该检索领域的研究前沿。观察理路是:从文献的题目、摘要等提取出突变术语,检测某一学科领域研究兴趣的突然增长,追踪该学科领域的研究前沿(李红满2014: 25),参见图6。观察上图,可发现左边变量“Keywords”下面只有一个术语“关系代词”,最强引用突变值达到了3.6583。也就是说,从突变术语这一观察角度,我们发现关系从句在近十八年来历时进程中共出现了 5个突变术语,它们分别是“aphasia”,“construction”,“agrammatism”,“ambiguity”和“event related potential”。突变术语意指这个术语在某一时间段落的引用激增。如图5中右边的深红色线条为“aphasia”,突变发生显著变化的年份区间,即“aphasia”曾在2005-2008年间成为一个骤然热点。“construction”成为热点的起始年份是 2006至 2009年。热点“agrammatism”的“霸屏”区间为2006至2008年;“ambiguity” 的“霸屏”区间则为 2007至 2009;“event related potential” 的“霸屏”区间为 2009至2011。换句话说,从2005至2011短短七年时间里,先后出现了“aphasia”,“construction”,“agrammatism”,“ambiguity”和“event related potential”等5个热点。也可以说它们是2005至2011年(印证了本文2.2研究热点出现的时间区间)国外关系从句研究的前沿覆盖领域。

五、结语

本文运用CiteSpace 可视化软件,对2000-2017年间收录在Web of Science 数据库中的881篇关于关系从句研究的核心期刊论文进行科学知识图谱分析。研究发现:

(1)近十五年国外有关关系从句研究虽有起伏,但呈现较强的上升趋势,主要表现在近 3年来这方面研究论文的年发表量骤然增多,作者、机构和国家(地区)间的合作网络进一步密切增强;

(2)核心热点课题聚焦在“二语习得”、“语言理解与加工机制”、“关系化”、“复现代词”、“语序”等六个方面;

(3)前沿研究领域涵盖“结构启动”、“句法理论”、“句子复杂性”、“工作记忆”、“语法缺失或语法障碍”等12个子域。

简言之,本文可为我们了解国外关系从句的研究动态、追踪该领域研究热点及前沿提供参考。笔者建议:1)在学术上,国内学者应拓宽国外化视野,加强将自己的研究成果精准地向国际推介的力度;2)在研究问题的聚焦上,我们应不再局限于关系从句的内部句法语义特征,而是进一步深化与其相关问题(如反身代词、关系词标记等)的探讨,力图打好跨学科、跨系统研究的“牌”;3)在研究方法上,我们要追求多元化,比如从历时类型学视角开展关系从句的多维度(历时、共时结合、句法、语义语用综合)比较研究。

猜你喜欢

热点图谱聚类
热点
绘一张成长图谱
基于K-means聚类的车-地无线通信场强研究
热点
结合热点做演讲
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法