基于CiteSpace的国内外语料库研究对比考察
2020-06-28华正雷
华正雷
(湖南大学 中国语言文学学院,湖南 长沙 410082)
一、引言
依托计算机的存储与处理技术,语料库使数据的大批量高效分析成为可能,这让语料库成为热门研究的同时,也令计量研究方法兴盛起来。随着研究的推进,李菲[1]、贾雯[2]、张丽平、顾飞荣[3]、甄凤超[4]、张新杰[5]等国内学者对语料库发展现状进行了总结,但这些都是基于传统的文献分析,对国际研究也关注甚少(1)当前国内直接回顾国际语料库研究的文章较为少见,其大都散见于介绍语料库语言学产生、发展、现状、意义等的文献中。。文本挖掘及可视化软件的出现,为文献计量分析与知识图谱(Knowledge Graph)研究提供了技术支持,刘霞等[6]、王露[7]、王伟[8]以及张继东、陈文[9]、杨柳[10]等基于CiteSpace软件(2)杨柳在文中还使用了信息可视化软件BICOMB与Ucinet。,对国内外语料库研究进行了信息可视化分析,但这些考察把国内与国际独立开来分别加以评述,没有进行对比性分析。同国际相比,国内语料库研究起步相对较晚(3)布朗语料库(Brown Corpus)(1964)是世界上首个电子语料库,国内最早的电子语料库是上海交通大学科技英语语料库(Jiao Tong University Corpus for English in Science and Technology,简称JDEST)(1986)。,成果也要少一些,须在与国际研究的对比中发现不足,以改进自身的发展。
基于上述研究状况,文章尝试着运用CiteSpace对国内外语料库研究进行对比考察。
二、文献来源与软件说明
文章进行信息可视化分析的文献来源于CSSCI与SSCI数据库(4)CSSCI是Chinese Social Sciences Citation Index的缩写,是南京大学中国社会科学研究评价中心开发研制的、用于中文社会科学领域论文收录与文献被引情况检索的数据库;SSCI是Social Sciences Citation Index的缩写,是专门针对人文社会科学领域的科技文献引文数据库。两者分别收录在数据库CNKI(China National Knowledge Infrastructure,简称CNKI)与WoS(Web of Science,简称WoS)中。,得到与主题相关的中文文献共计1052篇,外文文献5335篇,检索日期为2019年6月8日。具体步骤是:在CSSCI中以篇名(词)、关键词为“语料库”两个条件检索文献(5)篇名(词)与关键词的关系为“或”。,发文年代设置为2000至2018,文献类型、学科类别分别为论文、语言学;在SSCI中以主题为corpus、corpora、文献类型为Article、语种为English四个条件进行检索(6)主题、文献类型与语种之间的关系为and,主题corpus与corpora的关系为or。,时间跨度自定义为2000至2018,类别选择Linguistics。
CiteSpace是一款集引文分析(Citation Analysis)与信息可视化分析(Information Visualization Analysis)为一体的引文网络分析软件,是美国德雷塞尔大学(Drexel University)陈超美于2004年开发研制。CiteSpace通过运用数学、计算机等方法与手段,分析施引文献(Citing Article)与被引文献(Cited Article)之间的知识联系与知识网络,并将其以科学知识图谱的形式呈现出来[11]。
三、施引文献的分析
(一)施引文献的数量分析
根据发文数量可以判定某一领域的被关注程度,图1、图2是CSSCI与SSCI中检索到文献数量的相关折线图。
图1 国内外施引文献年度分布折线图
图2 国内外施引文献年度差额分布折线图
总的来看,国际施引文献数量每年都要多于国内,这在图2中有更加直观地反映;从图2可以看出,2007年以后,国内外施引文献数量差额迅速扩大,除了2016年,差额每年都在增加。具体来说,国内起初三年每年的施引文献数量都还较少;2002年至2010年间,除2008年数量下降以外,9年来数量逐年增多,其中2010年达到了最多的103篇(7)2010年的施引文献数量在2000年至2018年间也是最多的。;从2010年至2016年,除了2015年数量出现上升,7年间数量逐年减少,2016年最少,只有67篇;2016年至2018年间,数量每年都略有增加。在国外,除了2002年、2011年与2016年,19年间数量逐年增长,其中前7年增长速度较慢,后12年增长速度加快。
(二)施引文献的信息可视化分析
1.合作信息可视化分析(1)国家(或地区)合作信息可视化分析(8)CiteSpace中,节点类型(Node Types)中的国家(Country)理解为国家(或地区)更为精确。
将外文文献导入CiteSpace,选择节点类型中的国家(或地区)进行国际语料库研究中的国家(或地区)合作信息可视化分析(9)具体参数设置是:在时间分区(Time Slice)中把时间设置为2000年至2018年,并以一年为时限进行一次时区分割,将选择标准(Selection Criteria)设定为Top 100%(Select top 100% of most cited or occurred items from each slice),并对合并后的图谱进行裁剪(Pruning the Merged Network)。下文进行信息可视化分析时,仅对相异参数的设置进行说明。。
图3 国家(或地区)合作信息可视化图谱
从图3节点对应的信息统计表中可以得到,SSCI中收录通讯地址为中国大陆地区的施引文献共计353篇,次于美国(1040篇)、英格兰(648篇)、西班牙(632篇)和德国(451篇)(10)图3中节点代表施引文献通讯地址署名的国家(或地区),节点的大小表示施引文献数量的多少;节点由颜色各异的年轮组成,年轮从里至外表示时间由远到近,而年轮的厚度则代表对应时间施引文献的数量;节点间连线表示国家(或地区)间的合作,连线的颜色对应首次合作出现的时间,连线的粗细代表合作的强度;节点中年轮以及节点间连线颜色的对应时间可以参照图谱上方时区中的颜色。下文进行信息可视化分析时,节点以及节点间连线的信息解读与此类似。,位居世界第5,表明大陆地区语料库研究在国际上具备一定影响力。根据图谱中节点以及节点间连线的位置分布可以判定,美国、德国与英格兰在国际语料库研究中地位突出,且关联紧密(11)图谱中代表美国、德国、英格兰的节点面积较大,节点德国、英格兰都是围绕美国分布并与其相交,表明三者关系密切;另外,三节点中介中心性(Betweenness Centrality)(节点中介中心性是指节点在图谱中占据的位置,高中介中心性的节点在连接其他节点时作用重大;中介中心性大于等于0.1的节点,其外层会显示为紫色)都大于0.1。,而中国大陆地区距美、德、英节点所在区域还有一定距离,再根据其节点间连线数量以及中介中心性的数值可以断定,中国大陆地区与国际间的联系尚还较为欠缺(12)中国大陆地区仅与爱尔兰、澳大利亚、奥地利、比利时、丹麦、德国、加拿大、美国、南非、中国台湾地区、威尔士、西班牙、新西兰、新加坡以及英格兰等15个国家地区存在合作,其在图谱中的中介中心性为0.01。。
表1 国家(或地区)施引文献数量统计表(前10位)(附带中介中心性)
(2)机构(Institution)、作者(Author)合作信息可视化分析
将国内外施引文献导入CiteSpace,选择节点类型中的机构、作者进行国内外语料库研究中的机构、作者合作信息可视化分析。
图4 机构、作者合作信息可视化图谱(国内)(T≥6(13)T是Threshold的简写,在进行可视化分析时,T的含义各异,这里是指施引文献数量不小于6篇的机构、作者。另外,文章对图谱中署名相同的机构、作者进行了合并。)
图5 机构、作者合作信息可视化图谱(国际)(T≥30(14)文中进行信息可视化分析的中文文献大致是外文的1/5,为合理对比考察国内外语料库研究,文章将国外文献信息可视化分析中的T值统一设置为国内的5倍。)
根据图4、图5中节点、节点间连线数量以及分布状况大致可以判定,参与国际语料库研究的机构、作者要更多,联系也较为紧密(15)因T值设置较大,图3中的作者姓名暂未能显示出来。,而国内的研究与合作主要是在少数机构、作者中进行。
表3 机构、作者施引文献统计表(国际)(前10位)
2.关键词(Key Word)共现信息可视化分析
关键词是文章观点、内容的高度概括,通过关键词分析可以对所研究领域的内容、方向以及热点(Research Hotspot)进行把握[12]。将国内外施引文献导入CiteSpace,选择节点类型中的关键词进行国内外语料库研究中的关键词共现信息可视化分析。
图6 关键词共现信息可视化图谱(国内)(T≥2)
图7 关键词共现信息可视化图谱(国际)(T≥10(16)图7合并了含义相同的关键词Corpus与Corpora,去除了与研究主题无关的关键词Corpus Callosum。)
图6显示,关键词语料库(489次)在图谱中居于绝对核心地位;从图7可以看出,英语(597次)、语料库(544次)、语言(473次)、话语(349)、语料库语言学(296次)等都是出现次数较多的关键词,这表明国内语料库研究热点相对单一,而国外则要更加多样(17)关键词共现信息可视化图谱中的节点越大,其所代表的关键词成为研究热点的可能性就越大。。
表4 国内外施引文献中的关键词统计表(前10位)(附带中介中心性)
作为国内外都在关注的研究热点,关键词语料库关涉范围广泛,指向并不明确,文章将依据图谱中与其共现的关键词分布情况对这一热点进行细化考察。
表5 国内外施引文献中与语料库共现的关键词分布统计表(T(国内)≥5;T(国外)≥20(18)与语料库共现的关键词国内共计90个,国际共计34个。)
通过归纳整合表5中的关键词发现(19)整合归纳时,对于关涉范围广泛、指向不明确的关键词不做考虑。,对于语料库这一研究热点,国内研究多与教学、翻译、搭配等方面相关,而国际则与语法、话语、计量分析等领域关系密切。
表6 国内外施引文献中与语料库共现的关键词归纳整合表
突变术语(Burst Term)是指使用次数明显增多,或在较短时间内突然出现的术语,其可以较为准确地反映出研究领域的前沿动态[13]。从关键词共现信息可视化图谱中可以获悉以下关键词发生了突变,具体见表7。
表7 国内外施引文献中的突变关键词统计表
表7显示,与国际相比,国内发生突变的关键词要少很多,这表明在2000年至2018年间,国际语料库研究中出现的前沿动态要更多。国内研究最近出现的前沿是词块、标注与语料库方法,而国际研究前沿主要是在学习领域。
四、被引文献的信息可视化分析
(一)文献共被引(Document Cocited Analysis)信息可视化分析
将国内外施引文献导入CiteSpace,选择节点类型中的文献被引(Cited Reference)进行国内外语料库研究中的文献共被引信息可视化分析(20)文献共被引是指两篇文献被同一文献引用,共被引文献在研究主题上会有一定的相似性,下文作者共被引(Author Cocited Analysis)中的情况与此类似。。文献的被引次数在一定程度上可以反映其影响度[6,14],而文献共被引图谱中关键节点的分析可以揭示出研究领域的知识结构[11](21)知识结构可以理解为所研究领域的知识基础(Intellectual Base)、转折性文献等。。
图8 文献共被引信息可视化图谱(国内)(T≥4)
图9 文献共被引信息可视化图谱(国际)(T≥20)
表8 国内被引文献信息统计表[15~30](T≥8)
表9 国际被引文献信息统计表[31~44](T≥40)
表8、表9是图8、图9中高被引文献的信息统计表,通过整理归纳两表中的文献可以发现,国内语料库研究的知识基础(22)一个领域的知识基础是由该领域的前期文献组合而成。主要是在翻译、学习以及语料库建设、研究方面,国际则是集中于语言理论(23)语言理论包括程式语、词汇理论与语法理论。与语料分析领域;在内容的实践与理论倾向性上,两者差异显著。
表10 国内外被引文献中的转折性文献信息统计表[15,17,20,40,45~48](24)在CiteSpace信息可视化图谱中,中介中心性大于等于0.1的被引文献被视作是转折性文献。
根据表10罗列的被引文献可以发现,国内语料库研究先后出现了翻译教学、外语(词汇)教学以及汉译词汇特征考察等重要转折点,国际则出现了语言习得、认知语法与程式语言;就转折性文献数量以及中介中心性的数值来看,国内语料库研究出现的转折点要更多,且更加突出。
(二)作者共被引信息可视化分析
将国内外施引文献导入CiteSpace,选择节点类型中的作者被引(Cited Author)进行国内外语料库研究中的作者共被引信息可视化分析(25)CiteSpace计算作者共被引时只考虑第一作者,同一作者在一篇文献中被引多次也按一次计算[11]。。
图10 作者共被引信息可视化图谱(国内)(T≥10)
图11 作者共被引信息可视化图谱(国际)(T≥50)
根据图10、图11中节点、节点间连线的数量及其分布状况可以看出,同国际语料库研究一样,国内也形成了相关的学术共同体(Academic Community)(26)作者共被引是指两位作者同被一篇文献引用,两位作者所研究的内容会有一定的相似性。根据图谱的整体色调可以判定,国内形成学术共同体的时间要晚于国际。。与国际学术共同体不同的是,国内学术共同体有更多国际学者参与其中(27)因T值设置较大,图11中国内学者的名字暂未显示出来。,这表明国内语料库中的一些研究是在吸收借鉴国际研究成果的基础上进行的。
表11 国内语料库研究被引作者统计表(前15位)
五、总结与展望
通过使用CiteSpace,文章从施引文献与被引文献两个方面对国内外语料库研究进行了信息可视化对比考察,发现从2000年至2018年间,国内语料库研究的知识基础主要是在语料库的实用方面,这大致奠定了国内研究热点、研究前沿的发展基调,也是与国际语料库研究的重要差异所在。
在过往19年间,国内语料库研究成果卓著,但也存有一些不足之处:与国际语料库最近十多年的强劲发展势头相比,国内语料库的受关注程度出现了下滑,而国内的研究与合作主要是集中于少数机构、作者之间,这些给国内语料库发展带来了不少阻碍;另外,加强国内语料库发展理论建设也要提上议程。这些对改变国内过多依赖国际研究成果以及长期将语料库视为一种研究方法、工具的现状意义重大。