语料库研究的知识图谱可视化分析(2001-2016)
——基于外语类15种核心期刊的研究
2018-02-27王伟
王 伟
(天津体育学院,天津)
1.引言
科学知识图谱是在信息技术的推动下,发展起来的一个新的研究领域。科学知识图谱的概念源于2003年美国国家科学院组织的研讨会,它能以图像形式表示在一定空间形式、一定时间范围中展现与变化的系统概念,能揭示知识之间的联系及知识的发展规律(刘则渊,2008:4)。在常用的科学知识图谱绘制软件中,由美国Drexel大学陈超美博士开发的CiteSpace是目前最为流行的工具之一。根据陈悦等(2014)等对应用CiteSpace开展计量研究的555篇文献的解读,CiteSpace已经广泛地应用于图书情报领域、管理领域、教育学、公共管理、社会学、体育学、基础医学等领域。可见,CiteSpace已是信息计量学中应用最广泛的可视化工具之一。
在语言研究领域,语料的收集、整理和分析历来受到人们的重视。自第一代电子语料库布郎(BROWN)于上世纪60年代初建立以后,语料库及其相关学科在最近的二三十年中得到了快速的发展。在我国,语料库的研究已有30多年的历史了,中国期刊全文数据库中关于语料库的第一篇文章为“JDEST科技英语计算机语料库”(杨惠中黄人杰,1982)。根据笔者前期在中国期刊全文数据库上的统计,在1982年至2000年间,我国语料库的研究逐渐起步,外语类核心期刊每年的发文量一直徘徊在10篇左右。然而,自本世纪以后,语料库研究的文献数量迅速增加,这为开展语料库研究的知识图谱可视化分析提供了数据基础。
因此,本研究尝试利用CiteSpace软件,并结合传统的定量研究和定性分析,对2001—2016年国内外语类15种核心期刊中语料库研究的文献分布、作者/机构合作情况和研究热点等进行追踪,借助可视化的手段对我国外语界语料库的研究进展进行系统梳理,为该领域的研究者提供一定参考。
2.研究方法及数据来源
本研究选取的数据来自中国期刊全文数据库(CNKI)收录的外语类核心期刊,并加入影响因子较高的两个语言文字类期刊《中国翻译》、《上海翻译》,共15种期刊(总表见表1)。这些期刊长期关注着我国外语事业的发展,每年发文数量稳定,代表着国内外语类研究的最高水平。
表1 本研究的数据来源(按照字母顺序排序)
在知识图谱中,CiteSpace提供了五类共11种功能选择,前两类是针对施引文献的合作图谱(包括作者、研究单位、国别)和共现图谱(特征词、关键词、学科类别);第三类是针对被引文献的共引图谱,第四类是耦合图谱,第五类是共同资助图谱。考虑到CNKI数据的特点,本研究将重点研究前两类中的可视化图谱分析。
图1 15种期刊中语料库的年发文量分布图
3.数据统计分析
3.1 文献发表时间分布
从图1中可以看出,在2001年至2016年间,外语界15种核心期刊中语料库研究的发文数量经历了两个阶段。其中,2001年至2009年间为语料库文献的快速增长期,文献数量从每年20篇左右开始逐年快速增长;2010年至2016年间为稳定发展期,这期间每年发表的语料库文献数量保持在100篇以上。
3.2 研究者及机构的可视化分析
根据系统设置要求,选取termsource中的title,abstract,author keywords和keywords plus项,选定node types为author和institution,其他参数为系统设置,采用最小生成树算法,生成研究者和研究单位的可视化图谱,调节阈值(Threshold)为7,字体大小(font size)为12,得到图2。同时,统计数据后得到表2和表3。(注:本研究只计算第一作者及其研究机构的贡献,以机构主名称为计算标准,如上海外国语大学的各院系统一合并为上海外国语大学)
图2 研究者及机构的可视化图谱
表2 国内语料库研究的高产机构(前十位)
表3 国内语料库研究的高产作者(前十位)
根据表2的统计,我们发现,在外语类核心期刊发表语料库研究的院校中,排名第一的是上海交通大学,发文量接近100篇(99篇),之后是四所重点外国语大学(北京外国语大学,解放军外国语学院,广东外语外贸大学和上海外国语大学),发文量均在40篇以上。表2中所列的10所院校共发文450篇,占2001年至2016年间全部文献的三分之一多(36.5%)。我国开设外语专业的高校有近1000所,从事语料库相关研究的外语教师并不在少数,但是从图2研究者及机构的图谱来看,结合表2的统计,从事语料库研究的整体力量比依然不平衡,高质量的研究成果集中在一些综合性大学和重点外语院校的研究者和教师。
表3为语料库研究领域的高产作者,以这些研究者为中心,产生了我国外语类语料库研究的一些重要团队,如北京外国语大学的王立非教授团队、王克非教授团队、北京航空航天大学的卫乃兴教授团队、上海交通大学的胡开宝教授团队、华南师范大学的何安平教授团队、燕山大学的刘泽权教授团队等。语料库研究不同于语言研究的其他分支及流派,它通常包括语料库的建设、方法论的探索、具体应用性研究的开展,还包括语料库分析技术和工具的开发及实现(陈功梁茂成,2010:79)。因此,团队的建设和团队的交流与合作是保证语料库研究有序进行、不断创新的关键。上述的这些团队构成了我国外语界语料库研究的中坚力量,在推动语料库的研究和发展方面起到了重要的作用,为我国培养出了一批杰出的青年语料库学者和人才。
图3 高频关键词的可视化分析
3.3 高频关键词分析
根据系统设置要求,本研究以1年为一个时间分区,将2001—2016年分成16个分区,选取每个时间分区内50个引用率最多或者出现次数最多的关键词,采用寻径算法,得到图3和表4。
当前,低温等离子技术在塑料改性中的应用较为广泛,主要涉及的高分子材料包括聚乙烯、聚四氟乙烯、聚丙烯等。塑料制品的化学性质稳定,耐酸碱,耐低温,被广泛应用于制作家庭用品当中。但是其易燃烧、亲水性差的特点,也限制了其使用范围。
在CiteSpace科学知识图谱中,研究关键词的高频出现率,反映了该关键词具有较高的关注度,是人们的研究热点。中介中心度是反映关键词重要度的另一个指标,表明了一个关键词在整个网络中作为“媒介”的能力,即占据其他两个节点之间最短路径的能力。一个关键词的中介中心度越高,意味着它控制的关键词之间的信息流越多(Small,1986:97)。
从表4中可以看出,关键词“语料库”、“语料库语言学”、“语义韵”在科学知识图谱中共现的频率排名前三位,三者的中介中心度均超过了0.1。这说明这三类研究不仅是人们的研究热点,而且其研究内容与其他研究的关联度较高。其中,共现频率和中介性最高的关键词“语料库”,反映了语料库在整个网络中起着战略性的中介作用。由于语料库具有很多传统方法不具备的优势,如语料规模大,计算快速准确,结合定量的分析和定性的解释,能够对语言做出更全面准确的调查(Biber,2000),语料库的研究方法已经广泛地应用于外语研究中的各个方面。
一方面,语料库语言学、语料库翻译学、语料库文体学等学科,随着语料库的兴起而发展壮大,尽管人们在学科属性上尚存在争议,但这些因语料库而产生的学科无论是作为一门独立学科,抑或是一个分支学科,抑或是一门交叉学科,都已然成为语言研究中不可或缺的一个部分,可以说,语料库的研究带动了语言研究诸多学科的发展。另一方面,语料库还为语言研究提供了方法上的创新。语料库的研究方法,按照对语料依赖程度的不同,可以分为“基于语料库”的研究方法和“语料库驱动”的研究方法。尽管这两种研究方法在目的和操作过程上存在差异,但不可否认的是,语料库研究方法的优势是显而易见的,从近16年来语料库研究文献的数量增长来看,外语研究者们已经普遍接受语料库的研究方法为一种重要的研究范式。综上所述,越来越多的研究者意识到语料库的价值,不仅在语料库相关学科上进行研究与思考,也在各自领域中利用语料库方法进行“三角验证”,丰富了语料库研究的同时,拓展了语料库研究的深度和广度。
表4 高频关键词和中介中心度(前十个)
3.4 聚类分析
根据系统设置要求,在CiteSpace中启用聚类分析功能,从施引文献的“索引词条”中提取聚类标签词进行自动聚类。本次聚类的modularity Q值为0.6307,平均Silhouette值为0.413。一般认为,若modularity Q值和Silhouette值大于0.4,可认为聚类效果比较理想。图4为系统自动生成的聚类图谱,根据系统自动聚类排名前5位的结果,统计后得到表5。
图4 2001—2016年国内语料库研究的聚类分析图谱
表5 系统自动的聚类结果(前五个)
表5中聚类容量代表该聚类中的关键词数量,Silhouette值代表一个聚类中关键词之间的同质性,log-likelihood是提取聚类标识词的一种算法。中介中心度高的文献,往往在网络中处于节点群之间的连通位置,因此,图谱中的节点群代表了语料库研究中的核心方向。由于聚类标识词是CiteSpace自动生成的,且信息量有限,笔者将结合包含相应关键词的典型文献和前人的研究进行定性分析。由于前文已经论述了聚类序号0(语料库)在外语研究中的价值,限于篇幅,下文将着重介绍聚类序号1—4的分析结果。
3.4.1 翻译教学
聚类序号1的标识词是“翻译教学”。随着语料库的发展,基于语料库的翻译教学研究逐渐受到研究人员和教师的关注。语料库,作为翻译教学的资源和手段,被普遍认为对翻译教学有积极的促进作用,特别是双语平行语料库,通过大规模平行文本的呈现,可以为翻译教学提供丰富的教学样例作为参考或进行比较,能够有效促进学生发现式的学习。
平行语料库应用于译员培训/翻译教学最早可追溯到1997年。在此之后,国内陆续有一些学者开始研究语料库在翻译教学实践中的应用(王克非,2004b;于连江,2004;秦洪武王克非,2007),并且,平行语料库在翻译教学方面的研究不断深入,如:余军和王朝晖(2010)将语料库的构建与比较翻译教学模式和步骤相结合,深化了语料库在翻译教学程序上的研究;熊兵(2015)则在综合前人研究的基础上,分析了翻译教学语料库的构建,论述了基于平行语料库的翻译教学模式的构建及其操作步骤。此外,研究者还可以发挥想象,充分利用其它类型语料库的特点,将大型通用单语参考语料库、小型专用可比语料库或专门用途语料库等与翻译教学相结合,拓宽翻译教学的视野(李德超王克非,2011;朱晓敏,2011;朱一凡等,2016)。语料库已成为当今翻译教学研究的一股重要力量,随着人们对翻译教学的持续关注,对各种语料库的综合运用必将给翻译教学中的“教”与“学”带来持续而深远的影响。
3.4.2 中国学习者
聚类序号2的标识词是“中国学习者”。在外语教学与研究中使用语料库所关注的一个重要对象就是中国外语学习者。以英语习得为例,蔡金亭(2008)曾在其专著中系统介绍了中国学习者的中介语(interlanguage),指出中介语的三个特征为可变性、渗透性、石化性。以往对于中介语的研究,理论语言学的两大阵营——普遍语法和功能语法,都有各自的观点和解释。比较而言,功能语法由于采用经验主义的路线,倡导“向语言学习语言”,更加关注语言的实际使用。因此,沿着功能主义的路线,建立在学习者大量语料基础上的语料库,可以使研究者通过大量的真实数据进行定性分析,得出更有说服力的结论和解释。
基于语料库的方法,外语研究者分析了中国学生在外语使用中的一些问题和规律。在书面语方面,研究者不仅考察了以词项为基础的局部语言单位,如杨贝(2003)比较了中国英语学习者与本族语学生写作中HAVE的用法,杨滢滢(2015)对中美大学生同一主题作文词汇和词块的特征进行了对比研究。一些学者还综合考察了词汇语法的共现、语义韵和语义倾向等,如卫乃兴(2006)基于语料库对学生英语中的语义韵进行了对比研究,孙海燕(2004)探讨了学生英语形容词的搭配语义特征,陆军(2010)分析了学习者英语近义词的搭配行为与语义韵,方秀才(2015)以BE和HAVE为例,研究了中国EFL学习者动词的语义虚化用法。另有学者关注了学习者中介语在句法和篇章层面的特点,如基于语料库的关系从句研究(李金满,2008)、被动语态研究(陈万霞,2002)、疑问句研究(王立非张岩,2006)、感叹句研究(刘科成彭爽,2012)、衔接机制研究(陈鹏濮建忠,2011)等。与此同时,随着语料库技术的不断发展,针对学习者口语方面的研究也不断涌现,这些研究成果加深了人们对我国学习者中介语的理解和认识,为中国外语教学与研究提供了许多有益的启示。
3.4.3 语料库语言学
聚类序号3的标识词是“语料库语言学”。现代语料库语言学是20世纪中后期兴起的一门语言研究科学。关于语料库语言学的特点,Halliday曾指出:“语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化”(转引自王克非,2004a:4)。作为一门年轻的学科,语料库语言学的内部尚存在着一些争议。潘永樑(2001)、桂诗春(2004)、卫乃兴(2009)、梁茂成(2010,2012)等学者曾发文,在语料库语言学的学科基础、目的论、方法论等重要理论问题上进行过系统的梳理和研究,有助于人们理解概念上的差异,加深人们对语料库语言学的认识。在应用方面,基于语料库的研究方法几乎可以应用于语言学研究的所有领域。Hunston指出:“可以毫不夸张地说,在过去几十年里,语料库以及语料库的研究对语言研究以及语言应用研究进行了一场革新”(转引自王克非,2004a:4)。宋红波和王雪利(2013)曾对2001—2010年间发表在国内核心期刊的语料库语言学的研究情况进行过综述,他们通过详细的分析,认为语料库被广泛应用于外语教学、翻译研究和语言研究等领域。根据何中清和彭宣维(2011)的研究,未来语料库容量将会更大,类型更加多样化,语料库语言学的跨学科性越来越突出,将会与其它语言理论实现进一步融合。这种融合反过来又将扩大语料库研究的应用范围,促进语言研究各领域的发展。
3.4.4 学习者语料库
聚类序号4的标识词是“学习者语料库”。语料库的建设是应用语料库进行语言研究的基础,在语料库的建设方面,“针对外语学习者而建立的学习者语料库(learner corpora)可谓异军突起,成为当今语料库建设中一股新的力量”(李文中,1999:52)。我国第一部学习者语料库是由广东外语外贸大学和上海交通大学于2002年共同建立的中国学习者英语语料库(CLEC),此后,学习者语料库发展非常迅速,国内比较有代表性的大型学习者语料库有:中国英语学生口笔语语料库(SWECCL)、中国学习者英语口语语料库(COLSEC)、中国大学生英汉汉英口笔译语料库(PACCEL)、中国英语专业语料库(CEMC)等,研究者可以利用这些大型学习者语料库,轻松获得中国学习者语言特征的第一手资料,对学习者的语言特征进行全面和深入的分析。除此之外,外语教师还可以根据研究问题,自行设计和建立小型学习者语料库,丰富语言侧面的相关研究。总而言之,各种学习者语料库的建立为我国语言学研究和语言教学的发展提供了强大的数据支持和宝贵的经验参考。
3.5 突变词
在CiteSpace软件中,选择突现性(Burstness)功能,显示2001年至2016年间语料库研究领域中的突变词,如下图5。
图5 突变词(burst term)统计
图5 为CiteSpace所捕捉的突变词,突变词代表了语料库研究领域的前沿热点。其中,begin为起始时间,end为截止时间,strength代表了突变强度,CiteSpace探测到的突变词共有8个,分别为外语教学、语料库、语料库语言学、英语写作、学习者语料库、词语搭配、中国英语学习者、平行语料库,突变词的捕捉结果与聚类分析的结果基本相吻合。一直以来,语料库在外语教学中得到了广泛的应用,尤其值得关注的是外语教学中的写作教学、词汇教学和翻译教学。
4.思考和建议
综合以上分析,笔者对语料库在外语教学与研究中的应用提出几点思考和建议。
首先,继续深化和拓宽语料库在外语教学中的应用。如前所述,语料库已广泛应用于词汇教学、写作教学、翻译教学等方面,取得了丰硕的研究成果,在这些研究的基础上,随着语料库技术的发展,一方面,应进一步探索语料库的“深度加工”,设计出以文本解释能力为导向的标注体系,帮助教师更好地进行教学设计,辅助课程教学。另一方面,还应加强语料库在口语教学、专门用途英语教学等方面的应用,拓宽研究领域,形成新的研究热点,推动外语教学和研究的整体发展。
其次,利用语料库加深对语言本质的认识和对语言使用的研究。语料库为开展各种语言研究提供真实、可靠且丰富的数据资源,通过对各种语言现象进行的定量研究和概率研究,可以极大地丰富已有的研究方法。因此,充分运用理论语言学方面的最新成果,结合语料库的实证方法,可以帮助人们回答通过传统途径难以回答的问题,接近语言的本质特征。而且,通过对语言使用真实状态的描写,还可以更好地了解学习者的语言应用和使用失误等特征,进行针对性的教学改革,在提高学习者语言应用能力上发挥积极的指导作用。
最后,利用语料库创新语言的测试与评估。完整的教学离不开测试与评估这一重要的环节,目前,语料库在语言教学中的研究主要集中在教学方法上,对语言测试的研究相对不多,今后,可以加强语料库技术在语言测试与评估中的应用和研究,减少试题编写和设计的主观性和随意性,提高测试的内容效度,为试题设计过程提供更加科学的依据。利用语料库技术建设语言测试的信度和统一标准,在语言教学中更好地发挥反拨作用。