APP下载

2016—2018年国内语料库语言类研究综述

2019-08-22北京外国语大学大连外国语大学

语料库语言学 2019年1期
关键词:构式语料库学术

北京外国语大学/大连外国语大学 康 卉

提要:本研究借助CiteSpace可视化分析软件,结合人工细读、特征标注以及ΔP统计,对2016—2018年刊载于国内CSSCI来源期刊及北大核心期刊的720篇语料库语言类研究文献进行详细解读。通过对实证类论文的研究发现:当前我国语料库研究以对比为主,在语言本体研究、翻译研究及学习者研究方面分布较为集中,且呈现本土化趋势;重视词汇和构式,关注政治和政策也是本领域研究的特点;研究方法多样、理论探讨充分,但多引自于国外。基于语料库的研究已成常态,但发展并不均衡,表现在对学术话语、词块、篇章衔接及结构研究方面的不足,对学习者和学术研究中的翻译研究等关注不够。另外,在研究语种方面,汉语和英语研究较多。对于汉语变体、少数民族语言、其他外语的研究较为缺乏。

1.引言

语料库语言学具有自身清晰的哲学观、语言观和坚实的学科发展历史(许家金 2017:60),是“具有很强方法论导向的语言学分支”(Leech 2011:158)。在我国,从1982年上海交通大学黄人杰教授和杨惠中教授主持建立100万词次的学术用途英语语料库JDEST起(谭键 2005:61),发展至今已有近四十年,其间不断完善理论、创新角度,与多学科相融合,发展壮大。刘霞等(2014)基于CiteSpace可视化分析软件(Chen 2006),呈现了1998—2013年国内语料库语言类研究在热点作者、署名单位,以及关键词方面的聚类特点,并总结了研究的热点和趋势。张新杰(2017)对于1992—2015年国内语料库语言类研究进行了总结回顾,对研究的材料基础、内容和代表性进行了梳理。本文在借鉴前人研究的基础上,结合CiteSpace软件、人工细读及统计分析,对2016—2018年间语料库语言类研究论文进行解读,以期在研究热点、趋势、分布和不足等方面对其进行细描,并为学界提供一定参考。

2.方法

2.1 数据采集

本文的分析数据来自CNKI,通过使用关键词和主题词“语料库”,对CSSCI来源期刊及北大核心期刊的文章进行检索(时间设置为2016年1月至2018年12月22日)。删除“主持人语”、“会讯”、“征文”、“书评”类文章。共得到1192篇文章,将472篇自然语言处理类文章与语言类研究文章分开,最终得到720篇语言研究类论文,包括537篇实证研究论文,47篇理论类论文,79篇应用类论文,57篇综述类论文,如图1所示。

图1 语言研究类论文分布

2.2 可视化概览

借助CiteSpace可视化分析工具呈现720篇语言研究类论文在发文作者、高被引作者、署名单位及关键词聚类概貌。

2.3 人工学科特征标注

可视化分析工具对中文文献进行分析时可以在关键词聚类和作者信息方面呈现总体趋势,有助于快速掌握研究动态和热点,但亦存在诸如检索不全面等方面的问题,人工细读可以作为有效补充。

首先对720篇语言研究类论文进行基于研究性质的分类,共分为四大类:实证类、理论类、应用类和综述类。同时对537篇实证类论文进行自下而上的研究特征预标注。研究特征是指论文所呈现的研究内容特征,一篇研究通常会同时具有多个特征。根据语言学研究常识和预标注的发现进行针对实证研究的特征体系构建(见表1),共得到一级类特征12个(7个研究领域、5个语言层次)。有的一级类标注还包含二级类标注。依据特征体系,对537篇实证类论文进行标注,针对一级类特征统计研究特征共现。分类讨论时,借助二级类特征说明特定领域研究的具体特点。另外在特征标注时,还在需要之处进行备注,例如:涉及的理论框架(如动态理论、时空理论等)、采用的分析工具(如MAT、Wmatrix等)和分析内容(如《老人与海》、《论语》等)。

表1 研究特征分类

2.4 分析统计

(1)分布统计,可视呈现

对537篇实证类论文从7个研究领域和6个研究层次入手,分别进行特征分析及可视化呈现。以研究领域为视角,对所有的实证研究进行热点、趋势的分析。

(2)ΔP学科特征相互关联性测定

ΔP的计算参考了Gries(2013)对两个单词之间互相吸引共现的计算。ΔP值的大小反映了两个单词之间的方向性吸引强度。本研究利用ΔP计算两个共现特征之间的方向性吸引,以期能从统计角度反映语料库语言类实证研究中的热点和薄弱环节。

3.发现

720篇文章在综述、理论、应用及实证类研究的分布情况如图1所示。本节对这四类研究进行描述,重点介绍实证类论文。

3.1 载文期刊:载文量和发文比

研究选取前13名刊载语料库语言类研究的期刊进行了载文量和发文比的统计。载文量即期刊刊载语料库语言类研究文章的数量。《外语电化教学》与《解放军外国语学院学报》刊载文章数量最多,均为 38篇。图2表明了载文量排名靠前的期刊发表综述、理论、应用、实证研究的数量。图3表明了这些期刊发表语料库语言类研究论文(及四类研究组成)与其发文总量的比值,可以反映出各个期刊对于语料库语言类研究的关注程度。《外语与外语教学》发文比为16.17%,排名居首;其次是《中国外语》,发文比为14.63%和《外语电化教学》,发文比为11.67%。

图2 主要刊载语料库语言类研究期刊载文量(单位:篇)

图3 主要刊载语料库语言类研究期刊发文比(单位:%)

3.2 文章概览

所有论文的题目中,仅34.3%(248条)的研究出现“语料库”字样。语料库成为研究的常态。各研究不再停留于语料库之名,而是向纵深挖掘研究的理论和内容。

论文中对于语料库的定义比较宽泛。语料规模从几篇文章(如20篇学术英语的摘要)或一本书至上亿规模的大型语料库(如COCA)。

仅有38%的研究在摘要中表明了研究使用的具体语料库,其余的文章对于语料库的提及比较模糊,使用字样多为“自建语料库”或“通过语料考查”等。由于本研究仅关注摘要部分,所得的观察有限。有可能作者认为在摘要部分并不适合交代语料库的规模或具体内容。从分析使用的语料库规模来看,需要大规模检索,则库容较大,如BNC、COCA和CCL等;需要人工分析标注语言结构信息、语义或语用信息等,则规模较小。

3.3 作者情况:发文作者及被引作者

(1)三年内发文作者与署名单位情况见图4。相关研究以上海交通大学及北京外国语大学为中心展开,发文量较高的作者分别为胡开宝、卫乃兴、王克非、许家金、李晶洁、刘永兵等,他们主要从事语料库翻译学、语料库语言学理论探讨、局部语法、学习者及学术英语等研究。

图4 三年发文作者及署名单位情况

(2)位居前十位的被引作者如表2所示。表明近三年学界比较关注对外汉语学习者、多模态话语分析、译者风格、学术英语、口译研究、特定领域话语分析等话题。

表2 近三年被引前十名作者

(续表)

3.4 理论、综述与应用

(1)57篇综述类论文分两大部分:1)对于语料库语言类研究综述;2)利用语料库进行的其他学科综述。分布在翻译14项,语言本体研究7项,数字人文5项,二语习得5项,隐喻4项,语料库建设3项,学术写作3项,关于语料库的语言类研究2项。在研究方法上,14篇是基于CiteSpace软件的分析,占四分之一。可见CiteSpace以其高效、清晰的特点受到综述类文章的青睐。从综述的分布来看,学界对于翻译研究、语言本体、数字人文、二语习得及隐喻研究综述较多。

(2)理论类论文47篇。其中最多的为对语言本体的概念界定和理论梳理方面的研究,如概指名词、强化词、词汇与语法的关系、词义、短语、局部语法等,共16篇。涉及的本体亦是语料库语言类研究经常研究的对象。对于本体研究理论的梳理反映出学界对其的关注及热度。对于语料库翻译理论的思考和讨论共7篇,涉及语料库翻译研究史、翻译文体学、翻译与认知结合等。许家金(2017)、李文中(2016)以及甄凤超和李文中(2017)对语料库语言学进行了学术史和渊源的梳理。其余的理论梳理分布于语料库研究与话语分析的结合、与学术英语研究结合、与学习者研究结合等方面。

(3)应用类论文79篇。52篇应用于教学,内容多为辅助词汇、句法、特定课程的教学开展。10篇论述语料库应用于词典编撰,8篇应用于翻译辅助研究。其余则分散于学术研究、学生情感变化研究及期刊编辑的研究等。在论文的呈现方面以倡议、介绍居多,实证研究或有实证研究部分的论文较少。

3.5 语言类实证研究

基于表1的特征系统,本文对选取的537篇实证类研究论文进行了多特征标注。表3展示了具体特征出现的频次及与其共现的其他特征。对角线画圈部分对应的横纵坐标相同,表示该特征总共出现的次数。以其为节点的横纵行数据相同,表示与其共现的其他特征。如“对比”这一特征出现207次,表明有207条文献具有“对比”的研究特征,这207条文献中的不同文献还可能同时具有“学术(39)”、“学习者(43)、词汇(58)、构式(40)”等研究特征。

表3 语言实证类研究特征共现情况

图5 实证论文研究内容(特征)分布

整体来看,在研究领域中,实证类论文中对比研究占比最高,主要包括了语类、语体、历时、学习者和本族语、翻译原文和译文、译文之间等不同形式与内容的对比。表明语料库语言类研究比较重视对比,从对比中寻找规律和特点。本体的研究位居第二,尤其是本体中的词汇和构式,可能与语料库检索和分析的便利性与学界对词汇、构式研究的偏爱有关。对话语分析的研究也位列前茅,有可能是分类时将媒体、特定语境中的语篇、口语语篇研究都归入此类的原因。接下来的排序依次为翻译、学习者和学术,对于文学体裁的关注较少,具有文学特征的研究大都(31/44)是在翻译中对于经典文学作品或典籍的研究。对于词块、篇章衔接与结构的关注都居弱势。下面分别对各研究领域的特征进行具体分析。

(1)对比分析数量最多(207篇),反映了我国语料库语言类实证研究重视对比的特点。而且从分布比例来看,与总体的特征分布趋同,仅在翻译研究方面高于总体水平,位于对比研究之首。不同的领域对比内容亦有各自的特点,将在下文不同领域和语言研究层次的讨论中展开。

(2)从翻译特征(共114篇)角度来看,对比(61)、词汇(34)和文学(31)是同时出现最高的特征。翻译研究涉及的对比除了包括不同译者译本、源语、目的语、历时译本之间的对比,随着机器翻译的发展,还出现了机器译本与译员译本之间的对比。翻译中的词汇研究主要针对某些或某类词汇(虚化动词、文化概念词、术语)的翻译或翻译特征(如词义泛化)等。针对翻译特征的研究分布在显化和隐化(15篇)、翻译策略(11篇)、文体与风格(12篇)。基于文学作品或典籍的翻译研究共31篇,其中文学作品外译研究22项,外译中研究7项,其余两篇是关于文学翻译语料库建设及文学翻译计量分析。中译外作品与外译中作品数量间差异较大,可能是受到国家文化走出去传播战略的影响。除了对比类的文章,还有28篇研究关注汉语译文的特点与质量。总体来讲,在语料库翻译研究领域,研究者对于汉外对比、文学外译以及外译汉翻译质量等比较关注,尤其体现在对词汇层面的研究上。另一方面,翻译类研究中对于学术、学习者以及篇章衔接与结构的关注度较低。翻译类研究发文较多的作者有胡开宝(6篇)、秦洪武(4篇)、王克非(3篇)以及韩江洪(3篇)。

(3)学术英语的研究共59篇。研究的内容主要是对比中外学者在学术写作方面的异同(39篇),其中11篇是关于学习者学术写作的研究。就研究的语言层次来看,对学术写作中各部分(摘要、引言、致谢、结论等)语步特征关注较多,共15篇。对词汇、语块、构式等的关注次之,且较均衡。研究的内容主要有介入、人称代词、壳名词、局部语法、模糊限制语、语法隐喻等。对于篇章方面的关注较少,此领域发文较多的作者有李晶洁(4篇)、刘永兵(4篇)和卫乃兴(3篇)。

(4)学习者的研究为96篇,主要通过对比(43篇)来发现学习者的语言特征及其身份特征。关注的焦点在词汇和构式等的使用。具体包括各类词汇(如情态动词、模糊语、人称、名词、缓和语、增强语等)的使用特征,及从认知角度研究词汇习得状况。对于词块的研究主要集中于3—4词词块。支撑理论上比较分散,包括动态系统理论、共现结构、句法复杂性、词汇丰富性框架、英汉时空差异、话题标记、修正策略、型式语法、结构框架和功能框架等。汉语学习者研究占有一定比例(34篇),其中王启、王凤兰(2016)关于汉语二语读后续写的协同效应一文在近三年语料库语言类研究文章中被引用次数最多,一定程度上反映了学界对汉语二语习得的关注。语言的研究层次涉及词汇、语块、构式的各个方面,对语篇的研究较少。整体来看,对学习者在翻译方面的习得研究不够。发文较多的作者有王文斌、赵朝永、刘永兵和张萍,均为3篇。

(5)话语分析研究囊括了媒体、政府等特定领域语篇及口语、个人风格、译作风格等的分析与研究,因而基数较大(127篇)。在此类研究中特定领域的话语研究居多(94篇)。其中,对政治语篇的研究最多(44篇),主题涉及外交、政策、政府发声、领导人话语、国家形象,关注政治领域的话语构建。对“一带一路”相关的话题尤为关注,共8篇。关于经济语篇的分析共10篇,其余40篇分散于旅游、法律、广告等各个领域。方法上多采用批评话语分析方法,研究话语中的权力表现。在15篇口语研究论文中,对课堂话语语用分析占比较大(11篇),主要涉及话语自我修正、异议表达、多人话轮研究等方面,反映了学界对于学术口语的关注。研究依据的理论主要有批评话语分析、元话语、评价理论、会话原则、自我修正等理论,其次为当前话语空间、概念隐喻、新闻框架分析、模因、互文性、历史话语分析等。研究者在相关理论框架下,对搭配、扩展意义单位、语义韵等语料库研究范畴进行分析。总之,该领域的研究与政治政策连接紧密,从语用角度进行的分析较多,口语方面对于课堂的学术口语有偏重。发文较多的作者有刘佳音(5篇)、赵永青(4篇)和高君(4篇)。

(6)带有文学特征(44篇)的文本多为翻译研究的对象(33篇)。其余11篇包含隐喻、文体风格等方面的研究,如:刘泽权、王梦瑶(2017)使用MAT多变量方法,考察《老人与海》在多维度上的特征;方颖(2016)借助Wmatrix,阐释阿瑟·米勒的两部时空剧人物塑造。

(7)本体研究中具有特征数量较多的为词汇、构式及对比。所有的本体研究中对汉语的研究较多(96/157),对英语的研究为37篇,对日语的研究为11篇,对英汉对比的研究为11篇,还有3篇不特别针对某种语言。从语言研究的分布可以看出国内研究更多关注汉语本体相关问题的研究,倾向于将西方语言学理论应用于本土研究。研究所依据的理论主要为认知相关理论框架,占28篇,包括对构式和词汇的范畴、原型、映射、概念框架、隐喻、转喻、认知动因、认知机制等的研究。其他理论还有构式搭配、构式语法框架等,种类并不多。研究主要集中在对特定词汇、构式、句法等的描述分析方面。虽然对于本体的研究较多,作者却比较分散,发文较多的作者有张继东、王芳和郭鸿杰,均为3篇。

(8)在研究方法的运用上,537篇研究大都涉及语料库的常见统计方法,如词频、搭配、索引行等。其中也不乏较新的工具与方法。在统计方面,有二元逻辑回归、对应分析、构式搭配等方法;在标注与检索方面有Wmatrix,Coh-Metrix,MAT,MIP,DICTION,USAS等。这些方法与工具的运用仅占少部分比例,而且多为国外开发。

(9)研究共现分析。通过特征分析,可以对2016—2018语料库语言类研究有个大概的了解。特征共现分析,通过计算ΔP值可以进一步展示各个特征之间的“吸引强度”。ΔP值是Gries(2013)用于研究单词对与其共现单词吸引强度所提出的计算值。ΔP值越高,证明某特定单词对与其共现的单词吸引力越强。用ΔP值计算的搭配强度是有方向性的。如of对course的吸引就强于course对of的吸引。本文用ΔP计算特定研究特征对与其共现特征的吸引。ΔP值高的研究,是学界比较倾向的选择。值得说明的是,倾向性指标并非表明其在所有研究中的比例,而是二者共同出现的可能性。比如course倾向于和of同时出现,并不表明语篇中of course的数量最多。计算公式如下:

i.ΔP=p (outcome|cue=present) - p (outcome|cue=absent)

ii.ΔP2|1=p (word2|word1=present) - p (word2|word1=absent)

iii.ΔP受关注程度=p (受关注特征|有既定特征) - p (受关注特征|无既定特征)

公式i和ii是Gries(2013)计算单词共现时的公式,iii是本文用于研究特征共现的公式。537篇文献中总研究特征数为1235。学术特征在对比特征研究中受关注程度计算公式为:

ΔP受关注程度(学|对)=39/207-(59-39)/(1235-207)=0.17

而对比特征在学术研究中受关注程度则为:

ΔP受关注程度(对|学)=39/59 - (207-39)/(1235-59)=0.52

0.52 > 0.17,说明对比研究在学术研究中受关注程度,比学术研究在对比研究中受关注程度要高。亦即相对于在对比分析中进行学术方面研究,学界更倾向于在关于学术语篇研究中进行对比。表4给出了既定特征和受关注特征的ΔP值。可以看出,对比研究在学术研究中受关注程度的ΔP值最大,表明学界中做此类研究的倾向性最高,学者们倾向于对中外作者或学术文章的不同部分进行对比,以发现不同特征。

从表4可以看出排名靠前的研究共现为学术中的对比、文学中的翻译、本体中的词汇、翻译中的对比、词块中的对比、多维中的对比、词块中的学习者、多维中的翻译、文学中的对比、篇章中的学术和本体研究中的构式。

负值表示研究之间的排斥。考虑到分类时,人为将某些特征定义区分开来,如本体研究与翻译、文学、学术、学习者特征不会共现,多维与词汇、语块、构式不共现等因素,只对有研究意义的参数解读。相互排斥的研究特征主要有:学习者研究中对翻译的关注、学术研究中对翻译的关注、翻译研究中对学习者研究的关注、词块研究中的话语分析、构式研究中的话语分析等。

表4 既定特征和受关注特征ΔP值

3.6 最相关领域——自然语言处理

自然语言处理侧重于对语料库中的语料进行计量学角度的标注与计算,有时需要借鉴语言学理论知识。检索近三年文献发现,自然语言处理与语料库语言类研究的界限有模糊之势。如:武继红(2016)借助MIP词典进行隐喻识别研究;王立非、刘霞(2017)运用自然语言处理方法和语步理论,对英语学术论文摘要语步结构自动识别模型进行构建;陈功、梁茂成(2017)对面向中国学生的英语书面语动词形式错误自动检查进行研究。自然语言处理模型中往往需要语言理论和知识的支撑,而模型构建又是为语言研究服务,可以在二语习得、机器翻译、主题挖掘和情感分析等多领域发挥作用。目前我们看到的仅仅是模糊的边界,真正的合作与共赢需要双方学者的通力合作。

4.结语

综上,通过对2016—2018国内语料库语言类相关研究的特征共现统计分析,将其研究的特点和趋势归纳如下:

(1)对比为主,本土发展。国内对于语料库语言类的研究角度仍以对比为主,主要体现在不同语种、时期、语类、语体、语言层次和单位、原文与译文、不同译文之间、学习者和本族语者、不同层次学习者等的对比上。对比的方法在学术英语、翻译研究方面尤其受到欢迎,表现为具有较大的ΔP值。对于语言本体、翻译、学习者的研究在所有研究中占有较大份额,是该领域研究的热点。这三方面的研究有很强的本土化倾向。本体研究中,相当比例的研究是汉语研究或汉英对比研究,这些研究有些借鉴国外先进的理念和方法,有些立足于本土理论,对语言本身进行描写和观察。翻译研究与学习者研究本身就体现了学界重视外语的学习和吸收,以及汉语的有效传播方面。高比例的汉语研究及英汉对比研究,一定程度上反映了学界对于本国语言和文化的关注与自信。

(2)词构引领,政策影响。在研究的语言层面上语料库语言类研究比较偏重词汇和构式的研究,且种类和角度比较细化、多样,反映出学界的研究视角的细分趋势。除了微观着眼,语料库语言类研究也比较关注国家的政治与政策。对于媒体、政府话语、翻译研究中外交、形象、政策等内容的关注在该类研究中占有一定比例;翻译研究中对中国优秀文学外译的关注、学习者研究中对汉语中介语的重视,一方面可能与汉语研究热度的上升及我们的文化自信相关,另一方面可能与国家文化外传的政策有一定联系。

(3)方法多样,理论西化。语料库是很强方法论导向的学科,本身就以其工具性而受到学界青睐。近三年的研究中不乏先进的方法。这些方法有些是和统计相关,有些则用于标注与检索。问题是,本土创新的方法较少,基本都是学习和引进国外的研究方法和工具。工欲善其事,必先利其器。我们在夯实语言学理论的同时,应当开阔视野,与自然语言处理研究相结合,开发出适合国内研究的语言研究工具。支撑研究的相关理论亦比较丰富,但依据本土理论进行的语料库研究较少。期待学界有更多基于本土化理论的语料库研究出现。

(4)研究常态,分布失衡。基于语料库的研究已经日趋发展成熟,成为常态,很多研究者不再将“语料库”字样嵌于题目之中。但是在语料库研究发展的当下,我们应当注意到该领域研究发展的不平衡状态。对于学术话语研究相对较少。对于词块和篇章的研究不足。在研究倾向方面,学习者研究中对翻译的关注、学术研究中对翻译的关注、翻译研究中对学习者研究的关注、词块研究中的话语分析、构式研究中的话语分析等是研究者们忽略的方面。另外,在语种研究方面,汉语和英语研究较多。对汉语变体、少数民族语言、其他外语的研究远远不足。

猜你喜欢

构式语料库学术
学术是公器,不是公地
《语料库翻译文体学》评介
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
“不可推导性”作为标准的虚妄:兼评“修辞构式观”
从语法构式到修辞构式再到语法构式
主观性在口语构式中的非常规表达——以口语构式“V+他2+NumP”为例
基于JAVAEE的维吾尔中介语语料库开发与实现
强化显义与突出内涵:当代流行构式“不是所有的X都叫(是)Y”研究
语篇元功能的语料库支撑范式介入