APP下载

COCA 在线语料库在自主学习中的应用

2021-12-15郑碧莲

现代交际 2021年20期
关键词:语域词频语料库

郑碧莲

(广东财经大学外国语学院 广东 广州 510320)

语料库为语言研究和教学提供了大量自然、真实的语言事实和文本数据。在理论研究层面,研究者可基于翔实的语料库文本证据提取分析各类文体的语言特征,更加科学客观地描述特定体裁、语域的词汇特点和篇章特征。在语言学习层面,基于语料库的数据驱动学习方法,符合图式结构和建构主义的学习理论,能帮助学习者提高语言意识、内化语言使用规律、提升语言交际能力,语料库已逐渐成了外语自主学习的重要辅助性工具之一。专业优质的在线语料库及操作简易的检索平台可以克服自建语料库和检索工具的诸多限制因素,为语料库数据驱动自主学习提供更多可能性。

美国当代英语语料库(COCA)自开发以来受到了国内学者的关注。徐玉苏基于COCA语料库创建微型文本设计词汇教学,并通过实验对比验证了该教学实践对提升词汇学习效果和提高学生自主学习能力起到了较大的促进作用[1];方玲、汪兴富对如何利用COCA语料库的便捷检索功能培养学习者自主学习能力和提升英语语言文化知识做了示范性的论述。[2]84然而,现有研究多基于COCA在线语料库的部分检索功能探索其在教学或学习中的应用,尚缺乏对各检索模块的全面讨论。因此,本文将结合具体的问题情境阐述如何综合使用COCA在线语料库的各项功能进行检索查验和归纳总结,提升高校学习者的自主学习能力。

一、理论基础

我国高校学生多为英语中高级学习者,已具备较扎实的语言知识,但在词块搭配、语用语义的正确使用等方面亟待提升。如只知“face”有“面对”的意思,却不熟悉“be faced with”作为固定语块使用,且生搬硬套固有词汇的现象依然普遍存在。图式理论研究者认为,人们运用预先储存的知识或知识结构进行语言理解。[3]中国学习者英语能力的提升关键在于建构、重构其已有的语言图式认知结构,而要实现此目标,就需要从语言输入的量、质、方式等方面做出突破。[4]语料库资源和工具为语言学习过程中认知图式的建构和重构提供了良好的环境。一方面,语料库提供了可循环接触和重复验证的语言事实,并基于频数统计和语境共现这两大技术优势,凸显语言使用中的高频用法和显著特征,能帮助学习者不断检验和重构、建构语言知识图式,科学地了解和归纳实际交际中不同体裁和语域的词汇、语法和语篇特征,拓宽加深语言知识和有效提升语言的交际能力;另一方面,语料库数据驱动学习要求学习者作为信息加工的主体和知识意义的主动建构者[5],在丰富的语言实例中主动进行观察分析、体验发现和总结归纳,提高了学习者的学习兴趣和主动获取知识的动力。

二、COCA 在线语料库的自主学习运用

COCA在线语料库作为具备数量规模、检索速度、持续更新、文本正式,且涵盖口语、小说、流行杂志、报纸、学术期刊、电视电影字幕、博客、网站各大类型语料的专业平衡语料库,能够很好地服务于语境索引、词块搭配、类联接语法模式归纳、语义语用辨析、创建个性化语料库等学习行为。本文对COCA在线语料库检索功能及具体用法进行归纳(如表1),并结合问题情境,阐述如何综合运用这些检索功能开展自主学习。

表1 COCA 语料库在线平台主要检索功能归纳

1.综合运用List、Chart、Collocates和KWIC,多渠道助力写作表达

情境1:在英语学术写作中,如何选用恰当的动词描述和评价他人的观点或研究成果?描述研究行为时表示测验、分析、评价的动词有哪些?如何检索到学科专业领域内的相关词汇和地道表述?

通过综合使用List、Collocates和KWIC检索,学习者可拓展此类表达的近义动词,了解其常用搭配、使用语境、类联接语法模式等知识。

在List模块中,学习者可用其比较熟悉的test和show分别进行近义词检索。在搜索框中输入[=test],POS(词性)选择verb.ALL,Sections(分类)下拉菜单中选择语域ACAD,可检索得到test的近义词examine、assess、investigate、analyze、check等。同理,输入[=show]则可检索到show的近义词explain、appear、prove、point、indicate、present、establish、reveal、demonstrate、display、illustrate等。如想了解indicate在商务学术英语中的使用情况,在搜索框中输入[indicate],POS选择verb.ALL,Sections选择ACAD:Business,检索可得到indicate及其变化形式indicates/indicated在Business子库中的使用总频数及各个形式的使用频数。如想了解indicate在不同语域中的使用情况,可在Chart模块中进行检索,Sections选择IGNORE,结果页面将通过数字和柱状图呈现indicate在八大语域中的使用频率,比较可发现在ACAD中的使用频率显著高于其他语域。

在Collocates模块中,可检索目标词语前后1—9个单词之间的词语搭配情况。以检索与动词test搭配的名词主语/宾语、介词为例:在Word/phrase框中输入[test],Collocates右边的POS选择noun.ALL,左右跨距均设定为2,Sections选择Academic:Medicine,检索得到Frequency列表呈现医学学科领域中与test搭配的高频名词,如hypothesis、results、differences、effects、patients、samples等。同理,将以上检索条件中的POS选定为PREP,就可以得到与test搭配的高频介词为for、in、by和with。

在KWIC模块中,可直接检索到目标词语或短语在语境中的索引行例句。将索引行中目标词语左右相邻的一个或若干个词进行排序,观察和归纳词语的类联接语法模式,即词语搭配中的语法结构。如根据KWIC检索得到动词test的索引行例句,可归纳出它的6种高频语法形式:test+名词,test+介词+名词,test+名词+介词,test+从句,be tested,be tested+介词+名词。同时,利用索引行提供的局部语境或超链接中的扩展语境,学习者可以在大量的语境中进行分析验证,自下而上构建认知图式,掌握目标词语的语用知识。

2.通过Collocates互信息查询共现词汇,构建主题词汇语义网络

情景2:在开展以Risk management为主题的学习时,遇到词汇匮乏的问题怎么办?

Collocates模块除了用于词语搭配的检索,还可起到互信息查询领域词汇的功能[2]81,帮助学习者解决词汇贫乏的困境。以risk management作为检索词,POS选择noun.ALL,左右跨距均设置为9,勾选Sections中的ACADEMIC,即可获取学术语域中risk management左右最大间距为9个单词的上下文中共同出现的名词词频表。通过该词频表可了解与risk management话题研究相关的高频名词,进而构建该主题的词汇语义网络,激活学习者思维中的相关事物概念和语言表达。借助共现词汇表、词汇语义网络的预置性学习,学习者可以对听力、阅读内容进行预测,或为写作、口语表达奠定词汇基础。

3.通过Compare和KWIC辨析近义词

情景3:indicate和demonstrate在词语搭配、语用语义方面有何区别?

Compare模块可实现两个目标词语搭配情况的检索对比。通过设定搭配词语的左右跨距和词性,检索得到搭配的词频表可直观展示目标词语在词语搭配上的异同。在Word1和Word2中分别输入[indicate]和[demonstrate],Collocates右边的POS选择noun.ALL,左右跨距均设为2,则可检索到这两个目标词语左右2个词距内搭配的名词。检索结果页面将默认按RATIO值高低左右对照呈现,可手动切换为按FREQUENCY排序。同时,通过KWIC索引行例句中的局部语境或进入扩展语境,比较分析词语之间细微的语义语用差异。解决很多传统教学中无法解释清楚的语言使用问题。

4.通过Word检索快速认识目标词语

情景4:各个检索模块之间是否相互联系?可否快速获取对语料库中某个词语在语义、搭配、语用语境等各方面的信息?

通过Word模块检索得到的词条页面,简明扼要地展示目标词语在语料中的综合信息,能够有效帮助学习者快速获取目标词语在意义、搭配、语法和语用等方面的认识。如在搜索框中输入[indicate],POS选择verb.ALL,检索可得到基于对COCA语料库挖掘所产生的词条页面,呈现目标词语各方面的数据信息及相关链接(点击即可查看),包括词频对比图、相关话题(Topics)、高频搭配(Collocates)、词簇(Clusters)、索引行(Concordance lines)等。词频对比图通过柱状图直观地展示目标词语在不同语域语料库中的使用频率。高频搭配按词性类别分别列出了与目标词语共现的高频词汇。相关话题罗列了与目标词在同一页面出现的有语义和话题相关性的关联词汇。此外,单词释义下方的PlayPhrase可超链接到影视作品中的关联片段,为学习者提供多模态学习资源。

5.利用Texts/Virtual创建个性化语料库

情景5:能否利用COCA语料库数据,快速创建满足个性化学习需求的语料库?

通过Texts/Virtual下的Create corpus选项,学习者可以利用COCA这个庞大的语料库资源自建与学习领域密切关联的虚拟语料库。根据自身的学习需求对语料来源(Source)、文章题目(Article title)、年份(Year)、文体/语域(Genre/domain)、单个关键词(Words in text)这些选项进行设置,创建满足个性化需求的语料库。如筛选2015—2019年间学术研究教育学领域(Academic:Education)的所有期刊(Journal)文章建立语料库。如要进行更复杂的检索建库,可在COCA主页面搜索框中输入短语、词根、语法结构等进行检索,Text/Virtual选项下选择FIND TEXTS,点击Find matching strings进行检索。学习者可根据需要编辑修改自建的语料库,在单个或多个自建库之间检索比较。自建语料库中的FIND KEYWORDS选项提供按词性类别呈现关键词列表的功能,还可调整词频数(FREQ)/文本数(TEXTS)或选择语料库特有词汇(SPECIFIC),进一步调整词条和建立词条库。据此学习者可根据自身水平有针对性地选择高、中、低频的词汇进行学习。

尽管语料库资源为语言学习提供了传统学习材料无法取代的优势,但语料库的建立需要经过文本搜集、清洁、整理、标注等复杂程序。COCA在线语料库的创建语料库功能克服了语料库建设的限制性因素,为学习者高效选取符合个体需求的学习资源提供了极大的便利。

6.利用Analyze统计词频,预测文本难易度,抓取重难点词汇

情景6:能否借助自动统计数据,在阅读前了解文本难易度和重难点词汇?

在Analyze左侧搜索框中输入目标文本,系统会自动基于COCA语料库数据按高、中、低频对文本中的词汇进行词频统计和分类。词频统计可以帮助学习者预测文本内容的难易度,有助于锁定中、低频陌生词汇作为预习或学习重点,从而提升阅读学习效率。此外,搜索结果页面中的词条超链接和短语匹配检索功,有助于提高学习效率。点击文本中的词语即可超链接到词条页面,获取该词在相关话题、高频搭配、索引行等方面的汇总信息。切换至PHRASE选项,可选定文本中的短语进行近义短语或相关搭配的搜索。

三、结语

培养学习者基于语料库数据驱动的学习技能,顺应了数据化教育的时代要求,也是培养和提升学习者自主终身学习能力的必然要求。高校教育者应树立学习者是语料库使用主体的观念,贯彻培养学习者运用语料库进行检索学习的理念。在持续完善语料库和优化检索平台的同时,应加强对学习者自身检索学习能力的培养。本文结合问题情境论述了COCA在线语料库在自主学习中的综合实践运用,为学习者语料库驱动自主学习能力的培养提供参考。

猜你喜欢

语域词频语料库
基于语料库的清末民初日源外来词汉化研究
运用语料库辅助高中英语写作
科技术语的语域传播论纲
语域下土木工程英语词汇文体特征
基于语料库的近义词辨析
词频,一部隐秘的历史
汉语音节累积词频对同音字听觉词汇表征的激活作用*
语料库与译者培养探索
利用语域预测功能突破听力语言焦虑