APP下载

基于语料库的应用语言学词块及词块表的构建研究

2019-01-24

山东农业工程学院学报 2018年12期
关键词:词块语料语言学

(齐齐哈尔工程学院 黑龙江 齐齐哈尔 161000)

词块是语言应用的重要单位,在理解语言、产生语言中发挥重要的作用。语料库则为词块的使用提供了存储的条件与环境,使词块使用者无需依据语法规则对语言进行生成,从而,有效提升语言表达的准确性与连贯性。以英语为例,英语中有很多兼有词汇、兼有语法双重语言结构,这些结构可作为一个总体内容在人类大脑中进行储存。在人们应用词汇时,可通过词块的扩大使其有效掌握词汇语言结构,从而实现语言知识的拓展以及交际水平的提升。因此,针对语料库的应用语言学词块进行研究,并对词块表进行构建,对语言发展来说具有重要的意义。

1.基于语料库的应用语言学词块使用现状

针对词块的研究已有多年的历史,词块理论也得到广大语言研究者的认可,但在词块实际应用中却存在不足之处。各类词汇表都未曾展现出词块的理念,也没有将词块纳入语言学习计划中,导致很多语言应用者对词块的认知过于薄弱。同时,在进行语言教学时,也没有将词块学习作为教学重点,对词块的应用与发展缺乏积极性。结合语料库来看,可知语料库对部分语言的翻译存在较为明显的问题,甚至会对语言使用者带来直接的误导,导致其在翻译、交际过程中存在语言应用不严谨的现象。以英语为例,常有部分需要单数的词语被拼写成复数(例:infrastructure-infrastructures),虽然错误较为简单,但还是要对其加以重视,减轻语用误解,同时,语料库还存在标点符号、语法性错误等现象。以英语为例,中英文标点符号混淆,易对翻译过程带来影响,也易导致部分单词错误的排列,影响语言的理解过程。而词块中冠词与主谓不一致、名词单复数等错误,则易导致语用过程存在混淆现象,翻译文本也易被理解的支离破碎。此外,也有部分语料库编撰人员没有对资料进行仔细审核,导致语用者在对语言进行翻译、应用发展的时候,会出现不足之处。

2.基于语料库的应用语言学词块表构建原则

在利用语料库进行应用语言学词块表构建时,需要遵循视觉设计合理、词块分类明确、语料库检索内容丰富、词块语用信息完善等原则。因此,在进行词块表构建时首先要对视觉设计加以重视,对语用词块内容进行优化,重视视觉效果,使其充分符合语用人员的思维与习惯。在视觉设计上则需突出词块表的特色与重点,还需突出学术语言特色,对影响力较大的学术文献进行深入介绍,引导语用人员对学术的全面了解。其次,还需对词块进行分类,对词块应用排序有所侧重。主要由于不同国家具有不同文化,所以词块表在构建时需要设置合理的检索栏目,并以正确的目的语语序、习惯为主,找寻母语与目的语之间的契合点,从而提高词块表的实用性。再次,在针对语料库词块表在线检索设计时,需要结合传统检索方法,了解其不足之处,从而进行创新,使语用人员在检索时能得到不同词块所拥有的丰富语义,并呈现出词块的语用实例,为语用人员带来详细的参考资料。

3.基于语料库的应用语言学词块表的构建过程

3.1 语料收集及分析

本次研究所利用的目的语语料皆是2005年至今语言学应用专业人员参与的实证研究结果,包含国际九种SSCI语言学杂志中学术论文,例如:Applied Linguistics、Language for specific purposes 等,语料较为权威且准确,经过核查,共计语料约为300000词。涉及目的语教学、二语教学等多样化话题。并采取随机挑选策略,将文章正文纳入语料库中,为词块表的构建奠定基础。本次研究的首要问题时应用语言学词块表的构建,为解决这一问题,首先需要设定频率域值域标准,从而安排应用语言学词块。词块频率域值域的设置与选择参考Ellis编制词块表的提取标准,大致设为20次/百万字,值域标准大致设为十分之一文本中出现的词块,利用Antconc多功能检索工具进行设计。其次,还需将语料库内输入检索工具,设定检索长度、最低频数,得到总类符及总字符的数量。并利用Excel工具针对语料库内文章进行随机抽取,选取高频应用类符词块,并对其中占位符进行筛选,去除非语言单位、语法不合内容等,得到涵盖使用频率较高的应用语言学词块表。此外,本次研究还需设定词块频率排序,并丰富高频词块的语用功能与结构特点内容。为此,可将词块分为指示性、态度性、话语组织性三类,结合不同类别进行划分。

3.2 词块提取及词频分析

在构建应用语言学词块表时还需对词块进行提取,针对词块的提取可利用多方印证法进行,将文献集中,利用语料库及人工识别工具等对词块进行提取。保障词块的提取可按照lemma(词条)进行,与参考文献与目的语语料充分结合,从而设计出词条列表(lemma matches list,以下简称 LML),例如 Be 动词(am、is、are/was、were)等。利用词条功能,去除屈折形式,且不设频点,提取词块,加载列表,从而将其合并,做标准化处理,保障检索结果的准确性。同时,词块出现频率是词块表构建的决定性特点,当提取率达到40次/百万词时,此提取频点为较高频点。而提取率达到20次/百万词时,此提取频点为标准频点。因此,可将词块提取频点设定为10到40次/百万词,本次研究设定为10次/百万词。保障200个提取频率最高的词块中有163个及以上的较高频点词块,而此200个词块则是本次研究的重中之重。

语料库中出现最高频率的词块中,每200个中有百分之二十的词块被包含入应用语言学词块表的构建中,但需要注意这些词块中须有百分之十的词块出现40次以上,实验表明,语料库词块对学术语言教学、写作、翻译中具有重要的作用。这也代表研究人员在构建词块表以及语用人员在检索词块表时还需充分了解这些词块的必要性及应用价值,因此,需要将语料库与应用语言学词块表的构建紧密相连,从而编制具有语言应用特色的词块表。

3.3 应用语言学词块功能分类

依照词块语用功能分类方法,可将词块表中词块分为指示性、态度性、话语组织性词块三类。在设计应用语言学词块表时,需保证指示性词块可占词块表的69.7%,充分展示出指示性词块的重点语用功能。同时,指示性词块是语用范围内使用频率最高的词块,因此需对其加以重视。而态度性词块与话语组织性词块二者在语用范围内使用频率相似,与指示性词块共同构成语用范围最长应用的词块内容。因此,在进行应用语言学词块语用功能分类时,可将指示性词块作为基础。指示性、态度性、话语组织性词块功能划分见表1。

表1 应用语言学词块(三类)功能划分

指示性词块在语料库与词块表的分布规律相似,但在词块表中,指示性词块的应用频率明显较高,主要针对语用篇目、语用情景中的时间与空间的指代。此块表中则需主要展示指示性词块所应用的内容与主题。 例如 teacher and student(师生)、teach and learn(教与学)等。其在词块表中的结构多以介词短语及名词短语为主,例如:at the end、the same words等。此外,语料库将对彼此快纳入指示性词块的划分,而词块表中也将其实用性充分展现。态度性词块与话语组织性词块大多针对语料库中语篇指示、话题介绍等进行设计,在构建词块表时需要结合学术论文中常出现的词块内容进行编撰,保障词块使用频率与真实频率相符。最后,还需针对应用语言学词块的结构继续拧分析,从而确定其在词块表中语用功能。有语用学者会利用大量的名词词组来确定学术语用意义的广泛内涵,例如数量词(number)、地点词(end of the...)、质量词(nature of)等,最终保障词块表中词块的主题可充分阐释语用功能。

4.结语

结合大量应用语言学SSCI学术论文,编制应用语言学词块表,同时针对词块进行分析与研究,探索语言应用中词块的使用,充分重视语用条件,将语料库作为词块应用一大措施,以提高语用水平,减少语用偏误现象的出现,有效避免语用交际、翻译、阅读等出现的误解,并为语言学的研究提供更多参考资料。

猜你喜欢

词块语料语言学
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
高中英语词块教学现状调查研究及应用策略分析
基于语料调查的“连……都(也)……”出现的语义背景分析
认知语言学与对外汉语教学
词块中心教学法在高职英语教学中的应用初探
词块理论与高职英语翻译教学研究
华语电影作为真实语料在翻译教学中的应用
词块在初中英语写作教学中的应用研究
《苗防备览》中的湘西语料