APP下载

英语高频词汇的采集方法

2018-03-22李梦圆

考试周刊 2018年27期
关键词:英语

摘 要:英语高频词汇研究属词汇分析的一部分,在语言研究和教学实践中极具实用意义。本文介绍高频词汇的概念、采集原理及使用《英语词汇分析工具》软件采集英语高频词汇的方法。

关键词:英语;词汇分析;高频词汇;英语词汇分析工具

一、 引言

词汇在英语语言研究和教学工作中是重要的组成部分,高频词汇因使用频繁而受到普遍重视。根据关注目标不同衍生出各类英语高频词汇,如考试类的高考高频词汇和托福高频词汇,技术专业类的如商务英语高频词汇、新闻英语高频词汇、化工英语高频词汇等等。这些英语高频词汇面向对象不同,词汇组成差异明显,研究高频词汇可以帮助教师更多地关注这类词汇的相关信息、更好地把握教学重点和更高效地训练学生应对能力,提升教学质量。

二、 高频词汇概念和采集一般步骤

高频词汇通常是指在语言交流中使用率较高的词汇,或某领域使用较普遍的词汇。它是以交流材料为计数单位,经过对许多批次材料词汇词频统计,筛选出由频数较高词汇组成的一批词汇。一份材料无论某词汇出现多少次,其词频计数仅算1次,而频数为100的词汇是指在所有统计材料中有100份材料含有该词汇。高频词汇共同特征是对材料的较高总体覆盖率,如商务英语高频词汇对各种商务文书类具较高的覆盖率,考试高频词汇考到的概率较大。因此,仅对一篇材料进行词频统计或将所有材料组成一个大文件做词频统计均不适合用于高频词汇采集。本文以考试高频词汇的采集为例,介绍采集的技术要点和一般步骤。

考试高频词汇指在特定考试中按考试批次统计出现频数较高的词汇(覆盖率较高)。如对20批次考试试卷进行词频统计,某词汇在14批次考试试卷中含有,则该词汇的统计频数为14,考试覆盖率70%,该词汇应属于考试高频词汇。考试高频词汇的采集首先要收集足够批次考試试卷(统计学称之为采样的样本量)。受考试时长和篇幅的限制,每次考试所含词汇数量十分有限,如果用于统计的试卷批次数量过少则高频词汇采集将失去意义,考试批次越多,高频词汇采集工作就价值越高。采集的主要工作是制作词频统计数据表和各频数段词汇表,该工作一般用专用软件在计算机上完成,词频统计数据可帮助快速框定高频词汇的范围,合并框定范围内各频数段词汇表就完成了高频词汇的初始采集工作。高频词汇范围框定一般有两种方式,一种方式是以词汇数量规模进行框定,如根据词频数由高到低选取2000个词汇;另一种方式是按考试覆盖率框定,如超过半数考试含有的词汇(考试批次覆盖率50%)。

经上述工作形成的高频词汇初始词表的后处理是除去(Excluded Words)一些不应包含在其中的词汇,包括专有名词(如U.S.A./Mrs./April)、数词(如three/second/nineteenth)、感叹词(如yeah/oh/ha)、无法归类词(如er/th/wh)、字母符号(如a/b/l)、计量词(如km/vol./p.)、缩写(如b.c./a.m./ie)、代词(如your/her)、介词(如of/as)等等,最终完成高频词汇词表。

三、 采集工具与操作

《英语词汇分析工具》是南通大学李冬研制的英语词汇数据采集工具,该软件功能十分丰富,2017版除了对原有功能优化外,首次推出了小程序功能,为以后功能不断地丰富创造了条件。目前含有的小程序已达10余种,其中“txt多试卷”小程序是专门为高频词汇采集设计,可以完成多批次材料的词频统计和对应词汇表生成工作。该小程序通过连续、多次导入各批次试卷(或材料),采集词汇进行词频统计,生成包含各频数段词汇数据及对应的词汇表,操作十分便捷。它也适用于各专业类高频词汇采集(如商务英语、化工英语、医学英语等等)。

软件操作:启动软件后(见图1)在小程序调用输入框直接输入小程序名“txt多试卷”,点击“运行”按钮启动该程序。

图1

进入该小程序操作界面后循环进行下面4个步骤完成多批次试卷数据采集:1在弹出的窗口中点击“打开文件”;2选择导入试卷;3勾取“继续导入试卷”复选框准备下一轮采集;4回到采集初始界面(完成一份试卷数据采集循环)。经过N次循环完成N份试卷的数据采集后点击“完成”按钮结束循环,显示统计数据和各频数段词汇表。

图2

打开程序生成的数据文件,只要根据自身情况框定高频词汇范围、去除上述少量无关词,高频词汇表就完成了。

四、 结语

高频词汇(highfrequency word)一直是英语学习者词汇学习关注的焦点。英语教师往往希望根据自身教学情况获得适合自己教学需要的特定高频词汇表,但是,高频词汇清晰的概念、采集方法及辅助工具均未见报道。本文通过介绍高频词汇采集及相关技术,以期推动各类高频词汇研究,满足相关人士的需要。

参考文献:

[1]何华清,陈文存.大学生英语高频词汇水平实证研究[N].西华师范大学学报:哲学社会科学版,2008(2):43-47.

[2]苗丽霞.非英语专业学生基础阶段高频词汇水平发展研究[N].宁波大学学报:教育科学版,2010(2):116-210.

作者简介:

李梦圆,江苏省泰州市,江苏泰州学院外国语学院。

猜你喜欢

英语
玩转2017年高考英语中的“熟词僻义”
英语
读英语
酷酷英语林
悠闲英语(86)感恩与忘恩
英语大show台