APP下载

一种词汇量的测试算法研究

2018-07-12罗胜

电脑知识与技术 2018年14期
关键词:测试算法

摘要:随着社会的发展标准化测试的出现,对标准化测试的科学性要求越来越高,测试的质量评价对教学管理和教学计划至关重要。词汇量的测试在语言教学中可以帮助老师很好的了解学习者词汇知识的掌握情况,对教师的教学提供很大的帮助,该文对词汇量评估计算与预测方法,提出了一种实践评估模型。

关键词:语言词汇;测试;算法

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)14-0248-03

1 研究背景及意义

一种语言包括语言知识和语言技能,词汇知识就在一定程度上就是代表语言知识,词汇不仅是语言的基础,这是衡量一个学生英语学习水平的一个不可或缺的重要指标。由于词汇量的掌握程度可以反映学习能,所以词汇学习与教学、词汇的测量这个研究方向备受国内外研究者的关注,其中研究学习者的语言词汇定量测试的研究最受研究者与教学的关注。

对语言词汇研究的方向很多,例如对词汇量的测定方法也很多。其研究的重要性也是多方面的:语言词语的定量测试可以促进学习,帮助教师更准确的了解学生词汇发展的水平,有助于老师改进教学方向。通过这种定量的检测,可以帮助老师更好地了解学习的语言基础,更好地掌握学习者的学习情况,有助于老师改进和提高教学水平,这也是老师区别基础好的学生与基础不好的学生的一个重要手段。

词汇量测量是国际间跨文化研究的重要方法。所以,要想针对学习者的语言知识和语言能力进行测试,就必须对学习者的语言词汇水平进行测试,语言词汇的测试结果可以间接的反映学习者的语言知识水平。到目前为止,国内外的研究者已经提出很多的测试方法,也有了一些比較成熟的测试理论。不过关于语言词汇量的测试定量研究有一个明显差异。首先,测定的结果差异性很大;其次,使用的基础语料库的不同,以及使用的特种值不同;有的需要测试大量的语言词汇才得出结果,而且需要测试的覆盖范围比较大,测试的时间比较长。即便是对同一语言水平的测试者进行词汇量调查,不同的测试手段对同一个测试者测试的结果差别也很大。这就是本文提出的用少量语言词汇测试测试出一个较为准确的水平,提出一个探索似的测试算法理论。不过这个算法的正在逐步的实现,我自行设计的《一种语言学习及智能测试平台V1.0》就是对这个算法的系统实现,而且本系统已经得到国家版权局的著作权的登记,目前该软件在我们学校部署给学生使用。测试的结果数据为后续算法的改进提供大量的数据支持,对以后的语言词汇测试的算法探索提供重要的数据。

2 相关理论及数学模型的创建

本文主要的研究内容就是提出基于关联性模型的词汇测试算法,对目前语言词汇定量测定工具中的理论数学模型的讨论。文章中提出的关联性模型就是马尔可夫链模型。马尔可夫链就是描述了某一个结果的产生,取决于它前面的有限个状态[1] 。已经测试过的多个词汇的特征值决定下一个测试词汇的特征值的出现,也就测试的下一个词的特征值关联了它前面的多个词的特征值。

语言词汇的定量测试首要的工作就是选取一个恰当的词汇库,不是语言中的所有词汇都可以作为测试样例。除此之外,还要参考国内外的研究者的一些研究成果相结合,以及一个区域的教学水平和教学习惯相结合。选择语言词汇库的方法目前常用的有两种,一种是词典法;另一种是使用词汇频率表法。词汇频率表是依据词频表选择一定频率的词来测试。通常情况下,人会先记住使用频率高的词汇 [2],人们对低频率词汇的使用少,所有不容易记住。这就是语言词汇频率对学习者的学习影响的一个因素,对不同使用频率的词汇有着明显的差别。因此,学习者对各语言词汇使用频率等级的词汇掌握情况可以反映出他对该语言知识的掌握情况。中国教育部对语言词汇的大纲要求,尤其是对中小学英语词汇的要求,可以大概的统计出英语词汇的使用量在1.3万左右。本文中提出的语言词汇的测试就以英语词汇作为测试样例。 英语语言词汇库的选择是根据《英国国家语料库》得出的使用频率最高的2万个词汇[3]。从这个语料库中在进行部分的筛选就精简后得到本文中使用的词汇库。例如:同一个词的不同属性的词,选取它的名词形式就可以。这样对语料库进行筛选后剩下大概1.5万个词汇。本文使用的语言词汇库就是这1.5万个词,并把剩下的词汇库进行难度级别的划分,划分为10个难度级别。

对测试语言词汇建立数学模型设,假设被测试词汇的使用频率特征值记作[idn (n∈N?)],就是词汇的词频作为特征值。词汇的测试状态记作[Fn (n∈N?)],其中对象特征值为[idn]对应的词汇测试为[Fn=1],表示测试正确,否则记记[Fn=0];测试对象的特征变化值[tn (n∈N?)];表示从[idn]到[idn+1]的变化值;加权值[ζn]; [xn]表示为测试难度系数值;用 [f(x)]来计算特征值, 当然它的取值为[x (x∈(0,10)];最后用一个测试矩阵来记录测试的结果, 这个矩阵记着[R]矩阵;可变邻域函数[ψn(t)]和[φn(x)],表示该特征值的词汇邻域词汇特种值,如果该特种词测试正确,则[idn]邻域内的词汇测试通过;如果测试错误,则认为[idn]领域内的词汇没有掌握,而这个邻域大小由[ψn(t)]和[φn(x)]两个函数来决定。

3 测试的算法及实现步骤

数学模型建立之后开始测评算法, 首先,确定数据库中词汇的某种特征值为[1......i (i∈N?)],并每隔1500个词划分一个级别,共划分10个级别,多余的词汇规划为最后一个级别;

其次,选取特种初始值[id0],任意从第一级中选取一个词汇的特种值作为初始特征值赋给[id0],第一个级别的词汇特征值范围[1,1500],即[id0∈1,1500],并确定词汇难度系数[x0=1];计算第一个测试词汇的对应的特征值:即[id1=id0+f(x0)];对被测对象特征值[id1]对应的词汇的选项进行判断;如果被测对象特征值[id1]对应的词汇的 选项正确,则定义标记[F1=1];如果被测对象特征值[id1]对应的词汇的选项错误,则定义标记[F1=0];

最后,得出了测试评价对象矩阵[R],对矩阵进行相应的计算得出结果,如果在某个特征值[idn],当测试者的标记[Fn]为1时,则认为在[idn]邻域中的词汇都能掌握,否则认为没有掌握,但这这个邻域由邻域函数[ψn(x)]和[φn(x)]来确定的。即[idn]的左邻域值和右邻域值是由这两个函数来确定的,而且不同的 [idn]的邻域大小也可以不同,则测试者的词汇测评域估计值为:

式子中a表示测试判断对的总个数,b表示测试判断错的总个数;

其流程图如下:

以下就是本算法逻辑的进一步的实现描述过程,已知:测试语言词汇特征值[idn (n∈N?)] ;状态值[Fn=1]表示测试正确,[Fn=0]表示测试错误;加权值为[ζn];特征差值计算函数选为[f(x)=k1+Aea+bx]的函数族之一, 实例化该函数时以语言词汇语料库词频为准,语料库的最大上限为一万五千个词。对象特征函数的最大值也不可能超语料的上限,所以函数中的常量初始化为[k=15000], 初始值[A=id0],[a+bx=-x]。则最终实例化的[f(x)]为:[f(x)=150001+id0e-x] ,如果把[f(x)]实例为更简单的函数也可以,只要能满足该函数是随着缓慢递增的函数,而差值是一个缓慢递减的函數型即可。本文中使用的就是上述实例的函数进行计算,对象特征值变化函数[f(x)];对象特征值变化量[tn-1];测试评价矩阵[R]表示测试者测试的结果;可变邻域函数为然后进行测评计算,具体步骤如下:

下面是对本文中的算法的一个测试样例:使用语料库中词汇使用频率作为特征值;测试7个词汇,初始值[id0=1200];加权值[ζn=0] ,测试的难度系数 [x0=1],根据算法流程图 [id1=id0+f(x0)]算出第一分测试词汇的特征值:[id1=1200+33=1233],并且判断[F1=1],则[x1=x0+1 =2];根据式子计算[id2=id1+t1 ],再计算[id3],[id3=id2+t2 ];本实例的难度系数总后为:[xn=12343.54.55.5];某个[idn]值时[F= =1]则左右虚线内的单词可以,认为是掌握的,根据常用15000词分成10级,假设各级的邻域函数值为:

对象特征值生成函数[f(x)=150001+1200e-x];

对象特征值生成函数的,根据图1则得出的:

最后得出[R]矩阵:

根据测试流程图中的值一次判断条件,得出算法结果:

通过上述的算法实例计算,可以大概得出该测试者的词汇量为4400个词,结合图1的实例,测试者是连续7道,第4道错误的测试词汇的结果。

4 结束语

本文提出的算法主要是依据英国国家语料库编制的词频作为词汇样本,其权威性还有待商榷。该算法主要是针对怎么样产生测试的词汇,测试词汇之间的一个关联性,使得下一个测试词汇有已经测试的词汇的状态来决定,具有马尔可夫的性质。至于关联程度是有待研究,以及多维下的马尔可夫模型也是今后研究的问题。

参考文献:

[1] 王秋艳.词汇测试[D].重庆大学, 2012.

[2] 姜君.第二语言词汇知识及其测试模式[D].中国石油大学,2006:48-50.

[3] 白金荣、覃春华.CET词汇测试与词汇教学[J].河池师范高等专科学校学报:社会科学版,2000:28-123.

[4] 戴炜栋.现代英语语言学概论[M].上海:上海外语教育出版社.2001:17-45.

[5] 桂诗春.标准化考试—理论、原则与方法[M].广州:广东高等教育出版社,1986:1-200.

[6] Halliday,M.A.K. An Introduction to Functional Grammar.2nd edition[M].北京:外语教学与研究出版社,2000.

[7] Lyons J.Linguisti Semantics.An Introduction[M].北京:外语教学与研究出版社,2000.

[8] 陈建清.研发MP3辅助学习功能培养学生英语学习习惯[A].江苏省教育学会2006年年会论文集(英语专辑)[C]. 江苏省教育出版社,2006.

[9] 罗胜.一种基于马尔科夫的词汇量测试与评估方法[P].中国受权公告号:CN203514554U.2015.

[10] 罗胜.一种词汇量的测试与评估方法[P].中国受权中公告号:CN203513154U.2015.

猜你喜欢

测试算法
幽默大测试
幽默大测试
幽默大测试
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
“摄问”测试
“摄问”测试
“摄问”测试
进位加法的两种算法
基于增强随机搜索的OECI-ELM算法