生态学视角下信息技术和语言测试深度融合研究*

2015-11-27梁丽娟

中国电化教育 2015年5期

关键词：题库效度信度

梁丽娟

(中国农业大学人文与发展学院外语系，北京 100083)

生态学视角下信息技术和语言测试深度融合研究*

梁丽娟

(中国农业大学人文与发展学院外语系，北京 100083)

适应性测试是信息技术与教育深度融合在测试领域的体现。基于测试的生态学视角，本文设计实施了适应性语言测试。通过改编现有试题进行题库建设降低了题库建设成本；采用以组为单位的跳转原则减少了对试题的需求数量。实验证明依据上述方法设计的适应性英语阅读测试具有良好效度和信度，为今后适应性语言测试在中小型测试中的推广提供了借鉴。

深度融合；适应性测试；信度；效度

一、引言

信息技术带来了教学模式的转变，学生个人的主动性得到充分体现，教学主从关系翻转。这种改变促使我国教育信息化从初步应用整合阶段向信息技术与教育的深度融合阶段转变[1]。这种转变在测试领域也日益体现。近年来，测试领域经历了从纸笔测试到计算机测试的转变。测试的媒介发生了变化，信息技术与教育的深度融合不仅局限于媒介变化，而是测试的深层改变。

二、生态学视角下的测试观

20世纪70年代以来，教育与生态学的结合衍生出了一系列相关研究，如教学生态、课堂生态、学习生态。近年来随着信息技术的发展又出现网络学习生态等等。其主要观点认为，学习环境是由众多要素构成的有机体，如课程、教学、学习和课堂；学生和教师作为学习环境中的主体与环境相互作用就构成了一个教学生态系统[2]。以教学生态、课堂生态和学习生态等反观测试，就形成了生态视角下的测试观。生态视角下的测试属于教学生态系统的一部分，它应具有这一系统共有的特征即开放、共享、交互等。以测试系统的交互性为例，交互指的是受试与自身之外的任何生物或非生物进行的交互，如受试与考试资源之间的交互。一般来说，测试生态系统中，外部交互较多的受试能更好地利用考试资源从而体现自身的水平。因此在生态视角下的测试中我们应该重视这种交互，使受试能主动选择，利用适合自己的考试资源。传统的纸笔测试不能充分实现这一任务。随着信息技术在教育领域的深入应用，基于计算机的适应性测试(Computer Adaptive Testing，简称“CAT”)是一种更理想的选择。所谓适应性就是测试软件自动地适应被试的具体情况，在被试作答过程中根据作答的正误估算出被试的可能水平，并针对这一水平迅速决策，从题库中调取难度恰当的题目继续施测。直到施测的题目足够多，测试信息量达到一定精度为止。它不同于传统的纸笔测试，是一种非顺序、非线性的测试方法，是更加科学化和人性化的测试方法。本文基于测试的生态学视角，以语言测试为例，就适应性测试的设计和实施进行了实证性研究。

三、相关研究

(一)国外研究

第一个适应性语言测试由美国杨百翰大学(Brigham Young University)实施，并且证实了适应性阅读测试相对于传统阅读考试的效率[3]。Laurier在法语适应性考试中采用30词左右的段落作为阅读材料，并从考试内容、技术要求和实施等方面进行了可行性论述[4]。Zabaleta研究发现在普通机考和适应性考试相结合的测试中语法和阅读的得分具有很高的相关性[5]。总体来说，以阅读为主要内容的适应性语言测试研究仍处于探索阶段。尽管一些研究证实了适应性测试的效率，但阅读测试模式对考试效度和信度的影响研究仍需深入探讨。

(二)国内研究

在国内，相对于计算机在教学中的广泛应用，计算机在语言测试中的应用还有待深入。目前已实施的适应性语言测试较少。曾用强对比了不同的CAT模式在词汇测试中的效果[6]。韩少杰和李新涛研究了适应性考试信度和预测效度[7]。张武保进行了自适应性词汇测试与适应性词汇测试[8]。在上述实施的适应性测试中，两项是针对词汇的研究，两项是综合性考试研究，笔者认为适应性语言测试的开发和有效性研究应该在总体研究的基础上进行分项研究，也就是对不同语言技能(听说读写)的适应性考试进行分别研究。阅读能力是一项非常重要的语言技能，又是各种考试考察的重点，所以本文就如何设计有效的适应性阅读测试进行研究。

四、适应性阅读测试设计

(一)题库建设

试题库的质量决定适应性测试的成败。试题库需包含充足的试题数量，试题必须能反映考生某一语言技能的水平[9]。题库设计的第一个问题是题库的大小。题库太小，不能提供足够的试题实现跳转；题库太大会增加题目设计者的负担。研究发现试题库的大小为适应性考试固定长度的12倍左右能满足考试内容和结构上的需求[10]。本测试预计在30分钟左右，每位考生完成20-28个阅读题目，由此计算出本试题库应包含约320道题目。题库设计的第二个问题是题目质量。一般来说，适应性考试的试题需要经过实测得出难度系数、区分度等相关信息[11]，但由于费用等原因实测往往不现实，所以采用改编纸笔测试的试题成为另一种选择。Young等[12]在设计容量为300-500道题目的题库时使用了改编自分级阅读材料的题目，研究发现考试效度不受影响。因此本研究采用改编试题。

(二)题型

本研究中所采用的阅读题目形式为短语境阅读，阅读题目题干平均40字左右，形式如右图所示。传统篇章阅读理解中一篇文章后往往有4-5个问题，如何在适应性考试中确定难度和考点成为难题。而短语境阅读由于单一的问题和短小的题干，更容易确定题目的难度和考点。由于语境短了，所选的材料类型可以大大增加，多种类型的阅读材料更能体现读者的阅读能力[13]。研究证明短语境阅读形式能有效测量阅读者的阅读水平。此外，我们在对题目进行改编时考察了不同的阅读技能，如词义相关、例证、描述结论、逻辑推理、目的、对比、情境判断和因果关系等。

短语境阅读题目形式范例图

(三)具体设计

根据题目难度我们将题库中题目划分为4个等级区域：入门、初级、中级、高级。4个等级之下共包含10个次级别：入门1-2级、初级1-3级、中级1-2级、高级1-3级。测试分为两部分，第一部分为探查阶段。探查阶段的起始点位于初级区域。分配学生4道难度不同的题目，如果全部答对就进入中级；如果错一个则继续完成初级阶段的另一组探测题(题目难度和上一组相当)，如全部答对也能进入中级，否则根据刚才8道题的得分给学生分配相应的定级试卷。在初级探测阶段成绩较好的学生会进入中级探测阶段，再根据表现学生可以进入高级阶段，或者进入中级的定级阶段。

测试第二部分为定级阶段。要分配给适合考生水平的题目，因为这样才能提供关于考生水平的最大信息量。为了满足这一需求，我们按照难度将试题库中的题目分成20多个级别的分试卷，每个分试卷都含有12道题，由3组题目组成，每组包含4道题。相邻的分试卷有8道题是重合的。这样设计是因为被分配到相邻分试卷的学生水平差异并非很大，他们之间的能力是有重叠的。根据学生的答题情况判断他们在10个级别中的位置。

本设计的特点是以组为单位跳转。比如考生完成探查阶段做完初级探查的四道题目后，正确率若为100%，则跳转到中级第一组；如果正确率低于100%，则继续做完初级阶段第二组题。设计也充分考虑到考试的偶然性。如在第一组探测题中学生出现一个错误，我们认为这具有一定的偶然性，因此给学生机会完成第二组探测。如果学生在第二组探测题中表现出色同样能向上级跳转。

五、实验

我们采用实验的方法，在实验班进行初测与再测，还对适应性测试成绩与期末考试成绩进行了相关分析。

(一)实验对象

我校目前实施分级教学。根据学生入学英语考试成绩将学生分为一级班、二级班和三级班。该实验以熟悉网络技术的信息与电气工程学院二级班41人为实验对象。

(二)数据采集

本实验采集的数据为两次适应性阅读测试成绩、期末考生成绩和调查问卷。第一次适应性测试于2014年11月实施，并于12月进行再测。两次测试前后相隔1个多月，以降低前测对后测的影响。两次适应性阅读测试均安排在同一语音室，并在相同的时间段进行，即都是上午8点开始。第一次测试后采用问卷调查学生对考试的态度，问卷为五级量表，按程度强弱打分，5为强，1为弱。受试于2015年1月进行期末考试。考试形式为传统的纸笔综合性考试。我们通过SPSS20.0对实验数据进行了分析。

(三)研究结果分析与讨论

1.测试信度

为了验证适应性阅读测试是否是一种较为理想的测试手段，首先对考试信度进行了验证。信度是由同一个考试所得出分数的一致性。影响信度的因素分为一般、环境和个人因素[14]。一般因素包括考试指令是否清晰，学生对考试形式是否熟悉；环境因素指环境的舒适度或噪音等因素；个人因素包括考生个人的生理或心理状态等。问卷数据包含了影响信度的种种因素。在各种相关因素基本稳定的情况下，如果两次测试成绩相关性较高，则说明这一测试具有较高信度。2014年11月第一次适应性阅读测试后，通过问卷就考试指令、界面等对学生进行了调查，结果如表1所示。

表1 对考试态度的问卷统计(n1=41)

问卷统计结果显示学生认为考试界面和考试指令的清晰程度是很高的，分别为4.20和4.18。对考试环境和考试当天个人状态及对鼠标点击和键盘操作的熟练程度评价较高，分别为3.87，3.98和3.64。在这种情况下，分别计算出学生在两次适应性测试中的成绩以及它们的测量标准误差(如表2所示)，然后对学生两次适应性测试反映的能力值作了皮尔逊相关分析(如表3所示)。

表2 初测与再测成绩

表3 初测与再测成绩的相关性

两次考试成绩均值分别为5.36和5.98(本研究中适应性阅读测试的计分原则不是百分制)，差异性显著。因为两次测验前后相隔一个多月，测试所采用的题目难度相当。第二次测试平均成绩高于第一次测试体现出学生水平的提高，这说明本测试对于学生的进步是较敏感的。

根据表3，本研究中两次考试的相关系数为0.892。一般来说大型的标准化考试信度要达到0.90。但对于中小规模的低风险测试，信度达到0.892是可以的。

2.校标关联效度

效度研究在当今语言测试研究中具有非常重要的地位。Bachman认为语言测试专业化和语言测试效度研究是语言测试界现在和未来研究的两个重点领域[15]。在适应性语言测试中语言测试效度包括内容效度、结构效度、效标关联效度等。本文关注的是校标关联效度，指的是测验分数与外在校标间的符合程度。若两者相当符合，则表示校标效度高，反之则否。

我们把学生期末考试成绩作为外在校标，把适应性阅读测试成绩与期末考试总成绩做相关分析，如表4所示。

表4 适应性阅读测试成绩与期末考试成绩的相关分析

数据显示两种考试在.01水平上显著相关，相关系数为0.766。期末考试为包含听力、阅读、翻译、写作等内容的综合性考试，而本测试为阅读单项测试，能够达到0.766的相关性是较理想的。

3.讨论

自生态学的思想引入教育领域以来，教育生态日益成为备受关注的领域，并为我们重新审视教育中存在的问题提供了一个全新的视角[16]。生态学视角下的测试观对测试提出了更高的要求。适应性测试能够更好地实现考试的交互性，并具有开放性、多人共享的特点，因此构建适应性测试环境成为近年来教育应用领域的研究热点[17]。

特色一：生态视角下的适应性测试

从生态学的视角看，适应性测试更容易帮助考生构建与考试环境和谐发展的生态系统。学生对考试的反馈问卷显示，学生认为本次考试难度适当。主要原因是计算机会根据学生的答题情况提供与其水平相适应的题目，这样不仅能在更短的时间内提供更准确的考试信息，还能降低考生因为遇到高难度题目时产生的负面焦虑，营造积极的考试氛围。此外，适应性测试还能通过信息技术使考生隐性的问题显性化，从而促进新资源的生成，调节考生与考试环境的关系。

特色二：通过改编现有试题进行题库建设

适应性测试的效果很大程度上取决于题库质量。题库的建设研制成本较高，因为试题的编纂需要大量经验丰富的教师来进行，并且需要进行具有一定规模的实测来获得试题参数，如难度系数和区分度等。在低风险的考试中题库建设成本的问题可以通过改编现有试题加以克服。本研究根据实测数据将阅读材料划分成若干不同的等级。对现有试题进行评估改编从而作为题库题目来源，可以有效控制题库建设成本。研究结果表明通过对现有试题进行改编而进行题库建设的做法是可行的。

特色三：以组为单位的跳转原则

跳转原则可以根据测试的不同类型来定义。本研究中采用的是以组为单位的跳转原则。每组包含四道试题。根据考生答题的总体情况决定下一组题目的难度，这不同于其它适应性测试中以题为单位的跳转原则。首先，以题为单位跳转必须要具备庞大的题库，这在中小型考试中会给设计者造成很大的压力；其次，以题为单位跳转对题目难度的划分要求相当严格，一般只有实测题目才能精确计算出相应的难度系数、区分度等指标；再者，以题为单位的跳转忽略了考试中的偶然性，进而给考试带来额外的负担。

测试结果表明上述生态视角下的适应性英语阅读测试具有良好的信度和效度，说明通过改编现有试题进行题库建设和采用以组为单位进行跳转的做法在适应性语言测试的开发中是可行的。

六、结论

测试经历从纸笔测试到计算机测试的转变，这是信息化与教育深度融合在测试领域的趋势。生态学视角下的适应性测试比传统考试更科学有效。本文尝试设计了适应性语言测试，设计通过改编现有试题进行题库建设降低了题库建设成本，采用以组为单位的跳转原则降低了对试题的需求数量。实验证明依据上述方法设计的适应性英语阅读测试具有良好效度和信度。计算机辅助的适应性测试代表了未来语言测试发展的方向，应该加快研究的深入和加大研究的规模。

[1] 张小红,熊秋娥. 论高等教育信息化的十大关系[J]. 中国电化教育,2014, (12):43-48.

[2] 张立新,徐飞飞. 论虚拟课堂的生态属性及其管理[J]. 中国电化教育,2014, (2):1-6.

[3] Madsen, H. Evaluating a computer-adaptive ESL placement test [J].CALICO Journal, 1987, (2):41-50.

[4] Laurier, M. The development of an adaptive test for placement in French [A].Chalhoub-Deville, M.. Issues in computer adaptive testing of reading proficiency [C]. New York: Cambridge University Press, 1999.124.

[5] Zabaleta, F. Developing a Multimedia, Computer-based Spanish Placement Test [J]. CALICO Journal, 2007, (3):675-692.

[6] 曾用强.个性化自适应性测试探索[J]. 外语教学与研究, 2002,(4):19-23.

[7] 韩少杰,李新涛.基于英语网络测试系统的自适应测试与常规测试的对比实验研究[J].外国语言文学, 2006, (4): 250-253.

[8] 张武保. 自适应性测试的实验研究[J]. 解放军外国语学院学报,1999, (3): 53-55.

[9] 陈仕品,张剑平.《现代教育技术》精品课程自适应测试系统的设计[J].中国电化教育,2008,(9): 93-97.

[10] He, W. & Reckase, M.D. Item Pool Design for an Operational Variable-Length Computerized Adaptive Test [J]. Educational and Psychological Measurement, 2014,(3):473-494.

[11] Hsu, C.L, Wang, W. C. & Chen, S. Y. Variable-Length Computerized Adaptive Testing Based on Cognitive Diagnosis Models[J]. Applied Psychological Measurement, 2013, (7):563-582.

[12] Young, R., Shermis, M. D, Brutten, S. R., & Perkins, K. From conventional to computer-adaptive testing of ESL reading comprehension [J]. System, 1996, (1):23-40.

[13] 李筱菊. 语言测试科学与艺术[M].长沙: 湖南教育出版社,1997.

[14] Cohen, A. English for academic purposes in Brazil: The use of summary tasks [A]. C. Hill & K. Parry. From testing to assessment: English as an inter national language[C].London:Longman,1994.174-204.

[15] 陈慧麟. 基于纸笔的语言测试和基于计算机的语言测试之间效度对等性验证模式初探[J].外语界,2009,(3):73-80.

[16] 彭伟国,张文兰,毛仁兴.影响信息技术与课程深层整合的生态学归因分析[J]. 中国电化教育,2010,(2):92-95.

[17]陈仕品,张剑平. 适应性学习支持系统的学生模型研究[J]. 中国电化教育, 2010, (5): 112-117.

梁丽娟：讲师，博士，研究方向为计算机辅助英语教学(bonnie_119@sina.com)。

2015年1月11日

责任编辑：赵兴龙

An Ecological Perspective of Integration between IT and Language Testing

Liang Lijuan
(English Department, College of Humanity and Development, Agricultural University, Beijing 100083)

In-depth integration of IT and language testing is embodied by the application of adaptive test. Based on ecological perspective, this paper designs an adaptive English reading test. Firstly, the method of adapting existing material is proposed in order to cut the cost of item banking. Secondly, the design of jumping on the basis of a unit reduces the number of items needed in item bank. Empirical study shows that the English reading test with the above designing features reveals a sound validity and reliability.

In-depth Integration; Adaptive Reading Test; Reliability; Validity

G434

1006—9860(2015)05—0095—04

* 本文系北京市教委青年英才项目 “计算机化适应性英语阅读测试的设计及有效性验证”(项目编号：YETP0333)的部分研究成果。