APP下载

中国英语能力自我评估工具的研制与开发
——基于《中国英语能力等级量表》的分析

2022-12-20李敏子曾用强

社会科学家 2022年9期
关键词:特征参数工具学习者

李敏子,曾用强

(1.广东外语外贸大学,广东 广州 510420;2.广东省外语艺术职业学院,广东 广州 510641)

《中国英语能力等级量表》(以下简称《量表》)为我国首个统一的英语能力测评国家标准。作为我国英语能力测评体系的纲领性文件,《量表》描述语言能力发展的不同阶段,是英语教学与评价目标的参照或依据。其正式发布于2018年6月并在全国范围实施,当前亟待开发应用型测评产品(自我评估工具)以桥接我国英语统一度量“标尺”与其在实际教、学与测评中的实践。然而,基于《量表》开发自我评估工具是一项较为繁杂的工作,研究者需从多方面进行考量,包括自评工具的研发目的、测评标准的类别与表征、评估特征参数指标、工具外在表征、评分模型等。故文章拟对基于《量表》的自我评估工具的研发路径及步骤提出一些建议。

一、自我评估在英语教育中的重要性

外语学习、教学与应用领域,和有关学习者语言能力的测评一直以来都是学者关注的核心。在外语水平能力测评方面,教育领域普遍使用传统模式“外部测评”,即通过考试或教师评价收集学习者能力表现用以检测既定目标或任务表现是否达成,以此作为判定语言水平能力的[1]依据。随着以“学习者为中心”的教学理论被广泛接受,及对自主学习的呼吁日趋高涨,自我评估即以学习者自身为评估代理人进行内部自我检验的方式[1]受到广泛的关注。这种方式即通过自我导向,使语言学习者主动参与、自主评价、反思其在学习过程中的进步、判定预期目标是否达成[2]。

目前有关自我评估在语言教、学与测评领域已有较多探索,现有研究大多集中于对自我评估有效性与效用的探讨。在自我评估中,有效性具体表现为对学习者语言水平表现提供准确、可靠、真实的评价。现有研究对自我评估作为衡量语言能力的有效测评方式给予了广泛积极的肯定[3]。此外,自我评估在其效用层面也被深入挖掘。与传统外部测评比较,自我评估具有多方面的优势。学习者在自评实践中逐步提高自我评价意识,增强参与度,提升学习责任感,强化学习动机,培养自主学习机制。过程中为学习者提供了全面审视自身能力的机会。学习者基于评估结果可在未来学习中做出调整与修正,从而达到促学的效用。同时,自我评估能较好规避由高风险测试引发学习者的备考或临考焦虑、恐慌等负面情绪[4]。自我评估要求学习者在实践中主动参与,承担测评主导地位,极大程度上节省了用于考试管理、人员配置等资源。同时,这类测评方式帮助分担了由传统外部测评带来的较为繁琐的工作任务(例如:检查学生的习题作业等多项任务),促进了以教师为中心至以学习者为中心教学范式的转变,教师可依据学生自评结果调整教学进度和课程设置,或开展针对性的补救性措施[5]。

二、语言能力量表

语言能力量表是语言能力标准的具体尺度。由于在不同教育背景下对语言水平能力测量统一度量标准的迫切呼吁,语言能力量表应运而生,并在语言教育领域获得了广泛的关注与肯定。其在实践中从测评能力构念的多维视角出发,通过具体描述代表学习者不同水平的能力表现特征,为外语教、学与测评等利益相关者提供了全面、透明化的统一参照体系。

在国家外语评估系统启动与《量表》实施之前,中国未有统一的外语能力评估的国家标准。尽管影响规模最大的《欧洲语言共同参考框架》(以下简称《欧框》)[6]被广泛引进并应用于中国教育背景下的语言学习,由于服务群体、语言教学环境和教育体制的差异,其在中国本土教育体系的教学与测评实践中出现了不少“水土不服”的情况。故迫切需要构建一个着眼于我国英语教育长期发展和需求的、本土化的统一度量标准[7]。为积极响应《国务院关于深化考试招生制度改革的实施意见》中关于“加强外语能力测评体系建设”的教育目标与国内英语教育发展实践的迫切需求,我国于2014年10月启动了《中国英语能力等级量表》研制项目,汇集国内外专家力量开展大规模调研[8],构建了适合我国英语学习者的量表框架、指标体系、描述语库、分级原则等。

《量表》的研制主要分为三个阶段:描述语收集、分类及分级。在收集阶段,采用文献法,以国内外语言能力标准、现有课程标准、考纲、教材等为文献基础对描述语进行收集,并对于初步收集的描述语进行拆分、整理、筛选、改写与审核;对于构念中缺失部分,通过采样法进行补充,构建描述语预备库。在分类阶段,开展多次组内审核与跨技能组交叉审核,同时组织专家与各地一线教师对描述语初步分类,并通过问卷调查进一步验证。分级阶段,通过大规模问卷让专家、教师、学生进行判断。编制的问卷间实施横向与纵向等值。采用Rasch模型等统计工具对问卷数据进行统计分析、等值处理、借助临界点锚定各等级,验证分级结果,确定各等级标准。《量表》以交际语言能力模型为基础,以语言运用为导向[9],将语言能力定义为使用者运用所掌握的知识(语言知识与非语言知识)与策略,参与特定情境下某话题的语言活动时所表现出的语言理解和表达的能力。《量表》高度关注听、说、读、写、译等多项语言技能的协调统一,将学习者的英语能力从低到高划分为九个级别,全面、系统界定并描述了语言能力发展不同阶段的特征,明确学习者应具备的英语知识与能力[10]。

《量表》作为我国语言能力测评体系的纲领性文件,为我国英语教学与评价目标提供了参照与依据。自正式发布并在全国范围实施以来,其被广泛应用于具体的英语教学与测评实践中,特别是自我评估。学习者可依据《量表》的各分项技能描述语对自己的语言能力进行自我评估,找出自己的优势与不足,从而调整学习目标。教师在课程设计与教学中可根据课程特色从《量表》中摘选与其内容相匹配的描述语,开展相应的课程活动。过程中可以让学习者在学前、过程中与课后分别进行周期性自我评价、反思学习过程中的困难与取得的进步。然而,在具体的自我评估实践中,可以发现使用者大多将“能做”描述语(Can-do Statements)作为评价标准直接应用于真实的教育环境中,自评实践中对标准解读容易出现自由度高、主观性强及对先验知识有过强依赖等情况,应用结果在效用层面有偏差。因此,开发实践中效用性强的自评工具以桥接我国英语统一度量标准与其在教、学与测评中的应用尤为必要。

三、基于《量表》研发自我评估工具的建议

(一)明确自我评估工具开发的目的

自我评估由于服务于不同研究目的和领域,各理论机制考量偏重不同,各研究背景下对其构念的阐释具有多样性,故在实践结果层面具有差异。目前有关自我评估的运行机制主要为五类:第一类理论框架主要强调学习者在自我评估标准构建中的参与[11];第二类则偏重自我评估实践中教师的参与程度[12];第三类关注测评过程中教师与学生间决策权力的差异[13];第四类理论框架则立足于自我评估标准的表征形式,对自我评估标准在实践中的使用及效用予以详细说明,实用性和可操作性较强[14];第五类从通用视角出发,基于自我评估的实践操作构建理论体系,实操性较强[15]。以研究目的为出发点,自我评估主要分为两类:第一类多从形成性视角对自我评估进行概念化,强调从情感机制与心理层面对学习过程进行评价,自我评估被广泛定义为一种能力或学习过程,这类定义将自我评估与自我效能、自主学习、反馈与事后修正紧密关联[16];第二类则关注自我评估的测量结果(对能力表现的具体方面作出准确评级或评分),探讨其作为测评方式提供准确的能力水平判定的价值[17]。

确定自我评估的构念定义为基于《量表》研制自评工具的首要前提。故在工具研发前,研究者需结合研究的具体目标与拟应用实践环境,明确自我评估工具开发的目的,确定采用的自我评估构念、核心要素及其运行机制等,以便在后续研究中对自我评估工具构建所需实现的目标提供清晰的指导。

(二)确定自评工具测评标准的类别与表征形式

1.自我评估工具标准类别

自我评估结果的有效性被证实与自我评估标准的具体程度紧密相关。自我评估对任务的设定或标准的描述越具体,学习者对自评工具标准的理解内化程度越高,评判越准确。以“具体化程度”为衡量标准,自我评估标准可分为“普通类”与“具化类”,“具化类”可进一步分为“具化现实生活类”标准(Specific Real-life Criteria)与“具化任务类”标准(Specific-study Criteria)[18]。这三类自我评估标准在具体化程度上具有明显差异。普通类自我评估标准常应用于大规模研究以作节省资源考量。这类测评标准常通过单一测评问题进行呈现(One Single-item Measure),基于此构建的自评工具对学习者自评有效信息挖掘较为薄弱。相比之下,“具体现实生活类”自我评估标准具体化程度较高。由于其将概述的测评标准解构为具体语言任务,极大程度上保证了学习者对测评标准中各具体维度的理解,故自我评估结果普遍具有较好的效度。“具体任务类”标准对外部测评方式依赖性强,部分研究甚至将预测个体学习者在外部测评中正确答题数作为测评标准。这类标准与语言能力关联弱,难以界定学习者是否据实评判自身语言能力,故在工具开发实践中需谨慎使用。

2.自我评估工具标准的表征形式

自我评估工具标准的表征形式选择对基于《量表》的自评工具建设至关重要。标准的表征形式可分为“一般类”与“参照类”:“一般类”对自我评估标准表征形式无明确要求,标准呈现上具有较强的概述性和抽象性,使用者对此类标准的解读自由度略高,自我评估结果具有差异性;“参照类”[19]则强调三个方面:(1)提供明确表述的具体自评标准,将对语言能力的抽象、概括性描述拆解为多层级、多维度的典型性能力要素组件予以呈现,以供学习者参照和校准;(2)对测评标准中核心术语提供可操作化定义,自我评估实践中学习者需将测评标准与现实语言能力表现进行匹配从而做出判定,提供核心术语的可操作定义将极大程度上校准学习者对给定测评标准的理解;(3)提供测评标准的典型示例,示例本身需兼具典型性与普适性,避免学习者对自我评估标准产生认知偏差或错误解读。

综上,基于《量表》研发的自评工具不建议将描述语直接采纳为自评标准。《量表》综合运用了描述交际语言能力的 RL(Real-life Approach)方法和 IA(Interactional Ability Approach)方法,对能力发展的不同学段的语言特征、语言活动情境、语言任务的完成情况等进行描述[20],采用“能做描述”表征了语言能力的测评标准。受量表表征特性影响,描述语一定程度上具备概述性与抽象性。若将其直接运用于工具标准的构建,那么自评实践中使用者对描述性评估标准的解读易出现自由度较高与主观性略强的情况,无法保证其对自身能力的准确判定。因此建议研究者在对自我评估标准进行描述时最大程度地实现具体化,测评任务的设定确保典型性,最大程度保障学习者对标准的熟悉和理解。具体实践操作中,研究者可基于量表将描述性评估标准(描述语)解构为最能反映测评语言能力构念的系统化、典型性能力要素组件,形成具有层级的多维区分性测评指标特征体系;并提供具体化“典型模型”(Model Demonstration)作为基准以供学习者进行参照与校准,实践过程中学习者据此关注自身能力的发展并在未来学习中进行修正,可实现促学效用;同时结合核心特征参数的可操作化定义(Operational Definition),最大程度确保使用者对测评标准进行正确、有效的解读,避免由于错误理解而导致的自我评估结果与实际能力不匹配或出现巨大偏差的风险。

(三)提取有效评估特征参数指标

基于《量表》研发的自我评估工具中,提取有效评估特征参数指标是工具构建至关重要的一步。

在特征提取(Feature Extraction)方法上,建议采用定性与定量结合的混合研究方法。在质性研究中,拟通过多名相关领域专家基于《量表》的构念框架,采用参数分析法拆解描述语,通过迭代内容分析与多层级主题编码对描述语进行分析与审核,精化和完善参数指标体系,参数框架最大化体现并反映语言能力构念的各核心要素;此外,还需制定特征提取的统一准则以确定不同层级多维区别性特征参数(自上而下)。量化研究方面,可在基于专家意见提取区别性特征基础上构建问卷,采集大规模使用者数据,即通过不同能力水平的学习者在多维参数指标下对自身学习情况作出的真实描述而获取其语言能力的表现。基于大规模量化数据,研究者可进一步筛选区别性参数特征(自下而上)。

为使特征参数指标能反映语言能力构念在九个级别上的核心要素,特征参数指标需具备明确性、典型性与区分度、独立性及可操作性:

1.特征参数指标明确性:各项测评参数指标需目标明确、表达清晰、措辞严谨,能反映该语言技能能力的评价目标。即提供使用者“明确标准”(Clear Criteria)以提高使用者对标准的熟悉度,进而引导学习者对标准多维度下各参数指标进行正确的解读。此外,特征提取过程中需排除抽象或模糊的表达的特征,避免使用者因对测评标准解读的差异导致测评结果的偏差。

2.特征参数指标兼具典型性与区分度:各项测评参数指标需反映该语言测评能力的构念,使指标参数体系系统化,各指标兼具典型性与区分度。具体实践中,需注意以下几个方面:(1)特征参数覆盖与包含的能力层级数越多,该特征参数在不同层级的区分度越弱、对某特定级别的典型性与代表性相对弱化。(2)特征参数首次出现的级别被视为该特征参数在某级别对相邻较低级别具有高区分度与典型性。(3)与量表构建理论保持一致性,特征参数提取时高水平语言学习者能掌握低级别出现的特征参数。(4)难度值过高或过低的特征参数因其在级别间不具备较强区分力度需排除。

3.特征参数指标独立性:独立性指提取的特征参数与其他特征在纵向级别上与横向维度上都具有独立边界。具体实践时需注意:(1)提取特征参数时,需连续多次比较纵向与横向的参数及子参数,并对特征参数的重要程度(Feature Importance)进行排序,确保参数的独立性。(2)当相邻级别或多级别特征参数出现从属、重叠或边界不清晰等情况时,需谨慎对待。建议保留首要特征参数,删除冗余特征。特征提取过程中如出现意见不一致时,需标记并详细记录,后续通过专家小组多轮讨论审核(Expert Review)以确定。

4.特征参数指标可操作性:考虑到提取区别性特征参数将作为自我评估工具的评价题项,工具实用性需纳入考量:(1)特征参数提取时需考量使用者感受(User-oriented),尤其是特征参数的易理解性、在真实语言环境中的可操作性。(2)关注特征指标作为测评题项的数量。研究者在工具研发时需确保所提取的区别性特征题项的数量不会影响工具测评的效用与使用感。即确保题项数量不会过多或过少。自我评估工具包含过多的题项在实践中对使用者认知处理能力(Cognitive Processing)具有较高要求;而题项过少将难以衡量学习者的语言水平能力(即题项需足够数量覆盖并体现测评能力构念的各核心参数)。

(四)自我评估工具的外部表征

自我评估工具的外部表征需谨慎选择与设计,工具在外部表征上的差异会导致差异化的自我评估结果[21]。目前,常见的自我评估工具表征形式可分为四类。(1)表现记录卡常用于形成性评估,工具开发过程中对自评任务的设计要求高,自评任务需具备连续性,任务难度需具备梯度。(2)自评日志多用于过程性评估。与表现记录卡相比,系统性更强。在具体实践中,这一外在表征对受试具有较高的要求。评估过程中使用者需借助一定的外部指导。(3)检查表这类表征形式的使用频率较少。自我评估检查表的表征多为二分选项的设定,学习者判定较为绝对,无法多维全面挖掘学习者语言能力。基于这类表征的自我评估在结果方面较为粗糙、与实际语言能力存在一定差异。(4)计算机辅助自适应表征是通过互联网等技术对语言能力的自评实践,在实践层面操作性强。这类工具表征在建立时需对每项自我评估任务设定难度系数和确定难度级别,并据此将具体测评任务置于具有语言能力难度排序的系统中,故此类工具表征可为学习者提供较为系统化的评估数据。这类表征在实际操作中要求受试对平台有一定的熟悉度,研究人员需对自我评估网络系统的设计与搭建有严格把控。(5)多维李克特量表这类工具外部表征多适用于终结性评估。这类自我评估工具表征能收集大规模标准化数据,并将数据最大程度简化用于后期统计分析。此外,多维李克特量表的表征形式为研究者基于《量表》设定分层多维的测评标准提供了空间,帮助个体学习者挖掘语言能力各方面的诊断信息,在后续的学习过程中开展补救性措施与修正,真正发挥自我评估工具“以评促学”与“为学习服务”的功效。

(五)结合数统模型确定自评工具的评分模型

结合数统模型确定自评工具的评分模型是基于量表构建有效自评工具的核心步骤。在工具评分层面,服务于形成性评估目的表征类目偏重学习过程。与服务于终结性评估为目的的表征相比,这几类表征对自我评估结果的精度关注不足,大部分研究者并未在研究中汇报具体的评分方式。现有研究中部分自评工具采用了二分项评分模型。这类基于“是或否”的二维能力判别评分方式在自评实践中无法系统化挖掘学习者能力的具体信息、学习者在自评实践中对测评标准的理解校准弱。学习者据此评分方式无法从多元视角关注到自身能力的发展,自评的结果较为粗糙,对语言学习的积极反拨和促学效用弱。此外,部分研究对自评题项直接采用等值计分,少部分研究基于研究者理念对不同自评题项进行权重赋值,或设立阈值,但遗憾的是权重赋值或阈值设定主观性强,未能予以清晰的阐明。

基于《量表》的评分模型在选择上需兼具考量数据结构、超参数、模型预测精度及测评标准的表征。故推荐使用监督性学习多元分类模型进行建模。这类模型多用于解决多类别、多层级参数指标的运算,能有效简化系统结构,探讨系统内核。同时模型对收集的大规模特征数据进行分类,构造预测模型。这类模型较好地契合了基于《量表》研发自评工具中构建评分系统的需求,模型数据结构上满足了特征参数分层多维的表征形式。此外,对核心参数组合进行建模,通过创建多个预测变量组合,探索各核心参数下多项区别性特征参数与不同语言能力层级的关系,预测英语学习者的水平能力,评估各区别性特征参数对不同水平力学习者的区分强度与难度。基于此,学习者可从多维视角挖掘自身语言能力各方面的诊断信息,在后续的学习中进行修正,真正发挥自我评估工具“以评促学”的效用。需注意的是,部分模型在建模过程中,会把数据分为建模实验数据集及与验证集。在建模方法选定的时候,模型只有在试验集与验证机模型拟合度都较好的情况才能被判定为最优模型。

四、结语

文章在回顾现有自我评估工具和语言能力等级量表文献的基础上,对基于《中国英语能力等级量表》的自我评估工具的研发路径及步骤提出一些建议(如图1所示)。基于《量表》研发自我评估工具,研究者首先需明确工具开发在真实语言环境应用的目的。在工具测评标准的类别与表征方面,建议研究者以量表为框架,将描述性评估标准拆解为最能反映测评语言能力构念的多维、典型性能力要素组件,形成具有层级的多维区分性测评指标体系,有效规避由于使用者对测评标准理解偏差而导致的测评结果误差。构建自我评估评价项目时,需着重关注特征参数的明确性、典型性、区分强度、独立性及可操作性。此外,工具的外部表征选择与评分模型构建时需综合考量数据结构、超参数问题、模型预测精度及测评标准的表征。

图1 基于《量表》的自我评估工具研制步骤

目前,基于《量表》研发自我评估工具还处于初始阶段,未来期望有更多的研究基于《量表》研发实践中效用性强的自我评估工具以桥接我国英语统一度量标准与其在实际教育环境中的实践。工具的研发期望能为使用者提供有价值的能力反馈信息,帮助其清晰定位、认知不同学段对语言技能的要求,结合在不同情境中的具体实践进行反思,有助于全面审视自身语言能力的发展。在教学与课程设计方面,教师可将基于《量表》研发的自我评估工具中具体特征参数指标与课程中语言运用的实际需求进行有机结合,有针对性设置与规划教学要点与内容。同时,教师可以进一步将其融入情境化教学中,设计更加贴近语言能力运用的真实场景的活动任务。测评方面,基于《量表》研发的自我评估工具可促进教学中形成性评价的有效开展,制定学习者个性化的课程形成性评估档案袋。自评实践中,学习者处于测评主导地位,逐渐提升学习责任感,培养了自主学习的机制,提高学习动机,从而达到以评促学的效用。

猜你喜欢

特征参数工具学习者
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
波比的工具
波比的工具
你是哪种类型的学习者
十二星座是什么类型的学习者
准备工具:步骤:
基于PSO-VMD的齿轮特征参数提取方法研究
“巧用”工具
汉语学习自主学习者特征初探