效度视域下的情境测评
2021-08-16蒋远桥
蒋远桥
【关键词】情境,测评,效度,高考
随着时代的发展,社会对教育、对人才有了新的要求,人们对学习、课程、测评也有了新的理解。《关于深化考试招生制度改革的实施意见》《关于新时代推进普通高中育人方式改革的指导意见》《关于深化教育教学改革全面提高义务教育质量的意见》《深化新时代教育评价改革总体方案》等文件的陆续发布正是新时代、新要求、新理解的体现。
具体到语文学科,新课程标准即《普通高中语文课程标准(2017年版2020年修订)》(以下简称“ 课程标准”)既是这一进程中的重要成果,也是新教学、新测评的纲领性文件。课程标准从学习目标、学习内容、学习方式、课程结构、课程方式、测评内容、测评方式各个方面提出了新要求,“任务”“活动”“情境”是贯通整个系统的三个重要概念[1]。关于依凭情境开展活动、完成任务以达到提升核心素养的理论研究与教学实践,已经广泛而热烈地展开,基于情境进行测量评价,也已经在过程性评价乃至大规模高利害考试如中高考中普遍施行。关于情境在考试中的运用,众多学者和考试从业者已经作出了有益的探索[2],本文将基于这些讨论,以高考为主要讨论对象,从效度视域理解情境测评,探究情境测评有效和有限的程度,讨论情境测评的实现路径和提升情境测评效度的关键策略,以期对情境测评在大规模高利害考试中的实践运用有所帮助。
一、效度视域下情境测评的必然性
教育测评以如下心理假设为基础:人的心理特质是客观存在的;这些心理特质具有相对稳定性;这些心理特质虽然抽象,但可以通过一定的外部刺激作出的反应得以测量评估;测评的结果可以类推得到心理特质的整体特征和水平。这些心理特质称为构念(construct),具体到语文测评,就是“构成语文能力的理念”。测评就是要通过外部情境的刺激,让考生作出反应,并依据反应推测考生素养的特征和水平,即基于考生反应推断所测构念的特征和水平。效度(validity)就是一个测评项目在多大程度上达到了测评目的,即在多大程度上准确反映了所要测评的构念。
在20世纪90年代,Messick 以构念效度(construct validity)为效度问题的核心提出“一元效度(unified validity)”理论,将构念效度置于评判一个测评项目的顶端,认为其中包括内容、实体、结构性、概化、外推、后效六个方面。[3]这六个方面都与所测评的构念息息相关,与本文讨论的情境测评关系最为紧密的是构念效度的内容、实体、结构性、概化四個方面。
效度理论的发展基于测评理念的发展,而任何测评改革都不会仅在测评领域内发生,正如前文所言:时代、教育、人才、学习、课程、教学的发展,要求测评也要有相应的发展。情境测评正是社会主义新时代的人才需求,以及核心素养的教育理念、学习内容、学习方式方面改革在评价领域中的一种反映。正因为新时代要求社会主义建设者和接班人具备应对21 世纪各种复杂的、综合的、不确定的现实生活环境的品质,教育教学应以培养学生的这种关键品质为目标,这种关键品质即核心素养。因为核心素养是应对复杂、综合的真实情境的品质,所以它也更适宜在复杂、综合的情境中得到培养。
课程标准在“ 命题原则”中要求“ 以语文学科核心素养为考查目标”,也就是要求测评的构念是“核心素养”,那么要想提高核心素养测评的效度,依据构念效度理论则需要:测评内容必须是语文学科核心素养中具有强相关性和代表性的一部分;实体方面则要求考生在答题过程中的作答行为能够反映核心素养的特征并得到证据的足够支持;结构性方面则要求试卷的各部分构成及其构成比例能够真实反映核心素养的各部分及其比例;概化方面则要求关于核心素养的分数解释适用于其他各种不同的语境情景、交际任务;外推方面要求考试结果具有高相关性,能够得到外部证据的支持,如考试分数与学生日常生活表现出来的实际使用语言的能力具有高相关性等;后效方面则要求分数解释的依据、考试结果的使用所产生的后果有利于核心素养的发展和提升。
也正是基于这样的逻辑链条,课程标准在“学业水平测试与高考命题建议”中提出“考试、测评题目应以具体的情境为载体”。因为“ 真实、富有意义的语文实践活动情境是学生语文核心素养形成、发展和表现的载体”,所以当且仅当“以情境任务作为试题载体”,在复杂多样的情境中完成不良结构的真实任务,才能“呈现学生语文素养的多样化表现”[4],然后才能依据学生的表现对其语文学科核心素养进行评估。
二、效度视域下的测评情境和“语境”
课程标准中的“ 命题建议”在提出“ 以具体情境为载体”时对情境作了如下说明:“ 真实、富有意义的语文实践活动情境是学生语文核心素养形成、发展和表现的载体。语文实践活动情境主要包括个体体验情境、社会生活情境、学科认知情境。”[5]学者揭示了情境和语境理论的紧密关系,指出情境化教学是语境理论在教育领域中的运用。[6]不过课程标准对“语境”和“ 情境”两个词语的使用并无清晰明确的分工。课程标准中“语境”一词出现在“语言建构与运用”相关学习任务群的学习目标和内容中,以及相应的五个等级的学业质量水平“ 质量描述”中,体会“语境”的用例,可以判断课程标准是在“ 具体的语言使用的场景环境”而非“ 语篇内的上下文”的意义上来使用“ 语境”一词的。而课程标准在阐述“ 语言建构与运用”时对相关要点的表述则使用了“情境”一词,即“ 发展在具体语言情境中正确有效地运用祖国语言文字进行交流沟通的能力”,如果课程标准在阐述核心素养的内涵、学习的目标与内容、学业质量的表现时是系统而一贯的,则可以知道它在使用两个词时并未明确区分。
“ 语境”(context)一词常见于语言学和逻辑学领域,指言语行为所发生的环境,一般包括文内因素和文外因素,前者指向话语行为中的前后语或上下文,后者指向话语行为的“情景”和“ 背景”[7]。狭义的“ 语境”常常指口语中的前后语、书面语中的上下文,即文内语境。广义的语境则可以无所不包,如维特根斯坦的语言使用理论、奥斯汀的言语行为理论、斯特劳森的日常语言逻辑等,乃至巴赫金、克里斯蒂娃的互文理论也都是语境理论的组成部分。比照课程标准关于情境的分类诠释,可以看出语境和情境有千丝万缕的联系:无论哪一种情境下开展的语文实践活动都要考虑三种类型的语境,即文本语境、情境语境、背景语境,这样才能准确地理解和表达意义、思想,达到语文活动行事取效的意图。
不过从理论来源及侧重看,二者又有着区别。课程标准对情境的分类主要基于实践活动的主体和客体,基于活动的目的和意图,这种情境含义明显受到建构主义和情境认知理论的影响。情境认知理论把知识视为个人与情境之间的交互关系的副产品,把学习视为个人、知识、情境之间的交互作用的副产品,重在基于情境的认知过程和学习过程。情境认知理论正是为消除学习脱离情境的弊端而提出的:传统的正式的学习因孤立于获得意义的情境,而仅能收获静止的、刻板的、未完成的、肤浅的理解。[8]
与传统的教学类似,传统的测评多注重文内语境即上下文,也会关注到背景语境,如历史文化背景,这在以纸笔为载体的终结性考试如高考中尤为明显,这也是与高考把识记、理解、概括、分析等能力作为测评构念是一致的。以传统学习掌握的知识如果能让学生通过传统的考试,却不能将同样的知识运用于真实情境解决实际问题,那么说明传统的考试是低效度的。正是为了提高测评效度,所以课程标准提出了情境测评。
正如语境理论强调话语行为的行事取效的意图,我们也应该这样理解课程标准格外强调语言运用的环境场景,格外强调“真实、富有意义的语文实践活动情境”的意图。因此,试题应当做到以个人、社会、学科三种情境为载体,在语境的运用上,需要格外强调情境语境,实现情境测评,这样才能有针对性地消除原有考试的弊端,提高测评的效度。
三、效度视域下“真实”的测评情境
对“ 真实”的一种常见理解是现实性,即学习和测评所利用的情境与现实的生活情境应当是吻合的,某个测评情境越能原汁原味地再现目标情境中该任务的情形、要求和实施条件,该情境就越是真实的。基于这样的理解,“ 真实”的测评情境应当重现各种身份、行业,如作家、学者、商人、科学家、管理者、设计师等通常面对的各种挑战或要求。[9]当然,真正的现实情境任务及其实施条件是无法完全重现的,正是在这个意义上,在以纸笔考试为基本方式的大规模高利害考试如高考中,“ 直接测试”或“真实测评”甚至可以看成一个伪命题。[10]
既然绝大多数现实性情境难以复制,那么命题者能做的是使测评情境和任务尽量模仿现实、靠近现实,根据测评需要,模仿现实生活情境,考生则模拟完成任务,任务结果和成品当然也不会真正投入使用,这也正是目前的高考试题情境化的常见做法。在这种理论倾向下,我们需要额外注意以下问题。
一是情境任务的典型性、代表性。现实性情境测评归根到底针对的是考生在完成某一特定真实任务中的表现。杨向东指出,这样的测评关键在于“ 判断当前评价任务的领域代表性”,即“如何确定所采用的评价任务是所要推断的目标情境或任务范围的一个代表性样本”[11]。具体到高考,这一问题在写作测评中更为突出。课程标准中的写作内容十分丰富,有作品评介、调查报告、文学作品、杂感、随笔、评论、研究论文、研究报告、文学评论、学术性小论文等,而高考由于考试时长的限制,往往只能要求完成一个写作任务,这就需要对高考写作任务的典型性和代表性格外留意。也正是在这样的考量下,课程标准对测评情境任务的典型性提出明确要求:典型任务是指“ 为评价学生语文素养水平而选取的具有代表性价值的语文实践活动”,考生通过典型的实践活动,“ 体会典型的思维过程与方法,体验典型的情感,呈现典型的成果”。[12]
二是评价标准的可类推。现实性的情境任务往往有很多特定要素,这些要素无法涵盖其他任務的特征,也无法代表一般性的整体素养。考生在完成现实性情境任务中的表现必然受到这些特定特征的影响,甚至越优秀的考生会越注意某一现实性任务的“区别性特征”,而这些特征对考试目标来说却可能是边缘性的。评价标准如果不对这些边缘特征加以关注,则测评不容易准确;如果关注这些边缘特征,评价标准又很难类推到其他情境任务中去。这让现实性情境测评陷入两难的境地。
三是分数和分数使用的可解释。《教育与心理测量标准》的效度定义反复强调分数解释的“ 预定用途”,如“ 效度是指证据和理论支持为了某一预定用途而产生的测试分数解释的程度”,“效度验证过程是积累相关证据为某一特定用途的分数解释提供可靠科学的依据”,“基于指定用途所作的特定分数解释可以作为效度的证据”,甚至认为效度必须与分数使用关联:“ 测评效度应当是指向预定用途的特定解释,不加预定用途的限制而泛泛地说‘ 测评效度是不正确的”。[13]具体到高考,其基本功能是“为不同类型的高校选拔出符合要求的新生”,“ 服务选才不仅是高考制度建立的目的、存在的依据,也是高考的基本功能和使命”[14],其分数解释指向核心素养,其分数使用的解释指向“高校选才”,二者是契合的。高考分数是考生进入高校最重要、最直接的依据,所以基于情境测评得到的分数及其使用也应当指向高校学习,指向国家选才。在这样的前提下,测评情境应当适应高校对人才培养的要求,适应国家经济社会发展对多样化、高素质人才的需求,这对现实性情境来说是很艰难的任务。
四是测评的准确度,即构念是否受到干扰而“测不准”。一个测评项目可以描述为“成绩需求—项目开发—项目实施—阅卷评分—成绩使用”这样的流程,任何一个环节出现差错都会导致效度的降低。现实性测评情境追求复杂多变的时空和社会条件,对命题必然提出更高的要求。如2020年高考全国Ⅰ卷的写作试题,要求考生基于“ 班级计划举行读书会,围绕上述材料展开讨论”的情境写一篇发言稿。所谓“ 讨论”,指就某一问题交换意见或进行辩论,一般是有来有往而往复推进的,那么班级同学在读书会上发表的观点就成为现实情境中极为重要的一部分,他们的观点和意见应该是“我”思考和发言的起点,“我”的“感受和思考”理应包括与同学的商量、辩驳,而这种动态语境在纸笔考试中是很难呈现的。
另外,命题还要避免那些阻碍考生答题的无关因素,如与本试题测试目标无关的本学科的其他知识或外学科知识、能力的需求。前述试题要求就“ 齐桓公、管仲和鲍叔三人,你对哪个感触最深”写发言稿,那么考生对这三人性格人品、事迹经历的了解,自然成为“ 感触”的生发点,关于这三人的事迹在现实性任务中提供了极其有限的资料,对该三人事迹的了解甚至可以看成与写作能力相关性不强的干扰因素。
还有阅卷信度的问题。仍以作文为例,考生写完一篇作文,其语言能力的表现已经完成,按理说阅卷者应当给出准确的分数,但要做到这一点并不容易。现实性测评情境对阅卷提出了更高、更为细致的要求,在现实性情境下,阅卷者不仅要看考生写作的内容形式,还要看考生能否全面考虑到某言说者以什么身份、在什么场合或平台、为了什么目的、以什么文体、对谁说了什么,并且要对这些现实性情境的要素在赋分上作出符合效度的分配,这对目前的阅卷现实提出了巨大的挑战。
把“ 真实”理解为“ 现实性”,容易只关注测评情境的现实程度,而忽视情境与所测建构间的联系。对测评情境现实性的追求不是增高而是降低了构念效度,这是我们需要警惕的。基于效度视域对现实性测评情境的考量,越来越多的研究者对“ 真实”的这种理解尤其是对大规模高利害考试中的“ 现实性情境”的应用有了自觉的反思。今年高考作文试题中,现实性交际情境的写作任务比往年有所减少,可能也是对现实性测评情境反思的体现。
四、效度视域下“有效”的测评情境
王宁教授在谈到对“ 真实”的理解时指出,所谓“ 真实”是“ 这种语境对学生而言是真实的,是他们在继续学习和今后生活中能够遇到的,也就是能引起他们联想,启发他们往下思考,从而在这个思考过程中获得需要的方法,积累必要的资源,丰富语言文字运用的经验”,她把“ 真实情境”概括为“ 从所思所想出发,以能思能想启迪,向应思应想前进”。[15]如果“ 真实”一词容易引起误会,我们可以在教学中突出课程标准在诠释三类情境时使用的“ 有意义”这一语词。类推到测评中,则只要测评情境不违背基本的日常逻辑,能有效地服务于测试构念,达到期待的测试效果,这样的情境都可以称为“有效”的情境。
这种效度视域下对测评情境“ 有效”的追求,强调在情境中解决评价任务所需的思维方式或素养与目标情境中的思维方式或素养的相似性,而不强调情境或任务本身的相似性。以文言实词解释的测评为例,以下几种测评情境的设置在效度上都是可接受的。
1. 写出“ 民用不扰,而物生亦遂”中的“ 遂”字在句中的意思。
2. 为“ 民用不扰,而物生亦遂”中的“ 遂”字选择释义正确的一项是( )
A. 通达B. 因循C. 称心D. 长成
3. 为“ 民用不扰,而物生亦遂”中的“ 遂”字选择释义正确的一项是( )
A. 通达。《淮南子》:“能知大贵,何往而不遂?”
B. 因循。南朝梁丘迟《与陈伯之书》:“ 若遂不改,方思仆言。”
C. 称心。唐杜甫《羌村三首》之一:“ 世乱遭飘荡,生还偶然遂。”
D. 长成。《国语》:“犠牲不略,则牛羊遂。”
4. 小明在读到所给文本“民用不扰,而物生亦遂”一句时无法理解句中的“遂”字便去查字典,字典呈現如下,请你为小明推荐一个恰当的义项。
A. 通达。《淮南子》:“能知大贵,何往而不遂?”
B. 因循。南朝梁丘迟《与陈伯之书》:“若遂不改,方思仆言。”
C. 称心。唐杜甫《羌村三首》之一:“世乱遭飘荡,生还偶然遂。”
D. 长成。《国语》:“犠牲不略,则牛羊遂。”
完成例题1 所需的思维与“ 通过文言文阅读,梳理文言词语在不同上下文中的词义和用法”相似,完成例题2 所需的思维与“ 学生借助工具书独立研读文本”相似,例题3 呈现了接近借助工具书研讨文本的现实生活的情境,例题4则是对现实生活情境的全真模仿。四道题所设置的情境在现实性即与现实生活的距离上各有不同,却都能有效测评对文言文词语的理解。李卫东指出,简单情境、良性结构的问题和任务虽然不能促成深度理解和运用,但也是不可缺少的,是认知学习的基础[16]。在测评中,简单情境也是可接受的,是不可缺少的,这与高考以文字来呈现情境并要求考生在有限的时间内完成任务的特点也是一致的。
不过,既然测评构念是核心素养,而核心素养是应对复杂、综合的真实情境的品质,所以它也更适宜在复杂的综合的不良结构的情境中加以测评。不良结构的情境任务没有暗示确保取得成功的策略或方法,这类情境是模糊的,在解决方案提出前需要进一步定义或明确。因此,这类问题或疑问更多需要的不是知识,而是良好的判断力和想象力,这也更多地指向核心素养[17]。因此,评判测试情境质量高下的关键是情境的复杂或综合程度,而不是情境的现实性程度。
高考是大规模高利害考试,涉及的人数众多,影响范围广,对考生个人命运和社会发展都有极其重要的影响。这要求高考有较高的效度。效度视域下高考中的情境测评应当具有以下特点:以核心素养为测评构念,情境的设置应当有助于而非干扰核心素养的准确测评,情境相关的要求应当在评价标准中得以体现并在实践中可操作;高考的目的是为高校和国家选才育才,所以高考的分数解释应当以此为既定用途,分数的使用应当与高校和国家对人才的要求一致;注重情境的典型性、代表性,完成情境任务所用思维特质可类推到其他情境;注重情境的复杂性、综合性,完成情境任务所用思维应该有质和量的保障,并且追求这些思维特质的综合贯通。