从命题技术谈语文试卷难度控制
2024-04-02章新其浙江省教育厅教研室
章新其|浙江省教育厅教研室
不同性质的考试有不同的难度追求,难度的控制关乎组织考试的意图能否有效实现。就难度而言:对于初中阶段年级期末考试,难度可以设置在0.7~0.8,表明其属于合格性质的通过性考试;对于初中学业水平考试(也称“中考”),难度可以稍大,现在一般提倡控制在0.65~0.75。随着社会发展和教育进步,初中学业水平考试正不断地在淡化其选拔功能。
语文学科考试试卷的难度,会影响测评的效果,左右语文教学的导向,还会关涉学生的学业负担。因此,语文试卷难度控制,是语文命题需要严肃对待的重要内容,而关注命题技术可以有效把控试卷难度。就命题技术而言,难度控制跟语料选用、情境创设、题干表述、支架设计、参考答案与评分标准制订、写作试题难度系数把控等都有关联,下面具体阐述。
一、选择适宜语料
语料是语文试卷命制的基础,语料的内容会影响学生的阅读速度和理解,自然也会反映在试题的难度系数上。从语文试卷难度控制来看,语料的选用应该本着切合学生生活、基于学生水平、均衡各类文体等原则。
试题命制要尊重学生的生活基础,所选语料不能脱离学生的生活轨道和视野范围。语料是载体,通过设置的试题承载知识概念、思维认知、价值观念等内容。例如2023 年宁波中考卷创设“小说改编成剧本”的研讨活动这一文学体验情境,选用的是汪曾祺创作的京剧《范进中举》第十三场《掴治(节选)》。由于内容与教材中的选文《范进中举》、必读名著《儒林外史》相关,尽管是京剧节选,且改编幅度很大,但学生还是很容易理解。该组试题以学生较为熟悉的导学单形式,先从经历、角色、形式等角度梳理如何“改编”,再从“增设配角的意图”和“改编主角的意图”探究“改编”意图,通过梳理和探究,考查学生对讽刺小说的文体把握、理解水平和生活体验。
如果语料内容与学生有隔阂,以致影响到试题情境问题的解决,那就无法测出学生的概念理解、认知水平和情感态度。例如某中考试卷实用文阅读部分,围绕“教育数字化转型和ChatGPT的利弊”话题选用三则材料。这一话题本身离普通学生的生活较远,学生对这些事物较为陌生。同时,文本中充斥着“生成型预训练变换模型”“大型语言模型”“算法‘黑箱’”等语言信息,给学生的阅读制造了不少障碍。此外,试题还引入了“即使再先进的科技都只是工具,人类不应沦为工具的奴隶”这样的说法,要求学生结合文本材料谈理解。从后面的阅卷过程及数据分析可知,学生显然是因为缺乏相关经验而得分过低。
测试中的语料选用要基于学情,符合学生的认知水平,低于或高于学生的理解水平,都可能影响试题的难度控制。例如某中考试卷文言文阅读选用《汉书·苏武传》中的部分内容,因生僻字多,且没有交代历史背景、人物关系,虽然这个234字的文本语料,给出了100多字的注释,但学生要读懂这个篇章,还是较有难度。此外,有些命题者为降低试题难度,于是节选出较短的文言文来拟制试题,但测试结果事与愿违。如某中考试卷节选《战国策·秦策五》“秦王与中期争论”的片段60余字,要求学生阐述秦王是如何被成功说服的。因节选材料文字过少,给学生增加了语境理解的难度,其内容又缺乏相关背景知识介绍,故该题得分比较低。
语料对试卷难度的影响,还会表现在各类文本类型和体式的均衡性上。同一学生在不同类型文本的阅读表现上可能会有较大差异,因此,一般而言,一份试卷对文本的选择要尽量兼顾各类型和体式,以全面考查学生在不同文本类型上的阅读表现。目前多数优秀试卷在试题命制中,既关注文学文本也注重非文学文本(二者分值比例相当),既重视连续性文本也凸显非连续性文本和混合文本。这些都是很有必要的。
二、创设有效情境
情境的功能在于创设学生解决问题的环境和条件,通过情境化测试较为清楚地呈现他们的思维过程和学习成果,为评价提供有较高可信度的参考证据。优秀的情境创设,会有助于考查学生对核心知识、概念的深度理解,区分学生的真实素养水平,提升测评的实际效果。情境设置不当,则会影响学生的真实水平表现,偏离试题的难度预估。因此,情境创设是命题的重要一环。
情境的创设要合理,合乎事情本身的逻辑,能承载考查的目标。试题情境虽不能也不必成为生活的全息投影,但务必要保证逻辑前后贯通,语义清晰无歧义,以帮助学生顺利进入试题营造的答题空间,并开展现实问题的解决。例如某中考试卷以“同学挑选戏曲创意商品”为情境,介绍了各自均被作者称为“豹头环眼,燕颔虎须”的张飞和林冲在手机壳上的戏曲扮相截然不同的现象,要求学生“结合名著,推测他们扮相不同的原因”。事实上,张飞和林冲的整体相貌本身就存在很大的差异,而“豹头环眼,燕颔虎须”只是两人外貌的两个局部特征,并不能决定两人的整体扮相。从根本上说,两人扮相不同,是因为身高、脸型、服饰、使用的兵器等其他因素不同而造就的。而从语义上看,“他们扮相不同的原因”中间还隔着戏曲扮相的要求对人物形象的异化、文创产品对人物形象的扭曲改造等可能性。这些问题,会影响学生问题解决的品质,难以科学评测学生的真实水平,自然也无法保证预估难度的实现。
情境不是试题的外包装,而是开展思维活动的空间场所;试题命制要紧扣语文实践活动的真实需求来创设情境,设计任务。命题意图、情境设置和提问方式达成内在统一,才能实现情境化试题测试核心素养的价值。当前部分试卷的情境设置过于刻意或用简单话题来代替立体情境,反而对学生的解答造成障碍。如某试卷以成语“行思坐忆”为情境依托,并将它拆解为“坐”“忆”“行”“思”四个字,分别组织起试卷的四个板块。这个成语的意思是“走着坐着都在想”,四个字打乱顺序单独成板块,也就成了四个孤立的“话题”,实际上已与成语内涵完全无关。研究这些试题可以发现,试题解答过程无须借助该题设置的情境,刻意追求情境的外在形式不仅会弱化、虚化情境的作用,甚至有可能干扰学生的问题解决过程,影响学生的认知判断,由此也会影响命题者的难度预估。
日常生活情境创设的“有效”,还要看其必要性和精当性。也就是说,生活情境应“适得其所”,非必要不设置,不冗余庞杂,要有利于学生的问题解决。如果缺乏有效的生活情境,学生就可能找不到自己在情境中的角色定位,进而在看似“开放”的情境中迷失思考的方向。比如下面这道试题。
以下是研究小组公布的论文题目,请选择一个,写下你的思考。
A.祥子文学形象的当代价值研究
B.《简·爱》何以成为经典
C.《西游记》与《水浒传》里的团队研究
D.《儒林外史》中的世情百态
该题至少有以下几项情境内容的缺失:一是缺失学生的情境角色,“我”是研究小组的一员还是评价小组的人员并不明确;二是驱动性任务不清晰,“写下你的思考”的目的不明确,写下什么思考、为何而思考相对模糊;三是选项内容的意义不明晰,如A 项的“祥子文学形象的当代价值研究”,学生可能并不容易理解这样一个较有学术气息的短语及其背后的内容。由于存在这些模糊问题,命题者就无法预估学生的解答情况,也无法控制试题的难度。
三、精确题干表述
题干的语言表述要做到用语精确,表达规范,提示适当,指向明确。题干表述质量越高,就越利于检测出学生真实的语文水平,也就越能有效控制试题的难度。不过,当前不少试卷题干表述不规范、不科学的现象时有发生,既影响学生的作答,也影响测评的效果。
一是用词有误,妨碍学生作答。主观试题的表述应注意使用正确的动词进行设问,与考查的能力层级目标进行匹配,以实现考查的具体目标。考查理解能力,可以用“解释”“分类”等动词;考查分析能力,可以用“探究”“揣摩”等动词。当然,各能力点之间有交叉关系,设问时不一定要一一对应,但要避免出现低能力维度高能力动词的现象,以免由于不对应影响学生的思考与作答[1]。如某试卷古诗文题要求学生“阐释”画线句子的“画面美”,题干所用词语“阐释”意为“阐明陈述并解释”。从该题答案可知命题意图是赏析句子美好的画面和景象特点,显然,用“阐释”一词会误导学生的解答。
二是表意模糊,指向不清。如某试题题干要求阅读相关图文材料,“写出你的发现”。“发现”一词意义过于宽泛,答题指向不明,学生无法明确回答的切入点、思考的路径,作答时就只能泛泛而谈,或者只能猜测命题意图。这类试题的得分显然具有偶然性,无法预估其难度系数。又如某试题要求从“富有想象”的《西游记》《海底两万里》《哈利·波特与死亡圣器》《格列佛游记》四部作品的任意一部中,“选择一个异乎寻常、让你印象深刻的细节,并谈谈它超越现实之处”。题干中的“异乎寻常”一词,《现代汉语词典(第7 版)》释义为“不同于平常”。而其罗列的四部作品,就小说特质而言,本就是“不同于平常”。显然,题干设问指向模糊,题干中的“异乎寻常”和后面的“印象深刻”两个貌似限制性的词语,并未对小说细节的选择作出限制,同时“超越现实之处”的意义指向也很含糊,这些都不利于学生作答,并会偏离试题的预估难度系数。
三是选择题设题不科学。首先是不少选择题以反向选择的形式出现。其实,反向选择难以反映学生的真实水平,能选出“错误”项并不意味学生知道正确内容,这就很难测出学生的真实水平,自然也会影响难度的有效控制。其次,不少试题选项设计较为随意,部分题目生造选项,而选项干扰性的缺失恰恰会“干扰”命题者的难度判断。如有试题要求为“风是自然界中最常见的一种天气现象之一”这一病句选择正确修改项,其中A 项设置为“风自然界中最常见的一种天气现象”。该项语句本就不通,错误信息过于明显,脱离了真实的语言运用情境,因此难以区分学生的真实水平。
四是设题角度偏离。命题切口的“精”“巧”,大多源自对文本特质的贴近,偏离文本特质,切口就容易发生偏移。如某试卷文言文阅读部分,要求就范仲淹《舟中》一诗中“微风不起浪,明月自随船”一句所表现的“意境幽美”作出赏析。实际上,该诗以阐述哲理为主,具有宋诗典型的说理特点,而赏析“意境幽美”则侧重于文学语言、画面和形象表达,显然不契合该诗的文本特质。此类问题在命题中表现较多。如:要求品读《活板》一文中的形象性语言,就没有抓住该文语言“简洁”的核心价值;对童话作品偏重从小说角度来设题,而没有扣住童话的文本特性来命题。这样的命题都没有从文本和教学的“应然”渠道去设题,偏离了核心知识的考查和“学习”的科学路径,自然无法准确预估学生的解答情况。
四、搭建合理支架
语文学习从知识到能力再到学科核心素养的发展需要经历“学习理解—应用实践—迁移创新”的进阶过程,贯穿其中的是学习支架的运用、学习经验的积淀增值和思维能力的发展。在测试情境中,支架搭建应该适宜、合度,支架缺乏、过细、过实、过多,都反而会束缚学生的思维,不利于学生发挥水平,也影响检测效果[2]。
命题者应该认识到,初中生还处在知识的积累和储备过程中,封闭性的测试会让学生遇到学习困难而无处寻求帮助,以致影响问题解决的顺利进展。语文学科中部分语料有较为复杂的背景情境,比如涉及作者的处境、写作对象的经历、文本中的典故等,它们会对学生的阅读和理解造成一定的障碍。因此,命题者在命题时应该设计有效支架,以帮助学生建立信息的内在关联,达成对意义的建构。反之,如果命题没有搭建合适的支架以支持学生的问题解决,学生就可能会陷入困境,试题的实际难度也无法预估。
比如某试卷节选苏辙《黄州快哉亭记》首尾两段作为文言文阅读材料,该文本对初中生来说难度不小,而节选片段语意不贯通,又增加了理解困难。试题要求给文言语句“清河张君梦得谪居齐安”断句,但所选材料未有“清河张君梦得”的任何提示信息,命题者也未给“梦得(张怀民的字)”注释,同时,因该人物并非历史上人尽皆知的名人,学生可能没有知识储备,这就给学生的理解造成了很大障碍,最终导致此题实测难度系数与预设难度系数相差0.4。这样的情况在命题中时有发生,比如某试卷选择解缙的古诗《过彭泽》作为阅读材料,尽管学生对陶渊明有一定的认识,但对作者解缙几无认知,试卷中如果没有给出介绍性注释,就会影响学生的认知判断。
学习支架应该应用于复杂内容的学习,作用于学生新知的建构中。但命题中也常常会出现“过度支架”的搭建问题,如下面这道文言文阅读试题。
参考表格提示的方法,解释加点词。
题中搭建策略支架,意在帮助学生解释文言字词,但有些支架的搭建,可能会让试题失去“考查”的意义。例如,该题(3)要求学生理解“果群盗潜伏焉”中的“焉”,提供“课内迁移”的具体实例,意味着学生只要记住课内“必有我师焉”的意思即可解决问题,而无须真实理解新文本的语句。该题(1)“万屋比栉”也属同类问题。此类过实支架的设置,让学生对知识理解迁移的思维过程降阶为基于旧知的“识记”。由于试题没有指向学生思维过程和个性化思维品质的真实考查,因此无法判断学生的真实理解。
五、制订科学的参考答案与评分标准
在纸笔测试中,为试题提供“参考答案与评分标准”是科学评测的重要组成部分。参考答案与评分标准直接面向阅卷操作,直接关联得分率和难度系数。一份试卷,没有高质量的参考答案与评分标准,就称不上是一份优秀的试卷,因此必须确保参考答案与评分标准规范、科学、公平和可操作。从目前全国各地的语文试卷来看,参考答案与评分标准的制订情况差异较大,这反映出不同的命题理念与评测态度。
参考答案应该为阅卷提供具体可信的样例模板。语文试卷的参考答案要依据试题类型而定,如汉字的字音字形的辨析、标点符号的使用、经典诗文名句的识记性默写等基础知识类试题,要设置确定答案。而倡导多元解读、个性体悟、创造应用的综合考查任务,则应放宽答案限制,虽然“答案仅供参考”,但其“参考性”也需要恰当、规范、合理。首先,参考答案与考查任务应具有适配度与对标性,就是“答即所问”,参考答案准确对标题干设问意图,是参考答案的价值底线。不过,“答非所问”的现象在不少试卷中时有发生,比如有试题要求学生概括写景特点,试卷提供的参考答案却指向“写作手法”,其实质是命题者设题意图不清晰。与题干设问无法直接适配对标的参考答案,其答案的“参考性”会失去公信力与普适度,进而让阅卷评分者陷入无所适从的赋分困局,这是命题者在拟写参考答案时一定要警惕的基础性认知问题。其次,在为开放性试题拟写参考答案时,要注意答案示例的多向度、答案示例内部给分点的均衡性。比如有试题设置“有同学不赞同文本观点”的情境,要求学生进行评析,但提供的参考答案只有否定的示例,这是顺从作者的写作思路而产生的答案。从某种角度说,阅读的过程是学生基于文本理解与个性体验产生的有立场的思辨性探究,命题者应尊重学生的主观感受,给出不同立场的示例。参考答案与评分细则(评分标准在操作上的细化)的拟制是“答案标准”具体化、实操化的第一步,是保障科学测评的关键。只有谨慎拟制,小心论证,让参考答案的“答案标准”清晰呈现,其“参考性”才更有保证。
评分细则应该为阅卷提供直接可用的操作抓手。评分细则是为避免单一化的立场带来命题设计和参考答案的偏颇而提供的评分说明,它是科学测评中“答案标准”的直接说明。从全国各地的语文卷来看,命题者对“评分细则”的称呼不同,理念不一。有的直接省略了评分细则的撰写,有的在参考答案后附上“意对即可”了事,有的以“分点作答”笼而统之,这几种做法都未起到评分细则的功能。命题者必须认真审视评分细则对于评测的意义。首先,评分细则要能衡量思维的合理性和层次性,尤其是在开放性试题的评分中。这是因为开放并不意味着什么答案都可一视同仁,开放性试题的结论也有对错之分、优劣之别。开放性考查要基于基本知识常识与基础阅读能力,脱离文本内容的思维开放,是极其危险的思维误区,这需要引起命题者的警惕。其次,评分细则要能体现思维的可视化。评分细则通过对题干所需答案的准确描述,为阅卷者提供一幅“答案地图”,便于阅卷时“按图索骥”,它是以“答案标准”为参照的。有些试题的评分细则表述模糊,没有针对学生的不同思维提供清晰的评判标准,这就会给阅卷评判带来困难,以致很难区分学生的真实水平,自然也就失去了把控试题难度的基础。
值得注意的是,目前全国多数地区语文中考试卷的开放性试题采用采点给分,这无法区分学生的简单结构作答和复杂结构作答。而有的试题所提供的评分要求为“意对即可”,此类标准比较模糊,操作性不强,会影响试题评分的客观性,不利于难度控制。
六、把控写作试题的难度系数
从当前多数命题单位提供的考试数据分析显示,写作试题的难度系数与整卷的难度系数差距较大。有些试卷写作试题的难度系数超出整卷难度系数0.1 以上,也有个别试卷写作试题实测难度大大低于整卷难度。由于写作试题分值极高,其难度系数的偏差会对整份试卷的科学性和测试的有效性产生较大影响,因而必须特别注意。除去部分命题单位可能会有意用写作试题高得分拉高整卷难度系数的原因外,多数试卷写作试题的评分标准没有针对具体写作任务的内容、特点制订,有的命题单位十几年来采用相同的写作评分标准,这种模式化的评分标准不利于指导科学评阅。
此外,写作已进入情境化测试领域,以“表达与交流”的形式参与到情境问题解决的进程中,成为解决问题的必要手段。如:有的请学生综合阅读材料,写一篇推介短文;有的引导学生借助课外资料进行卡片制作;有的要求学生结合阅读体验,联系生活经验写一个议论类片段。这些都充分体现了综合素养考查的特征。然而,综观这一类试题,尽管是从写作维度来编制的,但评分标准却从知识、阅读等维度设置,没有反映语言运用的试题属性,失去了“表达与交流”试题的实际意义,这也不利于科学评阅以控制难度系数。
综上,笔者从命题技术角度对语文试卷难度控制作了说明。语文命题要基于语文学科属性,精选适宜语料,创设合宜情境,从根源上解决难度控制问题;语文命题要利于学生解决问题,精确题干表述,明确试题指向,搭建有效支架,从外部条件上解决难度控制问题;语文命题要重视评阅的指导性,确保参考答案和评分标准的规范、科学、公平和可操作,从衡量尺度上解决难度控制问题。而由于写作试题的分值在整卷中占比极高,因此也应科学把控其难度系数。命题者只有充分关注命题技术,不断提高命题水平,才能合理把控试卷难度,命制出能有效考查学生核心素养的试题。