发展分层评分标准助力命题改革

2023-11-29叶丽新

语文建设·上 2023年10期

关键词：题型

【摘要】题型改革是命题改革的一个重要抓手。当前不少新题型有一个共性特点，即试题开放度加大。要提升各类开放性试题的考查价值，须着力推进分层评分标准的开发与运用。拟制分层评分标准需要先根据测评目标观察学生表现的主要角度及要点，再整合考虑试题分值、学生的可能表现层次，据此确定评分等级数，进而紧扣观察角度描述各层级的关键表现并附各层级典型表现样例。分层评分标准的有效运用需要专门的阅卷者培训，以保障充足的阅卷时间；从长远来看，需要在日常教学中适当调整评价的思维方式，善于发现、提炼学生外在和内隐的学习表现特点，善于捕捉不同学生表现的关键差异。

【关键词】题型；开放性试题；主观性试题；分层评分标准

题型及其评分方法是测量与评价理论、实践中的基本话题。当前的课程改革与评价改革对此提出了新的要求，研究与实践需要作出更加积极的探索。

一、课程改革与评价改革背景下的题型改革要求

近几年，课程改革与评价改革的系列文件对于命题提出了一些有针对性的、细致的要求，譬如对于试题形式，《普通高中语文课程标准（2017 年版2020 年修订）》提出“多设置主观性、开放性的题目，展现学生智慧，鼓励学生发挥和创造”；《国务院办公厅关于新时代推进普通高中育人方式改革的指导意见》（2019）提出“创新试题形式，加强情境设计，注重联系社会生活实际，增加综合性、开放性、应用性、探究性试题”；《教育部关于加强初中学业水平考试命题工作的意见》（2019）提出“减少机械记忆试题和客观性试题比例，提高探究性、开放性、综合性试题比例”；《义务教育语文课程标准（2022 年版）》（以下简称“义教新课标”）提出，“试题形式力求创新，鼓励增加开放性试题比例，以避免导向新的应试模式”。以上文件提及多个题型概念，有的是测量与评价一般理论中的既有概念，有的则是我国课程改革与评价改革背景下诞生的特定表达。各种概念与表达侧重于从特定角度强调试题的考查指向与功能，比如：侧重从认知能力角度表述的题型概念有“记忆性试题”“应用性试题”“探究性试题”，当前的要求是控制“记忆性试题”，尤其要避免“机械记忆试题”，根据学情酌情增加高层次能力试题（试题考查的能力层级与试题难度是两个概念）。侧重从知识技能方面或问题解决路径角度表述的题型概念有“综合性试题”，当前的取向是鼓励命制整合“阅读与鉴赏”“表达与交流”“梳理与探究”三个方面实践活动的综合性题目，鼓励学生“综合运用多门课程知识和思想方法解决实际问题”［1］。侧重从答案属性角度表述的题型概念有“客观性试题”“主观性试题”“开放性试题”，当前的取向是发展主观性、开放性试题，鼓励学生个性化理解和表达。

当然，不同分类视角下的题型并不互相排斥，譬如，应用性试题、探究性试题、综合性试题均以主观性、开放性试题为主。当前试题创新的难点不仅在于开发试题本身，还在于原本就存在的难点——主观性、开放性试题评分不理想的问题并未得到充分解决。题型改革实际存在两重压力。当前，试卷题型结构成了考查一份试卷质量的重要指标之一，试卷题型比例因此也有一些较为明显的变化，主观性、开放性试题增多。在此背景下，试题评分问题更须着力研究，否则可能陷入新的误区。以下探讨答案倾向于开放性的各类试题的评分标准设计与运用问题，以期借此助力试题创新。

二、立足试题属性与考查价值明确评分角度与要点

主观性、开放性试题评分的实质是区分学生的表现水平层次，而评分的第一步是要明确从哪些角度观察学生的表现。对此，可从理论和具体试题两个层面进行研究。

1.测量与评价理论建议的评分角度与要点

既有的研究对于开放性试题或相近类型试题的表征、独特考查价值、运用要点等的论述，蕴含了对学生表现的期待，从中可以提炼出对学生反应的观察角度与要点，也即评分角度与要点。

a.开放题的三维判断标准：结论开放性，即结论不唯一或通向结论的途径具有开放性；结构复杂性，即认知过程包含复杂认知行为（高级学习）；情境真实性，即问题情境是真实情境或虚拟（模拟）情境。［2］

b.在评估学生的思维组织能力、逻辑表达能力、维护立场（defend position）、观点整合能力方面，开放式问题比选择式问题更加合适。开放式问题要求进行全面的、整体性的学习。［3］

c.论述题的一大好处是其可以测量受试者组织、整合知识的能力，应用信息解决新问题的能力，并且可以让受试者展示自己的原创综合思维。编写论述题的人必須充分考虑各种答案所代表的思维能力。［4］

d.要求学生对于争议性问题进行论述，应该对提供的证据进行评估，而不是学生的观点。……对于这些有争议的问题，要求学生接受某种观点或解决方案是不合理的。然而，对于某种观点和结论，可以检测他们收集和应用证据的能力。［5］

以上论述中可以提炼出两个基本观察点：一是结论或观点，二是得出结论或观点的认知过程、证据。a和d较为明显地区分了这二者，b和c侧重描述后者，d甚至强调后者比前者更重要。

再进一步分析，上述两个观察角度各有一些微观的评价角度或要点。关于结论或观点，可能需要考虑两个方面：一是针对性，是否能针对问题情境、既有观点等有的放矢地作出回应；二是深刻性、原创性或创造性方面的差异，在具体试题中要具体考虑区分学生表现水平差异的关键点是什么，是角度创新还是在常规角度下有不一样的认识。

关于得出观点的过程、证据，也有一些更细微的观察角度：一是思维方法及其品质，是否能灵活运用分析、比较、综合等思维方法；二是证据运用，是否能调动、整合运用各类可靠的证据，作出完整、充分、有力的回应。随着试题不断创新，上述观察和评分角度与要点可以不断完善。

2.特定试题具体的评分角度与要点

上述评分角度与要点为具体试题的评分提供了基本支架。当然，不同的试题有不同的测量目标和评价侧重点，可能有不同的评分角度；相同的观察角度在不同试题中可能有不同的观察要点。譬如以下在当前命题改革背景中较具代表性的几类试题，它们各有具体的评价侧重点。

（1）个性化阅读过程与结果表达类试题

【例1】“学者先要会疑。”图图读书时常常质疑，下面是他提的一个问题及提问原因。你也从初中语文教科书重点推荐的十二部名著中选择一部，分享了你的质疑。（8分）

图图读的名著：《朝花夕拾》

他提出的问题：鲁迅先生对儿时所受的教育究竟持什么态度呢？

提问的原因：我发现，一方面小鲁迅颇不自由，他在特别想看五猖会时，被父亲勒令背书，很痛苦；另一方面他又蛮自由，可以在三味书屋趁老师不备偷跑进后园游乐，很开心。

你阅读的名著：《▲ 》

你提出的问题： ①▲

提问的原因： ②▲

以上试题要求学生从十二部名著中选择一部来表达阅读中发现的问题并说明原因。十二部名著选任何一部都可以，提哪方面的问题也没有限制。这类试题在整本书阅读或名著阅读教学成效尚不够理想、尚须强调自主阅读的阶段有着独特的意义：引导学生在读名著时能真正读进去，在阅读中有自己的发现、思考。

试题①②两个空格已经在形式上区分了对学生表现的两个观察角度，“提出的问题”和“提问的原因”大致对应前面所说的“观点”和“得出观点的过程、证据”这两个方面。在这类试题中，这两个观察角度各有具体的观察要点。试题①提问的角度可能有新意方面的差别，问题的价值、深度等可能有层次差异。试题②主要源自书本内容，观察要点包括：表述这些信息时是否能尊重文本内容，不歪曲、不断章取义；是否能敏锐地发现值得探讨的信息、细节等；“文本信息、内容”与“问题”之间的关系是否紧密，从特定的文本信息和内容中是否能合逻辑地提炼出特定的问题。

（2）读写结合类试题

【例2】学校文学社公众号的“……”（注：略）栏目将刊发本作品，并配发一段推荐语。作为该栏目编辑，请你写一段100字左右的推荐语。

例2 要求学生在阅读特定作品之后完成指定的表达任务。这类试题通常在文学作品阅读或名著阅读考查中出现，属于读写结合类考查任务，在运用层面综合考查阅读与表达能力。

这类试题有两个基本的观察点。其一，对阅读对象的理解、鉴赏情况，譬如对文本局部或整体内容的理解是否符合文意，是否较为深入。其二，表达是否符合情境的潜在要求或任务明确表达的要求。如例2，部分表达要求隐含在情境要素中：“栏目”名称指向了表达方向，如聚焦“最受感动”之处、“成长”角度切入等，推荐语内容必须切题；“推荐语”这一形式对表达内容和语言风格也有潜在要求，推荐语的目的是吸引大家注意，激发大家的阅读兴趣，因此撰写推荐语时最好有一些专门的设计，譬如语言表达有创意、紧扣作品特点、适当设置悬念等；“学校文学社公众号”这一设定也是潜在要求学生考虑阅读对象、媒介的特点。

以上观察角度中，推荐的角度、推荐语整体的表达效果，大致对应前文所说的“观点”这一评分角度；对原文内容或特点的归纳、提炼等大致对应“得出观点的过程、证据”这一评分角度。从学生答题角度来说，这两个角度需要有机融合；从评分角度和教学指导来说，这两个方面可以适当剥离分析。

（3）立场选择类试题

【例3】如果把下面这段话作为本文第⑥段的论据，你觉得可以吗？请简述理由。（4分）

【例4】如果给本文拟一个标题，你会选“……”（略）还是“……”（略）？为什么？（6分）

【例5】以第12～15 段为例，评析本文语言运用上的特点。

以上三题是让学生在两个方向之间选择，例3是在“可以、不可以”这样相反的二者之间选择，其他类似试题可能是让学生在“恰当、不恰当”“赞同、不赞同”之间选择；例4是在两个标题之间选择；例5的题干本身并没有明显的提示，但参考答案引导的答题思路是，在分析文本语言运用特点的基础上，对语言运用效果可以作出相反的判断，或者认为语言运用上的特点增强了作品的感染力，或者认为文章在遣词造句中情感注入过多过浓，未加沉淀节制，给人泛滥甚至虚假的感觉，减弱了作品的感染力。［6］这类试题的开放性表现在答案不仅不唯一还可能相对或相反。

对这类试题，答题方向的选择可以算是基本“观点”，理由阐述倾向于“得出观点的过程、证据”。这类试题有两个特点：其一，评分时需要仔细辨析“可以、不可以”这两个答题方向之间是同样成立，还是两者之间有更合理与次合理的区別；其二，这类试题符合前文关于开放性试题的论述，“得出观点的过程、证据”更重要，尤其是当“可以、不可以”同样成立时，观点方向可以不赋分，即回答“可以、不可以”不赋分。

以上，通过理论和具体试题两个层面的分析，尝试勾勒答案开放性试题大致的观察角度、要点，其间已可管窥开放性试题的评分复杂度：既要考虑横向的角度问题，又要考虑纵向的水平层次差异。原有“采点给分”的评分方式已捉襟见肘。

三、分层评分标准的拟制与使用

义教新课标提出，“要健全主观性、开放性试题的评分标准，根据学生的认知发展水平，对简单结构作答和复杂结构作答实行分级赋分”［7］。为了纠正原来“采点给分”的问题，义教新课标强调了“分级赋分”。在测量与评价理论中，开放性试题的评分标准本就是分级或分层描述的：评分规则（scoring rubric）是一组评鉴表现的准则，通常以等级量表的形式呈现，每个等级皆有一组行为表现的描述语，对不同的行为特质或层面予以操作性定义。［8］在这一界定中，蕴含了分层评分标准的两个基本要素：一是等级；二是每个等级的表现描述，应有效区分不同等级的不同行为特质。

1.分值的横向与纵向分配

部分国外测评项目，如PISA（国际学生评估项目），阅卷与计分是两个环节，阅卷环节只根据各个试题的评分标准标注学生表现的等级代码，后期才统一核算分数。我们国内是命题阶段为每个试题赋分，试题分值决定了评分标准的等级数。这样，试题分值与可以划分的评分标准等级数之间可能需要协调。

（1）纵向：等级划分或分数分层

评分标准的纵向等级划分，理论上说，应该取决于问题复杂度、学生可能的表现层次。从国际测评项目经验和测量与评价理论来看，试卷中的问答题，评分标准一般设3～6个等级［9］，转换到我们的体系中来就是单个试题最高赋分5 分（0～5 可区分为6 个等级）。但在我们目前已有的试卷中，写作试题之外的单个试题赋分可能超过5分，如8分。这时可以像作文评分一样设计分数段。譬如2分为一个分数段，评分标准设4个等级，同一等级内部再根据表述质量等酌情给满2分或扣1分。浙江省温州市等地区的语文中考评分标准已经采用这样的办法。未来，命题阶段给试题赋分时，不仅要考虑整套试卷总分的协调使用，还要尽量保证每道试题赋分的合理性。需要进一步仔细推敲每道试题的测评目标、预想学生的答题表现，从而给各个试题合理赋分，让预设分值在评分标准中得到合理的层级分配。尽量避免出现“答对1点给1分，答对2点给3分”的情况。

（2）横向：整体评分还是分项评分

前文梳理的评分角度包括“观点或结论”和“得出观点的过程、证据”两个方面，以及它们各自可能有的观察角度。在实际评分时，可能需要考虑这些角度是整合评分还是分开评分，以及如果分开评分该如何分配分值。例2～例5 基本采用了整体评分的方式，因为系列观察角度需要整合考虑、描述。例1在实际评分时采用了分项评分的方式。总分8 分，“提出的问题”赋3分，“提问的原因”赋5分，学生这一题的最后得分由两部分得分相加形成。当然，两个子问题之间有着密切关联，在实际打分时要观察两个回答之间的关联性，所以试卷上并未将两个子问题的分值分开标定。

这类问题两个或多个评分角度之间的分数分配并不固定，取决于测评目标和教学理念。譬如“提问的原因”赋分高于“提出的问题”，并不仅仅因为“提问的原因”需要更多文字阐述，更重要的是以此强调学生提出的问题应该真正源于他们日常阅读中的发现，这对于日常教与学能产生积极作用。

如果是分项评分，各项的评分等级数须根据各项分值和学生可能的答题反应分别进行划分。譬如例1“提出的问题”的评分标准设3 个等级，“提问的原因”评分标准设5个等级。

2.表现描述与样例呈现

在整体评分和分项评分之间作出选择并基本确定好等级之后，就需要为每个等级描述学生的相应答题表现。

（1）描述关键表现，兼顾多个评分角度

前文区分的观察角度与要点，可以成为基本的描述抓手，以揭示学生表现中的关键性、实质性差异。在描述每个等级的学生表现时，需要兼顾各个评分角度。“如果一个题目测量了一个以上的技能或概念，那么在评分标准描述语中需要兼顾、描述清楚学生在这几个技能或概念上的掌握情况”［10］。如果是分项评分，需要分别描述学生的表现，如例1；如果是整体评分，就需要兼顾各个角度综合描述学生的表现。

（2）区分不同水平的表现差异

各等级表现描述，需要兼顾预设和学生实际表现而拟定。前者紧扣测评目标预估学生可能的表现差异，后者是在正式批改前预批部分试卷提炼学生实际的表现差异。

在撰写评分标准描述语时，需要精心推敲措辞，体现层级差异。前文提供的评分角度，都可能衍生出一把把微观的尺子，譬如至少可以分出一些基本等级（见表1）。在具体试题中，描述角度可以酌情选择、组合，层级表现可以根据学生实际表现酌情细化。

（3）尽可能为每个层级提供多个表达样例

为与描述语配套，须提供充足的各等级表现典型样例，以便让评分者更好地领会评分标准描述语的指向。理性认识与感性认识结合，在实际阅卷时能更加快速、准确地判断学生的作答水平进而合理评分。

3.评分标准各要素间的协调统一

以上从分值分配、各层级表现描述与样例提供三个角度勾勒了评分标准的拟制思路，在实际拟制分层评分标准时，三者应形成一个有机统一体。例如2021 年江苏省南京市语文中考试题（本文例1）的评分标准及其补充说明（见表2，呈现形式和局部表述略作调整，因篇幅所限仅呈现部分示例）。

4.分层评分标准的使用与发展

幾乎所有关于评分标准的阐述和国际测评项目经验，都强调要进行评分标准的使用培训。评分者需要在多轮试批中理解评分标准，减少评分误差。在实际操作时，阅卷人员、阅卷时间各个方面都要给予充分保障。主观题、开放性试题的评分成本目前尚无特别有效的控制办法。

分层评分标准的发展，除了需要在每一次阅卷中打磨，更重要的是在日常教学、评价中形成相应的思维方式。摒弃套路化作答、采点给分的思维方式，真正关注学生每一次作答中的具体表现，善于发现、提炼学生外在和内隐的学习表现特点，善于捕捉学生不同表现中的关键差异，这是教师评价专业素养的重要体现。在日常教学中养成这样的观察和评价思维，能在阅卷中提升评分效率，更深层地实现“教学评”一致性。

最后有必要补充和强调两点。第一，本文侧重讲评分问题，但评分标准的观察角度和要点取决于测量目标、问题指向，因此讨论评分标准的前提是问题设计有价值，指向清晰。第二，在课程改革与评价改革背景下，当前正着力开发主观性、开放性试题，但这并不意味着客观性试题就不具有考查价值。理想的状态是高质量的客观性试题与高质量的主观性、开放性试题互补，合力考查学生核心素养发展，尽量保证测试效果。

参考文献

［1］［7］中华人民共和国教育部.义务教育语文课程标准（2022 年版）［S］.北京：北京师范大学出版社，2022：50，51.

［2］张雨强.开放题编制的理论与技术研究［M］.上海：华东师范大学出版社，2009：109.

［3］阿来萨.课堂评估：理论与实践［M］. 徐士强，译. 上海：华东师范大学出版社，2008：183.

［4］［5］特雷西·桑代克-克莱斯特，罗伯特·M.桑代克.教育评价：教育和心理学中的测量与评估（第八版）［M］.方群、吴瑞芬、陈志新，译. 北京：商务印书馆，2018：331～332，333～334.

［6］叶丽新“. 答案两可”类开放性试题探析［J］.语文学习，2019（9）.

［8］李坤崇.教学评估：多种评价工具的设计及应用［M］. 上海：华东师范大学出版社，2011：141.

［9］Judith Arter，Jay Mc Tighe.课堂教学评分规则：用表现性评价准则提高学生成绩［M］. 国家基础教育课程改革“促进教师发展与学生成长的评价研究”项目组译. 北京：中国轻工业出版社，2005：31.

［10］National Assessment Governing Board. Reading Assessment and Item Specifications for the 2009 National Assessment of Educational Progress［EB/ OL］.https：//www. nagb.gov/content/nagb/assets/documents/publications/frameworks/reading/2009-reading-specification.pdf.