普通高中学业水平考试命题公平性与适应性评价指标体系的构建与应用

2020-07-21乐洪勇熊建文

考试研究 2020年3期

艾静乐洪勇熊建文

2014 年，国家启动新一轮高考综合改革，上海、浙江成为首批试点省市；2017 年，北京、天津、山东、海南四省市成为第二批试点；2018 年，高考综合改革由试点进入全面推进阶段。为保障高中学业水平考试（以下简称“学考”）顺利实施，对学考命题相关问题进行深入研究具有重要意义。以往命题研究更多的从科学性、选择性方面进行研究。新高考背景下，随着考试模式的重大变化，学考命题的公平性与适应性成为影响学考改革与推进的主要问题。课题组对学考命题公平性与适应性进行深入研究，为后续合理、规范、科学推进学考命题改革构建理论基础和标准依据奠定基础。

一、学考命题公平性与适应性的内涵

实施新高考改革的核心目标在于培养、选拔适应经济社会发展需要的人才，促进学生全面而有个性的发展，促进素质教育的深入实施，逐渐改变“一考定终身”“唯分数论”等弊端。在国际课程改革背景下，我国也正积极探索基于核心素养培养的课程改革，旨在实现立德树人的教育根本任务，新高考方案与新课程标准构成新课程改革的核心内容，两者目标一致，相互关联，共同促进新课程改革顺利实施。学考的价值在于促进全体学生“在共同基础上的个性化发展”[1]，命题是学考的核心环节，不仅决定试题质量，也决定着学考功能的实现。

公平作为一种价值观，反映了人们从某种特定的标准出发，在主观上对“应得”与“实得”是否相符的一种评价和体验。关于公平有许多观点和学说，有的甚至针锋相对，但不管哪家学说，都将机会均等作为公平的基石或核心，这是无异议的。尽管命题公平性在教育理论和实践研究中都很重要，但至今学界仍没有对该概念进行准确界定。在本研究中，为方便后续研究有序开展，将学考命题的公平性界定为：能促使参与学考的考生的能力、素养等在学考测评中得到尽可能公平的评价依据或准则。

1994 年，美国教育研究协会（AERA）、美国心理学协会(APA）和美国国家教育测量协会(NCME）在整合几个测试指导文件的基础上形成了《教育和心理测试标准》（Standards for Educational and Psychological Testing）（以下简称《标准》），该标准是美国测试界对测试应遵循的准则所形成的共识，尽管不具有法律的强制性，但对本领域的各项操作极具规范作用[2]。该《标准》2014 年版的修订版中，将公平问题放在与效度、信度同一层次来讨论，其中公平性包含21 个条目[3]。ETS 是全球最大规模、也是公认最专业的考试机构。该机构命题标准中，明确提出并规定了ETS 提供的测验或产品的相关文档中必须包括有关公平性的描述，并且必须包含规定的信息，同时强调复审、修订以及证据的收集，以及实证方法对公平性的评估[4]。多年来，中国的教育考试领域一直在不断进行着确保考试公平性的实践[5]。已有研究大多集中在高考公平性，命题公平性主要从定性的角度进行分析，极少有定量的分析[6-15]，对于命题公平问题的标准化研究还有待加强，从而保障学考改革的顺利推进。

适应性一词源于生物学领域，是一个生态学术语，指通过生物的遗传组成，赋予某种生物的生存潜力。随后适应性一词广泛应用于其他领域，其意义也得到了拓展，如借助对模型的适应性定义“某个模型应对它所对应的实践场合变化的能力，当实际问题发生波动时，模型是否仍然成立”。本研究将学考命题适应性定义为：高考方案发生变化时，学考命题为适应变化需求所作出的适应性调整的能力。

国内外对命题适应性的研究极少，我国的历次高考改革的实施皆与相应政策、实施对象等具有高度相关性，当前高考方案发生较大变化，为适应新高考方案，在学考命题方面应积极研究应变方法和路径，以保障高考顺利实现其改革目标。因此，将学考命题的适应性研究作为保障高考改革稳步推进的核心问题进行研究，在适应性研究中可将新、旧高考方案中与学考命题相关因素的变化，作为学考命题适应性研究重点，从变化中找寻适应性研究的关键研究点。

二、影响学考命题公平性与适应性的因素分析及指标体系的构建

学考命题公平性与适应性指标体系是指一系列具体化、可测量的指标综合体，是对学考命题公平性与适应性进行评价、判定的依据。课题组在设计指标体系时，坚持全面性、可测性等原则，做到既能够比较有效地评价学考命题公平性与适应性，又能通过评价初步诊断改进命题不足之处，尽可能使各项指标的表述简单明了，便于进行定量评价和反思改进。为此，课题组专家对学考命题公平性与适应性指标体系进行了认真探讨，分析确定各级指标。这一指标体系是按照评价对象的逻辑结构排列组合成的有机整体，比较全面、系统地反映了学考命题公平性与适应性的整体情况，并具有可操作性。本研究的公平性研究从“学考命题组织与管理”“学考命题资源”“学考命制试题质量”“命题试题的横纵向差异”四个维度构建；适应性研究从“命题团队”“命制试题”两个维度构建。经专家筛选，确定了16 个二级指标和26个三级指标（观察点），它们之间呈逐级分解和细化的关系。其中，一级指标和二级指标比较抽象和概括，基于归类统计的需要进行提炼，不能直接用于测评；三级指标是具体可测、具有行为特征的用于评价的观测基点（见表1）。

本研究以三级指标为基点设计了若干个观测点，设计若干题目，形成一套社会调查问卷（共设计27 道题目，其中第27 题为开放性题目），选取命题专家进行民意测评，回收有效问卷91 份。调查问卷中选择题采用李克特5 级量表，分数越高表示受访对象对该题项所描述内容越认同。开放性问答题主要用于征集信息，完善指标体系①为最大程度降低专家测评的主观性，本研究采用德尔菲法，经过反复征询、归纳、修改，最后汇总成基本一致的专家看法。但在测评计分过程中，都以匿名的方式进行。。为了使统计评分简便易行，所有评分及等级确定只计到二级指标，三级指标及其每项指标所涉及的多项测量项目都取平均值。在分值权重设计上，按专家问卷反馈信息整合指标得分。对于各级指标的分数整合，根据德尔菲法以经验性判断作为权重计算的基础，经专家论证和调查问卷，进行权重设计（见表2）。

表1 学考命题公平性与适应性指标体系

表2 学考公平性与适应性指标体系权重一览表

此次课题组对学考命题公平性与适应性指标体系的构建只是一次实验和探索，力求在学考公平性与适应性量化评价方面迈出第一步。要实现真正意义上的学考命题公平性与适应性评价，需要全社会的广泛参与和专业化的科学测评研究，许多方面还有待进一步完善。首先，明确所设计的这一套指标体系是否科学，包括能否全面涵盖学考命题的公平性与适应性的影响因素，问卷的设计能否如实促进受访对象对学考命题公平性与适应性的真实评价等，这些问题都值得进一步研究论证。第二，本研究设定的量表所测试的人群都是与高考相关的利益群体，尽可能考虑到样本的代表性，但由于人力物力有限，涉及人群还不够广泛，抽取样本的合理性有待商榷[16]。因此，后期可通过与有关专家联合进行理论研究和技术研发，进一步完善指标体系；在实际命题中对评价结果进行跟踪比较研究，对静态指标和动态指标的变化进行深入分析，在实践中积累命题组织与管理经验，促进学考命题科学发展。

三、完善学考命题公平性与适应性的有效路径

对学考命题公平性与适应性进行研究，可参考以往理综卷和会考命题过程中积累的经验。在新高考背景下进行学考命题时，除须保留原有命题优秀特质外，还需对命题作出适应性调整。

第一，深化学考命题与新课程标准要求、新高考方案的适应性研究。命题者应牢牢把握学业水平合格性与选择性考试“一体四层四翼”的考核目标，开展基于学科核心素养的学业质量标准的命题研究，努力提高命题质量。依据学业水平合格性考试和选择性考试的性质、特点及考试的功能定位，结合实际，开展试题命题研究。充分考虑命题的延续性和继承性，尽量减少考试带来的波动[17]。建构以学科核心素养为导向的命题框架，准确理解学科核心素养内涵、具体表现以及水平描述，并与学科学业质量标准建立联系，以相应水平的质量标准确立试题的测试目标，以实际问题为测试任务，以真实情境为测试载体，以学科观念、学科思维等作为解决问题的工具，实现学科教育立德树人的根本任务。试题建构基于学科学考核心素养试题特征的命题模式，试题特征体现为试题容量、题型结构、信息量呈现、新信息融合、STSE 链接、核心主题、知识要求、考查层次、学科思想等多方面的综合特征[18]。

以物理学科的学考命题为例，应积极研究如何在试题命制时体现对立德树人教育根本任务落实的导向性。这要求试题命制时不仅要从传统重视 “双基”考查逐渐转向重视“学科核心素养”的考查，还要体现出对学生学科“德育”目标的考核，以体现对立德树人的课程价值观的评价。物理学科是自然学科之一，德育目标的考核须借助实际问题情境，通过实际问题的解决，间接考查学生是否具备科学的态度和价值观。其中物理学科的科学态度主要表现为：（1）客观的态度。表现为主动联系生产生活实际，尊重现象的科学本质，秉承实事求是的态度；（2）批判性思考。如正确看待不同时期科学家研究的价值和局限性，再如正确看待知识应用的双面性（如电磁原理应用带来的科技进步及电磁污染的危害）；（3）基于证据对问题进行评估、论证或质疑。（4）积极的科学品质。如具有好奇心、诚实、严谨、具有包容性等。社会责任或科学价值观主要包括：（1）关注科技发展，对“科学·技术·社会·环境”（STSE）关系的正确理解；（2）正确的知识应用观。如知识用于促进个体科学素养的提高或用于促进社会科技的发展等。上述科学态度或价值观多以隐性的方式融入到试题的命制中，应积极研究如何在学科学考命题中落实对“德”与“智”的全面评价，促进学科命题的适应性转变。

第二，深入研究先行试点已有学考命题经验。如将试点省份的高中学考科目的合格性考、选择性考与以往高考试题进行比较，从3 类考试在学科中的内涵功能、命题内容及能力要求等方面进行了对比[19]，深化对学考命题的认识和理解。借鉴上海、浙江等试点省市对学考命题的研究，高中学业水平考试在学业水平测评与区分、选拔之间找到一个合适的平衡点。例如，如何设定试卷的难度？根据测量学、考试学的理论原理，水平考试与选拔考试定位与功能不同，在难度值设定上差别较大，如以物理学科为例，专家研究认为，选择性考试与合格性考试的难度设计应具有一定的、合适的差距，选择性考试难度值设定在0.55左右，合格性考试难度设定在0.75 左右。而试卷难度值会受到考生群体的实际水平影响，如选考物理的学生的认知水平较高，若未对考生群体实际水平有较为深入的了解，可能会导致预设难度与实际测试难度偏差较大，从而导致命题不公平等问题。再如命题时如何整合试卷的能力、学科核心素养要求？兼顾水平考试和选拔考试的定位与功能考量，满足“等级赋分”的改革。通过比较研究先行试点的命题经验，秉承“稳健推进”“稳妥过渡”的思路，“稳中求新”[20]。

第三，对学考试题质量建立评价与预评价机制。如试题各项参数是否符合要求，可与有关专家联合进行理论研究和技术研发的攻关，进一步完善指标体系。通过基于数据的证据收集，用合理的方法，给出能证明考试公平性的证据评估。例如，在考试内容方面，必须证明考试没有偏倚（Test Bias），考试偏倚多数是通过DIF（题目功能差异）研究来完成的，如试题命制是否存在地域差异，可进行发达地区与偏远地区的样本对比分析；在性别差异上可进行男生、女生群体样本比较分析；在为特殊群体开启考试便利时，以该指标为判断依据，通过样本答题情况分析，判断各种便利条件的设计和使用是否合理。此外，在基于数据的统计分析中，因素方程、回归分析等工具都能提供相对直观的结果，这种结果会使考试的公平性更具有公信力[21]。

试题难度系数可通过预估方式进行调控：一是考试群体能力水平的摸底分析。通过对考生群体特别是选考学科的考生群体结构分布、学习能力状况的调查与分析，尤其是省一、二、三级重点高中及一般普通高中学生报考各学科的占比，研究与设计各学科命题的总体难度及结构分布。二是命题过程中对试题难度的预估。命题教师必须对每道试题逐一进行预估。浙江省在学科命题方面有如下经验值得借鉴：一是研发命题辅助系统。通过模块化和集成化处理，形成涵盖难度预估、试卷自动生成、计算机辅助磨合等多数据包命题自动化系统，提高学考、选考命题的智能化水平。二是建立命题质量偏差预防和校正机制。在出现命题把握偏差造成原始分数堆积或断档，造成既定的等级赋分目标无法实现时，需采取切实有效办法提高选考试卷的区分度[22]。

第四，探索并完善题库建设。运用项目反应理论等现代教育测量理论，积极开展学考试卷等值研究和题库建设，创设学生多次参加水平性考试的条件，保证成绩的可比性，维护考试的公平公正[23]。国际上一些著名考试如PISA、雅思、托福、SAT 等，其采用的试题大都经过测试和冷却过程，并以题库的方式运行。此外，题库建设应在保障科学性、公平性的基础上，做出适应性调整，如学科命题时设置试题学科性、育人价值和测评效能等评价指标，其中学科性包含学科素养的必备知识和关键能力；育人价值表现为以“立德树人”为中心，促进学生科学价值观和社会责任感的发展；测评效能对应试题难度、区分度和信度等指标[24]，其中学科性、育人价值等均是适应新高考改革理念做出的调整。

在试卷命制层面，可运用认知任务分析（Cognitive Task Analysis）。通过研究题目自身结构特点，如题目的要素数量、要素辨识难度、原理数量、原理辨识难度和认知负荷等，借鉴SOLO（Srtucture of the Observed Learning Outcome，SOLO）分类的成果，将试题的问题结构由简单到复杂划分为前结构（Prestructural，PS）、单一结构（Uni-structural，US）、多重结构（Multi-structural，MS）、关联结构（Relational Structral，RS）及拓展抽象结构（Extended Abstract，EA）等标准结构，以及介于这些标准结构之相邻结构之间的过渡结构。以题目所蕴含的这些结构来度量题目的难度[25]，作为试题难度评价的参考依据，以提高命题公平性。

第五，做好学考试题反馈信息的收集与跟踪分析。分析和反馈不同教师或考生对试卷的评价意见，可以加强对命题的反馈与评价；通过访谈调研、试卷评价量表调研和考后对学生学业考试成绩的年度分析，以及纵向的年度分析，对比年度间数据，提升试卷命题质量[26]。