关于数学学科教育质量监测试题的评价
2013-01-31梅松竹
梅松竹 冷 平
随着义务教育的全面普及和深入发展,教育质量日益成为全民关注的焦点,教育监测与评价也因此成为教育研究的热点。在基础教育质量监测体系中,学业成就评价是教育监测不可或缺的手段与方式,它能反映出教育政策和教学措施的成败。学业成就评价的效果如何在很大程度上又取决于学业评价试题质量的优劣。因此,客观、公正、科学地评价基础教育质量监测试题成为基础教育质量监测的核心环节之一,也是教育质量监测得以顺利实施的重要保障。
1 教育质量监测试题的评价背景
2007年,教育部成立了基础教育质量监测中心,并开发了教育质量监测试题库和相关背景问卷,用来测评我国基础教育水平,分析影响教育质量的因素,为教育政策的制定和实施提供决策依据。由于基础教育质量监测意在考查学生的知识水平和学科能力,并不需要甄别、选拔和排序,因此,它不同于高利害选拔性考试,而是一种基于标准(standards-based)的“学业成就评价”。这里的“标准”一般是指课程标准、评价标准和表现标准。学业成就评价,通常是指以国家课程标准为依据,以学业评价标准为准则,以学科内容为目标,运用质性和量化的方法,测评学生在一定时期内的知识、能力和情感的发展水平,并进行价值判断的过程。当今,国际上比较著名的数学学业成就评价项目有全国教育进展评价(NAEP),国际数学和科学教育研究(TIMSS)和国际学生评价项目(PISA)等。这些学业成就评价项目都是基于标准的考试,这也是我国基础教育质量监测所采用的评价方式。
自从我国成立了基础教育质量监测中心以来,教育监测的范围逐年扩大,但监测的效果如何,监测试题能否有效地测评出学生当前学业成就水平,这些都非常值得我们深入研究。因此,对于教育质量监测试题本身的评价就显得尤为迫切且意义重大,事关监测结果的科学性、准确性和权威性,是学业成就评价不可或缺的重要组成部分。当今,我国对于试题质量的评价基本上侧重于测评之后的统计分析,关于测评之前的评价多来自经验和主观判断,系统的学业成就评价试题的评价指标体系尚未真正建立起来。因此,基于基础教育质量监测的科学性要求,以及我国考试改革的发展性诉求,着力探索基础教育质量监测试题的评价具有深远的意义。
2 数学学科教育质量监测试题的评价
从测量与评价的角度来看,数学学科教育质量监测试题的质量评价可以从质性判断和量化测评两个角度加以考虑。质性评价是检验对象在标识量表和顺序量表上的表征,量化评价还可以检验对象在等距量表和比率量表上的符合程度[1]。也就是说,试题质性评价侧重于试题的目的与功能、价值与理念、结构与外在形式等特征,试题量化评价则采用描述统计量、一致性分析和题目属性函数等方式来判断试题的质量。下面将以基础教育质量监测数学试题(Quality Monitoring Mathemaitics Items,QMMI)为例,分析影响试题质量的相关指标和因素。
2.1 试题的质性评价
为了客观地评价试题质量,首先要从宏观上对试卷进行定性的评价,以期获得对于试题的整体感受。
2.1.1 试题的测量结构、目的和功能
试题的测量结构是指测量载体的“意愿指向”与内部构造。学业成就评价试题测量的本质在于激励与诊断并举,甄别与改进共生[2]。QMMI试题遵循此原则,基于数学课程标准和学业评价标准,在全国范围内进行水平性测评,其筛选、选拔功能将被弱化,测量结构也不囿于“知识立意”,更多地转向“能力立意”和“应用立意”,重点考查学生应用所学的数学知识解决实际问题的能力,这是QMMI试题质量标准的首要法则。
试题的测量目的是测量效用的客观需求与测试者主观期望的综合,体现在诸多的核心测量目标之中。考试测量的根本目的是根据有限的观察样本对考生个人或考生所属群体做出一般的、抽象的结论,即对考试结果做出理论解释,并使用考试结果对考生群体做出决策[3]。为达到此测量目的,需选择恰当的知识领域和认知要求。一份高质量的QMMI试题必然紧紧围绕数学核心内容展开测量,如几何题目围绕空间观念、几何直观、活动经验展开,代数题目关注基本运算、符号意识、代数推理,概率题目则侧重于随机观念和数据分析。
QMMI试题作为评价性文本,其基本功能是改进和指导教学,促进学生的发展,具体体现在诊断、激励、导向、教导等方面。QMMI试题可以用来诊断学情,激励学生提高学习效率,引导考试回归理性,避免应试教育的恶性竞争,将教师的教学方式导向更加科学、时代性和个性化的境界,这是所有学业成就评价试题不可推卸的责任,也是我国考试改革努力的方向。因此,对QMMI试题进行评价时,应以全样本考试数据统计分析为基础,利用考试数据分析学生内在心智特质的差异性,促进考试正确发挥检测、诊断和指导教学的作用[4]。
2.1.2 试题体现的价值与理念
QMMI试题作为国家层面上的大范围测试文本,必须体现国家的政治意志和核心价值观,同时又要反映出当今的主流教育观、评价观和新课改理念。优秀的QMMI试题应该展现现代社会阳光的、积极的精神面貌,体现高尚的人生观与价值观,培养公民意识和环境意识;同时要反映人本主义的价值倾向,尊重学生、关注不同群体,提倡个性化教育、全面发展、可持续发展的教育理念;还要敢于突破常规,将创新教育、素质教育、现代数学思想等内化在试题之中。
3 试题的结构与外在形式
试题的组织结构和外在形式是试题质量的显性质量标准。高水平的QMMI试题,其组织结构必然层次分明,难易有序,且有一定梯度,能反映出数学学科的知识特点和认知层次,如开放题的设计层层设问,步步递进。考查的内容应是真实情境的再现,既体现数学与学生生活、科技或其他学科的密切联系,又体现从真实情境到数学的数学化过程。试题情境材料的选择要与学生学习经历过的材料有类似性或全新,应该有教育意义,必须考虑测量的认知目标,又要具备相应学科特征,应选用对所有学生来说是公平的材料,呈现方式多样化,应该用清晰、明确的语言表述[5]。试题的设问应该明确,无关信息稀少,所要考查的知识点、能力类型和素养类型清晰明了,且与学生的认知水平和心理发展水平相适应,试题考查的区分点与学生在相应内容上的学习困难点和易犯错误类型基本吻合。
试题的外在形式是直接影响试题最终效果的重要因素,对于QMMI试题而言,丰富多彩的题型,恰当适宜的题量,明确简洁的表述,图文并茂的呈现方式都是优质试题的重要特征。不同的题型具有不同的功能,QMMI试题采用客观题和主观题并重的方式,可以同时测评出“选择-反应”和“建构-反应”水平。不同题型的设计亦有讲究,如选择题的题干指向明确,与备选项构成逻辑关系,备选项的长度、结构、语言表达基本一致,干扰项起到真正的干扰作用[6]。QMMI试题的性质决定了试题不是快速应答类型,因而一份好的QMMI试题,题量须适中。测验题目的数量取决于测量目的、所使用的测量题目和评价任务的类型、学生的年龄、保证有效测验的信度水平[7]。试题的文字表述须采用通顺、规范的数学语言,语言表达力求准确、简练、科学,不存在阅读障碍或者理解歧义。试题的呈现载体应突破“纯文字化”的格局,将情境分析、数学阅读、图表、新闻报道等形式有机地融入其中。试题版面布局须合理,排版有序,美观大方,具有一定的可读性,同时又体现出对特定群体的人文关怀。试题的配套测试资料必须完备,数学课程标准、学业评价标准、细目表和试题操作手册一应俱全。评分标准要尽量详细、准确,具有可操作性。
3.1 试题的量化评价
由于质性评价具有一定的主观性和不确定性,为了更加准确、客观地刻画数学学业成就评价试题的质量,还需要从微观角度对试题进行量化分析。
3.1.1 主要描述统计量
在试题测评、批改之后,可以对被测群体的测量成绩进行描述统计,使用SPSS统计软件即可实现。常见的描述统计量有均值、最值、极差、标准差、众数、中位数、峰值分布及百分比等。均值和众数、中位数反映了被测对象的总体水平,极差和标准差反映了得分的离散程度,峰值反映了得分的集中趋势。优秀的QMMI试题具有水平性测量的特征,所以被测的成绩分布应该呈负偏态分布,峰值应控制在总分的80%左右,峰度也不宜过高,否则测验分数的离散程度将减小。
3.1.2 效度、信度、区分度、难度
效度是判断实证证据或理论原理在多大程度上支持由考试分数或另一些评价结果作出的推断或采取的行为是准确的、适当的[8]。由于QMMI试题侧重于考查学生应用基础知识和基本技能解决现实问题的能力,因此,试题需要对测量内容进行有效覆盖,试题取样须具备典型性和代表性,与数学课程标准和学业评价标准相一致。只有抽样充分,使用了恰当的任务类型,表述清晰、提示恰当、难度适中,时间充裕,评分公正才能保证测试的效度[9]。关于QMMI试题的效度检验需要收集内容方面的证据和内部结构方面的证据。内容方面的证据是判断考试是否是相关学科内容领域的合适样本,检验考试是否测量了所要测量的目标,考试内容是否覆盖了足够的学科领域或概化的领域。内部结构方面的证据是考试结果解释和使用的基础,以及根据考生的考试结果,判断多大程度上能够将考生的行为表现归因于考生的测量目标[10]。
信度反映了测量结果的稳定程度。考查信度的途径包括确认误差的主要来源,归纳这些误差大小的统计数据并描述其所针对的考生群体[11]。为了达到测验功能的一致性,试题必须是同质性的,优秀的QMMI试题信度通常在0.9以上,PISA数学试题的信度还要更高[12]。信度检验方法通常有测验与再测验方法、等值复本相关法、等值复本再测法、内部一致性法[13]。
难度是一个相对概念,是相对于被测的难易程度,通常用得分率或极端分组法来计算试题难度。测验难度影响测验的鉴别能力,对于好的QMMI试题而言,平均难度应控制在0.75~0.85,容易题、中度题和较难题的比例约为6∶3∶1[14]。
区分度反映了试题对于被测实际水平的区分程度,可采用极端分组法或相关法来计算难度。过难或过易的试题区分度都很小,难度在0.5附近的试题,区分度往往最大。高质量的QMMI试题的区分度应该在0.4~0.6为宜,由于QMMI试题的特性,我们无须盲目追求试题的高区分度。
3.1.3 一致性分析
由于数学学业成就评价试题是基于标准的测评,因而学业评价标准中的知识维度和认知维度要求是否试题保持一致,还需要进一步的一致性分析。一致性是基于标准的评价的核心,是衡量基于标准的评价的执行程度的依据,是实现基于标准的评价的价值追求的重要手段[15]。当前,比较成熟的一致性分析模型有美国学者韦伯(Norman L.Webb)的“学业评价与课标一致性”研究,他从知识的种类、深度、广度和分布平衡性四个维度进行一致性分析[16]。通常,我们可以对照QMMI试题的双向细目表,采用相关系数矩阵法来进行一致性分析,检验试题在内容维度和认知维度上的符合程度。
3.1.4 试题属性
试题属性参量除了描述统计量外,还包括题目特征曲线(itemcharacteristic curve)和题目信息函数(iteminformation function)[17]。题目特征曲线刻画了学科能力与正确回答概率的关系。根据特征曲线的形态和位置,确定试题是否合格或有质量缺陷,确定试题的难度和区分能力,确定试题对什么样的考生子群体具有区分能力[18]。题目信息函数则反映出该题目对不同能力水平考生的敏感性。考生能力水平与试题难度之差的值越小,试题提供的信息量越大;试题的区分度参数越大,提供的信息量越大;试题的猜测度参数越小,提供的信息量越大[19]。另外,我们还可以对QMMI试题进行敏感性分析,以峰值为准线,分析被测成绩的变化百分比引起作答正确率的变化百分比,以此来探讨后者对于前者的敏感程度。试题属性折射出学业成就评价的人本主义色彩,也为个体的学业成就归因和认知诊断找到科学的依据。
关于数学学业成就评价试题的评价是一个系统的工程,我们不能满足于粗糙的、模糊的、主观的、随意的评价,而要基于科学的教育理论和评价技术,在质性和量化两方面进行全面的、精确的、客观的、理性的评价。只有这样,才能扭转我国基础教育阶段试题编制与评价的不利局面,促进基础教育质量监测的有效运行,推动我国教育事业的健康发展和全民素质的普遍提高。
[1]刘五驹.实用教育评价理论与技术[M].苏州:苏州大学出版社.2008,12:72.
[2]孔凡哲.论数学试题的质量标准[J].中学数学教学参考,2008(3):41.
[3]雷新勇.基于标准的教育考试—命题、标准设置和学业评价[M].上海:上海科技出版社.2011,4:13.
[4][5]臧铁军.考试评价分析与诊断基础与务实[M].北京:首都师范大学出版社.2011.7:15,49-50.
[6]付慧宇.高考试卷质量评价体系初探[J].天津师范大学学报(基础教育版),2011,12(2):71.
[7][美]Rorbert L.Linn& Norman E.Gronlund,著.国家基础教育课程改革“促进教师发展与学生成长的评价研究”项目组,译.教学中的测验与评价[M].北京:中国轻工业出版社.2003,1:79.
[8]KaneM.T.Validation.In:R.L.Brennan(ed.).Educational Measurement(4th Ed.)[M].Praeger:American Council on Education,2006,21.
[9][13][美]Norman E.Gronlund,C.Ketth Waugh,著,杨涛,边玉芳,译.学业成就评测(第9版)[M].北京:教育科学出版社.2011,12:48,58.
[10][18][19]雷新勇.大规模教育考试命题与评价[M].上海:华东师范大学出版社.2006.4:283-293,247,76.
[11][美]美国教育研究协会,美国心理学协会,全美教育测量协会,主编.燕娓琴,谢小庆,译.教育与心理测试标准[M].沈阳:沈阳出版社.2003,12:42.
[12]OECD.PISA 2009 Results:What Students Know and Can Do[EB/OL]http://dx.doi.org/10.1787/9789264091450-en,2010-10-4.
[14]沈南山,等.数学学业成就评价测查试题编制研究[J].教育研究,2009(9):60.
[15]崔允漷,王少非,夏雪梅.基于标准的学生学业成就评价[M].上海:华东师范大学出版社.2008,9:110.
[16]Norman L.Webb.Alignment of Science and Mathematics Standards and Assessments in Four States[Z].Washington DC:Council of Chief State School Officers,1999:11.
[17]辛涛.新课程背景下的学业评价:测量理论的价值[J].北京师范大学学报(社会科学版),2006(1):59.