做好高中学业水平考试所必须的四项测量学准备
2017-06-05杨志明
杨志明
(教育部考试中心,北京 100084)
做好高中学业水平考试所必须的四项测量学准备
杨志明
(教育部考试中心,北京 100084)
高中学业水平考试是高考改革新方案中的重要一环。要做好高中学业水平考试,避免出现大规模学生反复多考、放弃重要学科盲目追求A等、大量高水平考生获得过低等级分数等问题,就必须提前做好标杆试卷的研发、学业标准的设定、分数常模的研制以及测验等值的实现四项工作。建议学科专家、测量学专家和教育管理工作者共同合作,力争在正式试行高中学业水平考试之前一年完成这些工作,以免对新高考方案、学业水平考试、基础教育以及高等教育带来负面影响。
考试招生制度改革;高中学业水平考试;标杆试卷;标准设定;常模研发;测验等值
为减轻高考压力,降低一考定终身的危害,保障中小学教育教学质量,同时又有利于高校选才,新一轮高考招生制度改革在减少高考科目数量、试行一年多考、推行省级学业水平考试、尝试综合评价和多元录取四个方面作出了重大决策[1-3],给教育改革指明了正确方向。然而,要真正实现改革的初衷,需要必要的测量学准备,否则,“播下龙种可能收获跳蚤”[4]。事实上,在浙江省高中学业水平考试的试点工作中,已经出现了“为避免与高手同台竞技拿不到A而冲击教学工作”“为求全A而放弃重要的、难度偏大的物理学科”“因多次考试分数不等值而反复考试、增加负担”,以及高校招生区分度不足等突出问题[5-6]。其实,教育测量学的理论和国际考试行业的成功经验已经表明,要搞好高中学业水平考试,必须提前至少一年做好四项测量学准备[7-9],即研发标杆试卷(Reference-form or Base-form),设定学业标准(Standard Setting),研制分数常模(Scaling or Norming)和实现测验等值(Equating)。本文就这四项工作做简要分析,供考试一线工作者参考。
1 标杆试卷的研发
从教育与心理测量学角度说,学业水平考试是一种以达标验收合格为主要目的的标准参照性考试(Criterion-referenced Test),其性质与汽车驾驶证考试或医师资格考试一样,只要考生的水平达到国家标准就可以得到合格证书或优良证书。因此,做好学业水平考试的第一个必要准备是设立一套符合国家要求的标杆,即研发标杆试卷。
研发标杆试卷的主要作用在于确保试卷的难度适合考生总体的一般水平,其难度范围能够覆盖全体考生的能力范围,并对所有能力水平的考生都具有较好的区分度。假若没有标杆试卷,正式的学业水平考试的难度和能力覆盖范围就没有办法得到保障。在目前广泛使用卷面原始分数、部分科目的学业考试成绩折算成分数计入高考总分的条件下,这个标杆试卷的缺失就可能直接出现学生为追求更高分数等级而反复参加考试、增加学业负担等问题。
研发标杆试卷的首要工作是确定考查的内容标准(Content Standards),即考试管理部门需要组织大量的学科专家和心理测量学专家,根据国家课程标准或考试大纲,精心编制每个学科的考试说明(Test Specification)。考试说明需要对考试的目的、对象、内容、能力、形式、样题样卷、信度效度指标要求、结果解释和使用等作出具体规定,并提前向社会公布。其中,对学科内容的层次化、结构化的操作性定义与编码是工作的重点。以美国共同核心课程标准(Common Core State Standards)为例,其中的高中数学内容标准分三个层级,第一层级(Strands1)包括数与量(Number and Quantity)、代数(Algebra)、函数(Functions)、建模(Modeling)、几何(Geometry)、概率与统计(Statistics and Probability)6大类,第二层级(Strands2)是在6个大类下分出若干小类,第三层级(Strands3)是在每个小类下列出一系列要素,并对所有要素进行解释或示例[10]。尤其重要的是,这三个层级的所有要点都必须做编码处理,以方便日后的题库建设与自动组卷工作,同时可为教学提供指南。
确定内容标准是一项十分细致而且繁重的工作,按照国际经验,它通常需要几十人的专家团队至少6个月的时间,有时甚至需要几年的时间才能完成。鉴于目前我国已经有国家课程标准,为编写学业水平考试的考试说明提供了良好的基础,可减少确定内容标准的时间。
美国新高考SAT公布的考试说明(Test Specifi⁃cations for the Redesigned SAT)对所考内容等方面的说明多达200多页[11],美国的国家核心课程标准也对每门课程的考查内容和能力层次要求编制了几百页的操作性定义,并对每个知识点进行了编码处理[10]。但是,这项基础性的工作在我国的大多数考试中都是缺失的,其结果是相应考试的公平性、信度和效度的证据不足。
待内容标准被确定并且编码工作完成以后,命题团队与心理测量学团队则需要通力合作,编制考试蓝图(Test Blueprint)。考试蓝图的作用是明确每个知识要点(Strands1层次)需要考查的题目数量及权重,以及需要考查的能力深度或复杂程度等。考试蓝图类似于工程建设中的施工图纸,施工时的材料(考试题目)和结构(试卷编排)等必须完全符合图纸要求,也就是说,题目是可以变换的,但所要测查的内容和深度是必须稳定的。这是为日后的测验等值打基础。
2 学业标准的设定
学业水平考试的标准设定(Standard Setting)包括两个方面的工作,其一是内容标准的设定,其二是表现标准(Performance Standards)的设定。其中,内容标准的设定在研发标杆试卷时已经完成,表现标准的设定则基于内容标准以及考生总体或它的某个代表性样本在标杆试卷上的作答水平。换句话说,对于国家要求的各种水平等级,比如A、B、C、D、E、F等级,首先必须从任务的重要程度以及题目的难易程度上,由学科专家作出初步判断。然后,通过分析总体或它的代表性样本在标杆试卷上的得分再作出调整。这项工作既可以在研制标杆试卷的同时完成,也可以在正式考试实施之后完成。
设定学业水平标准的主要作用在于避免出现选课选考过程中的“避难就易”“避强欺弱”等问题。试想,当优、良、合格等标准会因为考生群体的水平太高或太低而发生变动时,学生会选学选考容易让自己名列前茅的科目,因为国家的指导性文件中明确建议原始分数最好的15%的考生可获得A等。一旦等级标准不因考生群体的不同而不同,学业水平考试中的许多乱象便可自动消退。
具体来说,表现标准的设定有以下10个步骤[8,12-13]。
第一步,组建专家小组。根据测评目的,组建一个由教育管理者、学科专家和测评专家组成的有代表性的专家委员会或专家小组,每个方面的专家至少需3~9人,专家小组人数可控制在9~27人。
第二步,准备专家会议。选定一个标准设定方法,准备培训资料,确定工作会议日程。其中,标准设定的方法目前至少有几十种,比较常用的主要有基于测验的方法(Test-centered Methods)和基于考生的方法(Examinee-centered Methods)两大类。前者如Nedelsky方法(1954)、艾贝尔(Ebel)方法(1972)、安戈夫(Angoff)方法(1971)和书签标记(Bookmark)方法等;后者如临界组(Borderline Group)方法和对照组(Contrasting Groups)方法等。最常用的是安戈夫方法和书签标记方法。
第三步,编写等级说明。专家组根据自己的学科知识和素养,对表现水平为优、良、合格等各等级的最低表现水平作出操作性的文字描述,形成工作中的指导文件。
第四步,实习评定方法。组织专家组学习和掌握标准设定方法。通常需要专家试用推荐的标准设定方法,以便大家使用相同的评定规则。
第五步,初步评定等级。专家对标杆试卷中的每一道试题,按照标准设定的方法,初步评定各等级最低水平者答对各题的比例。初评结果经过统计处理之后,形成综合报告再反馈给各位专家,以方便专家进行下一轮的独立评定。
第六步,综合多方信息。专家根据初评结果综合报告,结合实测所得题目难度、区分度、题目特征曲线、客观题选项分布等信息,再次运用特定的标准设定方法,对每道试题重新评定,形成第二次综合报告。
第七步,反复多轮讨论。重复第五步和第六步多次,逐步形成稳定的评定结果。
第八步,终审评定结果。综合各专家成员多次评定的结果(通常经过2~5次轮回),形成一份对各题的最终评定报告。通过统计处理,确定每个等级在标杆试卷上的最低分数要求。
第九步,评估评定过程。在得到专家组的终审评定结果之后,各位专家还需要对自己的评定过程进行一次独立的检查,包括对标准设定全部过程的自评、对评定工作的信心、对掌握和运用评定方法的正确性等工作作出独立评定。
第十步,收集效度证据。对专家给出的评定结果,还需要收集其他独立的证据进行效度验证。一旦发现偏差,则需要对评定结果作出必要的微调。在此基础上,才能形成标准设定的最终文件。
值得说明的是,标准设定的工作耗时较长,所需要的专家人数也比较多,因此该项工作需要提前做好周详的安排。
表1 浙江省高中学业水平考试所设定的21个等级标准
3 分数常模的研制
关于学业水平考试分数等级化的方案,教育部《关于普通高中学业水平考试的实施意见》明确提出:“以等级呈现成绩的一般分为五个等级,位次由高到低为A、B、C、D、E。原则上各省(区、市)各等级人数所占比例依次为:A等级15%,B等级30%,C等级30%,D、E等级共25%。E等级为不合格,具体比例由各省(区、市)根据基本教学质量要求和命题情况等确定。”[3]根据这个要求,浙江省提出了如表1所示的学业水平考试分数等级方案。
对浙江方案进行分析:一方面,根据“趋利避害”和“田忌赛马”的思维逻辑,家长和学校一定会鼓励自己的孩子或学生去与低水平的选手进行比赛,以获得A等或比自己应有水平更高的其他等级。另一方面,当某门学科,比如物理的应考者全都是重点中学的优秀学生时,受到固定比例原则的限制,很多高水平的学生一定得不到应有的A等或B等。结果,选学选考物理的人数一定会越来越少。这不仅引起了一流高校的焦虑[6],而且给基础教育一个十分有害的导向。据有关报道,2016年10月浙江高考7门选考科目中,杭州市选考物理的人数列倒数第三位[14]。物理是很多重点高校十分重视的科目,这种现象必然会导致高校招生部门的焦虑[6,14]。
当成功研发了标杆试卷、明确了内容标准和表现标准之后,接下来的工作就是研制分数常模(Norms)[15]。所谓常模,就是一种以考生总体的一般表现水平为参照点的分数表达系统,其表现形式通常是试卷原始分数与量表分数或百分位等级或其他分数之间的转换关系。这种转换关系一般是以总体的某个代表性样本(常模样本)的数据为基础、运用现代测量学理论和方法建立起来的,其目的是使考试的量表分数具有某个有意义的零点(参照点)和单位,并符合某种理论分布。通过常模,考生可以很容易地了解到自己在相应群体中的相对位置。《关于普通高中学业水平考试的实施意见》中推荐的方法,当且仅当考生样本很大或考生样本是全国或全省的代表性样本的时候才比较合理。由于各省某些学科的应考群体有时不具备文件中所要求的潜在条件,所以需要特别小心地研制符合各省实际情况的常模研制方案,而不能对全省非代表性的应考群体直接按照固定比例计算分数等级。
一旦常模与前述的标准设定结果建立了科学的对应关系,则很有可能消除按固定比例划等级所带来的一系列问题,可以避免“田忌赛马”现象的发生。因为无论考生选考任何科目,其得分等级是同时根据学科本身的标准和全省考生的代表性样本所确定的,而不是按照自己应考时特殊的考生群体的水平所决定的。
特别需要强调的是,要制定好测验分数常模,还需要对学业水平考试的性质,即分数的作用有科学的认识。或许是为了避免出现降低合格标准、各中学不重视学业水平考试等问题,《关于普通高中学业水平考试的实施意见》明确规定,高中学业水平考试部分学科的成绩将以等级或其他形式计入高考总分。于是,部分选考学科的学业水平考试就必须同时具有合格验收的功能和人才选拔的功能。这就使得学业水平考试同时具有标准参照性考试和常模参照性考试(Norm-referenced Test)的性质。常模参照性考试的重点在于区分考生水平的高低,并不在于考生水平是否达标。
于是,从考试性质的定位来看,学业水平考试变成了一个具有双重性质的矛盾体,其直接后果是顾此失彼。一方面,当学业水平考试被定位为标准参照性考试时,其区分度就不够了。例如,假设某省有30万考生,按照成绩最好的15%为A等的规则计算,该省将会有4.5万考生同时获得A等。这个结果显然无法满足高校招生的选拔需要。另一方面,当学业水平考试被定位为常模参照性考试时,题目难度必定要加大以便区分考生,其结果必然会导致众多考生不合格的问题,这就违背了学业水平考试的初衷。
要使学业水平考试同时具有标准参照性和常模参照性功能,一个简单的办法是放弃高校招生录取中习以为常的“拼盘式录取”模式,推行“跨栏式录取”模式[16]。简单地说,“跨栏式录取”模式与足球比赛中“淘汰赛的筛选规则”类似,即在招生过程中,经专家论证并报主管部门批准,每所高校都事先公布不同学科类型所有录取栏杆的高度。考生只要能够逐级“跨栏”,即可被相应高校的相关科目录取。而且,考生在跨越前一栏杆时所富余的分数,不得计入总分用在其后面的跨栏过程之中。显然,这种逐步筛选考生的方法,可以从制度设计上体现学业水平考试兼具标准参照性考试和常模参照性考试身份的问题。举例来说,假设某大学中文系为了招收文科才子,防止出现二流理科生“通过数学分数高补足其高考语文成绩平平而进入中文系”的投机行为,在招生过程中至少可以设置如下两个栏杆:第一个栏杆,数学成绩必须合格。如数学学业水平考试成绩不得低于B等或高考数学成绩不得低于110分;第二个栏杆,高考语文成绩必须名列前茅。当考生跨越了第一个栏杆之后,其多出来的数学分数将不再计入总分用于其跨越第二个栏杆。于是,数学和语文成绩在招收文科学生过程中的作用都得到了合理的发挥。其中,数学学业水平考试的等级起到了合格通过第一关的作用,语文高考成绩则保证了“文科才子录取到中文系”的目的。这样,大学招到了满意的学生,中学生也不必长期去补自己最不擅长或不喜欢的短板,学业水平考试的验收和选拔功能同时得到实现。
目前大众习惯的“拼盘式”计入高考总分的招生录取模式,已经把众多文科水平一般、理科水平也一般却可以获得文科数学满分的考生送进了各所高校的中文系,而真正的文科尖子或者称文科天才,基本上被排除在高校的文科专业之外。一旦放弃高考拼盘总分排队的录取模式,改用逐步跨栏通关的录取模式,则可以避免二流理科生挤落一流文科生进入大学文科的不合理现象,并同时保障学业水平考试的验收与选拔功能,实现录取公平,中学、大学皆大欢喜的局面。当然,“跨栏式录取”的顺利实施还需要具备许多其他条件,具体情况需要另外进行单独讨论[16]。
4 测验等值的实现
在新高考改革方案中,试行一年多考是一项具有划时代意义的进步举措,但是这种方案的前提条件之一是能够实现测验分数的等值[17],即无论考生参加哪一次考试,只要他的知识能力水平没有实质性的提高,其最后所获得的分数应当高度一致。一旦高考或学业水平考试实现了测验等值,考生就不会参加多次考试,因此也谈不上增加考试负担的问题。
由于高考是一项高利害的考试,国际考试行业的许多常用等值方法在中国遇到了极大的困难,导致目前的高考和学业水平考试都未能实现测验等值。其实,国际上常用的测验等值设计方法,比如,将锚题隐藏在正式考卷中的设计方法尽管在中国实施有困难,但可尝试适合中国国情的事后等值设计方法[17]。
实施事后等值的基本思路是:首先,根据标杆试卷R,编制一个锚测验A。该锚测验与标杆试卷基本一致或是标杆试卷的一个缩微版本(各部分题量不少于标杆试卷的20%)。其次,选择一个能力跨度与全省能力跨度十分接近的全省考生的代表性小样本(530~1 600人),让该样本中的一半考生按照R-A方式作答,另一半考生按照A-R方式作答,于是可以获得一个RA的考生作答反应数据。第三,待全省学业水平考试F正式施测之后,从中选出另一个全省考生的代表性小样本(530~1 600人),让他们在学业水平考试之后2天之内单独考一次锚测验A,于是可得另一个数据FA。第四,综合数据RA和FA,利用锚测验题目参数不变性特点,采用题目反应理论(Item Response Theory,IRT)或经典测验理论(Classical Testing Theory,CTT)等方法,实现正式测验F与标杆试卷R之间的测验等值,即建立正式测验的原始分数与标杆试卷原始分数之间的对应关系。
由于标杆测验的原始分数已经通过常模与量表等级建立了固定的对应关系,因此利用F与R之间的等值关系就可以推论出正式试卷F上的原始分数与标杆试卷上的量表化等级的对应关系。即任何一次新的正式考试成绩,都可以通过这种方法,把卷面原始分数转换成标杆试卷所对应的量表化等级,实现测验等值。
总之,要做好学业水平考试,实现国务院提出的深化考试招生制度改革的目标,研发标杆试卷、设定学业标准、制定分数常模、实现测验等值这四项测量学的准备工作必不可少。而且,这四项工作至少需要学科专家、测量学专家、教育管理工作者三方经过一年以上的准备才能实现。这些必要工作一旦有所缺失,则会对新高考方案、学业水平考试方案、基础教育和高等教育带来比较大的负面影响。
参考文献
[1]新华网.授权发布:中共中央关于全面深化改革若干重大问题的决定[EB/OL].(2013-11-12)[2016-12-06].http://news.xinhuanet. com/2013-11/15/c_118164235.htm.
[2]国务院.关于深化考试招生制度改革的实施意见[EB/OL].(2014-09-04)[2016-12-06].http://www.moe.edu.cn/publicfiles/ business/htmlfiles/moe/moe_1778/201409/174543.html.
[3]教育部.关于普通高中学业水平考试的实施意见[EB/OL].(2014-12-10)[2016-12-06].http://www.moe.edu.cn/publicfiles/ business/htmlfiles/moe/s4559/201412/181664.html.
[4]秦春华.学生和高校自主选择权不落实,播下龙种可能收获跳蚤[N].中国青年报,2015-02-02(10).
[5]浙江省教育厅.关于纠正部分普通高中学校违背教育规律和教学要求错误做法的通知[EB/OL].(2016-10-22)[2016-12-06]. http://www.zjedu.gov.cn/news/147737035226665750.html.
[6]搜狐教育.浙江新高考物理选考人数骤降,名牌大学明年招生要放大招[EB/OL].[2016-12-06].http://learning.sohu.com/20161130/ n474580178.shtml.
[7]杨志明.学业水平考试成绩等级化中的风险及其规避办法[J].教育测量与评价,2015(9).
[8]杨志明.高中学业水平考试等级设定的若干方法[J].教育测量与评价,2016(10).
[9]American Educational Research Association,American Psychologi⁃cal Association,National Council on Measurement in Education. Standards for Educational and Psychological Testing[S].Washing⁃ton,DC:AERA,2014.
[10]The National Governors Association,the Council of Chief State School Officers.Common Core State Standards for Math[EB/OL]. [2016-12-06].http://www.corestandards.org/assets/CCSSI_Math% 20Standards.pdf.
[11]College Board.Test Specifications for the Redesigned SAT[EB/OL]. [2016-12-06].https://collegereadiness.collegeboard.org/pdf/testspecifications-redesigned-sat-1.pdf.
[12]CIZEK G J,BUNCH M B.Standard Setting:A Guide to Establish⁃ing and Evaluating Performance Standards on Tests[M].Thousand Oaks:Sage Publications,2006.
[13]HAMBLETON R K,JAEGER R M,PLAKE B S,MILLS C N.Hand⁃book for setting standards on performance assessments[S].Washing⁃ton,DC:Council of Chief State School Officers,2000.
[14]搜狐教育.新高考物理选考人数骤降,名牌大学要慌了[EB/OL]. [2016-12-06].http://learning.sohu.com/20161203/n474839907. shtml.
[15]ANGOFF W H.Scales,norms,and equivalent scores[G]//THORN⁃DIKE R L.Educational Measurement.Washington,DC:American Council on Education,1971.
[16]杨志明.高考招生多元评价的区分效度[J].教育测量与评价, 2016(5).
[17]杨志明.学业水平考试事后等值的概念、条件与设计[J].教育测量与评价,2016(11).
Four Psychometric Considerations for High School Proficiency Examinations in China
YANG Zhiming
(National Education Examinations Authority,Beijing 100084,China)
The High School Proficiency Examination(HSPE)is an important element in the Gaokao reform package.Four psychometric considerations are recommended to conduct the HSPE well and avoid undesirable student responses,such as large scale multiple retaking of the HSPE,abandoning essential courses in hope of achieving Grade A in“less popular”subjects,and top students are pushed down to the low score percentile ranks in the more competitive essential courses pool.Such negative consequences severely detract from the goals and success of the Gaokao reform.The recommendations are the development of a reference form,standard setting, scaling or norming,and equating.It is suggested that these tasks be completed at least one year prior to the first administration of the HSPE.A team of content experts,psychometricians,and administers is essential for getting these jobs ready before the first administration.
Examination and Enrollment System Reform;High School Proficiency Examination;Reference Form; Standard Setting;Norming;Equating
G405
A
1005-8427(2017)01-008-6
10.19360/j.cnki.11-3303/g4.2017.01.002
(责任编辑:陈睿)
杨志明(1963—),男,博士,教育部考试中心特聘研究员,原美国教育考评局ERB技术总监。