试测在高考命题试题难度调控中的实践研究
2013-11-08李瑛
李瑛
1 引言
经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)是当前测量领域中的两大理论[1]。无论是CTT还是IRT,都把题目难度作为重要参数之一。CTT将考生的通过率或得分率作为难度指标,以0、1计分的题目为例,答对某题的人数占被试总人数的比值叫做该题的难度值,非以0、1计分的题目,所有被试学生的平均分占该题总分的比值叫做该题的难度值,在这种定义下,难度值越大,说明该题越容易,这种计算得到的难度值依赖于样本的群体能力水平;IRT是建立在潜在特质理论之上的,难度等题目参数是独立于考生样本的,反映的是题目固有的属性,因此更能反应题目的固有属性和考生的能力水平。由于项目反应理论对数学模型与实测数据的拟合程度要求较高,且建立在严格的假设之上,所以目前在国内大规模的考试中,经典测量理论的应用较为广泛。高考是常模参照考试,其难度指标常用考生的通过率来表示,考生的通过率也即相对难度,是试题对考生知识和能力水平合适程度的指标,是由参与测试的考生整体水平来决定的。
在现实条件下,由于各地教育资源的不均衡,尤其是优质教育资源较少的情况下,高考的难度问题仍然十分敏感,难度的不正常波动,不仅引起当年高考考生及社会的反应,也会给中学教学带来一定的影响。题目太难,会让中学教学应试痕迹越来越深,教师和学生的负担愈重;题目太易,也可能不能有效地区分各类考生,达不到选拔的目的。所以在命题过程中,科学调控高考试题难度尤为重要,既要保持相对平稳,也不能一味降低难度,而失去高考选拔的本质功能。
试题难度一般是指试题的整体平均难度和各题的难度(结构难度),科学调控试题难度应该包含对试题整体平均难度和结构难度进行合理的预测和有效控制两个方面,从而达到科学区分的效果。如何对试题难度进行有效预测,美国的SAT和ACT在试题命制过程中都有试题试测的环节,SAT是运用锚题,作为不计分的实验部分放在正式考题中,取得当次考题难度等方面的信息;ACT试题在正式使用前虽不像SAT那样放在正式的考题中进行试测,但其每道试题都会在一些能够代表总体的样本考生中进行试测,以了解这些试题的难度水平是否适宜,以及是否能正确地发挥测量功能。无论是SAT还是ACT,都是在考试之前进行大规模的试测,通过项目反应理论将试题难度等参数进行等值,从而用于建立和充实题库。在我国目前的高考命题实践中,由于考试题型的不同(不完全是多项选择题)、组卷方式的差异(绝大部分不是直接来源于题库),考试安全因素的影响,不可能如美国SAT和ACT的模式那样对考题进行大规模的试测,以获得难度等方面的指标。目前,命题实践者在有限的条件下对试卷的难度预测进行了各种探索,大部分依据命题专家多年的经验来进行,有的是在专家经验基础上建立预估模型或难度常模,取得了一定的经验和预期的效果,为高考质量的保证起到了积极的重要的作用。
为了保证命题的科学性,在无法事先对试题进行大规模的试测情形下,抽取少量样本在保密的前提下对试题进行事先试测,利用试测环节中的实测数据对试题难度进行预测,并和专家的估计相结合,从而达到有效调控试题难度的目的,也是命题实践中的一种探索。
本文拟结合测量理论,通过试测生的有效选择、试测生考试数据的利用等方面就高考试卷送审稿(正式审题和付印之前的高考试卷,下同)的难度预测过程和有效调控进行探讨。
2 试测条件和假设
在测量学理论中,预测(试测)是测验的技术分析与鉴定程序中的一个重要部分,尤其是在大型的重要考试中更是必不可少的方法和步骤。这种操作必须满足下列条件和要求:预测对象必须是将来正式测验施测对象全体的一个代表性样本,且样本数不必太多,亦不能太少;预测的实施过程和情境力求和将来正式测验时的情况近似;时限最好使每个被试将题目答完,以搜集充分的反应资料,从而使统计分析的结果更为可靠;在预测过程中,应将被试反应情况随时加以记录,如一般被试完成预测所花费的时间、题意有何不清之处、被试态度等;预测要有高度保密性[2]。所以试测过程必须最大限度满足以上条件和要求。
在研究过程中,由于要用到平均值等值(Mean Equating)和等百分位等值(Equipercentile Equating)等方法和相关的其他测量学理论,所以还需尽量达到以下要求和假设:
①试测生源学校近几年高考成绩分布基本一致;
②所选试测生各科成绩均衡,没有较明显的偏科现象,且与参照的年份所选试测生的能力水平分布基本一致;
③高考试卷送审稿难度变化与高考成绩状态分布变化呈正相关;
④试测生成绩稳定,不同学习水平的试测生能代表相应能力水平的考生群;
⑤近几年的高考题型稳定,考试内容、测试目标、教学方式等变化不大,同一学科考查的能力分布几乎相同,与上一年相比,考生整体水平也没产生较大差异;
⑥由平均值之差预测的试卷量表之差与试卷各个点的成绩分布之差相同。
3 试测生的选择
试测生是指参加考试试测的学生样本群体,此样本必须是将来正式测验施测对象全体的代表性样本,且样本数适中。Kolen和Brennan认为,在传统等值和线性等值中通常每个测验需要400各样本,等百分位等值需要略多于1 500的样本量[3]。但由于我国高考的特殊性质以及高度保密的需要,不可能抽取较多的样本,通常是在参加当年高考的考生群体中抽取12~20名参加试测,其中文理科各一半。由于样本较少,所以需对样本的性质作严格要求,才会保证结果推测的更加有效。除上文提到的要求以外,每一样本需是中等偏上的能力水平,一方面考生能客观准确提供答题方面信息,另一方面这部分学生一般具有较稳定的反应倾向,能力水平较稳定,应试状况较正常,可以有效避免测试结果的误差。
3.1 找出上一年试测生(A群体)的成绩和能力分布
将上一年试测生的成绩,分别按文、理科总分从高到低进行排序,并依据上一年本省录取高考分数线将学生进行分类(等级),比如本一(分数达到一本线以上的)、本二(分数在二本线以上、一本线以下的)或是本三(分数在最低本科线以上、二本线以下的),这种分类的方法近似于将学生按能力分成不同的群体,也即不同的能力分布。以该群体文科考生为例,对照表1,A群体是2009年的试测生,该群体6位学生的能力分布为3个本一、2个本二、1个本三。因为近几年湖南省录取率大体稳定,这种分类可作为当年试测生选择的依据。
3.2 找出将要参加本年度试测的样本群体(B群体)需要对应的百分等级(Percentage rank)和能力分布
表1 试测生对照选择表(文科)
首先是找出B群体所在学校上一年总分的频数分布表,将A群体的分数视为B群体需对应的百分点,根据此百分点在B群体所在学校的频数分布表中找到对应的百分等级,如表1所示,A群体甲校三位学生分数和能力层级分别是600分(本一)、580分(本一)、568分(本二),此3个分数视为B群体的3个百分点,根据这3个百分点在B群体所在学校频数分布表中找到相应的百分等级分别是4.03%、16%、26.7%,根据B群体2009年各批次录取率判定,这三个百分等级分别落在相应的本一或本二层次内,与A群体能力分布吻合。所以这3个百分等级就是将要参加本年度试测的样本群体(B群体)需要对应的百分等级,也是我们选择B群体的标准。
3.3 确定B群体及准确位置(百分等级和百分点)
由于选择群体用的是百分位常模,百分位常模只是顺序量表,而非等距量表,测验分数也是呈常态分布,所以在两个群体中可能很难找到完全对应的百分等级和百分点,只要是所在层次(录取批次)相同,百分等级略微在附近应该是影响不大的。如表1,让丙校按较大比例(一般是1∶4左右)推荐愿意参加试测的相应层次的学生作为B群体的备选项,分别是本一层次3.6%、9.5%、9.7%、15.3%、15.5%,本二层次25.5%、36.1%,以上百分等级是丙校根据学生最近几次模考成绩排名得来的。根据丙校提供的B群体备选项的百分等级和该校上一年的高考总分频数分布表找出各个备选项百分等级所对应的百分点,确定B群体及准确位置(层次、百分等级、百分点),如表1,分别是考生1(本一,3.6%、601分)、考生2(本一、15.3%、581分)、考生3(本二、25.5%、570分)。同样步骤,选出乙校对应丁校的B群体中3位学生及准确位置,如表1,分别是考生1(本一,0.7%、598分)、考生2(本二、8.4%、552分)、考生3(本三、53%、496分)。
4 试测生总分预测分析和总分对应的各科成绩加权分析
我们对等百分位等值原理可以理解为:如果考生既参加模块A的考试又参加模块B的考试,我们比较考生在模块A和模块B的表现,就可以将两个模块中相同的分数作为是等值的,这样就实现了模块A和模块B的分数等值[4]。利用等百分位原理,因为近几年试测生水平大致相当,我们可以假设参加试测的每一样本都参加了2007年、2008年、2009年的高考,可以根据考生B群体的百分等级以及所在学校的三年成绩总分频次表,用等百分位映射方法可以找出每一样本在三年的百分点,通过所在学校相应年份相关层次的各科总分、各学科分数的平均分进行加权分析,预测出试测生在相应年份各科应达到的分数。(因为湖南省自主命题科目是语文、数学、英语三科,本文仅对这三科的难度预测进行探讨)
以考生1为例(参考表1、表2),该生在学校的综合排名为前3.6%(百分等级),为本一层次。
第1步,找对应百分点(总分)。根据该生所在学校2007~2009年文科各学科总分的频数分布表(1分段表)找到3.6%对应的百分点,分别是596分(2007年)、573分(2008年)、601分(2009年),对照这三年湖南省本一层次的录取线及该生所在丙校的录取率,百分位及对应的百分点都在本一范围内,可初步验证此判断方向正确。
第2步,找出考生1所在丙校某一年本一以上与本二以上(含本一)所在层次语文、数学、英语及总分的平均分及两层次相同学科之间的差值,算出该层次三科变化在总分变化中所占的权重。以2007年为例,两校本一以上层次语文、数学、英语及总分的平均分分别为112.1分、106.85分、123.98分、586.24分,本二以上层次(含本一)语文、数学、英语及总分的平均分分别为109.33分、101.15分、117.81分、561.23分,计算两个层次各科及总分对应差值分别为2.77、5.7、6.17、25.01,可理解为三科在总分变化25.01的权重分别为11%、22.8%、24.7%。
第3步,推测出在各年总分下对应各学科的分数。如,2007年考生1的总分是596分,该校本一层次当年总分的平均分是586.24分,超出平均分9.76分,将9.76分别与权重11%、22.8%、24.7%相乘,得到分数的变化应是分别上升1.07、2.23、2.41,这样可以预测出596分的总分对应的各学科分数是113.17分、109.08分、126.39分。
同理,可以预测出考生1对应2008年、2009年的各科成绩以及其他考生在各年度的各科成绩。
第4步,推断出与各年等值情况下今年考生群体应该达到的平均分。以文科6个考生为例,假设今年各科送审稿的难度和2007年大体一致,根据每位试测生的百分等级在试测生所在学校2007年的总分频次表中找到对应的百分点,按照上述方法推算对应各学科的分数,从而得出今年三科的总分和、平均分分别为:语文,总分644.55分(平均分107.43分);文科数学,总分620.28分(平均分103.38分);英语,总分667.27分(平均分111.2分)。假设今年难度与2008年难度大体相当,则三科的总分和平均分分别为:语文652.11分(108.69分)、文科数学633.64分(105.61分)、英语661.01分(110.17分)。假设今年难度与2009年难度大体相当,则三科的总分和平均分分别为:语文,总分648.77分(平均分108.13分);文科数学,总分704.34分(平均分117.4分);英语,总分700.41分(平均分116.74分)。
同样方法和步骤,可推算出假如今年试卷和某年试卷等值情况下所有试测学生相应学科的分数,从而得出试测生群体在相应情形下各学科应达到的平均分。
以上算法的前提是试测生所在学校近几年学生的水平相对稳定,且该年所选试测生各科学习水平大体平衡,每位学生没有偏科现象。
表2 试测生各科分值推测(文科)
5 试测过程的实施
因为试测生的选择和结果分析用到了等百分位等值(Equipercentile Equating)和平均值等值(Mean Equating)等方法,而要将两个不同的考试等值,还必须满足如下条件:两个测验的信度相同,且都是测量同一心理特质的测验[5]。所以要将试测的结果与高考相比,应在保证都是测量同一心理特质的前提下,试测过程和情境必须和高考的情形近似,以保证测验的信度。比如,可以对试测过程作以下几方面要求:
①按高考的要求布置考室和进行组考,考前对试卷进行严格保密;
②试卷题型和题量与高考一致;
③作答时限和正式高考的时限一样,能让学生答完全卷;
④在学生作答时,将每题花费的时间随时加以记录;
⑤测验完成后,通过与考生交谈了解更多被试反应情况,如题意的理解等;
⑥评卷标准和程序严格按高考评卷的要求进行。
在以上这种严格程序下,试测实施过程才是真实可靠的。
6 试测结果的统计和分析
对命题工作的全过程而言,试题分析是其中的重要环节。试题分析通常包含两个方面的过程和步骤,首先是内容效度方面的评价和分析,如整卷是否有一定的覆盖面,考查目标是否明确,各题考查的能力层级描述是否与考纲一致,对主干知识的考查力度等;其次是量的统计和分析,如各题的难度、区分度、信度、标准差以及各题分数分组分析等,形式一般是以图或表的方式。试题分析的目的主要是对试卷的总体质量和存在的问题作出客观判断和分析,从而对下一步命题提供改进意见和建议。
对试测结果的统计和分析也是为了达到以上所描述的目的,让学生按照高考的要求和场景答完试卷送审稿,对学生的作答总体及各题分数进行统计和分析,其效度分析的主要步骤之一是对照双向细目表,将考试内容和考试能力层级等一一对应验证。由于试测的样本较少,相对全样本来说,在区分度、信度等方面的评价准确度可能会较弱,但从近些年的命题实践经验来看,对试测生的实测成绩进行统计、分析及过后的调整对稳定试卷难度起到了很大的作用。
这里所提及的试测结果的统计和分析主要包括对试测生整体各科成绩的统计和分析、试测生个体各科成绩的比较和分析、每道题目总体和个体的答题情况及分析等。通过各种分析和比较可发现以下几方面的问题和结论:首先是可以直观的发现考生答题的异常,比如预测高分值的考生(根据平常成绩可以拿高分的考生)在某道较易选择题的选答上出现问题,而预测较低分值学生反而答对,说明该题可能容易被猜或是选项有迷惑性不够、不同质等问题,需要进一步改进;其次是可发现整卷难度分布状况,如果某一题型的得分不是从易到难的分布,则需对该题型的题目顺序进行调整;再则是将试测生的实测结果和之前预测的试测生的各科成绩进行比较,可为下一步预测和调控试卷难度提供数据支撑。同样是因为样本较少的问题,难度曲线图对分析预测全样本的难度分布准确性不够,所以一般也不用。
7 难度的预测和调控
平均值等值(Mean Equating)方法,是将两份试卷比较,计算平均分之差,然后将两年的试卷进行等值比较,将一份试卷的成绩加上或减去平均值之差,从而将两份试卷放在同一量表上。如果样本很稳定,可以认为平均值之差是试卷的不同而产生的。这种方法的前提是:首先是样本稳定,再则是由平均值之差预测的试卷量表之差与试卷各个点的成绩分布之差是相同的,这个假设在成绩分布的中心部分是比较合理的,但在高分和低分段范围内,并不总是符合条件[6]。
在用试测来预测试卷难度的实践中,特别注意的是试测生的选聘条件,即整体成绩位于中等偏上,且相邻年份之间试测生的成绩很稳定,下一年的选择标准是参照上一年试测生的成绩来选择的,这样,将两份试卷放在同一量表上进行比较则比较合理。
7.1 难度的预测
表3是2010年高考命题过程中将送审稿试测后对试卷难度的预测数据表,此数据表分为三个部分,以第一部分为例,是将2010年送审稿与2007年高考试卷放在同一量表上,从而预估出2010年送审稿的难度。以语文学科为例,首先根据本文第4部分所述方法得出假设2010年难度与2007年一致的情况下,试测生的语文平均成绩应是105.78分(成绩一),而2010年试测生的实测平均分为108.08分(成绩二),成绩一和成绩二比较,后者比前者高出2.3分,由此推出2010年与2007年的试卷的量表之差就是2.3,已知2007年全样本的平均值是87.73分,则2010年全样本平均分的预估值应是90.03分(87.83+2.3)。同样,可以推算出在将2007年的试卷与2010年试卷放在同一量表下其他三科(文数、理数、英语)试卷平均分的预估值,分别是81.59分、87分、89.32分。
在表3中,之所以将2010年的试卷与2007年、2008年、2009年等不同年份的数据分别进行等值处理,然后进行综合分析,是为了求证这种计算方法结论的更加可靠和稳定性,也避免了某一年样本稍有偏差,如有个别虚报成绩的差生或偏科生等情况而造成影响判断的情况。
7.2 难度的调控
通过试测生的实测数据,可以了解试卷的难度结构分布,推测全样本的整卷难度,从而根据事先设计的难度蓝图对试卷的难度进行调整,这是难度调控的基本思路。比如2010年难度蓝图是:语文90~95分,文科数学是70~75分,理科数学是80~85分,英语是80~85分(参照上一年数据和当年的录取率确定),从表3中数据得出,文科数学和英语偏易,需要调整难度,语文、理科数学刚好在预设区间,只要根据试测生答题情况进行微调就行。
在命题过程中,其实还会用到另一个预测难度的方法,即学科专家对难度的预估。学科专家将历年高考试题分题型、内容按难度值的大小分布集合起来,形成一个类似的难度常模,对照难度常模,根据该门学科试题难度影响因素,分析得出每道题的预估难度,然后经过加权处理得到整卷的难度。试测推算和专家预估数据的结合和综合分析,实际也是试测后难度调控的一项重要内容。
值得注意的是,对试卷难度的调整不是对每道题的难度进行调整,而是需根据试测生在每道题的作答反应、作答结果等情况的观察和分析,对比往年试题难度分布进行决策的。定了调整方向后,根据影响题目难度的各种因素对试题进行调难或易的操作。
表3 难度预测数据表
8 结语
由于各种条件的限制,在目前不可能像国外那样进行题库建设,在题目正式入库之前进行考试前期的大型试测情形下,选取少量的样本全入闱进行试测是命题实践的一种探索。少量样本提前试测,对观察不同层次考生答题反应、发现陈题等起着很重要的作用,但由于样本偏少,往往认为不足以对难度等参数做出确切判断。但从几年的命题实践可以得出:只要严格把好试测生选择条件,即试测生水平在中等以上,且相邻两年试测生学习水平大体一致等假设条件(文中第二部分提到的研究假设)基本成立的话,文中这种预测方法和过程可以较好把握难度调控的方向(调难或易、调控的幅度大小),这种方法和命题教师的主观预估结合,相互佐证,对命题难度的调控起到了很好的效果。
[1]Van der linden,W.J.and R.K.Hambleton.Handboo of Modern Itemresponse Theory[M].New York:Springer.1996.
[2][5]张敏强.教育测量学[M].北京:人民教育出版社.1998.
[3]Kolen,M.J.,&Brennan,R.L.,Test Equating,Scaling,and Linking methodsand Practices,2nd ed,Springer.2004.
[4]温忠麟,罗冠忠.模块化科目考试的分数转换——以香港中学文凭考试为例[J].中国考试,2012(9):3-7.
[6][美]约瑟夫·M.瑞安.基于经典测量理论和项目反应理论的等值和连接——等值设计和经典测量理论等值程序[J].考试研究,2011(2):83-95.