APP下载

预测高考考生能力水平调控高考试题难度研究探新

2015-06-26李峰王蕾焦丽亚

中国考试 2015年12期
关键词:预测值试卷题目

李峰 王蕾 焦丽亚

预测高考考生能力水平调控高考试题难度研究探新

李峰 王蕾 焦丽亚

在我国,社会各界普遍希望高考历年分数线基本保持不变,但是由于每年题目不同,考生能力水平也有波动,要实现上述目标就需要预测考生能力水平并据此调控试题难度。本研究基于课题组2010年起在海南和云南试点的高考等值研究,根据项目反应理论对外锚卷进行题目参数的估计,结合条件最大似然估计和同时校准的方法,使各试卷的能力水平均置于同一量尺。再以回归和K近邻法建立外锚卷和高考能力水平间的预测关系,并以2014年的高考数据进行检验。结果显示,在英语和数学(文、理)上,回归方法对2014年考生能力水平的预测精度都较高,K近邻法仍需进一步改进。

项目反应理论;制标;预测;高考

1 高考在教育测量领域的特点和挑战

西方较有影响的考试,如SAT、GRE等,在试卷总体难度、考生能力水平和分数均值方面的特点可简单概括为“两变一不变”。不变的是总体难度水平,在西方的制度、文化背景下,通过严格控制题目曝光率,广泛采用题库技术(题目可以多次使用)并以预试测试新题,再基于项目反应理论(Item Response Theory,IRT)确定新题的难度并更新题库,保证所有题目的难度都在同一个难度量尺上,并相对稳定。

正式考试中,考生的分数是在题目难度已知情况下的估计值,但是考生的能力水平和总分均值都是可能变化的。在SAT的历史上,1975年,大学委员会宣称SAT分数持续下降引发了公众的担忧,并成立了一个委员会调查下降的原因。1977年,委员会发布报告称1976—1977年的语言、数学测试分数和1962—1963年比分别下降了49分和32分,只有三分之一的1977年考生能达到1973年的平均水平[1]。同期,也出现了一批相关研究探讨可能的原因[1~3]。

我国高考的特点也可以概括为“两变一不变”。当然,和SAT或GRE不同,不变的是分数线和总分均值,当然,这里说的“不变”不是和往年完全相同,而是变化很小或基本一致。教育管理部门总是希望每年的分数线和总分均值符合一线老师和家长的预期,方便与往年进行比较,也避免引起不必要的社会议题。

所谓两变的“第一变”是指,题目要变,出于公众对考试信息公开的诉求,题目考完即曝光,再次使用无法达到预期目的。题目若变,总体难度水平也可变化,但出于考试安全的考虑,不能预试也无法预先得知,题目难度的把握依赖命题机构、命题人员的经验和对往年题目的分析。两变的“第二变”是指考生的能力水平会有波动,民间也有“高考大小年”的说法。我国基础教育实现历史性的“普九”目标后,开始进入教育质量全面提升的新阶段,随着教育投入的增加、师资水平的提高和课程改革的推进,长期看,考生能力水平会出现逐渐提高的趋势。

在题目和考生都变化的情况下,要实现分数线和总分均值不变,就需要在预测当年考生能力水平可能变化的情况下,调控题目难度使当年的分数线、均值和往年基本一致,这意味着有两方面的工作:预测考生能力水平和控制题目难度。

2 题目难度和考生能力预测的相关研究

2.1 基于认知特征和知识点预测题目难度

对我国的考试机构来说,每次都能编制出达到符合期望难度的新试卷来,是一个经常性的挑战。目前的相关研究大都围绕如何预测题目难度展开。早期,多以专家判断来预测题目难度。研究者发现专家的判读和题目的真实难度显著相关,专家对题目的结构和组织分析得越详尽,对题目难度的估计就越精确。但专家一般会低估题目难度,而且向其提供一部分真实的题目难度信息也没有明显提高他们对题目难度判断的精度[4~6]。

近期的研究转向对题目的认知特征及知识点的分析。Cheng提出题目难度与所考察的内容、题目呈现的方式、要求考生完成的任务和预期回答四个方面有关:题目涉及的知识点或技能越多,表述越含蓄,步骤越多,要求回答的细节越多,则题目就越难[7]。Crisp and Hopkin的观点与之近似,其对物理测验的分析显示题目难度和其所涉及的知识、认知要求、答题所需要的技能、题目的特点有关[8]。这方面的研究有明显的学科特点,在阅读[9~13]和数学[12,14,15]方面也得到比较明确的信息。

2.2 预测和制标

2.2.1 预测方法(Predicting)

预测的目的是通过考生的其他信息(如某个试卷上的分数、几个其他试卷上的分数、也可以是人口学的或别的信息)预测其在一个试卷上的分数,无须假设两个试卷内容相同或信度近似[16]。如果X和Y表示考生在两个试卷上的分数,考生来自总体P,那么在P上,给定X,Y的条件期望(或条件均值)就可以表示为:

这是通过X预测Y的标准方法,给定总体P,如果X的值为x,那么E(Y|X=x,P),预测Y的值y。

建立回归方程是一种常见的预测方法,如以国际教育进展评估(International Assessment of Educa⁃tional Progress,IAEP)的成绩预测美国国家教育进展评估(National Assessment of Educational Progress, NAEP)的成绩[16]。以SAT预考/国家奖学金资格考试(Preliminary SAT/National Merit Scholarship Quali⁃fying Test,PAST/NMSQT)预测大学先修课程(Ad⁃vanced Placement Program,AP)的成绩[17]。

按Hastie,Tibshirani and Friedman[18]的观点,分类和回归的方法并没有天然鸿沟,都可以用于预测(PP.11)。最简单也最常用的分类方法是K近邻法(KNearest Neighbor,KNN),其对对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较小)中最常见的分类决定该对象的类别。若k=1,则该对象的类别直接由最近的一个节点赋予。比较而言,KNN不依赖对于数据强假设,可应用于任意情境,其预测值精确(误差小)但不稳定(方差大);回归则相反,依赖强假设,预测值稳定但不精确。

2.2.2 制标以保证试卷分数在共同量尺上

预测并不能保证试卷X和Y在一个共同的量尺上,量尺制标(Scale aligning)和等值(Equating)则可以。预测、量尺制标和等值可以视为对试卷的链接关系从没有假设到强假设(试卷的测量结构、难度水平和精确程度均相同)的方法连续体,而等值是这个连续体的终点[19]。量尺制标也可根据结构是否相似、信度是否近似分为多种方法。具体的讨论可见 Kolen and Brennan[20]或《Educational Measure⁃ment》[19]的相关章节。

由于项目反应理论(Item Response Theory,IRT)在教育测量上的广泛应用,基于IRT的制标或等值方法可分为分别校准和同时校准(Concurrent Cali⁃bration,CC)两类[20,21]。分别校准包括能力参数的线性转换方程法和项目参数的转换方法,后者还可再细分为平均数与平均数方法(Mean/Mean,MM)、平均数与标准差方法(Mean/Sigma,MS)、Haebara特征曲线法与Stocking and Lord(SL)特征曲线法。CC则是将两组或多组数据合并,由采用边际极大似然估计方法的IRT软件同时估计出项目参数和能力参数,并使之置于共同量尺上[22]。Kim and Cohen[23]等发现在同期数据中使用CC的方法能够获得更精确的结果,国内学者也发现类似的结果[21,24]。目前常见的IRT软件如CONQUEST、BILOG-MG、Winstep[25]、Multilog、Parscale等都可以实现CC。

在应用上,CC常见于以矩阵-区块设计测验,一般是将长测验按照设计拆分为多个分测验,或以锚题或基于共同总体假设进行能力和项目参数的同时估计。另外,考试机构为了将往年和当年试卷的参数置于共同量尺,或将CC和条件参数估计结合起来,在CC中固定锚题参数以估计新题参数,使之自动与锚题在共同量尺上,如美国的州中小学统一考试[26]。或先以CC估计题目参数,再将其转换后置于早期测试尺度上,如由经合组织(Organization for Economic Co-operation and Development,OECD)统筹的学生能力国际评价项目PISA(Programme for International Student Assessment,PISA)[27],我国现行的四六级考试采用的也是类似办法[28]。

需要指出的是,分别校准和同时校准的方法都需要同时有两套试卷的数据或相应参数。同时校准自不必言,对分别校准来说,若有两套试卷X和Y,每年都先后测试,自然可以在X和Y之间建立校准关系,但若希望根据上一年的校准关系和当年X的参数预测Y的参数,就需假设Y当年参数和上一年参数间的关系(如相等),而研究者很难找到充分的理由做出这样的假设。

3 研究方法

若已知锚卷的题目参数,通过“共同人”(既参加外锚卷也参加高考)并结合条件估值法,固定锚卷的题目参数,可估计出高考的题目参数和全体考生的能力参数。再以“锚题”(上年考生和当年考生都作答外锚卷)将上年考生和当年考生的能力水平置于同一量尺。如此,则将上年高考、锚卷和当年高考的能力水平均置于同一量尺。

在采用CC进行制标的时候,面临IRT模型选择的问题。从统计拟合上看,IRT模型有单参、双参和多参的区别,不过坚持Rasch模型的学者认为Rasch模型更具测量取向,具备客观等距的特性,考生能力间的差距与题目参数无关,也可计算考生间能力差异的大小,这些特性是双参或多参模型没有的[29]。测量实践中,PISA采用的是Rasch模型[27],我们也尝试将其用于高考数据的分析[30]。

基于上年考生同一量尺上的两个能力水平,在外锚卷上的θa1和高考上的θN1,可建立二者之间基于回归或分类的预测关系,以θa1预测θN1。假设此预测关系对下年考生仍适用,则可基于下年考生参加锚卷得到的θa2来预测其在尚未到来的高考上的θN2。由于Rasch模型具有客观等距的特性,则可比较得出当年和上年考生平均的能力差异,并将相关信息提供给命题人员作为参考。

3.1 数据收集设计

从2010年起,课题组在海南和云南两省试点选取样本学生参加高考的外锚卷,为预测当年考生能力水平提供了现实条件。根据各试点省上报高中学校信息,每年4月下旬抽取5所左右具有代表性的高中,高三学生以班级为单位参加外锚卷。试点省负责解决试测样本校学生的应答动机问题。

在上年,样本校的高三学生(记为A1)高考前一个月参加了一个专门组织的锚测验(记为M1),然后参加上年的高考。非样本校的考生未参加M1(记为NA1)。同样的过程在当年重复一遍,样本校学生(记为A2)高考前一个月参加了锚测验(记为M2),然后参加当年高考,非样本校的考生未参加M2(记为NA2)。出于锚卷安全和锚题质量的考虑,两个锚卷M1和M2有部分题目不同(见表1)。

表1 数据收集设计

3.2 试卷的制标过程

以2012年和2013年海南高考英语为例,先确保2012年锚卷M1和高考处于同一量尺:

A.自由估计2012年锚卷M1的题目难度参数。

B.估计2012年高考英语试卷单选题的难度参数。通过准考证号将同时参加2012年试测和2012年高考的考生的作答数据匹配起来,通过固定2012年锚卷的难度参数来估计高考英语试卷单选题的难度参数(由于锚卷都是选择题,为减少误差,在CC时仅同时估计高考单选题的参数)。

C.通过固定2013年高考英语试卷的单选题的难度参数,来估计2012年高考英语全体考生的能力参数和难度参数。

再通过固定锚卷M1和M2中的共同题的题目难度参数,来估计M2的题目难度参数,以将2012年和2013年两份锚卷置于同一量尺上。然后,再重复B和C步骤,以将锚卷M2和2013年高考处于同一量尺。

3.3 建立锚卷和高考能力参数间预测关系

3.3.1 选择最接近总体的样本

由于建立锚卷和高考之间的预测关系仅用到样本校学生的数据,预测关系如果要推广到全体考生,则必要条件之一是样本校学生的代表性。课题组前期的高考等值试点研究已实现海南高考英语2012年、2013年数据的收集和制标过程。以外锚卷考生的高考能力值与全体考生能力均值差异较小的年份为预测样本,同时,又以参加外锚卷考生能力值在总体中有效百分比为权重对数据进行加权后再进行比较,从中选择差异最小的作为预测样本。

以2012年、2013年参加外锚卷考生的高考能力值与全部考生能力均值进行比较,进行单样本t检验,t(1167)2012=18.163,p<.000,t(1676)2013= 18.15,p<.000,都达到显著水平,Cohen’s d分别是0.53和0.443,均达到“medium”的效应。由于对预测样本加权后t值更大,故在海南高考英语中选择2013年的数据作为预测样本(见表2)。

表2 海南英语2012年、2013年外锚卷和高考能力值均值

3.3.2 基于回归方法的预测方程

确定预测样本后,为获得拟合好且稳定的预测关系,以线性回归、二项式回归建立预测方程,考虑到方差不齐的问题比较突出,又以加权最小二乘法(Weighted Least Square,WLS)建立回归方程,从中选择最好的模型。

由于采用加权最小二乘法(Weighted Least Square,WLS)得到回归方程的拟合度最好,所以由其建立的预测方程:

3.3.3 基于KNN对预测样本进行训练

考虑到回归方法强假设的特点,也采用KNN的方法同时进行预测,即以预测样本锚卷上的能力值为训练数据,高考能力值为训练分类结果。基于KNN的方法,将预测样本的数据随机切为十份,以90%的数据为训练数据,以10%的数据为检验数据,循环十次。每次,从K=1(最近邻法)开始到K=50(与其锚卷能力值最接近的50个),寻找与其高考能力值误差最小的K。再将得到的10个k进行平均并四舍五入,得到KNN方法的k。

3.4 预测2014年高考能力水平

根据3.2中描述的试卷的制标过程,将2014年外锚卷的能力值置于与2012年、2013年共同的量尺水平上。再根据上节确立的WLS回归方程,将2014年外锚卷能力值作为预测变量,即可得到样本考生若参加2013年高考可能得到的高考能力值。同样,利用KNN方法训练得到的K,找到与2014年外锚卷能力值最接近的K个2013年外锚卷能力值,并从中选择与出现次数最多的作为其2013年高考的预测值。

两种方法的预测结果间有一定差别,其预测值均值分别是-0.249(SD=0.819)和-0.399(SD= 0.908),均高于2013年考生的能力均值(-1.12)。前者反映了外锚卷能力值与高考能力值间的线性关系,后者可能反映了其中的非线性部分。

4 研究结果

2014年高考结束后,参照3.2中的制标办法,将高考英语的能力水平和2012年、2013年的能力水平及2012年、2013年和2014年的锚卷的能力水平均置于同一量尺上,得到海南2014年英语高考能力水平的估计值。并将同样的制标、预测方法应用于数学(文、理),分别得到2014年的预测值和估计值(见表3、表4)。

表3 海南英语简单、二项式和WLS回归模型比较

在样本校学生的预测方面,回归类方法整体上优于KNN方法,其预测值与估计值间差距较KNN更小。回归类方法倾向于高估,而KNN方法则倾向于低估。在学科上,无论是回归还是KNN,英语的预测值都和观测值间差异最小。理科数学的回归预测值差异最大,文科数学的KNN预测值差异最大。从置信区间上看,高考英语估计值的标准误差较小,故回归预测值落在95%置信区间的比例反而小于数学理科,其KNN预测值落在95%置信区间的比例则最大。两种方法上,三个学科预测值和观测值的相关都达到显著水平。

若以样本校学生高考能力水平的预测值作为全省考生整体能力水平的预测值的话,会看到明显的高估情况,且差距较大。这主要是2014年参加锚卷考生的能力水平在各科上都显著高于整体水平所致。其英语、文科数学和理科数学与整体水平的均值差异分别是1.08(t[1577])=47.01,p<.000)、1.09(t[784]=41.77,p<.000)和1.11(t[803]=59.23,p<.000)。

5 讨论与结论

5.1 参数估计、制标和预测方法的综合应用

我国高考采用的是原始分,分数的高低不但和考生水平有关,和题目难度也密切相关,难度低,分数高,难度高,则分数低。所以,试卷间的预测关系并不一定意味着考生在两套试卷上能力水平间的关系。试想,若一套试卷题目的难度分布服从正态分布,而另一套试卷非常容易,几乎所有人得分都很高,那二者间关系可能更多的是反映了测量工具的特点。若希望这种预测关系仅反映考生在两套试卷上能力水平间的关系,就需保证考生的能力水平和题目难度无关。IRT模型,尤其是采用MMLE/EM算法的IRT软件则可以实现参数分离的估计[31~34],这是本研究采用IRT估计的能力参数而非原始分建立预测关系的重要原因。

上年锚卷和高考能力分数间关系在下年是否仍然成立的假设是需要进行检验的。这种检验类似基于一个样本建立的体重和身高间预测关系在另一个样本上是否成立,但在检验以前,需保证对两个样本的身高或体重的测量尺度相同或通过转换使之相同。同理,在教育测量上,至少应保证两个锚卷的能力分数在同一量尺,两个高考能力分数在同一量尺才能进行预测关系的检验。本研究以锚制标和组制标的方法确保这一点,在英语、数学(文、理)上,基于回归的预测分别是0.72、0.57和0.5,数学的预测较低的原因可能是数学的锚卷不分文理,而高考数学的文理卷是分开命题的。

5.2 预测结果在考试机构实践中的应用

建立预测关系后,无论以回归还是KNN方法,实际上是以锚卷上的能力水平(由于两个锚卷M1和M2结构相似、长度接近、难度相当,二者之间的制标事实上实现了试卷的等值,分数可以实现互换)预测其在2013年高考上能力水平。在预测样本的代表性比较好的情况下,则可和2013年高考的总体能力水平进行比较。若预测发现2014年考生的能力水平比较高,则需适当增加2014年高考难度才能实现平均分和分数线基本不变,并可根据项目反应理论给出具体的调整意见。

例如,假设2013年考生在某学科上的平均能力水平为0,则根据Rasch模型:

可计算2013年考生答对难度参数为0的题目的平均概率(得1分)是50%。若2014年考生能力水平均值比其高0.2,则答对概率上升到55%,总分均值自然也会提高。要维持平均分和分数线基本不变,就需适当增加难度。实践中,可给出2013年各题目实际的答对率和预测2014年的答对率的对比表供命题和组卷人员参考,帮助其编制符合要求的试卷。

5.3 问题和未来研究方向

从方法的比较上看,回归类方法的精度较高,而KNN的方法误差较大。如对英语的预测,回归方法的均值差异只有0.037,而KNN则达到-0.188,数学(文、理)情况也类似。这主要是由于KNN是一种离散分类的办法,未来可使用核密度函数平滑或核回归的办法改善预测精度。若能长期持续的进行高考等值的试点,还可结合时间序列分析的方法更进一步。

虽然选择预测样本时采用在两年样本间进行选择、或对样本进行加权的办法,但是预测样本考生的能力水平还是明显高出全省平均水平。若希望能通过预测样本得到比较准确的全省考生总体的预测值,需要根据往年考生成绩,综合地理位置、学校意愿等因素,尽量选择与总体均值差异较小的学校作为样本校,以实现通过外锚卷预测高考考生能力水平的目标。

[1]TURNBULL W W.Student change,program change:Why the SAT scores kept falling[J].ETS Research Report Series,1985,1985(2): i-10.

[2]CHALL J S.An Analysis of Textbooks in Relation to Declining SAT Scores[J].1977.

[3]KURTH M M.Teachers’unions and excellence in education:An analysis of the decline in SAT scores[J].Journal of Labor Research, 1987,8(4):351-367.

[4]LORGE I,KRUGLOV L.A Suggested Technique for the Improve⁃ment of Difficulty Prediction of Test Items[J].Educational and Psy⁃chological Measurement,1952,12:554-561.

[5]BEJAR I I,EMBRETSON S,MAYER R E.Cognitive Psychology and the Sat:A Review of Some Implications[J].ETS Research Re⁃port Series,1987,1987:i-73.

[6]QUERESHI M Y,FISHER T L.Logical Versus Empirical Estimates of Item Difficulty[J].Educational and Psychological Measurement, 1977,37:91-100.

[7]CHENG L S.On varying the difficulty of test items[C]//On varying the difficulty of test items.A paper presented at the 32nd Annual Conference of the International Association for Educational Assess⁃ment,Singapore.

[8]CRISP V,HOPKIN R.Modelling question difficulty in an A-level Physics examination,London 2011.

[9]FREEDLE R,KOSTIN I.The Prediction of Gre Reading Compre⁃hension Item Difficulty for Expository Prose Passages for Each of Three Item Types:Main Ideas,Inferences and Explicit Statements [J].ETS Research Report Series,1991,1991:i-53.

[10]FREEDLE R,KOSTIN,IRENE.The Prediction of Toefl Reading Comprehension Item Difficulty for Expository Prose Passages for Three Item Types:Main Idea,Inference,and Supporting Idea Items [J].ETS Research Report Series,1993,1993:i-48.

[11]FREEDLE R,KOSTIN I.The Prediction of SAT Reading Compre⁃hension Item Difficulty for Expository Prose Passages.PRPC Final Report P/J 969-60.[J].1991.

[12]CHALIFOUR C,POWERS D E.Content Characteristics of Gre An⁃alytical Reasoning Items[J].ETS Research Report Series,1988, 1988:i-32.

[13]DAVEY B.Factors Affecting the Difficulty of Reading Comprehen⁃sion Items for Successful and Unsuccessful Readers[J].The Jour⁃nal of Experimental Education,1988,56:67-76.

[14]TATSUOKA K K,CORTER J E,TATSUOKA C.Patterns of diag⁃nosed mathematical content and process skills in TIMSS-R across a sample of 20 countries[J].American Educational Research Jour⁃nal,2004,41(4):901-926.

[15]毛竞飞.高考命题中试题难度预测方法探索[J].教育科学, 2008:22-26.

[16]PHILLIPS G W.Expressing International Educational Achieve⁃ment in Terms of US Performance Standards:Linking NAEP Achievement Levels to TIMSS[J].American Institutes for Re⁃search,2007.

[17]EWING M,MILLSAP R E,CAMARA W J.The relationship be⁃tween PSAT/NMSQT scores and AP examination grades:A followup study[J].2006.

[18]HASTIE T,TIBSHIRANI R,FRIEDMAN J.The elements of statis⁃tical learning[M].City:Springer,2009.

[19]EDUCATION N C O M I,EDUCATION A C O.Educational mea⁃surement[M].City:Praeger Publishers,2006.

[20]KOLEN M J,BRENNAN R L.Test equating,scaling,and linking [M].City:Springer,2004.

[21]焦丽亚.基于IRT的共同题非等组设计中五种项目参数等值方法的比较研究[J].考试研究,2009(2):85-99.

[22]LORD F M.Applications of item response theory to practical test⁃ing problems[M].City:Erlbaum Associates,1980.

[23]KIM S-H,COHEN A S.A comparison of linking and concurrent calibration under item response theory[J].Applied Psychological Measurement,1998,22(2):131-143.

[24]谢小庆.对15种测验等值方法的比较研究[J].心理学报,2000,(2):217-222.

[25]YU C H.Test equating by common items and common subjects: concepts and applications[J].2005.

[26]韩宁.应用项目反应理论等值含有多种题型考试的一个实例[J].中国考试,2008(7):3-8.

[27]OECD P.PISA 2009 Technical Report[M].City:OECD Publishing Paris,2012.

[28]朱正才.大学英语四、六级考试分数等值研究——一个基于铆题和两参数IRT模型的解决方案[J].心理学报,2005,37(2): 280-284.

[29]王文中.Rasch测量理论与其在教育和心理之应用[J].Journal of Education&Psychology,2004,27(4):637-694.

[30]王蕾.Rasch测量原理及在高考命题评价中的实证研究[J].中国考试,2008(1):32-39.

[31]MASTERS G N.A Rasch model for partial credit scoring[J].Psy⁃chometrika,1982,47(2):149-174.

[32]BOCK R D,AITKIN M.Marginal maximum likelihood estimation of item parameters:Application of an EM algorithm[J].Psy⁃chometrika,1981,46(4):443-459.

[33]MURAKI E.A generalized partial credit model:Application of an EM algorithm[J].Applied Psychological Measurement,1992,16(2):159.

[34]李峰,朱彬钰,辛涛.十五年来心理测量学研究领域可视化研究——基于CITESPACE的分析[J].心理科学进展,2012,20(7):1128-1138.

Exploration of Predicting the Ability of College Entrance Examinee and Adjusting the Difficulty of College Entrance Examination

LI Feng,WANG Lei&JIAO Liya

The stakeholders of College Entrance Examination(CEE)feel that admission scores should remain unchanged.Predicting the examinees'ability and adjusting the difficulties to keep the admission score stable is a great challenge for testing institutions because of that every examination is brand new and the mean ability level of examinees varies every year.Based on the teams'equating research about CEE in Hainan and Yunnan provinces since 2010,the study includes the following aspects:a)estimating the parameters of items and persons on external test and CEEs with concurrent calibration and conditional maximum likelihood to transform the scores from different tests onto a common scale.b)the prediction relationship was built between external test and CEE with regression model and K Nearest Neighbors(KNN)according to the past data and verified using the data of CEE in 2014.The results show that the regression model had higher prediction accuracy than KNN on English and Math subjects.

Item Response Theory;Scale Aligning;Predicting;College Entrance Examination

G405

A

1005-8427(2015)12-0003-8

本文系2014年度国家社会科学基金项目“学校利益相关者视角下实施高考新方案的教育功效研究”(项目批准号:14BGL128)的研究成果之一。

李 峰,男,江西财经大学,研究员(南昌 330013)

王 蕾,女,教育部考试中心,处长,副研究员(北京 100084)

焦丽亚,女,教育部考试中心,助理研究员(北京 100084)

猜你喜欢

预测值试卷题目
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
学会思考,尊重每一道题目
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
AI讲座:ML的分类方法
唐朝“高考”的诗歌题目
本期练习类题目参考答案及提示
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe