命题管理者控制试题难度的方法

2012-11-08章奎

中国考试 2012年9期

章奎

1 控制试题难度的意义

中国是一个考试大国，特别是国家教育考试，事关广大人民群众的切实利益，事关社会的和谐和稳定，党中央和各级人民政府高度重视，社会高度关注。而社会对考试关注的重点，往往会聚焦在考试难度上，所以对试题难度的有效控制是考试管理层和业务层共同肩负的重任。合适、稳定的试题难度，可以保证考试的稳定性和连续性，符合考试的本质和满足考试的功能需要。目前，我国各级考试管理部门对试题难度的相关理论研究都很深入，这对我国大规模考试质量的保证起到了积极的、重要的作用。

2 控制试题难度所面临的困难

在大规模考试的现实中，由于真正试题难度值的取得只有在全样本的考试成绩数据获得后才能实现，所以在考试前，对试题难度的控制，只是停留在预估或预测的层面，很难有一个客观、具体的标准来帮助考试管理层及考试业务层来确定试题难度，这就给试题难度的控制带来了困难。

就对试题难度的预估来说，由于缺乏一个客观、具体的衡量标准，预估只能依靠命题者的经验，并且只能靠考试的结果来佐证这样的经验正确与否。对考试管理层来说，以往“有经验的”命题者就是他们能够控制试题难度的重要因素，他们会对这些“有经验的”命题者产生过度依赖，觉得只有依靠他们，才能将试题难度控制在理想的范围内。这样的依赖，其结果就会导致在对命题人员的挑选上，命题管理层不愿意扩大挑选范围，总是局限在这些多次参加过命题的“有经验的”的人员中；二是导致在命题的管理上，很难做到指导、商榷和评价。这不但使得标准化的命题管理流程，特别是制度建设与制度执行不能完全得到落实，而对试题难度的控制也不能真正落到实处。

对命题者来说，预估是基于他们自身对大规模考试本身的了解程度和对考生基本情况的了解程度上，当然，也基于他们以往预估的准确程度上。但这些都只能是命题者自身的主观感觉。在命题中，一旦学科命题组中出现有分歧的判断意见，到底谁对谁错，很难由一方说服另一方。最后，即使是学科命题组形成意见比较一致的判断，其准确程度如何，命题人员自己也没有足够的把握。他们往往和命题管理层一样，每次命题后，都胆战心惊地等待着考试结果，等待着通过的实际数据，和社会的反响来验证他们的判断。

3 试题难度校准系统

要解决试题难度控制问题，就是要解决预估正确程度的客观评价问题，以及对预估产生的偏差如何进行校准问题。为此，本研究试图寻求一种可以帮助命题者校准试题难度判断偏差的方法，通过反复论证和实验，开发出一套试题难度校准系统。

该系统假设即将要进行的考试与最近一次同类考试，其规模相对稳定，考试内容相对稳定（相关的教学要求和考试标准没有大幅度的调整），考生状况相对稳定，对将要参加此次考试的考生来说，用最近一次同类考试的试题来对他们进行考试，得出的难度值将基本一致。通过这样的假设，可以对命题者对最近一次同类考试的难度判断情况，来分析他们对将要进行的大规模考试试题难度的预估的准确程度。使得对预估的评价有了一个科学、客观的依据。

具体做法是，在命题前，要求每位命题者在不知晓实际试题难度值的情况下，对最近一次考试试卷进行试题难度估测，并把估测数据录入软件中。录入时，命题者可以随时调整对试题难度的判断，直到自己认为比较准确时，可以查看和打印分析报告。软件自动对每位命题者的试题难度判断情况进行详细分析，从整卷难度、试卷难度分布以及每个小题偏差情况三个方面分别作出具体评价。

当命题者通过系统发觉自己的判断偏差较大时，系统可以帮助命题者对判断进行校准。软件通过醒目的红色或绿色直方图，显示每一小题的判断偏高或偏低情况以及偏差的大小情况，在命题者脑海中留下深刻印象。而命题者绝不会机械地将自己的判断值改正为实际数值，相反地，他们会自动地对照试卷，分析各试题在这样的大规模考试下，其难度值应该是怎样的一个范围。同时，他们会总结出最近一次考试试题中的同类知识点，以及这些知识点的同类考试要求、同类题型等在这样的大规模考试中会是什么样的难度。通过一次次的加深印象，命题者最终会对试题的难度判断形成深刻的感性认识，当他们面对具体的试题时，不再觉得判断难度无据可依，在他们脑海里会自动呈现鲜明的判断印象，可以准确地反映出试题的难度值。

在经过反复的校准后，当命题者认为自己的判断已基本准确时，对他们还要进行再次测试，直至他们的判断偏差真正得到校准后，才让他们正式进入命题。实践证明，这样的校准时间只需要1～2天。

在审题环节，命题管理者还要通过系统对所选试题的预估难度值进行再次分析，对学科命题小组内估测差异较大的题目进行筛选，供审题时决定是否淘汰这些题目，以更有效地控制试题难度。

表1显示的对30位命题人员按学科分成5个测试组，在命题前首次测试试题难度值的统计数据。表中“无偏差题数”为判断的难度值与实际难度值相等的题数；“无偏差率”为无偏差题数占总题数的百分比；“显著偏差题数”为判断的难度值与实际难度值之差≥0.2的题数；“显著偏差率”为显著偏差题数占总题数的百分比。

表1 测试组经系统校准前判断偏差统计表

表2 测试组经系统校准后判断偏差统计表

表3 测试组对试题难度预估值与实际值偏差统计表

表2命题人员经过系统对其判断进行多次校准后，在正式进入命题前的测试数据。

表3显示是正式命题成卷后，各学科组对试题难度的预估与考试后实际得出的试题难度数据比较。

通过以上统计数据可以看出：经过软件校准后，命题者对试题难度的判断偏差率可降低到3%～5%，而显著偏差则完全可以杜绝；命题者对试题难度预估的总偏差率与校准后对试题难度判断总偏差率基本一致。说明通过系统可以将命题者的试题难度判断偏差校准到比较准确的程度，可以有效地控制试题难度。

4 结论

试题难度校准系统为考试管理层或考试业务层有效控制试题难度提供了一个工具，其有效性还待做更进一步的检验。

[1]李光明.落实《刚要》精神促进高考与基础教育协调发展[J].中国考试，2012（1）.