关于题库建设若干问题的思考

2014-02-05李光明关丹丹

中国考试 2014年9期

李光明关丹丹

关于题库建设若干问题的思考

李光明关丹丹

题库建设是考试命题工作由传统方式向现代方式的转型，是考试机构专业化的必然选择。本文结合教育部考试中心多年来题库建设的经验，阐释了我们对题库建设几个常见问题的认识与体会，并对开展题库建设工作提出了几条建议。教育部考试中心将按照教育规划纲要的有关要求进一步完善题库建设，为我国教育考试改革做出应有的贡献。

题库；题库建设；问题思考

20世纪中叶，迅猛发展的世界经济迫使人们寻找编制测验的新技术，以保证客观、准确、及时地选拔人才。题库正是顺应这一时代潮流需要的产物。题库的建立使编制测验技术发生了根本性的变革。

题库（item bank）一词，源于英国20世纪60年代的一个全国教育研究课题（Wood&Shurnik，1969），本意是指测验试题的有序集合。更为准确的说法是，题库是适合于一定考核目标的、具有必要参数的大量优质试题的有机集合。至1970年，美国、比利时等国家也相继开展了题库建设，澳大利亚也在1973年建立了它的第一个数据库中心。随着测验的重要性日益提高，加上现代测量理论和计算机技术的迅速发展，推动了题库技术的飞跃。题库建设越来越受到教育测量与心理测量界的重视。目前世界上许多著名的测验机构，如美国教育考试服务中心（ETS）、美国ACT、英国剑桥评价（Cambridge Assessment）、荷兰教育评价院（CITO）等都已建立了各自的题库系统。

当前的题库已经不再是早期静态意义的题目储存库（bank），而是一个计算机管理的动态的质量控制过程（banking），题库建设的理论与方法也趋于多样化和更加完善。计算机题库系统（computer⁃ized item banking）的思想早在三十多年前就已经存在[1]，只是功能相对简单。由于人们对计算机化考试一直持怀疑态度[2]，最早的计算机题库系统主要是用于纸笔考试中的试题管理、组卷后打印试卷等。如今，题库系统已发展成为收集、管理和输出试题集合的软件系统，既可用于存储试题，又可以作为命题的工作平台和计算机辅助考试的后台系统。机考、网考的出现说明，题库技术的发展为考试模式的变革奠定了基础，反过来，考试模式的变革也推动着题库技术的进步。

1 对题库的认识

题库最基本的功能是储存试题。试题（item）是题库中最小的可更换的对象，是包含一个或多个问题和应答的基础单元[3]。质量审核过关的试题和各项参数将被输入到题库系统中，按照一定的规则、分门别类地存储起来。题库管理人员可根据工作需要对题库进行维护，如了解题库中的试题情况，有针对性地布置征题任务，以手工或自动的形式构建考试所需的纸质或电子版试卷。

笼统来讲，建设题库是为了有序管理所命制试题，以提高命题工作效率。具体来讲，题库建设的目的主要为：其一，储存处于各命题阶段的试题。命题工作的各个环节都会为所征集试题增加若干新的信息，如不进行系统化的管理，极易出现技术性问题，且难以弥补，而题库系统则可以用来规范和记录各个环节的工作成果。其二，储存试题的各项参数。试测完成后，试题即获得了考查内容、能力层次等定性信息和难度、区分度等定量信息，这些信息是组配试卷、等值处理时的必需内容，应与相应试题绑定在一起，但又不能显示在试卷中，应分别存放。其三，随时检索和使用所命制的试题。试题积累到一定数量时，如不进行系统化、电子化的管理，极可能会使检索和调取变得异常困难。其四，搭建计算机考试的试题调用平台。作为提供计算机辅助考试或自适应考试所需的题池的母库，题库系统的任务是为题池储存大量的试题，并根据计算机考试需要向其导入所需试题。

题库首要的基本特性是它的存储性，因此，题库中大量的试题都满足某一考试项目的考试大纲，并具有统一量尺上的必要参数，还被有序地组织起来。这样，按照指定的试卷设计要求，可灵活而便捷地从题库中抽取试题，组成试卷，并生成彼此平行（甚至是经过等值）的多份试卷，以适应社会的需要。所以题库的生成性（组卷功能）是其价值和功用的直接体现。另外，题库具有改进测验质量的潜能，并能保证长期稳定。Hambleton和Swaminathan（1985）曾指出：在可预期的将来，题库对测验编制者的重要性将日益增加，同时，它在节省编制测验所花的时间方面的作用，亦将无可限量[4]。我们在题库实践中也发现，单位时间内命制和编辑试题要比直接命制试卷更加高效。而且，题库日常命题有助于聘请到更多高水平的命题教师，再加上制度规范的执行和命题流程的控制，试题的质量得到了进一步的提升。

2 建立题库的基本条件

建立题库一般应具备如下基本条件：

（1）有一个成熟、稳定、明确的考试大钢。大纲应对不同性质、层次和目的考试的内容、能力要求，考试方式和对象做出明确说明，以便明确题库的内容、题型、权重和完成时量。

（2）有一个命题和审题的专家队伍。命题的专家队伍由学科秘书和学科教师组成，其任务是根据考试大纲命制题目。而审题专家，则是由经验丰富的命题教师和学科专家组成，从政治性、科学性、公平性和规范性等多个角度鉴定题目能否入库。

（3）建立题库的分类系统。为便于管理，对题库试题必须进行分类存储。整个分类系统由试题代码、试题属性、试题内容、试题答案等组成。试题属性主要包括管理属性、内容属性和统计属性三大类。

（4）有大量的题目。一般实际考题数与题库总题数之比不低于1∶10，尤其是国家级考试题库，题库基准容量应更高。

（5）有合理完善的保存试题的方法。无论是用题卡还是用计算机保存试题，都必须完整地记载分类细目，而且要利于检索和管理。当然，目前计算机管理的题库已是大势所趋。

3 关于题库建设的常见问题

题库建设涉及一系列问题，这些问题包括：作为题库基本单元的题目的命制、筛选、分类及管理；由题目组成试卷的流程、实施、评分及评价；题库系统的设计与开发、硬件与软件的特征及管理；题库使用和维护的原则等诸多问题。在每一个问题中又存在许多具体的小问题。这里仅初步探讨5个最常见的问题。

3.1 题库应该包含多少试题

这是一个比较难以明确回答的问题。不同的测量对象领域有各自不同的特点，形成的题目也有不同的难度，而且题库中的题量还与题库的使用范围直接相关。但基本而言，题库内包含的试题越多越好。在这个基本原则上，还应该考虑所加入题库的试题是否具有内容效度和应达到的统计质量标准，同时兼顾考虑测验的目的。Prosser（1974）建议每个概念至少要包含10道试题，每一单元课程内容至少要包含50道题目[5]。Reckase（1981）则建议一百个至二百个难度均匀分布，且具有合理鉴别度的试题，便可适用在计算机自适应考试中[6]。美国各考试机构题库的试题储量与单次考试所需试题数量的倍数并不相同。有的考试为了使试题更加安全，要求题库试题储量至少达到15倍量的试题；而有的则只要求达到6倍量的试题。

尽管说法和做法不一，也没有一个绝对化的数量指标作为题量的标准，但每一个题库的构建都必须确定一定的题量标准。在制定具体目标时，要有对考试政策的前瞻性，既要最大限度地满足需求，又要减少浪费。如在学科体系中，重点内容的试题要多，非重点内容的试题要有；在学科内容的调整、过渡中，核心内容的试题要多，边缘内容的试题要有，以增强题库的适应性。

3.2 题库的题目是否必须经过试测与校准

试测与校准的问题实质涉及两个方面：一是是否需要试测和校准，二是如何试测和校准。尽管在建设题库时一般都强调只有经过试测和校准的题目才能进入题库，然而在题库构建理论中也存在认为不需要试测和校准的观点。反对试测和校准的研究者认为，通常试测群体的动机很难与正式考试状态一致，更为重要的是，用于校准的统计手段的假设常常不成立，校准的准确性就值得怀疑。如项目反应理论的单维性假设、局部独立性假设等在实践中很难满足，因而校准的方法首先就值得怀疑。总的来说，如果题目的统计学参数在组成试卷时非常重要，题库中的题目显然需要经过试测和校准。如果题目的统计量信息在组卷过程中只是一个参考，则试测与校准的意义不大。如果是为了提高考试的质量和满足评价的需要，可以仅对部分试题（锚题库）进行试测和校准。另外，考试形式也决定了试测与校准的需求，如支持计算机自适应考试的题库，则必须经过试测和校准。

在我国，由于试测和校准工作对于人力、物力、技术力量特别是保密条件的苛刻要求，能够实现严格意义上的考前试测与校准的考试并不多，目前国内绝大多数大规模高利害考试的难度控制仍主要依赖于命题者的经验。

3.3 选择哪种测量模型

经典测量理论（CTT）模型操作简单、容易理解，但存在样本依赖等不足。项目反应理论（IRT）模型的最大优点在于其具有参数（包括项目参数和能力参数）估计不变性的特点。就题库而言，由于项目反应理论中项目参数的不变性，当存在大的被试总体时，项目参数估计是独立于标准化过程中所使用的特定被试组的；当存在测量相同特质的题库时，被试特质发展水平的估计独立于所施测的试题组，并且能提供表明估计每个被试能力水平精确性的统计量，即项目信息函数和测验信息函数。根据项目反应数学模型所提供的参数，我们既可以对项目质量做出评价，按需要高质量选取测验项目，同时也可预言被试个体在某一项目上的反应及估计出被试个体的能力参数[7]。从理论上说，项目反应理论有效地解决了经典测验理论无法建立的被试得分与测验项目参数之间的函数关系问题。另外，为使参加不同考次的考生成绩具可比性，有时需要对不同考次间的考生成绩进行等值处理。基于CTT的等值方法只能实现不同试卷之间的等值，可用于建设“试卷库”，而基于IRT的等值方法可以更好地满足大规模“题库”建设的需要。

尽管项目反应理论优势明显，但也存在前面提到的模型假设是否在实践中都能满足，以及会大幅提高建库成本等问题。因此，构建题库过程中应采用何种测量模型也没有定论，一方面要根据题库目标的需要，另一方面要根据测量模型的操作性条件。以美国三大考试机构为例，ETS题库主要使用的是项目反应理论的三参数逻辑斯蒂模型，试题在入库之前要经过试测、等值、分析适宜性、项目功能差异等大量的工作。ACT公司的题库根据不同项目采用了不同的理论模型，ACT考试（美国大学考试）使用的是经典测量理论模型，工商管理硕士入学考试（GMAT）使用的是Rasch模型。培生（PEM）主要是从各州客户的不同要求出发，有的使用项目反应理论三参数逻辑斯蒂模型，有的项目使用Rasch模型。

3.4 题库是否安全

题库的建立，能最大限度稀释泄密的风险，能应对突发事件，及时提供所需的试卷。从这层意义上来说，题库使考试更加安全。但是，就题库本身的安全性来说，至少有三种威胁题库安全的因素：一是偷窃，以出售盈利或自己备考为目的盗取题库中的试题；二是丢失，失误操作，或是难以预料的灾害都有可能造成试题、试卷甚至整个题库的丢失；三是曝光，考试过程中，试题的重复使用使得题库中有些试题被潜在考生群体记住和窃取。鉴于题库的建立使得安全保密工作由阶段性向长期性转变，一是要对题库服务器的管理和数据备份必须做到万无一失，否则一失万无；二是要经常更新题库的内容，提高试题的数量和质量；三是要慎重考虑题库试题的重复使用，特别是高利害考试，试题的重复使用毫无疑问会妨碍试题的安全性。

3.5 题库是否省钱

在美国，对于没有太多要求的认证或资格考试的题库，试题的平均成本是300美元。需要进行试测和校准以获得统计学指标的题库，可能试题的开发成本要达到1000美元甚至更多[8]。以GMAT考试为例，其近几年推出的新题型试题的平均成本已经达到2000美元。加上题库中不可避免会有一定比率的试题沉淀。因此题库建设并不省钱。我们在国家教育统一考试的题库建设上不同考试项目试题的平均成本在600～2700元。

4 关于题库建设的几点建议

根据考试中心的实践经验，在题库建设过程中应注意以下几个问题：

4.1 要有工作标准

题库建设首先要有工作标准，就是关于题库建设过程中实践方面的技术说明和行为规范。必须要有一套科学、实用的日常命题工作机制，并通过程序、环节和标准来规范命题、规范考试，使命题流程更加标准化、质量标准更加明确。同时，还应该有题库管理标准、题库用人标准，以及题库监督检查标准等。

4.2 要有专业队伍

建题库，需要学科专家、命题专家、审题专家、教育测量学专家、计算机专业人员等通力合作、协同攻关才能完成。题库建设的瓶颈是试题来源，必须扩大命题队伍，加强对命题队伍的培训，开拓命题思路，确保征题机制的安全、有效和可持续性发展，才能确保高质量的试题源源不断。

4.3 要数量充裕，更要结构合理

题库试题不仅要在总量上合理，还要在内容覆盖、能力层次、难度水平、题型设置等各个维度上分布合理，特别是要保证不同维度在“交叉点”上都有足够数量的试题。否则，不仅会严重影响组卷的质量，也会同时造成大量试题的沉积和浪费。

4.4 要做好动态维护

题库建设不是一劳永逸的。题库具有动态性，必须要“有知识的人”来维护题库[9]。要经常检查试题的思想性、科学性，要根据学科本身的发展调整增删试题，要及时修订试题参数等。特别是人文学科题库建设，不仅要加强动态维护，而且一开始就要精心规划、周密设计，注意入库试题在内容上的时效性，并尽量在“保质期”内使用。

4.5 计算机题库系统要有前瞻性

题库建设的一个重要环节就是软件系统开发，它是题库建设的基础工程。计算机题库系统的设计要有前瞻性和预见性，要处理好学科单一性和通用性的关系。另外，系统开发的技术标准应符合QTI标准。同时，要有配套的征题系统和命题工作管理平台，才能真正实现命题的信息化、现代化和无纸化。

对我国考试机构而言，题库建设是考试命题工作由传统方式向现代方式的转型，是专业化考试机构的核心竞争力，既是一项复杂的系统工程，又是一项长期的基础性工作。题库建设的成熟程度和使用成效一定程度上决定了一个考试机构的专业化、职业化程度。经过多年努力，教育部考试中心负责建设的教育考试国家题库虽然已初具规模，但新形势下对题库建设提出了更高的要求，因此还需要进一步夯实基础。我们将按照《国家中长期教育改革和发展规划纲要（2010—2020年）》有关“完善国家考试科目试题库，保证国家考试的科学性、导向性和规范性”的要求，不断巩固和深化题库建设，以期为我国教育考试改革做出更大的贡献。

[1]Choppin,B.H.Item banking development.In D.N.M.DeGruiter,&van der L.J.T.Kmap,(Eds.),Advances in Psychometrics and Educa⁃tional Measurement[M].London:Wiely，1976.

[2]Hiscox,M.D.Computer-based testing systems:Much ado about nothing[J].Educational Measurement:Issues and Practice,1985.4,27-28.

[3]IMS Global Learning Consortium,Inc.IMS question&test interop⁃erability:ASI information model specification(Final specification version 1.2).Burlington,MA:Author，2002.Retrieved July 30,2005 from http://www.imsglobal.org/question/qtivlp2/imsqti_asi_infovlp2.html.

[4]Hambleton,R.K.,&Swaminathan,H.Item response theory:Princi⁃ples and applications[M].Boston:Kluwer，1985.

[5]Prosser,F.Item banking.In G.Lippey(Ed.),Computer-assisted test construction[M].Englewood Cliffs,NJ:Educational Technology.1974:29-66.

[6]Reckase,M.D.Tailored testing,measurement problems and latent trait theory.Paper presented at the annual meeting of the National Council for Measurement in Education,Los Angeles,1981.

[7]孙晓敏，关丹丹.经典测量理论与项目反应理论的比较研究[J].中国考试，2009（9）：10-17.

[8]Vale,C.D.Linking item parameters onto a common scale[J].Ap⁃plied Psychological Measurement,1986（10）：333-344.

[9]李光明.如何做好题库建设——来自英美考试机构的启示[J].中国考试，2011（12）：3-8.

（责任编辑周黎明）

Discussions on Some Questions of Computerized Item Banking

LI Guangming and GUAN Dandan

Computerized item banking has emerged as an essential activity in the development of educational examinations from tradition to modern,which is the inevitable choice of examination authority.This paper discusses our understanding and thoughts about frequently asked questions of item banking according to the experience of NEEA.We give some suggestions as well.NEEA will try our best to make the item bank as perfect and effective as possible.

Item Bank;Item Banking Constructions;Thoughts on Questions

G405

1005-8427(2014)09-0003-6

本文系全国教育科学规划教育部重点课题“教育考试国家题库的研究与应用”（GFA097013）系列成果之一。

李光明，男，教育部考试中心，副研究员（北京 100084）

关丹丹，女，教育部考试中心，助理研究员（北京 100084）