创建用于心理咨询师职业资格考试培训的计算机自适应测试

2012-11-08陈哲娟王树峰陈声宇

中国考试 2012年12期

张宏陈哲娟王树峰陈声宇戴敏马媛

我国心理疾患防治队伍包括从事心理疾患预防、咨询和治疗的三类人群。其中，心理咨询师是指运用心理学以及相关学科的专业知识，遵循心理学原则，通过心理咨询的技术与方法，帮助求助者解除心理问题的专业人员。从2002年起，国家开始组织心理咨询师职业资格考试，相应的心理咨询师培训也多以此考试作为内容参照。在传统的培训领域中，对培训效果的检验一般采用纸笔测验，也有一些将纸笔测验计算机化的测试（Computer Based Test，CBT）。而以现代测量理论IRT为基础的计算机自适应测验（Computer Adaptive Test，CAT）鲜见运用。当前，计算机自适应测验以其能够为受测者提供更为个性化、快捷和便利的服务，已经成为评价领域发展的重要方向。在培训领域中，使用计算机自适应测验则具有更为独特的优越性。本文拟介绍在心理咨询师考试培训中如何创建和使用计算机自适应测验，并进一步探讨在培训领域中广泛使用计算机自适应测验的可能性。

1 基于胜任力的题库建设

构建心理咨询师职业资格考试的题库是实现计算机自适应测试的基础。

首先，题库构建基于胜任力理论。根据张爱莲等对心理咨询师岗位胜任力的综述，题库首先区分了不同层级的胜任力维度，对顶层胜任力维度的要求属于宏观层面的要求，包括了心理咨询师岗位需要具备的综合素质。其中，对知识结构的要求则属于微观层面的要求，以专业知识大纲为蓝图，描述了每类知识点下包含的能力要求。宏观维度与微观维度的结合，构成了心理咨询师考试培训题库的结构框架。在此，最小的胜任力特征被认为代表了某种潜在能力（latent trait）。

其次，题库构建还基于项目反应理论。在每一个潜在能力的子库中，根据双参数模型（2PL），根据大样本量计算了题目鉴别率参数α和题目难度参数β，为实现计算机自适应测试提供了基础保证。

从题库规模上看，目前尚未有明确的研究指出多大的题库容量可以使得计算机自适应测验达到最优化。但题库的规模越大，运行计算机自适应测验的效果也会越好。心理咨询师考试培训的题库包含了以往心理咨询师职业资格考试的真题及培训模拟用题，题库总规模达到7000道以上，完全能够满足计算机自适应测试的题目数量需求（见图1）。

另一个评价题库质量的指标是题库中题目的各项参数分布。一个平衡的题库应该包含各种难度和区分度等参数值的题目。以题目难度为例，难度值高的题目能够对能力水平高的受测者进行准确估计，而难度值低的题目能够提供针对能力水平低的受测者的最大信息量。如果题库包含了太多过难或过易的题目，则会对受测者的能力估计造成偏差。心理咨询师考试培训题库中的试题具有较为平衡的难度值分布（见图2）。

图1 题库与自适应测验

图2 心理咨询师考试培训题库难度值分布

2 计算机自适应测验

图3 计算机自适应测验流程

计算机自适应测验是针对能力不同的个体，从题库中选择能够为该个体带来最大化信息量评估的题目，并准确估计受测者能力水平的测试过程。计算机自适应测验的施测过程（见图3）既是挑选题目的过程，也是能力估计的过程。它主要包括三个阶段：

2.1 测试的初始化

在初始化计算机自适应测试时，一般选择具有最大信息量的题目作为开始。通常在单参数rasch模型下会选择难度接近0的题目。由于接受测验的群体基准能力不同，如果已经获得了相关受测者能力水平的信息，在心理咨询师考试培训自适应测试系统中允许管理员调整初始题目的参数，以最好的匹配和预估受测者的实际能力水平。

2.2 测试过程

测试过程中第一个核心的环节是对受测者能力的估计。一般可以选用的能力估计方法有贝叶斯能力估计和最大似然能力估计。由于最大似然估计在初始阶段可能会导致无效解，所以可以结合使用贝叶斯方法和最大似然法估计能力。贝叶斯方法可以在一开始用先验分布避免无效解，当至少有一个成功和一个失败的反应模式后，再运用最大似然法，以发挥最大似然估计不依赖任何先验分布的优势。

如何挑选下一道题目是测试过程的第二个核心环节。许多研究已经提出了题目筛选的不同方法（见表1）。

其中，最普遍使用的是最大信息量标准（MFI）。运用这种标准选择题目，如果已经事先计算好信息量矩阵，则挑选题目的速度会非常快。但它也有一个缺点，就是MFI方法依赖之前的能力估计值，这可能造成当前能力估计的偏差，这一点在长度较短的计算机自适应测验中表现的较为显著。在心理咨询师考试培训的计算机自适应测试中，使用的选题策略就是最大信息量标准。因为在该测试中，一个胜任力维度模块的测评一般包含15道以上的题目，所以可以有效避免MFI方法自身的局限性。如果测验运用的IRT模型比较简单，那么挑选下一道题目的计算过程也会变得比较简洁。例如，在单参数rasch模型中，题目难度是选择下一道题目的唯一影响因素。所以，在平衡测量精度等影响因素的基础上，心理咨询师考试培训的计算机自适应测试尽量使用较为简洁的IRT模型作为后台算法支持。

2.3 结束测验

在心理咨询师考试培训计算机自适应测试设置了三条标准控制在何时结束测验。

首先是长度标准。每个模块都设置了测验长度标准，长度分为试题长度和作答时间长度两项。因为受测者参加测验的目的是评估培训过程中自身在心理咨询师岗位上各项胜任能力的增长情况，测验不宜过长，特别是不能超过实际心理咨询师职业资格考试中的长度，不然会使受测者失去耐心。同时，作答时间过长超出系统设置的阈值，测验也会自动终止。

其次是精度标准。在长度标准的范围内，如果能力估计值稳定在预先设置的精度控制范围内，测验也会终止。此时，受测者可以使用较短的时间较为准确的评估自身的能力水平。测验的精度是采用标准误衡量的，越小的标准误代表精度越高。在测验管理平台中，精度是一个可以设定的参数。

最后是分类标准。这条标准的设置是对某个胜任力模块的评价分为通过和不通过两类，只用于简单判断受测者是否达到了此胜任力模块评价的最低合格线。这个分类可以用在培训最初筛查最需要补充的胜任力项目，使培训做到有的放矢。

表1 CAT中挑选下一道题目的方法

3 功能与特点

将计算机自适应测试运用于培训是评价领域的一次全新尝试。在接受培训的情境下，受测者参加评价的目的是了解自身真实的能力水平，而不是寻求通过测评或得到较高的分数。因此，心理咨询师考试培训的计算机自适应测试系统，兼具测评定位和认知诊断两种功能，其评价结果将直接服务于加强目标人群的能力建设。

测评定位功能。这是任何一个测验必须具备的基本功能。相比较于传统的纸笔测验，计算机自适应测验在适当减少考生作答试题的数量的同时，还能够有效提高测量精度。

认知诊断功能。计算机自适应测验应用于培训还兼具认知诊断功能。计算机自适应测验可以为受测者提供个性化服务，根据不同受测者的能力水平，选择代表信息量最大的题目，最大限度地估计其能力水平。而且计算机自适应测验还增加评价的灵活性，可以在培训的任何时刻选择参加测评，以了解当时的能力状态。而且其计分与分数报告都具有即时性。

此外，心理咨询师考试培训题库一个最大的特点是基于岗位胜任力的测评模式。举办心理咨询师职业资格考试的目的是为了检验参考者是否具备心理咨询师的基本能力。而在评估培训效果时，所涉及的能力不仅限于考试大纲的要求，而是对心理咨询师岗位胜任力的综合评估。甚至在一些胜任力维度上还超出了当前职业资格考试能够考察的范围。例如，心理咨询师要求具备一些特定的心理素质，这是通常的知识技能测验所不能覆盖的，但计算机自适应测试已经在心理测量，特别是性格测量方面做了大量实践工作。这也为将来实用型资格考试的改革提供了评价技术方面的准备。

4 结语

将计算机自适应测试运用于心理咨询师考试培训领域是一次全新的尝试。计算机自适应测验具有明显优于传统纸笔测验的特点，且运用在培训活动中，能够较快的定位学员的能力水平，不需要过度考虑题目曝光和测量精度的问题。同时，根据胜任力模型创设的自适应测试还具有认知诊断功能，可以较好的定位学员能力的欠缺方面，为进一步加强针对性的学习提供测试反馈。因此，在未来更为广泛的培训领域使用计算机自适应测评技术值得期待。