情境判断测验的信度与效度研究：以我国公务员内隐知识测验为例

2016-06-05仲志杰

管理工程学报 2016年4期

程颖，仲志杰，冯明

程颖1，仲志杰2，冯明1

（1. 重庆大学经济与工商管理学院，重庆400044； 2. 重庆市轨道交通集团，重庆400042）

作为一种有效的人事选拔评价方法，情境判断测试一直受到研究者和企事业单位的广泛关注。但由于受到目前情境判断测试的信度和效度研究有限、国内公开发表的数据少等的制约，该测试的有效运用受到了一定影响。本文通过《我国公务员内隐知识情境判断测验》量表对151名在岗公务员和61名在读本科生施测，检验了情境判断测验量表的信度和效度及其部分影响因素，丰富了相关研究的实证证据，能更好地帮助理解SJT的价值及其在中国情境中的运用规范。研究结果表明公务员内隐知识情境判断测验量表具有较好的构思效度，能够测到公务员认知能力和工作经验；量表也具有较好的效标关联效度，能够预测与公务员工作相关的指标。通过对不同赋分方式下情境判断测验效度以及不同性别的被测对象的量表得分进行比较，我们发现赋分方式是公务员情境判断测验效度的影响因素之一，性别因素对公务员内隐知识情境判断测验效度没有显著影响。

情境判断测验；信度；效度；公务员；内隐知识

0 引言

各种人事测评技术在企事业单位已得到了广泛的应用[1]～[3]。情境判断测验（Situational Judgment Tests，简称SJT）是人力资源评价中的重要技术，它通过模拟实际工作中的具体情境，考察个人与工作直接相关的能力与技术[4]，通常被认为具有自身的独特性，能测到其他测评方式或指标无法测到的、与个体绩效相关的独特因素[5]。典型的SJT会呈现给被试者在工作中可能遇到的各种情境，这些情境通常来自关键性事件或工作分析，以及伴随各种情境的各种可能的处理方法或反应方式；被试者通常会被以迫选或Likert方式对各种可能的行动方式作出判断；然后，评测人员把被试者的选择与参考答案对比进行评分。在国外的人事选拔中，对SJT的开发和应用已有较长的历史。1926年华盛顿大学制定了社会智力测验判断量表[5]，但在当时没有引起广泛的注意，直到20世纪90年代，Sternberg[6]与Motowidlo[7]等人经过研究发现，SJT是测量个体“胜任力”的良好工具，从而引起人们对SJT的广泛关注，此后有关SJT的研究蓬勃发展。学者们普遍认为，与其他测评技术相比，SJT具有高表面效度、高保真度、能够同时考察多种能力结构等优势[4]，[8]，[9]，因此自从被引进到国内以来，SJT一直受到研究者和企事业单位的广泛关注。

目前国内企事业单位对情境判断测试的有效运用受到了两个主要因素的制约。一是SJT的信度和效度究竟如何，即通过测验是否及在多大程度上能预测与工作相关的指标。从理论上讲，具备良好的信度和效度是一个有效的测评工具的必备条件[10]，因而过去二十年以来，相关研究主要围绕SJT的信度和效度来展开。早期的经典研究对SJT的效度进行了探讨，研究结果表明SJT测量了认知能力及不同程度的人格特质，能够用于评估特定的构思和多维构思[5]，[11]～[13]。由于SJT的测评工具数量众多，相关的效度研究也很多， McDaniel和同事们进行了元分析研究[5]，[14]，以确定这些测量工具的效标关联效度；结果发现，SJT的效标关联效度较好，但保真度水平（笔纸形式 vs 音像形式）和题目的语境（知识型 vs 行为型）可能会影响效度，因此研究者认为SJT的保真度和所使用的指导语对测量工具的构想效度和效标关联效度的关系需要做进一步考察，由此引出了当前学者们对SJT信度和效度的影响因素的探讨。总的来说，从已有的研究结果来看，尽管我们对SJT的构思效度和效标关联的了解已经很多，但这仅仅是一个开始；我们还需要进一步了解SJT的特征，以及这些特征对其效度的影响，此外，目前研究还缺乏一个有效的理论框架对SJT信度与效度及其影响因素进行整合[4]。

另一个制约是现有的SJT的实证研究文献基本上是美国学者发表的，已积累的大量的信度与效度和效标关联效度的证据也基本是在美国文化背景下进行的，国内SJT的研究起步较晚，公开发表的SJT的数据少[15]，[16]。从理论上讲，由于国内SJT相关实证研究少，我们对SJT是否会受文化或种族团队等情境因素影响仍存在疑问[17]，[18]，使得我国企事业单位在选用SJT进行人才测评时缺乏有力的理论依据。

本文在开发公务员内隐知识情境判断测验量表的基础上，对SJT的信度和效度进行了实证研究，并分析了包括赋分方式、被测对象特征等前因因素对SJT信度和效度的影响。在理论上，通过开发《我国公务员内隐知识情境判断测验》并进行实证研究，检验SJT的信度和效度及其影响因素，丰富了目前国内外相关研究的实证证据；另一方面，将SJT扩展到对我国公务员内隐知识的研究，搜集中国情境下的实证研究数据，可以更好地帮助理解SJT的价值及其在中国情境中的运用规范。在实践上，截至2012年底，我国有708.9万名公务员①，这支庞大的公务员队伍承担着国家行政管理职能；借助开发和测试我国公务员情境判断测验工具及对其进行信度和效度的验证，本文希望能为有效识别和甄选公务员人才寻找合适的工具，并为类似的其他人才选拔活动提供可借鉴的依据。

1 研究综述及理论发展

1.1 SJT信度的相关研究

SJT的信度是研究者讨论比较多的一个主题。McDaniel等人的元分析研究发现SJT的内部一致性系数在0.43和0.94之间[5]。有研究验证了一些SJT中影响内部一致性的中介变量，例如，Ployhart和Ehrhart的研究发现SJT的测评方式影响其内部一致性系数：测验要求被试者评价每个选项的有效性，其内部一致性系数为0.73；要求被试者选择“最好”和“最坏”，其内部一致性系数为0.60；要求被试者只选择一个反应项（如最有效）时的内部一致性系数最低，为0.24[19]。Motowidlo等人的研究发现，SJT的内部一致性系数为0.56；但他们指出，由于SJT测量的并非是一个特定的构思，所以内部一致性系数不是特别适合于该测验的信度评估，而重测信度更能有效评估SJT的真实的信度水平[7]；然而在他们的研究中，作者并没有对SJT的重测信度进行检验，此后对SJT的重测信度进行检验的研究也比较少。近期，在Weekley及其同事的研究中，SJT的重测信度为0.84，这为SJT的信度提供了有力的支持[20]。Lievens和Sackett也认为，重测信息更适合作为SJT的信度评价方法，其原因是再次参加测验的被试者样本具有更高的相似度，重测时可以排除一些因素的影响，从而得到更可靠的估计[21]。

1.2 SJT效度的相关研究及研究假设

1.2.1 构思效度研究

从经济效用来讲，SJT具有较高的开发和使用成本，与其他一些测评方式相比较并不具备成本优势[4]，那么SJT的独特性和价值到底体现在哪里？要回答这个问题，就必须要进一步探讨其构思效度。和评价中心一样,在SJT的应用之初,人们并不十分重视其构思效度,随着测验的不断发展,无论是应用界还是理论界,人们越来越强烈地意识到必须要澄清SJT测量的典型构想[22]。目前的研究对SJT的构思效度还在探索的过程中，主要的分析可以分为两个流派：一是认为SJT能测得到一个独特的构思，研究重点在探讨SJT的测验内容，相关研究开发了一些专门测量特定构思的测验。例如，Becker开发了测量员工正直度的SJT[23]；Ascalon等开发了测量同情心和种族优越感的SJT[24]；Mumford等开发了测量团队合作的SJT[25]。基于这些研究成果，本研究开发了《我国公务员内隐知识情境判断测验》，以测验我国公务员的内隐知识。另一些研究则认为SJT能够测到多维构思，包括一般认知能力、工作经验和人格等[26]，通过讨论SJT测验分数和认知、人格之间的相关性来探讨SJT的测量构想。目前大多数研究遵循了这样的研究思路。比如，Weekley和Jone的大样本研究结果显示，SJT与一般认知能力的平均相关系数为0.45[18]。Sternberg通过研究发现，工作经验丰富的被试者与欠缺或没有工作经验的被试者相比，前者在SJT中的得分更高，说明SJT的得分与被试者的实际工作经验存在一定的关系[27]。Weekley和Jone也发现SJT与实际工作经验显著相关，平均相关系数为0.21[18]。McDaniel等通过三个元分析[5],[11],[28]对SJT的效度证据进行了总结，发现SJT与一般认知能力的相关关系数为0.53[5]，行为导向的SJT显示出于人格测试之间更高的相关性[11]等。在这些研究成果的基础上，本文提出被试公务员的工作经验、认知能力等个体特征与其SJT测试分数之间存在一定相关关系，即：

假设1：公务员个体的认知能力影响其内隐知识情境判断测试分数，认知能力水平较高的被试者的测验得分高于认知能力水平较低的被试者。

假设2：公务员个体的工作经验影响其内隐知识情境判断测试分数，具备一定工作经验的被试者的测验得分高于缺乏工作经验的被试者。

1.2.2 效标关联效度研究

测验的效标关联效度是指通过该选拔过程是否能够很好地预测工作相关的指标[4]。以往大量的研究对SJT的效标关联效度进行了探讨，结果发现SJT具有很好的效标关联效度，可以较好地预测个体现在和将来的绩效表现。例如，McDaniel等在95个研究的基础上对SJT的效标关联效度进行元分析发现，SJT得分与工作绩效之间存在0.34的相关度[5]；基于118个研究的数据，McDaniel等再次对SJT的效标关联效度进行了元分析，结果显示在不考虑指导语类型的前提下，SJT的效标关联效度达到0.26[11]。Sternberg等在其对内隐知识的研究中发现，SJT得分与多项效标的相关度在0.20到0.40之间[27]。另外还有一些学者基于将工作绩效细分为任务绩效、关系绩效和管理绩效的基础上对SJT的效标关联效度进行了研究。如O’Connell等研究了SJT与任务绩效和关系绩效之间的关系，结果显示SJT与任务绩效存在0.14的相关，与关系绩效存在0.10的相关[13]。Christian等将工作绩效分为任务绩效、关系绩效和管理绩效，进而对SJT的效标关联效度进行元分析，结果表明，测量团队工作技能、领导力、人际交往技能、责任心、工作知识和技能时的效标关联效度在0.19到0.38之间，SJT整体的效标关联效度是0.28[22]。在这些已有研究结果的基础上，我们提出：

假设3：公务员内隐知识情境判断测验的得分与其工作绩效之间存在正相关关系。

1.2.3 SJT效度的影响因素研究

在有关SJT的研究中，被试者的得分有几种不同的赋分方式。比较常见的赋分方式包括以下两种[9]：

赋分方式一：将被试者选出的每个情境题目下的“最优选项”和“最差选项”与专家的行为有效性排序结果作比较，如果被试者将“最优”的反应项目选为“最优选项”，或将“最差”的反应项目选为“最差选项”，计为“1”分；如果被试者将“最优”的反应项目选为“最差选项”，或将“最差”的反应项目选为“最优选项”，计为“-1”分。每个情境题目下“最优选项”和“最差选项”的得分之和，构成每个情境题目的得分。因此，每个情境题目的得分区间为[-2,2]。

赋分方式二：按照专家评出的行为有效性排序对每个反应项目赋分，排在“最优”位置的反应项目计为“4”分，“次优”位置上的反应项目计为“3”分，以此类推，排在“最差”位置上的反应项目计为“0”分。每个情境题目的得分是被试者选出的“最优选项”和“最差选项”对应项目的分值之差，每个题目的得分区间是[-4，4]。如果被试者的选择结果与专家的结果一致，则获得最大的正分数值；如果被试者的选择结果与专家的结果相反时，则获得绝对值最大的负分数值。每个情境题目的得分随被试者选择结果与专家评价结果之间的差异大小而变化，差异越大，分值越低。

有学者提出不同的赋分方式会产生不同的结果，基于主观的差异加权能够使得合成测验结果更精确、可靠和富有意义[29]。为了检验赋分方式对SJT效度的影响，我们提出以下假设：

假设4：赋分方式会对公务员内隐知识情境判断测验的效度产生显著影响。具体来说，由于在信息利用上存在不同，在测试中赋分方式二优于赋分方式一。

以往的研究结果表明，人力资源选择程序通常会表现出性别差异[30],[31]。因此，SJT量表得分是否存在性别差异也是我们关心的问题，如果SJT测验的得分在性别上存在差异，那么量表的常模需要根据性别不同来确定。为了弄清这个问题，我们提出：

假设5：公务员内隐知识情境判断测验的得分在性别上存在显著差异。

2 研究过程

2.1 公务员内隐知识情境判断测验量表的开发过程简介

我们通过5个主要步骤完成了SJT量表的开发工作：第一，确定量表开发思路：我们选择逻辑性模式[32]，在开发程序的开始环节首先明确测量构思；在前期的工作中，我们开发了我国公务员内隐知识模型[33]，利用重庆、四川、贵州、新疆、山东、浙江、辽宁等地区580份公务员样本，对该理论模型进行了信度、效度和绩效结构方程模型的分析，据此确定道德修养、见得思义、服务群众、影响他人、公正用权、处理公务、留意细节等公务员内隐知识的七个维度，并以此为基础开发《我国公务员内内隐知识情境判断测验》，作为一个能有效评价内隐知识的测评工具。第二，开发测验题干即情境案例：主要通过查阅大量的有关我国公务员的书籍和影像资料，以及对在岗的公务员进行访谈，来获取与公务员内隐知识维度相匹配的关键事件，再通过专家评价法对关键事件进行了细致的筛选，保留具有较高内容效度的关键事件，最后保留了28个情境案例题目。第三，开发测验题项即情境反应项目：一是保留了在关键事件收集阶段中获取的解决方案，二是通过发放问卷的方式进行了更大范围的收集；然后采用专家评定法对反应项目的内容效度进行了分析，最后每个情境题目下保留了5个反应项目。第四，确定SJT计分方式：我们采用了演绎法，通过职务专家的评定确定了每个情境题目下反应项目有效性的排序，在正式测验中以此排序为答案标准。第五，选择SJT赋分方式：通过对不同赋分方式下效标关联效度的比较，本研究确定了本量表采用两端赋权方式（赋分方式一），即根据专家的行为有效性排序结果，对被试者选出的每个情境题目下的“最优选项”和“最差选项”赋分：如果被试者将“最优”的反应项目选为“最优选项”，或将“最差”的反应项目选为“最差选项”，计为“1”分；如果被试者将“最优”的反应项目选为“最差选项”，或将“最差”的反应项目选为“最优选项”，计为“-1”分。每个情境题目下“最优选项”和“最差选项”的得分之和，构成每个情境题目的得分。因此，每个情境题目的得分区间为[-2,2]。

下面是测试公务员内隐知识中“影响他人”维度的一道SJT题目：

市里正在做旅游发展规划，落实具体任务时要求每个乡镇必须发展至少一个旅游项目，但你所在的乡镇根本就没有什么好的旅游项目。你作为乡镇一把手，如果如实向上级报告此情况，可能会给上级留下不好的印象，会让领导觉得你完不成任务，办事不力；但如果勉强去人工开发一些景点的话，如果失败了不但完成不了任务，还劳民伤财，得不偿失。这时你会怎么办？

解决方案：

①虽然客观上完成任务有困难，但还是严格执行上级领导下达的任务，宁愿多投入一点也要争取做出一个好的旅游项目。

②按照上级领导要求去发展一个旅游项目。但由于客观条件的限制，很难做出好的项目，所以尽量少投入，完成上级任务即可。

③口头上跟领导解释说服力不够，所以先接下任务，而后再找机会带上级领导考察本乡镇实际情况，想办法让领导意识到在本乡镇发展旅游项目不现实，然后请领导指示是否继续按规定开发旅游项目。

④如实向上级领导汇报本乡镇的实际情况和困难，实在给领导留下不好印象也没有办法，申请不开发旅游项目，节省资金投资其他更适合本乡镇的项目。

⑤不口头解释，而是找机会带领导实地参观考察，参观同时如实向领导汇报本乡镇的实际情况，请领导给予指导，适时提出结合本乡镇实际情况发展其他项目的建议。

2.2 研究样本及数据采集

2011年5月，利用我们开发的《情境案例解决方案评估问卷》，通过我国西部某重点高校承办的行政系统领导干部和业务骨干能力提升系统培训项目，我们对重庆和四川等地的部分在岗公务员进行了测试，收集到了来自重庆市、四川省的某些政府部门的工作人员的样本数据，总计151人，是为样本一，其基本情况见表1。此外，我们还利用同样的问卷对来自西部某重点大学经济与企业管理类专业四年级的本科生进行了测试，获得样本数61人，是为样本二，作为验证假设2的对比样本，其中包含女性29人（占比47.5%），男性32人（占比52.4%），

表 1 有效被试者（样本一）基本信息表

2.3 数据处理

数据处理和分析主要采用SPSS17.0以及Amos 17.0统计软件，对数据进行描述性统计分析、方差分析、验证性因素分析等。

3 数据分析与结果

3.1 信度研究

我们采用Cronbach α即内部一致性系数[19]对总量表及各分量表测验结果的可靠性进行分析。结果显示总量表的内部一致性系数为0.76，各分量表的内部一致性系数分别为0.71、0.64、0.62、0.75、0.66、0.73、0.69。虽然总量表的内部一致性系数达到了0.76，但7个子量表的内部一致性系数比较低，从总体上看，测验结果在内部一致性方面不是很理想。

3.2 构思效度研究

我们将学历作为认知能力水平的效标，对不同学历水平的被试者的测验得分进行了比较研究。为了减少非学历因素对测验得分的影响，我们随机抽取了样本一中基本情况类似的两组不同学历的被试者，通过卡方检验发现两组被试的年龄、工龄以及性别均无显著性差异，两组被试者的基本信息如表2。在对非学历因素进行一定控制之后，我们将随机抽取的被试按照学历水平分为高学历组和低学历组，并对两组被试者测验得分进行检验，检验结果见表3。从表3可以看出，高学历组在七个子量表及总量表的得分均值均高于低学历组；在“服务群众”（= 2.816,＜0.01）、“留意细节”（= 2.751,＜0.01）等子量表以及总量表（= 2.780,＜0.01）得分上，两组被试者的得分差异达到了显著性水平。

表2 高学历组和低学历组被试者基本信息表

表3 不同学历水平的被试者在《我国公务员内隐知识情境判断测验》量表上的得分比较

**：p＜0.01

为了验证个体工作经验对SJT得分的影响，我们分别随机抽选了具有一定工作经验、但不具备管理经验的一般公务员，和完全不具备工作经验的本科生组成两组被试者，并对这两组被试者的测验得分进行了检验。被试者的基本信息见表4，两组被试者测验得分的检验结果见表5。从表5的结果可以看出，具有工作经验的一般公务员在七个子量表及总量表的得分均值均高于本科生；在“服务群众”（= 2.154,＜0.01）、“见得思义”（= 4.306,＜0.05）等子量表以及总量表（= 3.883,＜0.01）得分上，两组被试者的差异达到了显著性水平。

表4 本科生组和一般公务员组被试者基本信息

表5 一般公务员与本科生在《我国公务员内隐知识情境判断测验》量表上的得分比较

**：p＜0.01，*：p＜0.05

3.3 效标关联效度研究

我们从样本一中随机抽选了135名被试者（基本信息表见表6），取“上一年度绩效考核等级”作为效标，依据上一年度考核等级，将被试者分为高绩效组（绩效等级为“优秀”）和一般绩效组（绩效等级为“称职”和“基本称职”），并对不同绩效水平的被试者的SJT成绩进行检验。从表7中的结果可以看出，上一年度工作绩效水平较高的高绩效组在7个子量表及总量表的得分均高于绩效一般组，在“公正用权”（= 2.042,＜0.05）、“影响他人”（= 2.022,＜0.05）等子量表以及总量表（= 2.496,＜0.05）的得分上，两组存在显著差异。

表6 被试者基本信息表

表7 高绩效组与一般绩效组在《我国公务员内隐知识情境判断测验》量表上的得分比较

*：p＜0.05

3.4 赋分方式对SJT效度的影响研究

我们使用与效标关联效度研究的同一个样本，分别采取赋分方式一、赋分方式二对每个被试者的作答进行赋分，并对两种赋分方式下得到的SJT成绩进行t检验，检验结果见表8。从检验结果来看，采用赋分方式一时SJT的量表得分显示出更好的效标关联效度，该结果表明赋分方式对SJT的效度存在一定影响。

3.5 性别因素对SJT分数的影响研究

我们对不同性别的被试者的测验得分进行了检验，检验结果见表9。结果表明，男性组和女性组在SJT得分上的差异很小，且各个分量表及总量表的得分差异都未达到显著性水平。

表8 两种赋分方式下高绩效组与一般绩效组的测验得分比较

*：p＜0.05

表9 不同性别被试者在《我国公务员内隐知识情境判断测验》量表上的得分比较

4 讨论与结论

4.1 讨论

本文对研究前期开发的我国公务员内隐知识情境判断测验的量表进行了信度和效度的检验，并分析了包括赋分方式、被测对象特征等前因因素对SJT信度和效度的影响。在理论上，通过搜集中国情境中的实证研究数据，丰富了SJT的研究样本，也为目前对SJT信度和效度及其影响因素的研究提供了佐证。在实践上，本文对SJT信度和效度的研究能有助于更好地理解SJT相对于其他测评方法的价值，为我国企事业单位在选用SJT进行人才时提供了有价值的参考依据；此外，通过公务员内隐知识模型的理论设计和测量量表的开发，本研究为有效识别和甄选公务员人才寻找合适的工具提供了可借鉴的依据。我们获得的有意义的结果和结论主要包括：

我们采用Cronbach α系数对测验量表的信度进行了分析，结果显示虽然总量表的内部一致性系数达到了0.76，但7个子量表的内部一致性系数较低，所以从总体上，测验结果在内部一致性上不是很理想。这可能是因为SJT测量的往往不是一个特定的构思，所以内部一致性系数不是特别适合用于评估其信度水平[7]，[21]；此外，我们认为除了SJT的测量构思的原因之外，SJT本身的特征也是影响其内部一致性的重要因素。虽然构思导向的SJT在测验的一开始就明确了测量构思，在一定程度上可以提高量表的同质性水平，但是由于测验题目是以情境的方式呈现出来，在测验开发以及施测过程中都存在很多主观因素和不确定因素，所以对测验结果信度的要求仍需要有别于一般认知能力等测验形式。

从本文表2和表3的结果来看，我们随机抽取的两组被试者在年龄、工龄及性别比例不存在显著性差异的情况下，具有较高学历水平的被试者的SJT测验成绩高于学历水平较低的被试者，且测验得分存在显著性差异（= 2.780,＜0.01），我们认为假设1得到验证，说明SJT的分数在一定程度上受到个体认知能力的影响。从表5的结果来看，具有工作经验的一般公务员在七个子量表及总量表的得分均值均高于本科生，在“服务群众”（= 2.154,＜0.01）、“见得思义”（= 4.306,＜0.05）等子量表以及总量表（= 3.883,＜0.01）得分上的差异均达到了显著性水平，我们认为，假设2得到验证，SJT成绩受到工作经验的影响，这为工作经验对SJT成绩的影响提供了更多的实证支持。

考虑到被试公务员多为政府机关工作人员，在工作中需要承担对下属行政单位及相关权力管辖范围内的企事业单位进行管理的工作，因此我们对管理经验这一特殊的工作经验是否会对被试者的SJT成绩产生影响进行了探索性研究。我们分别从样本一中抽选了从事领导职务和非领导职务的两组被试者，对其情境判断测验的成绩进行检验。为了减少其他因素对测验成绩的影响，我们对两组被试者的学历水平、年龄、性别和工作经验进行了控制，这两组被试者的学历均为本科，经过卡方检验他们在年龄、性别和工龄均无显著性差异（见表10）。从两组被试者测验成绩的检验结果（见表11）可以看出，具有管理经验的领导组的被试者与非领导组的被试者相比，领导组的被试者在各子量表及总量表的得分虽略高于非领导组被试者，但均不存在显著性差异。

表10 领导组和非领导组被试者基本信息

表11 领导组与非领导组在《我国公务员内隐知识情境判断测验》量表上的得分比较

从此项分析的结果来看，管理经验并不对SJT成绩产生显著影响。鉴于公务员工作性质的特殊性，管理经验对公务员绩效有重要影响，在公务员选拔中往往会强调个体的管理能力和管理经验，本文建议今后的研究工作应收集更多的样本数据，特别是领导岗位的样本数据，验证管理经验对SJT成绩的影响，以进一步确定SJT 是否能测到管理经验及其构思效度。综合上述结果，本文的研究结果支持了以往的研究结论，SJT的得分受到个体的认知能力和工作经验的影响[5] ,[11],[18],[27]，支持了可以通过探讨SJT与一般认知能力、实际工作经验等之间的关系来研究SJT构思效度的研究思路。

为进一步探索公务员内隐知识情境判断测试的构思效度，我们利用结构方程建模软件Amos17.0对《我国公务员内隐知识测试量表》的七维构思进行了验证性因素分析，检测在本研究中SJT是否测到了内隐知识的七个维度。模型拟合度指数见表12。与判断标准[34]相比，在绝对拟合优度指标中，χ在自由度为14的条件下的显著性概率为0.65，大于0.05的水平；的值为0.818，小于2；的值均大于0.9，的值小于0.05，这些结果表明模型的绝对拟合效果符合标准。在增量拟合优度指标中，的值均大于0.9且接近1，表明模型的增量拟合优度指标符合标准。

表12 我国公务员内隐知识结构模型拟合度指数

表12的结果显示，我们的理论模型与实证数据拟合较好，这表明SJT测量到了公务员内隐知识七维构思，能够对“服务群众”、“见得思义”、“处理公务”、“留意细节”、“公正用权”、“影响他人”和“道德修养”七种内隐知识做出较好地评价。该结果有力地支持了以往学者提出的SJT能测验到多维构思的研究假设[26]，对SJT构思效度的研究和量表开发具有一定的理论意义。结合之前的研究结果，本研究进一步认为认知能力和工作经验之所以可以影响SJT的成绩，是因为SJT测到了公务员的内隐知识，而公务员的认知能力和工作经验有助于其内隐知识的积累和提高。

根据以往研究基础，针对SJT的效标关联效度，我们提出了假设3。从表7的结果来看，上一年度工作绩效水平较高的高绩效组在7个子量表及总量表的得分均高于绩效一般组，在“公正用权”（= 2.042,＜0.05）、“影响他人”（= 2.022,＜0.05）等子量表以及总量表（= 2.496,＜0.05）的得分上，两组存在显著差异。该结果验证了我们提出的SJT的得分与工作绩效之间存在密切关系的研究假设。我们的结果也表明《我国公务员内隐知识情境判断测验》具有较好的效标关联效度，能够预测公务员工作绩效。

针对赋分方式对SJT得分的影响，我们提出了假设4。我们分别采用赋分方式一和二对同一组被试者的SJT得分进行计算，并对成绩进行了检验。结果显示，两种赋分方式下SJT的效度不同，该结果为SJT效度的影响因素研究提供了实证支持。但我们的检验结果发现赋分方式一的效度优于赋分方式二的效度。对于这个结果，我们认为原因主要是赋分方式二体现的是等距尺度的思想，等距尺度要求不同项目间的差距是相等的，允许进行加减运算，而SJT情境题目下的反应项目很难达到等距尺度的要求，因此，采用赋分方式二虽然获取了更多的信息，但这些信息并不能真实的反映出被试者的水平。

在年龄、学历、工龄、岗位类别均不存在显著差异的情况下，我们对男性组和女性组的SJT得分进行了检验。研究结果显示，在总量表和各子量表得分上，男性组和女性组不存在显著差异，假设5没有得到支持。这表明在对我国公务员内隐知识的评价上，SJT不存在之前部分学者认为的“相对于性别的不利影响”[35]。性别并没有构成《我国公务员内隐知识情境判断测验》的影响因素，该结果为今后确定《我国公务员内隐知识情境判断测验》常模提供了实证依据。

4.2 研究不足

本研究主要存在以下不足：第一，学者们曾提出使用重测信度可使SJT测得的信度水平更加可信[7]，[21]，由于研究条件的限制，本文没有对SJT的重测信度进行检验，未来的研究需要对此进行补充，以更好地检验SJT的信度。第二，在效标关联效度检验过程中，我们仅以公务员“上一年度考核等级”作为效标，未能体现工作绩效多维性的特征[36]，也没有对SJT所测量的内隐知识与工作绩效多个维度之间的关系进行检验，这是本研究存在的最大不足。第三，由于人力、时间、资料收集等因素的限制，我们没有获得足够多和足够广泛的测验样本来检验研究提出的各项假设；特别是本文获得的领导岗位的公务员样本数量非常有限，无法对不同职级被试者的SJT成绩进行比较研究，我们希望在未来的研究中加以改进和补充。

[1] 孙健敏, 彭文彬. 无领导小组讨论的设计程序与原则 [J]. 北京行政学院学报, 2005(01)：35-40

[2] 徐长江, 梁崇理, 刘争光. 结构化面试预测效度的贡献成分分析 [J]. 心理科学进展, 2013(5)：940-950.

[3] 黎恒, 丁晓岚. 无领导小组讨论的实务操作——中层管理人才选拔案例 [J]. 中国人力资源开发, 2002（09): 39-41

[4] Lievens, F., Peeters, H., Schollaert, E. Situational judgment tests: A review of recent research [J]. Personnel Review, 2008, 37: 426-441.

[5] McDaniel, M. A., Morgeson, F. P., Finnegan, E. B., Campion, M. A., Braverman, E. P. Predicting job performance using situational judgment tests: A clarification of the literature [J]. Journal of Applied Psychology, 2001, 86: 730-740.

[6] Sternberg, R. J., Wagner, R. K., Okagaki, L. Practical intelligence: The nature and role of tacit knowledge in work and at school [C]. H. Reese J. Puckett. Advances in lifespan development. Hillsdale, NJ: Erlbaum. 1993: 205-227.

[7] Motowidlo, S. J., Dunnette, M. D., Carter, C. W. An alternative selection procedure: the low-fidelity simulation [J]. Journal of Applied Psychology, 1990, 75: 640-647.

[8] Weekley, J. A., Ployhart, R. E. Situational judgment: Antecedents and relationships with performance [J]. Human Performance, 2005, 18: 81-104.

[9] 杰夫∙威克利，罗伯特∙普劳哈特，柳恒超等译. 情境判断测验：理论、测量与应用 [M]. 上海: 复旦大学出版社. 2013.

[10] 杨国枢. 社会及行为科学研究法 [M]. 重庆: 重庆大学出版社. 2006.

[11] McDaniel, M. A., Hartman, N. S., Whetzel, D. L., Grubb, W. L. Situational judgment tests, response instructions, and validity: A meta-analysis [J]. Personnel Psychology, 2007, 60: 63-91.

[12] McDaniel, M. A., Whetzel, D. L. Situational judgment tests: An IPMAAC workshop [M]. 2005. Retrieved 3, August, 2012 http://www.ipmaac.org/conf/05/mcdaniel.pdf

[13] O'Connell, M. S., McDaniel, M. A., Grubb, W. L., Hartman, N. S., Lawrence, A. Incremental validity of situational judgment tests for task and contextual job performance [J]. International Journal of Selection and Assessment, 2007, 15: 19-29.

[14] McDaniel, M. A., Hartman, N. S., Grubb, W. L. Situational judgment tests, knowledge, behavioral tendency, and validity: A meta-analysis. Paper presented at the 18th annual conference of the Society for Industrial and Organizational Psychology, Orlando, FL. 2003.

[15] 徐守森, 车宏生, 祖彬, 林绚晖. 北京奥运志愿者的胜任特征模型——情境判断测验的应用 [J]. 首都体育学院学报, 2008, 20(6): 35- 38.

[16] 袁方, 谷向东, 邓希冯. 基于情境判断测验的领导人才领导力状况调查研究 [J]. 中国人力资源开发, 2012(12): 43- 46.

[17] Motowidlo, S. J., Tippins, N. Further studies of the low-fidelity simulation in the form of a situational inventory [J]. Journal of Occupational and Organizational Psychology, 1993, 66(4): 337-344.

[18] Weekley, J. A., Jones, C. Further studies of situational tests [J]. Personnel Psychology, 1999, 52(3): 679-700.

[19] Ployhart, R. E., Ehrhart, M. G. Be careful what you ask for: effects of response instructions on the construct validity and reliability of situational judgment tests [J]. International Journal of Selection and Assessment, 2003(11): 1-16.

[20] Weekley, J. A., Ployhart, R. E., Harold, C. M. Personality and situational judgment tests across applicant and incumbent contexts: An examination of validity, measurement, and subgroup differences [J]. Human Performance, 2004(17): 433-461.

[21] Lievens, F., Sackett, P. R. Situational judgment tests in high-stakes settings: Issues and strategies with generating alternate forms [J]. Journal of Applied Psychology, 2007(92): 1043-1055.

[22] Christian, M. S., Edwards, B. D., Bradley, J. C. Situational judgment tests: constructs assessed and a meta-analysis of their criterion-related validities [J]. Personnel Psychology, 2010(63): 83−117.

[23] Becker, T. E. Development and validation of a situational judgment test of employee integrity [J]. International Journal of Selection and Assessment, 2005, 13(3): 225-232.

[24] Ascalon, M. E., Schleicher, D. J., Born, M. P. Cross-Cultural Social Intelligence: An Assessment for Employees Working in Cross-National Contexts [J]. Purdue CIBER Working Papers, 2006, Paper 42.

[25] Mumford, T. V., Van Iddekinge, C. H., Morgeson, F. P., Campion, M. A. The team role test: development and validation of a team role knowledge situational judgment test [J]. Journal of Applied Psychology, 2008, 93 (2), 250-267.

[26] Schmidt, F., Hunter, J. The validity and utility of selection methods in personnel psychology: Practical and Theoretical Implications of 85 years of research findings [J]. Psychological Bulletin, 1998, 124(2): 262- 274.

[27] Sternberg, R. J., Wagner, R. K., Williams, W. M., Horvath, J. Testing common sense [J]. American Psychologist, 1995(50): 912-927.

[28] McDaniel, M. A., Nguyen, N. T. Situational judgment tests: A review of practice and constructs assessed [J]. International Journal of Selection and Assessment, 2001(9): 103−113.

[29] Ghiselli, E. E., Campbell, J. P., Zedeck, S. Measurement theory for the behavioral sciences [M]. San Francisco: W. H. Freeman and Company. 1981.

[30] Ployhart，Robert E.，Holtz，Brian C. The diversity–validity dilemma: Strategies For reducing racioethnic and sex Subgroup differences and adverse impact in selection [J]. Personnel Psychology, 2008(61): 153–172

[31] Pyburn，K. M. Jr., Ployhart, R. E, Kravitz，D. A. The diversity-validity dilemma: Overview and legal context [J]. Personnel Psychology, 2008(61): 143–151.

[32] 漆书青, 戴海琦. 情境判断测验的性质、功能与开发编制 [J]. 心理学探析, 2003(4): 42-46.

[33] 冯明, 廖冰, 程颖. 中国公务员内隐知识管理研究 [M]. 北京: 科学出版社. 2013.

[34] 荣泰生. AMOS与研究方法 [M]. 重庆: 重庆大学出版社. 2009.

[35] Lievens, F., Coetsier, P. Situational tests in student selection: An examination of predictive validity, adverse impact, and construct validity [J]. International Journal of Selection and Assessment, 2002(10): 245-257.

[36] Katz, D., Kahn, R. L. The social psychology of organizations [M]. New York: Wiley press. 1978.

① 该数据来自《北京晚报》（2013- 7-2）。708.9万名公务员不包括参照公务员法管理的群团机关、事业单位工作人员。

Evaluation of Reliability and Validity of Situational Judgment Tests:A Study of Implicit Knowledge of Chinese Civil Servants

CHENG Ying1, ZHONG Zhi-jie2, FENG Ming1

(1. School of Economics and Management, Chongqing University, Chongqing 400044, China; 2. Chongqing Rail Transit Group, Chongqing 400042, China)

In personnel selection, situational judgment tests (SJT) can identify unique individual characteristics, which other assessment tools or indicators are unable to discover. SJT has emerged as an important and useful complement to traditional cognitively oriented tests. It has been paid extensive attention since being introduced to China. However, two aspects limit the effective implementation of SJTs in China. The first constraint concerns the reliability and validity of SJTs, namely, whether and to what extent an SJT is able to predict individuals’ future work performance. In the last two decades, through studying the reliability and validity of SJTs as well as the factors which can influence the predictiveness of SJTs, scholars have gained considerable knowledge of SJTs’ construct validity and criterion-related validity. However, there is a lack of an effective theoretical framework to examine these findings. We also need to further study the characteristics of SJTs, as well as their influence on the validity of SJTs. The second constraint arises from the research context. The existent literature is mainly provided by American scholars, and the current empirical evidence is dominantly derived from American context. Studies that concentrated on Chinese context have only been developed lately, yet very little data has been published. The limited context-related empirical evidence did not provide strong support for organizations to adopt SJTs when choosing from multiple methods to select and assess their employees.

The current paper discusses the reliability and validity of SJTs, based on an empirical test of an SJT carried on a group of Chinese civil servants. It is composed of three sets of studies. The first study discusses the construct validity of SJTs, that is, whether SJT can measure cognitive ability and work experience of individuals, and whether SJT can measure a multidimensional construct, such as tacit knowledge of Chinese civil servants. The second study examines criteria validity of SJTs, that is, whether the SJT can predict work-related performance. The last study discusses whether two factors, including scoring methods and gender differences, would influence the validity of SJTs.

In a previous study, we developed a model of implicit knowledge of Chinese civil servants. We proposed that Chinese civil servants’ implicit knowledge includes seven dimensions: cultivating morality, loyalty, serving others, influencing others, fair use of power, processing official business, and attentive to details. Based on this model, we developed the "Situational Judgment Tests Inventories of Implicit Knowledge of Chinese Civil Servants". In May 2011, we distributed our questionnaires to some civil servants and business students in the western part of China. Eventually we collected a valid sample of 151 on-the-job civil servants and 61 business undergraduate students. We examined our data by using multiple methods including descriptive statistics analysis, variance analysis, and confirmatory factor analysis.

Our results supported the previous conclusion that SJTs are able to measure individuals’ cognitive ability and work experience. We obtained a satisfactory fit between our empirical data and the proposed 7-dimensional model. This finding indicates that SJTs are able to measure a multinational construct. Furthermore, our inventories demonstrated satisfactory criteria validity, indicating that SJT inventories are able to predict civil servants’ work-related performance. At last, through comparing the validity of SJTs by using different scoring methods, we found that scoring method could influence the validity of SJTs. Through comparing the scores of different gender groups, we found that there was no significant variance between males and females. This indicates that gender differences did not have significance influence on the validity of our SJT.

To sum up, our study collected empirical data in Chinese context and thus provided strong evidence for the values of SJTs. Through developing and verifying SJT inventories of implicit knowledge of Chinese civil servants, our study formed a valid tool for selecting civil servants and other similar personnel. The study can also be considered a reliable reference for future SJT-related studies and practices, in particular for those who are interested in designing and implementing SJTs.

situational judgment test; reliability; validity; civil servants; implicit knowledge

中文编辑：杜健；英文编辑：Charlie C. Chen

F270

1004-6062(2016)04-0053-08

10.13587/j.cnki.jieem.2016.04.007

2013-11-19

2014-03-26

国家自然科学基金资助项目（70872121)；重庆大学中央高校基本科研业务费科研专项资助基金（CQDXWL-2012-173）

程颖（1981—），女，四川荣县人；重庆大学经济与工商管理学院讲师，研究方向：领导力开发与团队建设、创业团队与企业家精神。