中文版Grasmick 自我控制量表在罪犯群体的跨样本信效度检验

2023-02-20杨学锋杨茗美

心理研究 2023年1期

杨学锋杨茗美

（1 中国刑事警察学院公安基础部，沈阳 110035；2 澳门大学社会学系，澳门 999078）

1 引言

尽管“自我控制”这一名词对于心理学家来说并不陌生（关元等，2018），但是，将其纳入犯罪学领域是相对晚近的事情（Gottfredson＆Hirschi，1990），而且无论是概念性定义还是操作化结果均有所差异。此外，在西方犯罪学领域内，尽管自我控制理论的两位创制者Gottfredson与Hirschi宣称是在社会学意义上使用着这一名词，从而反对将自我控制作为心理学意义上的一种个人特质，但是，在比较了各种不同的操作化路径之后，绝大多数实证研究者还是青睐于颇具心理学色彩的态度测量法，其中尤以Grasmick自我控制量表最为常见。

然而，如同实证犯罪学中几乎所有的量具一样，Grasmick自我控制量表的标准化过程即便在西方犯罪学界亦尚未彻底完成。此外，在引入到本土犯罪学之后，研究者大多在实证研究中武断地采取了加总各道题目得分的方式，这相当于未加检验地承认了该量表的简单可加性或曰一阶单维度结构，而后者实际上是一个尚无定论的研究假设。一方面，基于经典测验理论的视角，这种简便的处理方式似乎具有一定程度的合理性；另一方面，鉴于经典测量理论本身无法克服的某些局限，有必要利用其它更为适切的统计方法对Grasmick自我控制量表进行更进一步的信效度检验。更具本土化意义的是，那些基于西方样本数据的心理测量学研究结果通常不能自动地成为本土适用的证据，而应当进行必要的复证和修订。就此而言，鉴于本土犯罪学实证研究的总体状况，在多个罪犯样本中对中文版Grasmick自我控制量表进行更为适切的信效度检验，是促进该量表的标准化，乃至促进本土学者对自我控制理论进行实证研究的基础工作。

2 自我控制理论与Grasmick量表

1990年，美国著名的犯罪学家戈特弗里德森与赫希合作出版了《犯罪的一般理论》（Gottfredson＆Hirschi，1990）。近二十年之后，这一著作的中文译本在中国出版（戈特弗里德森，赫希，2009）。通常而言，这个被创制者自诩的“一般理论”在犯罪学界被更加具体地称为“自我控制理论”。在自我控制理论视角之下，犯罪性的实质被归结为行为人本身的低自我控制水平。而且，两位创制者大胆地声称，自我控制是“可以预测犯罪和相关行为的惟一的、稳定的个体特征”（Gottfredson＆Hirschi，1990）。

自我控制理论从犯罪行为的特点反推了犯罪主体的六个基本特征：缺乏自我控制的人倾向于冲动、冷漠、尚体、冒险、短视、寡言……由于这些特质有相当大的倾向共同出现在一个人身上，而且这些特质往往持续终生，因此有理由认为它们构成了可以用于解释犯罪的一个稳定的概念（Gottfredson＆Hirschi，1990）。

基于上述素描性刻画，Grasmick等人（1 993）创制了一个包括6个维度、24道题目的李克特4分制态度量表（1 ＝完全同意；2 ＝基本同意；3＝基本不同意；4＝完全不同意），后来被简称为Grasmick自我控制量表。历经约二十年的理论发展与实证检验，自我控制理论以及Grasmick量表在西方犯罪学界获得了广泛认可。迄今为止的两项荟萃分析结果表明，自我控制水平对于犯罪和被害的平均效应度分别为0.250和0.154（Pratt＆Cullen，2000；Pratt et al.，2014），超过了或者至少不低于许多经典犯罪学理论的核心变量，如刑事威慑、一般紧张、社会学习等。而且，在既往的实证检验中，最为常用的自我控制量具是Grasmick量表或其衍生版本（Walters，2016）。

亚洲犯罪学学会的创任会长、现就职于澳门大学的刘建宏教授最早将Grasmick自我控制量表译为中文并引入到本土化语境下的自述调查之中（刘建宏，2011）。本文将其称作原始中文版Grasmick量表，其基本结构与具体题目参见表1。计分规则保持与Grasmick等（1 993）一致，即采取李克特4分制规则，具体而言：1＝完全同意、2＝基本同意、3＝基本不同意、4＝完全不同意。

表1 原始中文版Grasmick量表的6个维度及24道题目

3 Grasmick自我控制量表的标准化历程与本土化修订

如前所述，按照两位创制者的理论预期，自我控制的各个维度将“共同出现在一个人身上”（Gottfredson＆Hirschi，1990）。然而这一基础性的单维度假设在实证检验中尚未获得充分一致的、确凿的经验支持。

Grasmick等人（1 993）创制并基于经典测验理论简要地检验了Grasmick量表的结构效度，继而证实了它在389名美国一般成年人自述的暴力或欺骗行为方面的预测效度。具体而言，Grasmick等人发现，Grasmick量表具有较高的内部一致性（Cronbach’s α＝0.805）；探索性因子分析结果呈现了六个大于1的特征根，而且，第一与第二特征根之差远远大于其它相邻特征根之差。据此，Grasmick等人认为，Grasmick量表满足自我控制理论的一阶单维度假设。然而，Arneklev等人（1 993）在利用同一数据集检验自我控制对于吸烟、饮酒、赌博等“不谨慎行为”的预测效度时，并没有延续使用Grasmick量表的一阶单因子模型，而是进一步比较了它与一阶六因子模型的相对效力。结果表明，在Grasmick量表的六个维度中，仅有“冲动性”维度所包括的4道题目的Cronbach’s α略低于常用的0.70水平，而其余维度均达到或超过了这一基本要求。Arneklev等人发现，就结构效度而言，一阶单因子与一阶六因子模型都是可以接受的；就预测效度而言，两者均没有完全达到自我控制理论的预期。鉴于这些不尽一致的结果，Arneklev等人建议，未来的研究有必要进一步关注Grasmick量表的标准化问题。基于975名美国高中生的自述数据，Wood等人（1 993）发现，尽管Grasmick量表具有较高的内部一致性（Cronbach’s α＝0.88），而且探索性分析表明第一与第二特征根的差异最大，但是，六个大于1的特征根以及相应的因子载荷均倾向于支持一阶六因子模型。此外，基于被解释的因变量变异比例而言，一阶六因子模型呈现出相对略高的优势，特别是其中的冒险性维度表现出稳健的统计显著性。

Longshore等人（1 996）较早地借助验证性因子分析方法检验了Grasmick量表的心理测量学性质，并将其适用范围从既往的一般成年人或青少年群体扩展至更贴近犯罪学本义的犯罪人群体。此外，Longshore等人在四个方面修订了Grasmick量表：第一，使用剔除了题目P4之后的23道题目作为自我控制的初始量具和分析起点；第二，将计分制由4分制改为5分制；第三，对某些题目的措辞进行了细微调整；第四，将其中的7道题目改写为反意陈述。在此基础上，Longshore等人使用探索性因子分析方法只发现了五个大于1的特征根。之后，基于因子载荷的显著性，Longshore等分别在一阶单因子模型中剔除了3道题目，在一阶五因子模型中剔除了2道题目。换言之，一阶单因子模型中包括了20道题目；一阶五因子模型中包括了21道题目。为了比较上述两个测量模型的拟合优度，Longshore等人在容许某些误差变量相关的条件下基于验证性因子分析的CFI指标为一阶五因子模型提供了经验支持。然而，Piquero与Rosay（1 998）对这种容许误差变量相关的验证性因子分析方法提出了质疑，并且在进一步剔除了其中的一道题目之后发现，剩余的19道题目依然具有可接受的内部一致性（Cronbach’s α＝0.71），而且，验证性因子分析的结果倾向于支持Grasmick量表具有二阶单因子结构。Longshore等人（1 998）一方面进行了方法论上的辩护，另一方面则认为容许误差变量相关的一阶五因子模型与Grasmick量表的二阶单因子模型并不存在根本性的矛盾。

随着研究者越来越普遍地认识到经典测验理论的局限，验证性因子分析的方法获得了更多的应用。Arneklev等人（1 999）基于美国社会的390名一般成年人口以及289名美国大学生的相关数据，利用验证性因子分析方法进一步支持了Grasmick量表在两个不同的样本中具有相同的二阶单因子结构——在一阶层次上服从六因子结构，进而在二阶层次上服从单因子结构。

然而，Delisi等人（2003）在分析了208名美国成年男性假释犯对于5分制Grasmick量表的自填式调查数据后发现，尽管Cronbach’s α以及探索性因子分析均支持Grasmick量表的一阶单维度假设，但是，验证性因子分析方法对于三种测量模型的检验结果表明，一阶六因子模型的拟合优度显著地高于一阶及二阶单因子模型。类似地，Vazsonyi等人（2004）将自我控制理论应用于335名日本大学生时，利用验证性因子分析方法发现，剔除了2道题目后的5分制Grasmick量表更加拟合于一阶六因子模型。

Piquero等人（2000）除了继续使用探索性和验证性因子分析等方法之外，首次应用Rasch模型检验了5分制Grasmick量表的单维度假设。具体而言，Piquero等人基于233名美国大学生的自填问卷数据，利用探索性因子分析方法发现了六个大于1的特征根，而且第一与第二特征根的差异最大，两者之比约为2.26。此外，验证性因子分析结果为二阶单因子模型提供了经验支持。然而，Rasch模型表明，有11道题目出现了显著的不拟合，还有另外3道题目在不同性别的群体中表现出了显著的功能差异。概括而言，Piquero等人发现，尽管验证性因子分析结果表明，Grasmick量表的二阶单因子模型似乎是可以接受的，但是，Rasch模型分析结果表明，为了确保Grasmick量表满足单维度假设，尚需要进一步的修订。若干年之后，Higgins（2007）基于303名美国大学生对于4分制Grasmick量表的自填数据，再次使用Rasch模型印证了它并不完全满足单维度假设。概括而言，在剔除了不拟合或功能差异的8道题目之后，Higgins发现，由剩余的16道题目构成的修订版本能够更好地拟合Rasch模型，而且符合自我控制理论的单维度假设。

杨学锋（2018a）以537名本土强制戒毒者为样本，综合利用探索性因子分析、验证性因子分析、Rasch模型等方法首次检验了原始中文版Grasmick量表的心理测量学性质，并最终将其初步修订为由18道题目构成的二阶单因子结构。本文将后者称为修订中文版Grasmick量表。以表1为参照，修订中文版Grasmick量表的18道题目分别为：I1，I2，I3，I4，P3，P4，R2，R3，R4，S3，S4，SC2，SC3，SC4，T1，T2，T3，T4。可以看到，修订中文版Grasmick量表依然涵盖了自我控制概念的所有六个维度，但各维度下的题目数量有所差异；计分规则保持不变，即李克特4分制，具体为：1＝完全同意、2＝基本同意、3＝基本不同意、4＝完全不同意。杨学锋（2018b）进一步利用结构方程模型检验了修订中文版Grasmick量表在既往越轨或犯罪行为、复吸倾向等多个因变量上的预测效度，从而为自我控制理论是否能够一般性地适用于中国语境提供了初步的依据。

除此之外，本土犯罪学实证研究在部分地或全部地使用Grasmick量表时，大多未加检验地将其进行简单加总的统计处理，这在实际上意味着不加批判地接受了自我控制理论的一阶单维度假设。在此可以概括地指出，由于本土学者对于中文版Grasmick量表的测量学性质尚未做出充分的实证检验，那些基于简单加总方法的本土化实证研究并不符合科学严谨性的基本要求。

为此，本文将利用近年来收集到的多个样本数据进一步检验中文版Grasmick量表的测量学性质，进而希冀在本土语境下推动自我控制量具的标准化进程，进而推动本土学者对自我控制理论进行更高质量的实证检验。

4 研究方法

4.1 研究对象

本文使用了近几年在不同地区收集到的四个样本。具体而言，样本一来自西南地区某市的四个强制戒毒所，有效容量为537，其中包括345名男性和192名女性，平均年龄为35.27岁；样本二来自东北地区某座城市的一所监狱，有效容量为140，其中包括44名男性和96名女性，平均年龄为41.32岁；样本三来自东北地区另一座城市的一个看守所，有效容量为145，均为男性，平均年龄为38.08岁；样本四来自华东地区某市的一个看守所，有效容量为397，其中包括198名男性和199名女性，平均年龄为32.85岁。依据匿名、自愿、无害等基本操作规范，上述样本分别在2013至2017年间完成了自填式问卷调查。

合计而言，四个样本的总容量达到1219人。其中，男性有732人，平均年龄为35.51岁；其典型的越轨或犯罪行为涵盖了吸毒、财产犯罪、暴力犯罪等诸多类型。概言之，本研究的四个样本在性别结构、平均年龄、犯罪类型等方面基本上满足了代表性与变异性的要求。

4.2 研究工具与统计方法

如前所述，本文的核心目的是检验中文版Grasmick量表的信度与效度，特别是其中的单维度假设。为此首先使用了原始中文版Grasmick量表。

另外，基于既往的惟一一项本土研究（杨学锋，2018a），本文将对照检验修订中文版Grasmick量表的测量学性质。以表1为参照，修订中文版Grasmick量表保持了原有的六个维度与李克特4分制的计分规则（1 ＝完全同意、2＝基本同意、3＝基本不同意、4＝完全不同意），但题目数量缩减为18题，具体包括：I1，I2，I3，I4，P3，P4，R2，R3，R4，S3，S4，SC2，SC3，SC4，T1，T2，T3，T4。

本文使用SPSS22.0进行数据的前期整理以及常规的信度分析和探索性因子分析；使用Amos24.0对两个中文版Grasmick量表的结构效度进行跨样本的验证性因子分析。

5 经典测验理论视角下的复证检验

5.1 内部一致性检验

本文首先计算了原始与修订中文版Grasmick量表在各个样本以及合并样本下的内部一致性系数，即Cronbach’s α，参见表2。

表2 各样本及合并样本下的内部一致性检验

综合而言，无论是原始版还是修订版，Grasmick量表均表现出良好的内部一致性，这为自我控制理论的一阶单维度假设提供了初步证据。具体来说，原始中文版Grasmick量表在四个样本以及合并样本中的Cronbach’s α处于0.874至0.946之间；对照之下，修订中文版Grasmick量表的Cronbach’s α略低一些，但依然超过0.70这一常用的临界水平，处于0.840至0.930之间。需要注意的是，由于Cronbach’s α在很大程度上依赖于题目的数量，因此，修订中文版Grasmick量表的Cronbach’s α相对较低是一个可以预见的结果，不能作为比较两个不同版本的Grasmick量表之间优劣的证据。

5.2 探索性因子分析

为了进一步研究原始及修订中文版Grasmick量表的测量学性质，本文利用主成分、主因子等多种方法运行了探索性因子分析。首先，适合度检验表明测量数据适合于因子分析方法——具体而言，Bartlett球形检验的p值几近为零，KMO抽样适合度测定值均处在0.90左右的水平。

在各个样本以及合并样本中，主成分方法抽取的前六个特征根列于表3，它们解释的累积方差均达到了60%以上。对于单维度假设具有重要支持意义的是，在所有情况下，第一与第二特征根的差异都是最大的，而且其比值均大于3。根据学者的建议，这些结果意味着可以考虑接受量表的一阶单维度假设（高爽，张向葵，2018）。

表3 探索性因子分析的前六个特征根

除了上述基于主成分方法的结果，本文另基于不加旋转的主轴因子法再次进行探索性因子分析，结果发现大于1的特征值个数没有变化，而且第一与第二特征值之间的差值依然稳定地大于其它相邻特征值之差。本文进一步运行了正交旋转法，得到了类似结果。为篇幅计，不再详细报告。

总而言之，探索性因子分析的结果基本上支持了原始与修订中文版Grasmick量表的一阶单维度假设。但是，如果以大于1的特征根个数来加以判断的话，则意味着三至六个不等的维度。这些自相矛盾之处通常是经典测验理论难以避免的结果，亦是自身无法克服的局限之一。为此，下文将继续应用验证性因子分析方法以寻求更加确凿的证据。

6 利用验证性因子分析方法的复证检验

如前所述，按照自我控制理论的预期，尽管低自我控制具有冲动、冷漠、尚体、冒险、短视、寡言等六种不同维度的典型表现，但是这些特质倾向于共同出现在犯罪人身上。就此而言，Grasmick量表的各道题目应该构成单因子模型。为此，本文使用更加切合的验证性因子分析方法分别对原始和修订中文版Grasmick量表在四个样本以及合并样本中进行了检验。

6.1 对一阶单因子模型的验证性因子分析

基于前述的经典测验理论的基本结果，本文首先检验了原始与修订中文版Grasmick量表的一阶单因子模型。图1以修订中文版Grasmick量表为例给出了图示，原始中文版Grasmick量表的测量模型是类似的，不再赘述。

图1 修订中文版Grasmick量表的一阶单因子模型

总体而言，一阶单因子模型的各个拟合优度指标基本上没有达到常见的临界标准，具体数值参见表4。据此，本文认为，原始与修订中文版Grasmick量表并不符合一阶单维度假设。也就是说，经典测验理论对于其一阶单维度假设的支持性证据被更为适切的验证性因子方法推翻了。就此而言，在既往有限的本土化研究中，直接将Grasmick量表的得分进行简单加总的统计处理方式在心理测量学意义上是不够严谨的。

表4 一阶单因子模型的验证性因子分析

6.2 对二阶单因子模型的单组验证性因子分析

如前所述，晚近的一些西方研究以及一项本土研究在二阶层次上验证了自我控制理论的单维度假设。为此，下文继续利用验证性因子分析方法检验中文版Grasmick量表的二阶单因子模型，图2以修订中文版Grasmick量表为例给出了图示，原始中文版Grasmick量表的测量模型是类似的，不再赘述。

图2 修订中文版Grasmick量表的二阶单因子模型

表5分别列出了原始与修订中文版Grasmick量表在二阶单因子模型下的常用拟合统计量。可以看到，对于两种中文版Grasmick量表而言，绝大多数的拟合指标达到了常用的临界标准。而且，相较于由24道题目构成的原始中文版Grasmick量表来说，由18道题目构成的修订中文版Grasmick量表在二阶单因子模型下的所有拟合指标均有相当程度的改善，几乎一致地达到了常用的临界标准。简而言之，修订中文版Grasmick量表在二阶单因子模型下具有相对更佳的适配度。

表5 二阶单因子模型的单组验证性因子分析

概括而言，对二阶单因子模型的验证性因子分析结果在一方面倾向于支持自我控制的单维度假设，但是，这在另一方面警示了未来的实证研究应该优先选择二阶单因子测量模型，并利用潜变量的结构方程方法来检验与自我控制理论有关的各种命题。这无疑对于本土犯罪学实证研究提出了更高的方法论要求。

6.3 对二阶单因子模型的多组验证性因子分析

最后，本文对最具应用前景的修订中文版Grasmick量表在二阶单因子模型下进行了多组验证性因子分析，以检验其跨样本的测量恒等性。拟合指标参见表6。

表6 修订中文Grasmick量表的跨样本恒等性检验

首先，可以看到，因子结构恒等模型一方面具有良好的拟合度，其中RMSEA值小于0.05的临界水平，GFI与CFI均大于0.90的临界水平。然而，在另一方面，较大的卡方值以及几乎为零的p值似乎预示着不应接受因子结构恒等模型。一般而言，由于卡方值较为严重地依赖样本容量，因而在样本容量较大时这一指标通常仅作为参考。因此，基于此处的RMSEA，GFI，CFI等拟合指标以及前述的单组验证性因子分析结果，本文认为，修订中文版Grasmick量表的二阶单因子结构在四个样本之间获得了必要的经验支持。

其次，在一阶因子载荷恒等模型之下，出现了类似的情况。鉴于Δχ2与χ2一样均严重地依赖于样本容量，因此，Cheung与Rensvold（2002）建议在大样本情况下使用ΔCFI作为模型比较的依据，并且以0.01作为临界值。具体来说，当ΔCFI大于0.01时，意味着嵌套模型与基准模型存在着显著差异，此时应拒绝恒等性假设，否则就不拒绝。从表6易于计算出，因子载荷恒等模型与因子结构恒等模型的ΔCFI＝0.9097-0.9005＝0.0092＜0.01，遵循上述判断标准，应该接受因子载荷恒等模型。简言之，本文认为，修订中文版Grasmick量表在四个样本之间的一阶因子载荷恒等模型获得了必要的经验支持。

然而，在因子结构恒等模型、一阶因子载荷恒等模型的基础之上，进一步限定二阶因子载荷恒等时，尽管该模型的绝对拟合指标RMSEA在0.05的临界标准下依然处于优良水平（实际取值为0.0318），但是，另外两个常用的拟合指数CFI与GFI均低于0.90的适配标准（实际取值分别为0.8931与0.8980）。就此而言，本文认为，修订中文版Grasmick量表在四个样本之间的二阶因子载荷恒等模型仅仅获得了边缘性的经验支持。进言之，该量表在更高水平上的测量恒等性有待未来的研究者进一步加以检验。鉴于此，本文在表6中继续列举了一阶因子残差方差恒等以及观察变量残差方差恒等模型的拟合指标，以供未来的研究者加以参照。

总而言之，修订中文版Grasmick量表在四个不同的样本中同时满足了因子结构与因子载荷的恒等性假设，这已经为其应用于其他更为广泛的样本人口奠定了初步根据。

7 讨论与结论

任何量具的标准化过程都不是一蹴而就的，Grasmick量表亦不例外。尽管西方犯罪学家在检验自我控制理论时更加倚重Grasmick量表，但是对该量表的测量学性质尚未形成足够一致和确凿的结论。此外，随着该量表逐渐被引入到本土犯罪学界，只有极少数的研究者关注了中文版Grasmick量表的标准化进程，而其他的本土研究大多不加批判地使用了简单加总的计分规则，这实际上违背了科学严谨性的基本要求。

按照自我控制理论的原始论述，自我控制是一个包括了六个维度的单一概念。Grasmick量表作为态度测量法的重要代表，将其作为一阶多因子模型偏离了自我控制理论的原始论述，而将其作为一阶单因子模型则无法获得验证性因子分析方法的经验支持。对照之下，综合了既往研究与本文结果的二阶单因子模型则可以同时摆脱上述两种窘境。

更加具体地来说，一项本土研究已经将原始中文版Grasmick量表的24道题目初步修订为18道题目（杨学锋，2018a），本文则在四个罪犯样本中分别使用经典测验理论和验证性因子分析方法进一步检验了原始与修订中文版Grasmick量表的信度与结构效度，并最终倾向于支持修订版量表的二阶单因子模型。

另具启发意义的是，本文初步检验了修订中文版Grasmick量表在不同罪犯样本之间的测量恒等性。正如一些学者指出的，二阶因子模型的测量恒定性检验是非常复杂的，其中包括了形等价、一阶弱等价、二阶弱等价、一阶强等价、二阶强等价、二阶严等价、一阶严等价等七个依次递进的水平（郑显亮等，2011）。就此而言，本文仅在前三个层次上支持了修订中文版Grasmick量表的测量恒等性假设，这在一方面为本土学者深入检验犯罪学意义上的自我控制理论提供了一种更为适切的量具，也在另一方面为进一步修订该量表提供了必要的参照与借鉴。

简言之，本文的最终结论可以概括如下：在本土语境下使用中文版Grasmick量表时，不应再延续使用简单加总的方式，而应该将其作为二阶单因子测量模型纳入结构方程之中，并且应该优先选用更加简洁且适配度更高的修订中文版Grasmick量表。