APP下载

速度与准确率权衡:被试反应状态评价与建模 *

2019-06-23郭小军罗照盛

心理与行为研究 2019年5期
关键词:权衡测验准确率

郭小军 罗照盛

(江 西师范大学心理学 院,南昌 330022)

1 前言

反应时与准确率的关系是认知心理学的重要研究领域(Heitz, 2014; Ratcliff, Smith, Brown, &McKoon, 2016; Wickelgren, 1977)。在认知实验中,影响反应时与准确率关系的两个主要方面是认知能力或者信息加工效率(Wenger & Gibson,2004; Wenger & Townsend, 2000)以及速度与准确率权衡(the speed-accuracy tradeoff, SAT; Donkin,Little, & Houpt, 2014; Ratcliff et al., 2016)。认知能力或信息加工效率越高,反应时越短,准确率越高;而速度与准确率权衡指被试有时会以牺牲准确率为代价换取加工速度,有时候会以牺牲加工速度为代价换取准确率提升(朱滢, 2009)。在行为实验中,速度一般用反应时作为指标,速度越快,反应时越短;反之,反应时越长。所以,认知实验的速度与准确率权衡就是反应时与准确率权衡。

在认知心理学中,研究被试的速度与准确率权衡通常以操作不同奖励措施或者反应时限制进行。这类研究在不同领域已有了大量的研究成果,特别是基于速度与准确率权衡模型(the speedaccuracy tradeoff model, SAT 模型 ; Reed, 1973;Wickelgren, 1977)上进行的研究,如概念加工( McElree, Jia, & Litvak, 2000), 句 子 理 解(McElree, 2000; McElree, Foraker, & Dyer, 2003),记忆(McElree, 1998),注意(Giordano, McElree,& Carrasco, 2009; McElree & Carrasco, 1999)等领域。在不同实验条件下,通过对SAT 模型中的参数组合进行变化,然后计算模型与数据拟合的R2指数(Reed, 1976),最后确定最佳的参数组合形式。这些研究发现SAT 模型都能较好地拟合速度 与 准 确 率 权 衡 数 据 ( Reed, 1973; Wickelgren,1977)。

SAT 作为影响反应时与准确率关系的重要因素,不仅对认知实验有着重要的影响,在认知能力测验中也同样不可忽视(Goldhammer, Naumann,& Greiff, 2015; van der Linden, 2009; van der Maas,Molenaar, Maris, Kievit, & Borsboom, 2011)。认知能力测验的加工任务比认知实验任务更为复杂,通常也不会采用人为的实验控制(强调速度或者准确率,或者进行反应时限制)方法对SAT 现象进行研究。在认知能力测验过程中,被试往往需要在有限的时间内完成测验作答,此时就需要在反应时与准确率之间进行权衡。这种权衡影响被试在项目上的作答反应时是否充足,进而对准确率产生不同的影响。

在认知能力测验中,对反应时与准确率联合分析的常用模型是 van der Linden(2007)提出的分层模型。分层模型由两层构成,第一层为独立的反应时与反应模型,第二层是被试速度与能力的联合分布以及项目参数间的联合分布。分层模型仅通过被试能力与速度之间的相关来反映反应时与准确率的权衡关系。Meng,Tao 和Chang(2015)用项目水平与被试水平的交互效应来解释反应时与准确率的关系,却无法反映反应时与准确率的动态权衡。Bolsinova,De Boeck 和 Tijmstra(2017)从项目水平角度,以残差反应时作为协变量引入反应模型中来反映反应时与准确率的权衡效应;Bolsinova,Tijmstra 和 Molenaar(2017)进一步扩展到被试水平,但是都过度扩大了反应时对准确率的影响。被试在项目上的作答准确率是能力与反应时双重作用的结果,能力决定了被试在项目上作答准确率的高度,而反应时则影响被试能否达到该准确率高度的重要因素。同时,Chen,De Boeck,Grady,Yanga 和 Waldschmidt(2018)通过作图发现,反应时与准确率在不同认知能力测验中并不是简单的单调递增关系,也有可能是先递增后递减的非单调趋势。

对于反应时与准确率的关系,认知实验通常认为随着反应时的增加,准确率是逐渐递增的,直到最高渐近线水平。但有的认知实验如再认实验,由于工作记忆的衰减和损耗,随着反应时的增加,会降低准确率。认知能力测验与认知实验的测试形式是明显不同的,并不存在学习效应,工作记忆衰减的影响较弱,这种递减趋势更可能受到项目难度、能力水平、速度水平或者能力与速度补偿效应的影响。基于此,本文结合认知实验SAT 模型与分层模型,分别构建了基于能力水平、速度水平和速度与能力相互补偿的SAT 分层模型,探讨认知能力测验中反应时与准确率的非单调关系。

2 SAT 分层模型

在SAT 模型基础上,通过理论逻辑分析,并加入能力、速度以及能力与速度的补偿效应,构建三个SAT 反应模型,使其能够反映能力、速度以及能力与速度补偿效应在反应时与准确率动态权衡关系中的作用,并联合反应时模型构成分层模型第一层;同时根据被试参数的联合分布与项目参数的联合分布构建分层模型的第二层,形成不同的SAT 分层模型。

2.1 反应时模型

在SAT 分层模型中,反应时采用对数正态反应时模型(van der Linden, 2007),见公式 1:

2.2 反应模型

Reed(1973, 1976)提出了反应时与准确率权衡关系的函数模型,见公式2:

在公式2 中, λ是渐近线水平参数,指在反应时无限制条件下,被试能达到的最高辨别力水平;φ 是辨别力水平随着反应时变化的变化速率,反映函数曲线的陡峭程度; (t -)项指被试作答反应时与非决策反应时之差。

以能力水平的SAT 反应模型为例,在认知能力测验情境下对公式2 进行了重构。首先, λ在认知实验中定义为作答反应时不受限制时,被试在项目上能达到的最高辨别力,即作答准确率,这与项目反应理论模型的假设一致,即测验无时间限制。于是,不同被试在不同项目上的最高准确率 λ定义为(公式3):

aj是 项目区分度参数, bj为项目难度参数,i则为被试的能力参数,ij为被试作答反应时不受限制时的理论反应。

依据SAT-M1 构建的原理,同时构建了基于速度的SAT-M2 模型(公式6, M2)和基于能力与速度补偿的 SAT-M3 模型(公式 7, M3)。

上述三个反应模型是基于相同思路、不同的因素进行构建的。在不同项目上,反应时与准确率并不是独立的关系,被试的不同权衡状态会影响被试在项目上的作答反应时,进而影响被试在项目上的作答准确率。由于受到权衡状态的影响,项目的作答反应时与准确率并不总是单调关系,也可能存在非单调关系,同时非单调关系受到项目性质的影响。因此,在SAT-M1 模型中,对工作量参数 中等以下,同时难度参数中等的项目,此时被试可能愿意选择花费更多的反应时作答该项目,由于受到自身能力水平的限制,随着反应时增加,项目作答准确率增加到一定程度后,反而呈现下降趋势。对于SAT-M2 模型,反映了工作量参数 超出了自身速度水平的项目上,如果被试选择花费更多的反应时作答该项目,准确率会呈现先提高后下降趋势。在SAT-M3 模型中,则兼顾考虑项目难度与工作量参数影响,对有些项目,被试作答准确率并不会随着反应时增加达到最高准确率水平,反而会在最后呈现下降趋势。在其他情况下,反应时与准确率更可能是单调递增关系。

2.3 分层建模

在分层模型中,将对数正态反应时模型(公式1)与SAT-M1、SAT-M2 和SAT-M3 构成分层模型的第一层;能力参数与速度参数联合分布(公式8)以及各项目参数联合分布(公式9)构成分层模型的第二层。van der Linden 分层模型(M0)则是将对数正态反应时模型与公式3(为观测变量,且加入猜测参数c),并联合公式8-9 构成。

3 参数估计与模型选择

3.1 模型的识别

为了能够对模型进行识别,需要对模型一些参数进行限制。在本研究中,对三个SAT 分层模型的被试参数 和 固定均值为0,标准差为1。

3.2 贝叶斯参数估计

对三个SAT 分层模型所有参数,本文采用软件JAGS 默认的Gibbs 取样对被试与项目参数进行估计。在SAT 分层模型中,各项目参数的先验分布分别为:aj,1/σj以及 αj都服从大于 0 的左截尾正态分布N(0,1)I(0,),猜测参数cj为beta(5,17)分布,项目参数bj与βj的均值向量μI服从二元正态分布,协方差矩阵ΣI服从逆威沙特分布InvWishart(R2,2),R2为二元对角矩阵。

对于被试参数,由于约束条件限定σθ2=1 以及στ2=1,因此能力与速度参数的协方差与相关系数相等,即 ρθτ=σθτ,并且 ρθτ∈[-1, 1]。ρθτ的先验分布采用双侧截尾的正态分布 ρθτ~N(0, 1)I(-1, 1)。

3.3 模型选择

在选择拟合反应时与反应分层模型的最优模型时,以偏差信息准则DIC(Spiegelhalter, Best,Carlin, & van der Linde, 2002)作为评价四个模型拟合优劣指标。DIC 值越小,说明该模型与实际数据拟合越好。

4 模拟研究

4.1 模拟设计

为了检验建议模型参数的估计精度,对最复杂的SAT-M3 模型进行模拟研究。各项目参数的生θi与 τi通过均值向量 0,相关 σθτ=0.5 的二元正态分布生成;最后通过反应时模型(公式1)与反应模型(公式7, M3)生成反应时与反应数据。模拟针对测验长度(m=30, 60)以及被试量(N=500,1000)设置了2×2=4 种条件组合,每种组合重复15 次。通过计算各参数真值与估计值的MSE(mean squared error)与平均偏差(Bias)评价参数估计方法的准确性。

4.2 模拟结果

表1 是项目参数的返真性。从表中可以看出,在被试量为500,测验长度为30 时,与其他项目参数相比,α 与a 参数估计结果偏差,MSE 值达到0.081 和0.071,而其他项目参数都低于0.05。在被试量增加到1000 时,α 与a 参数的MSE 可以达到0.06 以下,估计精度明显提高。所有项目参数Bias 的绝对值都低于0.05,并且随着被试量增加,Bias 绝对值普遍会有所降低。

表 1 分层模型项目参数 MSE 与 Bias

表2 为被试参数估计结果。从表2 可以看出,速度参数的MSE 值一直低于0.03,而能力参数在测验长度从30 增加到60 时,MSE 值从0.221 减小到0.145,估计精度明显提高;能力与速度参数的偏差Bias 都在0 上下波动,绝对值不超过0.011。

表 2 被试参数 MSE 与 Bias

从上述模拟结果可以看出,SAT-M3 分层模型的项目、被试参数通过MCMC 算法得到有效的估计,而且随着被试量与测验长度的增加,估计精度会相应提高。

5 实例研究

5.1 数据描述

本研究收集了被试在《瑞文标准推理测验》上的测试数据。数据采用E-prime1.0 编写程序收集,计时从项目出现在显示器上开始到选择下一个项目停止,时间的记录单位为毫秒。被试选自两所县城高中的学生,测验长度为60 个项目,控制测验最长作答时间为40 分钟。施测340 名被试,排除无效被试20 人,有效被试320 人。以van der Linden(2007)模型为基准模型(M0),加上本研究提出的模型共四个模型。在MCMC 估计过程中,均使用n.chain=2 条马尔科夫链,且包含n.iter=30000 次迭代,燃烧次数n.burn=10000,稀疏值n.thin=2,最终剩余n.chain*(n.iter-n.burn)/n.thin=20000 次迭代用于参数估计。参数拟合收敛采用潜在量尺缩减因子(potential scale reduction factor, PSRF; Brooks & Gelman, 1998),通常PSRF<1.1 或1.2,本研究选择参数的PSRF 均要求小于1.2 来表示参数估计已经拟合。

5.2 研究结果

四个模型数据拟合结果如表3,SAT-M3 模型的DIC 最小,其次SAT-M1 模型,再次为SATM2 模型,最大的是M0 基准模型。根据DIC 准则,SAT-M1 与SAT-M2,都优于M0 模型;而SAT-M1 的拟合指数明显要小于SAT-M2,说明在项目上,反应时对准确率的影响更受被试能力水平的限制。同时,SAT-M3 与SAT-M2 相比,拟合优势并不明显,但是三个模型都比M0 模型拟合更优,说明在考虑反应时对准确率的影响后,能明显提高模型对数据的拟合。

表 3 不同模型拟合指数

为了进一步分析SAT-M3 模型,了解反应时与准确率关系,绘制了残差反应时区分度α 与难度b以及项目工作量参数β的关系(如图2和图3所示)。在两图中,水平虚线分别为b 和β 的均值,而垂直虚线固定为1。从图2 和图3 可以看出,α 均大于1 的项目,除了一个项目外,其它项目难度均高于均值(第一象限),此时残差反应时与准确率关系是单调递增(图1-B)。在所有项目中,α 参数大于1 的项目有8 个,小于1 项目有52 个,说明在大部分项目上,被试反应时与准确率存在两种不同类型:当能力水平低于项目难度时,被试的反应时对准确率影响为先增后减(图1-A),而当能力水平高于项目难度时,被试反应时与准确率关系为单调递增的曲线(图1-C)。

6 结论与展望

当前,反应与反应时数据的联合分析模式得到了迅速的发展,但是传统的分层模型并未深入考虑反应时与准确率的权衡。本文结合反应时与准确率权衡SAT 模型与分层模型,对传统分层模型进行扩展,构建了能够反映反应时与准确率的不同关系的SAT 分层模型。从模型拟合结果可以发现,考虑反应时对准确率不同影响关系能明显提高模型对数据的拟合。同时,根据实际数据的参数结果,不同被试在同一项目上的残差反应时与准确率的关系存在多种形式,并且这种形式是受到被试能力与项目难度多重影响的结果。

对三个SAT 分层模型,SAT-M2 模型可能由于仅考虑了速度的影响,拟合最差。在项目作答过程中,被试速度水平即使低于项目工作量参数,但是被试只要愿意花费足够反应时,可以弥补速度水平的不足,因此SAT-M2 与M0 在数据拟合上是趋近的,这也意味着测验时间基本充足。而在SAT-M1 和SAT-M3 上,被试能力水平的不足是无法通过增加反应时来弥补的,而且被试在作答过程中,一个符合逻辑的心理决策过程是高难度项目放弃或者快速作答,其观测反应时可能远低于期望反应时,必然会降低项目作答准确率;而对于简单项目,被试能力充足,在排除无关干扰下(失误等因素),作答反应时是否充足是影响准确率高低的唯一因素;最后对中等难度项目,被试更愿意消耗更多反应时,甚至远超期望反应时以提高准确率,但是受到能力水平影响,准确率增加到一定程度后,反而会降低,这种做题策略和心理与Wang 和Zhang(2006)的研究结果相一致,却是 van der Linden(2007)分层模型所忽视的。

当然有一些问题仍然有待进一步解决与完善。在SAT 分层模型中,本研究选择的反应时模型是对数正态反应时模型,后续研究也可以比较对数偏正态模型(孟祥斌, 2016)以及其他的认知反应时模型(Anders, Alario, & van Maanen, 2016;Heathcote, 2004)的实际拟合结果。同时,在SAT 分层模型中,反应时与准确率在认知能力测验项目上存在非单调关系,造成的原因除了项目难度以及能力等因素外,也可能与被试认知风格、人格等因素相关(Grigorenko & Sternberg, 1995;Kagan, Rosman, Day, Albert, & Phillips, 1964)。

猜你喜欢

权衡测验准确率
如何权衡阿司匹林预防心血管病的获益与风险
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
权衡
最高的权衡境界
两个处理t测验与F测验的数学关系
数字测验
表白