APP下载

SNARC效应量大小及置信区间的可信问题的实例分析*

2023-09-20

心理学探新 2023年1期
关键词:垂直轴假设检验置信区间

何 华

(苏州大学教育学院,苏州 215123)

1 SNARC效应量大小分析

SNARC效应(spatial-numerical association of response codes effect,SNARC effect)本质上反映的是数量具有空间表征,即,在人脑中存在一条心理数字线,小数(1,2,3,4)表征在左侧空间,而大数(6,7,8,9)表征在右侧空间(Dehaene,Bossini,& Giraux,1993)。其获得的一个最为简单的实验流程为:“+”在屏幕中央呈现300ms,消失后随机出现一个小数(或大数)300ms,被试既快又准确地以双手食指按键判断该数是大于5还是小于5(刺激5不出现在屏幕上)。这个实验用到的任务是数字大小判断(当然还存在其他种类的任务),实验一般采用重复测量实验设计,数据分析采用重复测量方差分析和线性回归分析(Lorch &Myers,1990)。

线性回归分析最终会得到一个一元一次线性回归方程,该方程被用来描述SANRC效应。SNARC效应的线性回归方程一般是指,反应时差异(右侧减左侧)在数字(1,2,3,4,6,7,8,9)上的线性回归,并可以一般性的一元一次线性回归模型描述:

DRT=β0+β1N+μ

(1)

其中,N为数字1、2、3、4、6、7、8、9,是预测变量;DRT是右侧反应时减去左侧反应时的差值。该线性模型中的回归系数β1可以为正或负值,正负表明SNARC效应的方向不同。SNARC效应具有普遍性和跨文化性,西方研究者在以西方人为被试和以数字(1,2,3,4,6,7,8,9)为实验材料时,均可稳定获得数字SNARC效应,在描述SNARC效应的一元一次线性回归方程中,回归系数是负值。而在以希伯来语或波斯语为母语的被试身上,也可稳定获得数字SNARC效应,但方向则和西方人的相反,因此回归系数是正值。SNARC效应的效应量大小就是该线性方程的回归系数大小,或者为该线性方程的斜率的绝对值,与正负号无关。另外,对该方程要进行回归方程的显著性检验和回归系数的显著性检验,检验是欲以证实因变量确实是和自变量呈现线性关系。因为只有一个预测变量,所以这两种检验结果是一致的。

查阅国内外文献发现,需要比较SNARC效应量大小的研究为数众多,如,跨通道研究需要比较在单通道和跨通道条件下SNARC效应量大小的改变,以此来判断一个通道的数字加工是否影响到了另一个通道的数字加工;还有,不同空间维度(水平、垂直和矢量维度)的SNARC效应比较,以此来判断哪个维度下的SNARC效应量可能是最大的;另外还有发展性的研究(如,小学生、初中生和大学生),等等。因为具体的研究内容不同,这些研究中的SNARC效应量的比较具有各自的具体意义。但是其中的共同之处在于,需要通过考察SNARC效应量的改变来分析出某个自变量因素是否在其中起了作用。另外还有一个统计上的共同需求,就是如何采取合适有效的统计方法来进行比较分析。前述提到的研究中,需要比较的SANRC效应量大小至少是两组之间,这是最少的和最简单的,当然,也可能有四组甚至更多组之间,这种情形就比较复杂了。考虑到简单和具有代表性,选取三组之间的SNARC效应量进行比较分析,而且以Aleottia,Girolamob,Massaccesic和Priftis发表在2020年《Cognition》上的论文“Numbers around Descartes:A preregistered study on the three-dimensional SNARC effect”里的开放式数据为分析对象。分析过程中曾向论文作者Aleottia和Priftis(通讯作者)咨询该研究相关事宜以准确把握其数据含义。

Aleottia等(2020)的研究是有关数字的三维空间表征问题,为当前首个对三维(水平、垂直和矢量)SNARC效应的研究。Aleottia 等(2020)指出了前人研究存在的一些问题后,创造性设计出一种特殊反应装置(如下图1所示),真正解决了三维空间上的按键反应问题。研究得到,三维SNARC效应的效应量值是基本相等的(且都是负值),存在三维的数字的心理空间表征。Aleottia等(2020)采用了频率主义(经典统计分析)和计算贝叶斯因子两种方法对结果进行了分析并得到最终结论,这两种分析方法下的结果大多完全一致,但从Aleottia等(2020)的结果分析可以看到,在面对经典统计分析下的边缘显著情况,他们都会进一步进行贝叶斯分析以期得到更准确的判断。具体而言,为探索三个空间维度上SNARC 效应的情况(即,三个维度上的SNARC效应的效应量或回归系数大小是否有显著差异),Aleottia等(2020)进行了如下分析:对每个维度都进行了线性回归分析,并通过经典的单样本t-检验和贝叶斯单样本t检验均得到回归方程是显著的。进一步,为了比较三个维度上SNARC效应量大小,Aleottia等(2020)通过经典配对样本t检验和贝叶斯配对样本t检验均得到,三个维度上的SNARC效应量大小无显著差异。经典配对样本t检验方法因简便实用而基本为前人研究所采用。但是,多重比较分析容易增加犯I型错误的概率,Aleottia等(2020)所做经典配对样本t检验存在不可靠的可能性。比较SNARC效应量还可以有其他统计思路,如,在线性回归模型中引入虚拟变量方法,下面详细介绍。

图1 Aleottia等(2020)研究中专门设计的反应盒

如果两个或多个样本组中的线性模型设定是相同的(即为同向),则这几组之间的回归系数大小是可以比较的,而且这种比较在多数实证分析中都是非常必要的。在数字加工的SNARC效应研究中也存在同样情况。以Aleottia等(2020)的研究为例,其实验得到三个维度(水平轴、垂直轴和矢量轴)的SNARC效应量大小显著且方向一致,则可确定数字认知存在心理的三维空间表征,因此比较三个维度(水平轴、垂直轴和矢量轴)的SNARC效应量大小是可行且必要的。由(1)式,三个维度的SNARC效应量的比较其实就是比较如下三个模型的回归系数大小是否存在差异:

水平轴SNARC效应模型:DRTH=β0H+β1HN +μH

(1a)

垂直轴SNARC效应模型:DRTV=β0V+β1VN +μV

(1b)

矢量轴SNARC效应模型:DRTs=β0S+β1SN +μS

(1c)

考虑到三个模型中的回归系数和常数项不等,采取加法乘法式混合引入虚拟变量得到如下线性模型(Wooldridge,2009/2010)。

DRT=β0+δ1d1+δ2d1*N+δ3d2+δ4d2*N+β1N+μ

(2)

该模型以水平轴为对照,且d1(矢量轴)和d2(垂直轴)均为虚拟变量。当两个虚拟变量都取0时,则表示为水平轴SNARC效应模型,且为对照组;当垂直轴取1,矢量轴取0,则表示为垂直轴SNARC效应模型;当垂直轴取0时,矢量轴取1,则表示矢量轴SNARC效应模型。 N为数字1、2、3、4、6、7、8、9。因此,结合两个虚拟变量的不同取值,可得到:

水平轴SNARC效应模型(d1=d2=0):
DRT=β0+β1N +μ

(2a)

矢量轴SNARC效应模型(d1=1,d2=0):
DRT=(β0+δ1)+(δ2+β1)N+μ

(2b)

垂直轴SNARC效应模型(d1=0,d2=1):
DRT=(β0+δ3)+(δ4+β1)N+μ

(2c)

据此,检验垂直轴、矢量轴和水平轴之间的回归系数大小是否存在显著差异,就是检验H0:δ2或δ4=0。依此类推,如果(2)式中的虚拟变量d1为水平轴、d2为矢量轴,垂直轴为参照记为0,当两个虚拟变量都取0则表示垂直轴,这样垂直轴就是对照组;当水平轴取1,矢量轴取0,则表示水平轴(d1=1,d2=0);当水平轴取0,矢量轴取1,则表示矢量轴(d1=0,d2=1)。据此,检验水平轴、矢量轴和垂直轴之间的回归系数大小是否存在显著差异,最终都可归结为检验H0:δ2或δ4=0。

下面即是利用Aleotti等(2020)的公开数据通过SPSS(SPSS Statistics 21,IBM,NY,USA)对模型(2)进行回归分析和F检验,最终得到方差分析表(表1)和两个回归系数表(表2和表3)。可以看到,不论以哪个轴为参照轴,方差分析表都是相同的(即都是表1形式),这表明存在SNARC效应。而且,当以水平轴为参照时,在回归系数大小比较上,其他两轴均与其无显著差异(表2);当以垂直轴为参照时,在回归系数大小比较上,其他两轴均与其无显著差异(表3)。结果表明,存在数字的空间三维表征。因此,可以看到,通过引入虚拟变量对回归系数大小的分析和Aleotti等(2020)的分析结果是一致的。

表1 方差分析表

表2 回归系数表(水平轴为参照)

表3 回归系数表(垂直轴为参照)

由前面分析可知,引入交乘项检验某个或某几个变量的系数是否存在组间差异,只需在一般线性模型中加入交乘项即可,但这一方法背后存在隐含的假设条件。对于数字认知的SNARC效应的一般线性模型(1)式,这个隐含的假设条件是,三组的误差项应具有相同的分布(因为估计时是将三组样本混合在一起进行估计的),即,σH2=σV2=σS2。国内夏帆(2008)给出了证明,一元线性回归模型中引入一个虚拟变量时,其中的虚拟变量回归参数b 的显著性检验和两正态独立总体均值比较t检验是等效的。通过前面实例分析得到,混合引入两个虚拟变量后的结果也是等效的。引入虚拟变量的好处之一是可能会减弱假阳性。

2 置信区间估计的可信问题分析

第一部分的分析中提到贝叶斯检验在心理学研究中已开始得到应用。贝叶斯学派认为概率是主观、先验和可变化的,是从有到变化;而频数派认为概率是从无到有到相对稳定,是客观的。若只从客观性角度看,似乎频数派的统计方法的可信度相对更高,但实际情况是否真是如此呢?而且现在心理学实验的检验结果报告除了列出t值(或z值)大小,还需要需要提供“Cohen’sd值”,也有进一步提供置信区间的。因此,和第一部分一样,下面仍从实例出发对置信区间的可信问题进行分析。需要指出的是,虽然依据实例分析统计问题研究是初步的,但从数学角度来看,其不失为一种发现某些统计问题甚至质疑某些统计观点的重要手段。

区间估计与假设检验是传统的推断统计中两种重要的统计方法。参数估计包括参数的点估计和区间估计。 设x1,x2,…xn是来自总体X的样本,总体X分布函数为F(x,θ)(θ为未知参数),现建立两个统计量T1(x1,x2,…xn)及T2(x1,x2,…xn)并满足不等式T1(x1,x2,…xn)

2.1 例题及解答

例1:假设某私立学校规定学生升学标准之一为近6次英语考试平均分不低于101分(总分为120),对A学生进行了6次考试后得到如下分数:85,90,95,96,101,103。问A学生在α=0.05下是否达到英语入学标准?

解法一:

假设检验解法如下:

①构建假设H0:μ0≥101,H1:μ0<101

③对显著性水平α=0.05,查t值表确定临 界值t0.05(5)= -2.015

由于 -1.996>-2.015,接受原假设H0, A学生达到入学标准。

解法二:

置信度为0.95的均值置信区间为(-∞,95+2.015 ×6.723/√5),计算得到(-∞,101.058),101 落入其中,依据该置信区间A学生达到入学标准(置信区间法)。

假设检验解法如下:

①构建假设H0:μ0≤101,H1:μ0>101

③对显著性水平α=0.05,查t值表确定临 界值t0.05(5)= 2.015

由于-1.996< 2.015,接受原假设H0,A学生未达到入学标准。

2.2 分析与讨论

解法二下的置信区间和假设检验产生冲突,因为101和置信区间的位置关系不可忽视。 为更一般性讨论这个问题,若取某个置信区间(置信度为1-α)并构建原假设H0:p=0,在拒绝和接受H0下,依据样本观测值和置信区间的位置关系进行估计时,以下两种结果均可能出现:

①接受H0,置信区间为(a1,b1)

假设0落在(a1,b1)中,当a1,b1中的一个或都距离0很近,若取置信区间(a1= -0.02,b1=0.04),假设检验和区间估计结论则可能产生冲突。当a1,b1都距离0较远,若取置信区间(a1= -15,b1=20),假设检验和区间估计结论则趋向一致,但由于区间估计的上下限距离0较远,没有哪个区间值能有更大把握 在0附近。

②拒绝H0,置信区间为(a2,b2)

假设 0落在(a2,b2)外,但a2,b2中的一个或都距离0很近,若取置信区间(a2=0.02,b2=0.04),其区间内任意值均在0附近,这时,区间估计与假设检验结论可能存在冲突。而若取置信区间(a2=15,b2=20),区间上下限都和0相距较远,区间估计和假设检验结论则趋向一致。

因此,①和②都存在产生冲突的可能,解法二属于前述1中可能产生冲突的一种情形,从而对置信区间可信存有怀疑。

2.3 例1再分析——贝叶斯统计(解法三)

从例1所给6次考试的样本观测值看,A学生仅有一次考试略高于101,一次刚好合格,其余4次均不合格,这六次考试平均分数也只有95,远低于入学标准线。 分析例1的解法一中的置信区间(88.942,101.058)也可发现,101虽然落入其中,但在这个区间中处于非常偏右的位置(距离区间上限很近),样本观测值大多数都小于101。这种样本信息提示,H0:μ0≤101,H1:μ0>101很可能会得到支持,即,A学生未达到入学标准,这个结果和解法二的假设检验法相一致。由于贝叶斯统计方法的基本思想就是充分利用样本信息和先验分布,下面采用贝叶斯统计方法(解法三)对例1进行再分析。

第一步 假设存在先验分布

心理统计与测量中,学生考试成绩一般服从正态分布。假设A学生考试分数符合正态分布,Х~N(100,72),该正态分布作为先验分布。

第二步 依据后验分布 进行计算

将例1中全部6个样本观测值作为样本信息并结合先验分布计算得到后验分布。后验分布依据下面三个公式:

(1)

(2)

(3)

其中,μN为后验分布平均值,σN2为后验分布方差,μ0为先验分布平均值,σ02为先验分布方差,σ2为样本方差,μML为样本平均值,xn为第n个样本观测值,N为样本容量。

例1中6个样本观测值平均分为95,方差为45.199,据式(1)和(2)(即结合先验分布计算公式)可得后验分布为ХN~N(95.666,42.602)。由于例1所给样本观测值只有6个,后验分布均值95.666与6个样本观测值均值(95)很接近,但小于先验分布均值100和入学标准101分,而100已很接近101分,所以假设的先验分布似乎未影响后验分布。95.666小于101(但变异减小),所以A学生未达到入学标准。本次分析支持前述解法二的假设检验法。进一步,在当前样本信息下A学生考试成绩的先验分布需要满足什么条件才可能使后验分布均值达到入学标准呢?根据式(1)列出如下二元一次不等式方程式(4)计算先验分布均值和方差范围。变形后得到45.2μ0-45.2×101≥600×σ02,最终得到,对于先验分布,当120≥μ0≥101且1.43≥σ02≥0时,A学生后验分布均值才可能达到入学标准101分。考虑极端情形(σ02=1.43),从A学生实际考试成绩来说,标准差为1.2的考试成绩意味,相差一分就会相差近一个标准差,实际出现这种情况的可能性不大。所以综合前面分析,就当前样本信息来说A学生实际未达到入学标准101分。

(4)

解法三在利用样本信息上又更进一步,还考虑到先验分布,因此处于相对更可信地位。但解法三支持解法二的假设检验法表明,解法一和二的置信区间估计的可信性值得怀疑。

2.4 讨论

例1解答共采用了三种方法,最后通过贝叶斯统计分析才给出当前样本信息下相对确定性结果(通过计算贝叶斯因子结果也一样)。概括而言这些解法主要回答如何依据样本信息进行方向判断(大于还是小于英语入学标准101分)。解答过程中虽利用置信区间进行估计,但其可信受到怀疑,所以对置信区间涵义及其可信问题还需在概念上进一步反思和澄清:

(1)区间估计是构造出包含参数的样本范围进行估计(置信区间),例如,对α=0.05时的置信区间(0.1,0.2),认为参数有 95%的可信度落在0.1~0.2之间是不够精确的,因为这种表述将参数看作随机变量,置信区间覆盖某参数的可能性才是对置信区间的精确理解;假设检验是对于给定参数值(原假设),寻找与该参 数不一致的样本(拒绝域)。置信区间是参数空间的子集,是一个随机区间,具体区间范围由样本观测值决定;假设检验的拒绝域是样本空间的子集,相对来说是确定的集合,没有随机性。区间估计与假设检验二者存在联系:置信区间与接受域对应,置信水平1 -α与显著性水平α对应。区间估计属经典统计理论中的估计方法,是根据样本信息对总体分布或总体特征进行推断,只用到了总体信息和样本信息。而贝叶斯理论在使用前述两种信息以外,还使用了先验信息。先验信息是 人们在试验之前对某问题的了解和已掌握的相关统计信息。 与经典统计理论观点不同的是,贝叶斯理论认为 总体中的未知参数θ是随机变量,将先验信息(先验概率分布)加入统计推断中可提高统计推断的质量。

(2)如果不考虑例1中样本观测值和置信区间的实际具体含义,推广到一般情形时,置信区间上下限值与参数之间的远近关系是置信区间不可信的重要原因。例1解法一和二的置信区间下的结果都是一致的,但解法二中的样本观测值的置信区间结果和假设检验结果是相冲突的,这令假设检验和置信区间估计的可信性都受到怀疑,但不能最终确定是哪个出了问题。解法一和二的置信区间虽然是不一致的,但结论相同,让人觉得置信区间是可信的。进一步通过贝叶斯分析后得到两种置信区间可信的存在基础是:考试成绩变异小,以及除这6次考试之外其他足够多次数的考试成绩都能≥101;但是这种情况实际发生的可能性未知,所以解法一和二的置信区间似乎又是不可信,因此这意味,通过贝叶斯统计方法找到置信区间估计可信或不可信的原因所在。但需要通过已有知识经验获得样本的先验分布(本质上即是需要符合一定条件的足够考试次数或实验重复次数)。另外,如果基于样本观测值和置信区间在例1中实际具体含义,则101分在例1中具体含义是英语入学分数,其落在置信区间(88.942,101.058)中。虽从连续变量角度看区间上限101.058是合理的,但作为实际考试分数,101.058是不存在的。所以从样本实际情况来看101分作为边界更加合理,而恰巧这个分值又是区间上限,所以A学生很有可能就是未达到入学标准,例1中的先验分布变异很小而后验分布变异还会更小可进一步支持该观点。

(3)置信区间按某估计程序被建构和实际理解使用某个置信区间之间存在较大差异。按频数说,实验重复很多次后,利用很多样本信息可以计算得到很多个置信区间,真值存在于某一置信度(如95%)下的置信区间里。但就某一个置信区间而言,真实值或在里面或不在里面,这种情形不好用概率去描述,这个置信区间里的样本观测值也不存在分布信息。因为实验重复很多次后,概率意义才成立,一定置信度下的置信区间才能建构出来并具有价值(总体参数在其中)。从这个角度出发,例1前两种解法可以理解为是通过置信区间的建构实现对真值估计:由解法一和解法二的置信区间法可知,两种解法构建的置信区间都包含了真值。这样,两者对真值进行估计的过程中,在目前样本信息下出现了两个置信区间的交集区间(R交)。理论上这两个置信区间不能相交,相交则意味R交置信度会低于95%(样本信息完全相同),而作为95%置信区间子集R交置信度实际上就是95%,于是矛盾产生了。但是,实验重复很多次后就不存在这样的问题,而这种理论上的构建和实际某样本信息下构建某个置信区间过程之间的差异一直存在,是抽样研究所固有的特点。

3 结束语

(1)包含虚拟变量的线性回归模型是一种特殊的回归模型,引入虚拟变量增加了线性回归模型的复杂性,使一个线性回归方程能融合至少两个线性回归方程在其中,对回归问题的描述(尤其是包含定性问题时)更凝聚清晰和接近现实。一元线性回归方程中的斜率反映SNARC效应量,其差异性检验通常使用t检验,这种方法简便易行,但并未充分利用线性回归方程的自身特性,存在增加假阳性的可能。在SNARC效应的一元线性回归模型中引入虚拟变量后,通过使用回归模型的总体显著性检验F检验可以替代t检验,即与比较 两个独立的正态分布的总体的均值的t检验结果是一致的,可以降低结果的假阳性。但对于SNARC效应量的分析来说,引入虚拟变量至线性回归模型后增加了分析的难度。

(2)由前述分析,置信区间估计的不可信主要看参数和置信区间的上下限之间的位置关系以及实验重复次数,在具体问题中还离不开样本观测值的具体含义。但最关键一点,置信区间可以反映样本信息并在实验重复多次后能反映总体参数(一定条件下样本可以替代总体),这是置信区间合理可信的基础。所以,总体上置信区间合理可信,且含有重要量化信息(如,可利用置信区间研究效应重复性问题),可以一定程度上补充经典假设检验。可信的终极价值应是指向对真值的更准确估计,并随样本信息增加,该分配多大概率(或把握)给这些样本信息以表明依据它们所估计的真值能准确到什么程度。对于频数说的置信区间,实验重复很多次后才能赋予置信区间某个置信度(如,95%)下包含真值。所以在建构或估计真值过程中基于样本信息的可信都是相对的,但在样本信息不是很足够时就能充分利用已有知识经验实现估计的统计学理论或方法可以胜出,因而贝叶斯统计理论有其相对优势,将贝叶斯统计引入心理学实验结果的检验并报告出来是非常有必要的。

猜你喜欢

垂直轴假设检验置信区间
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
垂直轴风力机主轴直径对气动性能的影响
列车定位中置信区间的确定方法
统计推断的研究
双幂变换下正态线性回归模型参数的假设检验
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
统计学教学中关于假设检验问题探讨
伸缩叶片式垂直轴风机叶轮的数值仿真