APP下载

关于假设检验的争议:问题的澄清与解决*

2016-02-01仲晓波

心理科学进展 2016年10期
关键词:假设检验学派贝叶斯

仲晓波

(嘉应学院教育科学学院, 广东梅州 514015)

1 问题的提出

自心理学开始使用实验方法起, 传统的假设检验方法就一直是其分析实验数据和报告实验结果的主要工具。但是也几乎是从开始使用这一方法的时候起, 在心理学中就有着断断续续的对它的批评(Balluerka, Gómez, & Hidalgo, 2005)。心理统计学中的这一轮新的关于传统假设检验的争议发轫于 Cohen等人对其逻辑基础的否定(Cohen,1994; Hagen, 1997)。

在 Cohen等批评者们看来, 传统假设检验确定研究假设(备择假设)接受域的推演逻辑是:首先把假设空间(由实验结果能够得出的所有可能结论组成)分为零假设H0和备择假设H1两个互补的部分; 然后在样本空间(由实验所有的可能结果组成)中寻得一个区域, 使得在零假设成立的情况下, 实验结果落在这个区域的概率小到这样的程度——以至于可以近似地认为:在零假设成立的情况下, 实验结果不可能落在这个区域; 根据“条件命题的逆否命题和原条件命题等价”的逻辑学原理, 当发现实验结果确实落在这个区域中时,就可以拒绝零假设; 由于零假设和备择假设的互补性, 拒绝零假设就意味着接受备择假设(Cohen,1994; Hagen, 1997; Balluerka et al., 2005)。这种对传统假设检验原理的论述也常常见诸于心理统计学等非数学专业的统计学教科书中。

批评者们指出:传统假设检验这一推演逻辑意味着把在样本空间子集M中能够拒绝零假设的标准建立在上, 然而是否拒绝零假设应该以为标准(Cohen, 1994; Hagen,1997)。而和有如下的由贝叶斯公式所确定的关系:

Cohen等人的这些批评在心理统计学中引起热烈的反响, 研究者们提出各种取代、改进或者补充传统假设检验的方案, 但是这些方案大都由于自身的缺陷也受到质疑和批评(Balluerka et al.,2005)。关于传统假设检验的争议之所以至今尚未得到平息, 其中的一个关键原因是它和统计学中的频率学派和贝叶斯学派的对立交织在一起。属于频率学派的传统假设检验在心理学中所遭受的批评使得一些心理学研究人员倾向于认为应该使用贝叶斯学派中的假设检验方法(Morey & Rouder,2011)。Cohen等人的对传统假设检验的逻辑基础的上述批评使用的也正是贝叶斯统计学派中的概念和方法。

统计学家们一致地认为:取决于问题本身的性质, 有些问题适合用频率学派的方法, 而有些问题则适合用贝叶斯学派的方法(张尧庭, 陈汉峰,1991)。所以, 为平息心理学中这场关于假设检验的争议, 首先必须澄清和解决的问题是:心理学实验的数据分析适宜用哪个学派的方法?文章下面的第二部分将通过分析指出:心理学实验的性质决定了其数据处理仍然应该用频率学派的统计学方法; 在频率学派的框架下, 传统的假设检验实际上有着合法的逻辑基础, 但是同时它在效用性方面却存在缺陷。在澄清这些问题之后, 第三部分将说明:为了克服这些缺陷, 应该对传统的假设检验做怎样的改进和补充?置信区间怎样能够集成地表示这些改进和补充?文章的第四部分将说明:为什么现行的面向总体的实验设计和数据分析方法需要转向为面向个体?

2 问题的澄清

2.1 贝叶斯学派和频率学派关于假设检验的不同观念

贝叶斯学派和频率学派的区别并不在于是否使用贝叶斯公式(事实上两个学派都使用这一公式), 就心理学实验数据的处理来说, 频率学派认为自变量影响因变量的强度(效应值)是个固定值(尽管这个固定值的大小研究者不知道), 而贝叶斯学派则认为这个效应值是随机变量。由于认为效应值是随机变量, 贝叶斯学派认为关于效应值取值范围的任何假设H成立的概率都是0和1之间的某个数值。设从实验获得的结果为x, 由贝叶斯公式可得:

从贝叶斯学派的观念来看, 实验在假设检验方面的价值就在于把H成立的概率从先验概率更新为后验概率, 而能否接受H的依据就应该是P(H|x)。如果后面的研究者针对相同的问题又做了一个实验, 那么他在应用上述公式时所涉及的先验概率就是上一个研究者获得的。因此贝叶斯假设检验强调研究者在根据当下的实验结果做出统计推断时, 需要考虑以前的相关实验的结果。正是由于这个原因, 元分析被认为是贝叶斯假设检验的内在要求(Balluerka et al., 2005)。

与贝叶斯学派的观念不同, 频率学派把效应值当作固定值, 认为关于效应值取值范围的任何假设(包括零假设或者备择假设)要么成立要么不成立, 即或者P(H)=0。从公式2可以看出:当时, 不管x取什么值, 都有;而当时, 不管x取什么值, 都有。所以在频率学派中, 不存在假设成立的概率随实验结果变化的问题。

在几乎所有的心理学实验情境中, 自变量的取值都得到研究者严格的操纵, 这决定了自变量对因变量的影响强度(即效应值)应该看作固定值而不是随机变量。所以, 心理学实验的基础条件和频率学派的前提吻合, 它的数据分析应该用频率学派的统计学方法。在频率学派统计学中,只可能是0或者1决定了也只可能是0或者是1, 非此即彼。这使得根据的大小决定是否拒绝H0的说法是没有意义的,所以Cohen等人通过公式1对传统的假设检验逻辑基础的批评的出发点就是错误的。

另一方面, 认为传统的假设检验是建立在“小概率事件在一次试验中几乎不可能”原理上也是对它的误解。根据这一原理实际上根本不可能唯一地确定零假设的拒绝域:除了与M的位置有关外, 还与M的大小有关; 对于任何一个从实验获得的可能结果x, 我们总可以选取足够小的包括x的集合M, 使得很小, 并根据上述“小概率事件在一次试验中几乎不可能”原理拒绝H0从而接受H1。这显然是不合理的。事实上, 严谨的统计学教科书都明确地指出, 传统的假设检验确定零假设的拒绝域(备择假设的接受域)的方法规定是奈曼-皮尔逊原则:在维持α足够小(一般规定为不大于 0.05或者 0.01)的情况下, 寻找使得 β最小的区域(梁之舜, 邓集贤,杨维权, 司徒荣, 邓永录, 1980)。这一原则在样本空间中唯一地确定零假设的拒绝域。

2.2 传统的假设检验的缺陷和使用者常犯的错误

传统的假设检验依据奈曼-皮尔逊原则确定零假设拒绝域这一事实说明它实际上是考虑降低第二类错误的概率的。但是, 一方面由于两类错误概率的相互牵制:在实验设计和样本容量确定的情况下——一个的减小必然导致另一个的增加,另一方面由于这个原则采取优先降低第一类错误的策略, 因此在实际应用中, 第二类错误的概率β一般都比第一类错误的概率α大得多。

比如, 设有一研究者探究一种新的干预方法相比于旧的干预方法是否对儿童自闭症的治疗更有效。在这里零假设是, 备择假设是(2μ和1μ分别是新方法和旧方法干预效果的量化表示),在中等效应(效应值为0.5个标准差)、组间设计被试数为25的情况下, 可以算得第二类错误概率达到 0.59。所以, 当实验结果越过临界值时,可以做出新方法好于旧方法的统计推断(即接受备择假设), 并且这个推断错误的概率小于 0.05;但是, 当实验结果没有越过临界值并且研究者因此而做出新方法不比旧方法好的结论(即接受零假设)时, 那么这个结论错误的概率将达到0.59。易于看出, 双尾检验也存在同样的问题。

所以, 尽管当实验结果落在备择假设接受域中时, 可以作出接受备择假设同时拒绝零假设的统计推断(这个推断错误的概率小于等于α); 但是当实验结果没有落在备择假设的接受域中时, 却不能拒绝备择假设或者接受零假设(如果做出这个推断, 这个推断错误的概率将达到 β), 此时实际上处于不能做出统计推断的境地。因此, 在传统的假设检验的范式中, 零假设不可能被接受,相应地备择假设不可能被否定, 而这违背了研究假设可证伪这一科学研究的基本原则。

有相当多的研究者意识到传统假设检验的零假设不可能被接受的缺陷, 当实验结果没有越过临界值时, 他们给出的研究结论是“不显著大于(或小于)” (针对单尾检验)和“没有显著差异” (针对双尾检验)。但是, “显著”却无法解释成效应值的大小, 因为实验结果能否越过临界值除了取决于效应大小外, 还取决于样本容量和实验设计方法。

传统的假设检验的上述缺陷导致人们在使用它时倾向于犯下面的两个错误:

(1) “当样本观察值没有落在零假设的拒绝域中时, 就接受零假设” (Monterde-i-Bort, Frías-Navarro, & Pascual-Llobell, 2010; Nickerson, 2000)。从某种意义上说, 使用者的这一错误是被“逼”出来的, 因为他们如果不犯这样的错误, 就会落入备择假设不可证伪的尴尬境地。与这个错误相对应, 将第二类错误的概率 β称为“取伪”的概率实际上也是不恰当的(Nickerson, 2000)。

(2)由于当样本观察值没有落在零假设拒绝域中时, 实际上既不能接受备择假设, 也不能接受零假设。这使得一些心理学研究人员认为:当实验数据没有落在零假设拒绝域中时, 实验就是失败的(Monterde-i-Bort et al., 2010)。使用者的这一错误倾向是元分析研究中效应估计系统误差的主要来源; 另一方面除了在效应值估计方面的价值之外, 那些没有达到显著性水平的实验在统计推断方面也是有价值的:元分析方法作用于若干没有达到显著性水平的实验, 也有可能取得达到显著性水平的结果(Ferguson & Brannick, 2012; Coburn& Vevea, 2015; Rothstein & Bushman, 2012)。

传统假设检验的另一个经常为人们提及的缺陷是:即使在接受备择假设的情况下, 它也只能判断自变量是否对因变量有影响(双尾检验)和这种影响的方向(单尾检验), 但是却不能告诉这种影响的大小。所以假设检验给出的结论实际上只是定性的, 它不能提供自变量影响因变量强度的定量说明(Balluerka et al., 2005; Nickerson, 2000)。为克服这一缺陷, 大部分研究者认为应该以效应估计作为假设检验的补充(Kelley & Preacher,2012)。

3 问题的解决

上面的论述所要表达的结论是:心理学实验的数据分析适宜用频率学派的统计学方法; 按照频率学派统计学的观念, 传统的假设检验确定零假设拒绝域(备择假设接受域)的依据不是“小概率事件在一次试验中几乎不可能”原理, 而是奈曼-皮尔逊原则; 但是作为一种数据处理方法, 传统的假设检验在效用性方面却是有缺陷的。这决定了:对传统假设检验的恰当的态度是改进和补充, 而不是抛弃; 而且, 这种改进和补充的价值也应该在频率学派的框架中得到说明。在研究者们提出的各种各样的改进措施中, 最引人注目的是将传统假设检验结果的两分法改造为三分法;在研究者们提出的各种各样的补充措施中, 最重要的是效应值估计和对实验结果可重复性的评估。

3.1 假设检验结果的三分法

对于心理学中典型的比较平均值的实验, 可以把假设空间分割为三个部分:

当实验结果落在两个临界值之间时, 则说明从实验获得的数据还不足以作出接受HR或者的推断。但是在频率学派的统计学中, 这种模棱两可的状态是暂时的。由中心极限定理可以证明:不管1μ和2μ的差异多么小, 通过增加样本容量或者借助于元分析方法, 最终都能使得实验结果或者元分析结果按照1μ和2μ差异的方向越过临界值, 从而使得研究者最终作出接受HR或者明确推断。所以, 这种三分法的假设检验和元分析方法在逻辑上也是连贯的。

而在贝叶斯统计学中, 由于认为自变量影响因变量的效应值是随机变量, 样本容量的增加或者元分析研究却不一定能够达成摆脱这种模棱两可状态。

3.2 效应值的点估计和及其估计精度

其统计学含义是:这个区间覆盖δ的概率是1−a。置信区间不仅可以通过它的中点给出效应的点估计值d, 而且还可以通过区间的宽度对这个点估计值的精确度进行估计:区间越窄,d和δ在统计上就越接近, 因而这个点估计值越精确(Geoff& Fiona, 2009)。

公式 3的得出及其对δ的估计价值只有在δ为固定值而不是随机变量的前提下才有可能。所以, 近来为越来越多的心理统计学研究人员所提倡的以置信区间报告心理学实验结果的主张也恰恰说明了心理学实验数据的分析适宜用频率学派的统计学方法。

由于双尾检验的左临界值对应于效应值置信区间右边界等于 0的情形, 右临界值对应于置信区间左边界值等于0的情形。所以前述的三分结果的假设检验方法可以作为一个子集包含于效应值置信区间中。

3.3 实验结果的可重复性

在这次关于假设检验的争议中, 心理学实验的可重复性也引起研究者们的关注和讨论(Killeen, 2005, 2010; Iverson, Wagenmakers, & Lee,2010; Lecoutre, Lecoutre, & Poitevineau, 2010)。人们普遍地认为:和其他科学的实验一样, 可重复性也应该是评估心理学实验的一个核心标准, 因为不具备可重复性的研究成果不可能产生应用价值(Miller & Schwarz, 2011; Maraun & Gabriel,2010; Lilienfeld, 2012; Serlin, 2010)。传统的假设检验由于其备择假设的不可证伪性, 使得基于它的对实验可重复性的说明存在着这样的问题:前后两个同质的实验只要有一个实验的结果没有越过临界值, 就不能对后一个实验是否重复了前一个实验的结果做出判断。为避免这个问题, Killeen提出将第二次实验的结果重复了第一次的实验的结果定义为两次实验的样本效应值的正负号相同(Killeen, 2005, 2010)。但是, 他的定义却有着这样的缺陷:在样本效应值符号相同这一限制下前后两个实验的样本效应值可能相差很大, 而在符号不同的情况下两个样本效应值也可能相差很小。

Schmidt提出应该区别两种不同性质的实验的可重复性问题:一种是如Killeen所说的前后两个实验同质的情形; 另一种是实验控制条件变化的情况下, 由控制变量和自变量的交互作用而引起的实验可重复性的问题(Schmidt, 2009)。显然,对于前者, 只需要对两个实验的结果是否相同做出量的评估, 而不必要也不应该对它们做出质的区分。在频率学派统计学中, 同质的两个实验的样本效应值d1和d2相互独立并且满足, 由此可得d2的1−a置信水平的预测区间如下:

其含义是d2以1−a的概率处于上述区间中。所以这个区间可以这样表示实验结果的可重复性程度:区间的宽度越窄,d2和d1在统计上越接近,从而实验的可重复性也就越好。将上式和公式 3比较可以看出:两个区间的中间值相同, 前者的宽度是后者宽度的倍。因此, 也可以直接用CIδ表示实验结果的可重复程度(Cumming, 2010)。

于是, 以置信区间表示心理学实验的结果能够集中地实现假设检验结果的三分法、效应值估计及其精度的估计以及表示实验结果的可重复性这三方面的功能。而实验数据分析精度, 无论是检验效力、效应估计精度还是实验结果的可重复性程度都表现在置信区间的宽度上:区间的宽度越小, 这三方面的精度越高。如前所述, 置信区间所有的这些价值只有在频率学派统计学中才有可能。

4 从面向总体转向面向个体

上述频率学派统计学中的平均值差异的t检验、效应值估计、实验结果可重复性的评估以及将这三者合而为一的置信区间方法都以不同自变量水平下因变量的方差齐性(相等)为前提, 因此在使用这些数据分析方法之前, 都应该进行方差齐性的假设检验。但是和在其他情境下使用假设检验的过程一样, 在方差齐性检验中, 人们也总习惯于犯这样的错误:当检验数据没有越过临界值时, 就接受方差齐性这一结论。心理统计学中这场关于假设检验的讨论使研究者们认识到:在方差齐性检验中, 方差相等作为零假设, 在原理上实际上不可能被接受; 而且如前所述, 在备择假设(在这里就是方差非齐性)接受域的余集中,备择假设(方差非齐性)成立的概率仍有可能相当大; 这说明:方差非齐性的情况要比人们所判断的普遍(Rosopa, Schaffer, & Schroeder, 2013)。

对于在实验设计方面合法的心理学实验, 实验处理前不同自变量取值水平下的被试应该是同质的, 因此实验前各组被试与因变量有关的各项指标的方差应该是齐性的。那么经历实验处理之后, 不同自变量取值水平下因变量的方差不相等只能归因于实验处理和被试的某一(或者某一些)个性特征发生了交互作用(即 Person×Situation interaction, 简称PSI) (Tucker-Drob, 2011)。另一方面 PSI也必然导致方差非齐性, 所以对方差非齐性普遍性的低估同时也意味着对 PSI普遍性的低估。Scott指出:忽视这种交互作用正是制约心理学实验应用价值的一个重要原因(Lilienfeld, 2012)。

我们认为:和任何其他科学的研究一样, 心理学研究(包括心理学实验)的终极目标也应该是预测; 因为预测是对理论最令人信服的检验, 预测也是科学研究应用价值的最直接的保证; 而且心理学的这种预测应该体现在具体的个体上, 因为应用总是针对具体的个体的。当实验处理和被试的个性特征不存在交互作用时, 实验处理作用在不同的被试上所产生的效应相同, 都等于实验处理的总体效应。自变量和被试个性特征的交互作用意味着:实验处理作用在不同个性特征的被试上, 产生不同的效应, 所以, 当存在PSI时, 前述的面向总体效应的实验数据分析方法就不再合适。

设实验操纵的自变量为T, 和T产生交互作用的被试个性特征变量为X, 那么因变量和它们的关系可表示成如下的形式(其中,e代表不涉及PSI的被试个性特征对因变量的影响):

T和X的交互作用使得它们在公式中不可分离。因此, 此时是用频率学派的统计学方法还是贝叶斯学派的统计学方法处理实验数据(即将δ(T,X)看着普通变量还是随机变量)取决于是否把X看作随机变量。

正如当实验中两个可操纵自变量存在交互作用时, 人们更关注简单效应一样, 当存在 PSI时,我们也更应该关注实验处理对X取某个具体数值x的个体所产生的效应, 即δ(T,x)。虽然我们也会考察δ(T,x)随x的变化规律, 但此时X和仍然只是一般变量, 而不是随机变量。基于这样的理由, 我们认为:关于δ(T,X)的统计推断和参数估计仍然应该用频率学派的方法。借助于线性回归中的数据分析程序, 可得关于X取某个具体数值x的个体的效应δ(T,x)的置信区间。和公式 3所表示的置信区间一样,δ(T,x)的置信区间也具有统计推断、效应值及其精度的估计以及评估实验结果的可重复性的三重功能。

从预测的角度来看, 心理学实验追求的是由T对Y的预测, 而由X对Y的预测——由被试的一些个性特征预测其他的个性特征——则是心理测量学的主题。到目前为止, 心理学中这两个研究取向基本上是分离的。早在上个世纪中叶Cronbach就提醒人们注意心理学实验中实验处理和被试个性特征交互作用, 同时他还指出这种交互作用必然要求把心理学研究中的实验取向和测量学取向整合在一起(Cronbach, 1957)。只是到了现在, 由于结构方程建模这些统计工具在心理学中的使用和普及, 心理学研究人员才开始在实践中对Cronbach的这个要求做出响应(Tucker-Drob,2011; Geiser et al., 2015)。有学者断言:这种整合将会带来心理学方法论的革命(Sharpe, 2013)。

5 结束语

问题的解决以问题的澄清为必要条件, 在这场因对传统的假设检验的批评而引发的一系列争议中, 首先需要澄清的问题是:心理学实验数据的处理适宜用贝叶斯学派的统计学方法还是频率学派的统计学方法?我们认为:对于绝大部分心理学实验, 其数据分析适宜用频率学派的方法。正因为如此, 传统的假设检验作为频率学派中的统计学方法, 其缺陷只能也应该在频率学派统计学的框架中得到解决; 而以效应值置信区间表示心理学实验数据分析的结果能够集中地体现对传统假设检验的改进和补充。此外, 对假设检验使用错误的澄清也将会使得心理学实验的设计和数据分析由面向总体转向面向个体。

梁之舜, 邓集贤, 杨维权, 司徒荣, 邓永录. (1980).概率论及数理统计(下册). 北京: 高等教育出版社.

张尧庭, 陈汉峰. (1991).贝叶斯统计推断.北京: 科学出版社.

Balluerka, N., Gómez, J., & Hidalgo, D. (2005). The controversy over null hypothesis significance testing revisited.Methodology,1(2), 55–70.

Coburn, K. M., & Vevea, J. L. (2015). Publication bias as a function of study characteristics.Psychological Methods,20(3), 310–330.

Cohen, J. (1994). The earth is round (p<.05).American Psychologist, 49(12), 997–1003.

Cronbach, L. J. (1957). The two disciplines of scientific psychology.American Psychologist, 12, 671–684.

Cumming, G., & Fidler, F. (2009). Confidence intervals: Better answers to better questions.Zeitschrift für Psychologie/Journal of Psychology, 217(1), 15–26.

Cumming, G. (2010). Replication, prep, and confidence intervals:Comment prompted by Iverson, Wagenmakers, and Lee(2010); Lecoutre, Lecoutre, and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2),192–198.

Ferguson, C. J., & Brannick, M. T. (2012). Publication bias in psychological science: Prevalence, methods for identifying and controlling, and implications for the use of metaanalyses.Psychological Methods, 17(1), 120–128.

Geiser, C., Litson, K., Bishop, J., Keller, B., Burns, G. L.,Servera, M., & Shiffman, S. (2015). Analyzing person,situation and person × situation interaction effects: Latent state-trait models for the combination of random and fixed situations.Psychological Methods, 20(2), 165–192.

Hagen, R. L. (1997). In praise of the null hypothesis statistical test.American Psychologist, 52(1), 15–24.

Harris, R. J. (1997). Significance tests have their place.Psychological Science, 8(1), 8–11.

Iverson, G. J., Wagenmakers, E. J. & Lee, M. D. (2010). A modelaveraging approach to replication: The case of prep.Psychological Methods, 15(2), 172–181.

Kelley, K., & Preacher, K. J. (2012). On effect size.Psychological Methods,17(2), 137–152.

Killeen, P. R. (2005). An alternative to null-hypothesis significance tests.Psychological Science, 16, 345–352.

Killeen, P. R. (2010).Prepreplicates: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre,Lecoutre, and Poitevineau (2010); and Maraun and Gabriel(2010).Psychological Methods, 15(2), 199–202.

Lecoutre, B., Lecoutre, M. P., & Poitevineau, J. (2010). Killeen's probability of replication and predictive probabilities:How to compute, use, and interpret them.Psychological Methods, 15(2), 158–171.

Lilienfeld, S. O. (2012). Public skepticism of psychology:Why many people perceive the study of human behavior as unscientific.American Psychologist, 67(2), 111–129.

Maraun, M., & Gabriel, S. (2010). Killeen's (2005)prepcoefficient: Logical and mathematical problems.Psychological Methods, 15(2), 182–191.

Miller, J., & Schwarz, W. (2011). Aggregate and individual replication probability within an explicit model of the research process.Psychological Methods, 16(3), 337–360.

Monterde-i-Bort, H., Frías-Navarro, D., & Pascual-Llobell, J.(2010). Uses and abuses of statistical significance tests and other statistical resources: A comparative study.European Journal of Psychology of Education, 25, 429–447.

Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods,16(4), 406–419.

Nickerson, R. S. (2000). Null hypothesis significance testing:A review of an old and continuing controversy.Psychological Methods, 5(2), 241–301.

Rosopa, P. J., Schaffer, M. M., & Schroeder, A. N. (2013).Managing heteroscedasticity in general linear models.Psychological Methods, 18(3), 335–351.

Rothstein, H. R., & Bushman, B. J. (2012). Publication bias in psychological science: Comment on Ferguson and Brannick (2012).Psychological Methods, 17(1), 129–136.

Schmidt, S. (2009). Shall we really do it again? The powerful concept of replication is neglected in the social sciences.Review of General Psychology, 13(2), 90–100.

Serlin, R. C. (2010). Regardingprep: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre, Lecoutre,and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2), 203–208.

Sharpe, D. (2013). Why the resistance to statistical innovations?Bridging the communication gap.Psychological Methods,18(4), 572–582.

Tucker-Drob, E. M. (2011). Individual differences methods for randomized experiments.Psychological Methods, 16(3),298–318.

猜你喜欢

假设检验学派贝叶斯
先上马,后加鞭——中国戏曲的演化路径与“前海学派”的深度阐释
基于贝叶斯解释回应被告人讲述的故事
假设检验结果的对立性分析
对“京都学派”元杂剧曲词评点的诠释
创建梵净山学派 培育梵净山学
统计推断的研究
基于贝叶斯估计的轨道占用识别方法
凤爪重量质量管理报告
中国法治实践学派的哲学基础
基于互信息的贝叶斯网络结构学习