SPSS统计方法及其适用性分析
2014-08-15黄利花
黄利花
(商丘师范学院外语学院,河南商丘476000)
近些年来,人们逐渐不满足于思辨式的论述,越来越关注实证性的研究方法。根据高一虹(1999),在中国应用语言学研究中,定量研究呈明显上升趋势。这是我国科研方法整体改进的重要表现之一。然而,由于统计学知识抽象难懂,大多数科研工作者面对复杂的数据分析还是感觉无从下手,这直接影响着其科研水平的提高。本文将介绍社科研究中常用的SPSS统计方法,并讨论其适用性,目的在于帮助后来者廓清不同分析方法的独特性,避免发生滥用、误用的现象。
一、SPSS介绍
SPSS是英文名称Statistical Product and Service Solutions的首字母缩写,译为“统计产品与服务解决方案”,它是一个组合式软件包,兼具数据整理和数据分析功能,这个软件由美国斯坦福大学的三位研究生研制开发,并逐步发展成为国际上最有影响的三大统计软件之一(另外两个分别为SAS和BMDP)。研发之初,SPSS统计软件主要应用于企事业单位,上世纪八九十年代SPSS公司推出该软件的不同语种版本,这使其很快应用于自然科学、社会科学的各个领域,并在国内广泛流行起来。它通过Windows的窗口方式展示各种管理和分析数据的方法,使用对话框的方式展示各种功能选择项,因此略懂Windows操作技巧和统计基础理论的人都可以使用SPSS来分析数据,非常方便。
常用的SPSS统计分析包括描述性统计、假设检验、相关分析、方差分析、回归分析等几大类,每类中又有不同的统计过程,每个过程中又允许用户选择不同的方法及参数。SPSS还有专门的绘图系统,可以根据数据绘制各种统计图形和地图。SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL数据文件,现已推广到多种各种操作系统的计算机上。过去一些需要经过手工计算才能得到的数据,现在通过SPSS可由计算机自动算出,它大大降低了研究者应用统计学知识的门槛。
二、常用SPSS统计方法
SPSS的基本功能包括数据管理、统计分析、图标分析等,统计分析过程包括描述性统计和推断性统计两大类。描述性统计主要探讨如何根据调查中获得的大量数据描述一组数据的全貌,表达事物的性质,即是对所收集的数据资料进行加工整理、综述概括,通过直观或非直观的形式对资料进行分析和描述。具体说来,就是通过整理数据计算出集中趋势、离散趋势等等,把凌乱无需的数据简化成为清晰而便于理解的形式,用数字、图标描述出来。描述统计是统计分析的基础工作,它便于研究者对受试者的特征有一个总体的清晰把握,为进一步分析数据打下基础。通常我们根据平均数、中数、众数等数值了解数据分布集中情况,通过全距、平均差、标准差、变异系数等数值来了解数据分散情况。这些从样本中计算得来的、能表示样本分布特点的数据就是统计量。
推断性统计主要研究如何通过局部数据所提供的信息,经过概括性的分析、论证,在一定可靠程度上推断总体的情形。推断统计的前提是研究样本符合正态分布,根据正态曲线单峰、对称、双尾逐渐降低但永不与底线交锋的特点,可以通过统计检验的方法推断样本的局部或整体特征。根据统计量推断出的表示总体分布特点的数据称为参数,参数的获得需要个过程,即根据样本得出统计量后,再用统计量估计出参数。根据参数来推断研究群体的总体特征就是推断统计的主要任务。下面要讨论的t检验、方差分析、相关分析、回归分析等都属于推断性统计方法。
1、t 检验
t检验是用来比较不同数据的平均值,看它们之间的差异是随机差异还是本质差异的参数检验方法。它的前提条件是数据服从正态分布且总体方差未知。t检验有三种情况:独立样本t检验,配对样本t检验和单样本t检验。独立样本t检验旨在比较两个不同的样本在一个变量上的差异,配对样本t检验比较的是同一样本在两个变量上的差异,而单样本t检验比较的则是一个样本的平均值与某个指定的数值的差异。t检验常用于检验两个样本的平均数是否存在差异,它把一个复杂问题分成多组平均数两两之间差异的检验。
2、方差分析
通常我们用t检验来检验两个总体均值相等的假设是否成立,但实际科研中,实验条件可能不是两组,而是三组或三组以上,这时候就需要进行方差分析。方差分析是一种非常常用的统计分析方法。它旨在检验两个或多个样本均数间差异的显著性意义。通过它我们不仅可以分析一个因素对实验结果的影响,还可以分析两个、三个及三个以上因素的影响。另外,它不仅可以对多个影响因素下的测量值进行分析,还可以检验几个影响因子之间是否存在交互作用。根据影响因子的多少,方差分析可分为如单因素方差分析和双因素方差分析两种;根据影响因子之间是否存在交互作用,方差分析可分为单因素重复测量方差分析和双因素混合方差分析两种。
3、相关分析
在科学研究中往往涉及多种变量,它们之间存在的非确定性关系就被称为相关关系,即两个变量共同发生变化。引起变化的变量即自变量,受到影响而发生变化的变量即因变量。不同变量之间的相关关系可分为三种:正相关,负相关和零相关。正相关表示两个变量变化方向相同,即一个变量变大时,另一个变量也变大。负相关指两个变量变化方向相反,即一个变量变小时,另一个变量变大。零相关表示两个变量之间的变化无规律可言。相关程度的高低通过相关系数(correlation coefficient)体现,它的取值在+1和-1之间,相关系数前面的正负号表示相关方向,其绝对值表示相关程度。统计学中把低于±0.20以下的相关系数称为最低相关,±0.20~±0.40之间为低相关,±0.4~±0.7之间为显著相关,绝对值在0.9以上为最高相关。相关分析包括Pearson相关分析、Spearman相关分析、偏相关分析等等。在进行相关分析的显著性检验时,只有P值小于0.05相关系数才具有统计学意义。
4、回归分析
与相关分析一样,回归分析也是对变量依存关系的分析。一般来说,相关程度越高,回归分析的结果就越可靠,因此多数研究在做回归分析之前先要做相关分析,这是判别回归分析结果的一个重要依据。相比而言,相关分析是探讨变量之间的共变关系,即非因果关系,而回归分析则要区分变量之间的因果关系。相关分析检验变量之间的关系的密切程度和变量的变化方向,而回归分析对具有相关关系的变量建立回归模型来描述变量之间的具体变动关系,通过控制或给定自变量的数值来估计因变量的数值(秦晓晴,2003)。根据变量之间的关系,回归分析有线性回归或非线性回归之分。根据自变量的多少,回归分析有一元回归和多元回归之分。只有一个自变量的回归分析就是一元回归分析,多于一个自变量的回归分析被称作多元回归分析。
5、非参数检验
上述统计方法都属于参数检验。进行参数检验必须满足如下条件:总体服从正态分布;数据为定距或定比数据;数据的方差具有稳定性即齐性方差;来自不同受试者的数据必须是独立的(车宏生等,2006),也就是说,一个受试者的行为不能收其他受试者的影响。只有满足上述条件才可以用参数检验的方法,否则只能选用非参数检验的方法。非参数检验是用来检验数据资料是否来自同一总体假设的检验方法。它不要求数据为定距或定比,因而也适用于推断定类或定序数据。他也不要求总体服从正态分布。非参数检验一般不涉及总体参数,不要求很大的样本。常用的非参数检验有Wilcoxon检验(双样本配对检验),Friedman检验(多组配对检验),Mann-Whitney检验(独立双样本检验),Kruskal-Wallis检验(独立多样本检验),Spearman相关检验等。
三、SPSS统计方法的适用性分析
分析定量数据必然需要选择合适的统计检验方法。统计检验方法的确定是根据研究目的和数据类型来决定的,首先要明白自己希望得到什么样的结果,其次要根据数据类型的不同来选择合适的统计方法(秦晓晴,2003)。具体说来就是要回答下述问题:1.是要确定不同数据之间是否存在差异还是要弄清楚它们之间是否存在什么样的联系?2.所使用的是从不同群体的受试者得到的数据还是从同组受试者中收集到的不同的数据?3.是要分析一组数据还是两组数据,亦或是更多组的数据?4.因变量是用哪种量表测量?定类、定序量表,还是定距、定比量表?也就是说,要确定用参数检验还是非参数检验法?上述问题涉及统计方法的选择。下面笔者将分析不同统计方法的适用条件。
1、分析不同数据间的差异
如果研究的目的是了解不同数据间的差异,首先要弄清是将单个变量的平均值与制定的标准值进行差异比较,还是进行不同数据组之间的差异比较。如果是均值与标准值之间的差异比较就采用单一样本检验(one-sample t-test),如果是组间数据差异比较,还要确定数据是来自相同的调查对象,还是不同的调查对象,之后才能确定分析方法。如果数据来自相同的对象,比较的是两组数据,参数检验就用配对样本t检验(paired-samplet-test),非参数检验就用Wilcoxon检验。如果数据来自相同的对象,比较的是三组或三组以上数据间的差异,参数检验就采用多因方差分析(MANOVA),非参数检验就使用Friedman检验。如果数据来自不同的调查对象,比较的是两组数据,参数检验就采用独立样本t检验(independent samplet-test),非参数检验就选择Mann-Whitney检验。如果数据来自不同的对象,比较的是三组或三组以上数据间的差异,参数检验就使用一维方差分析(one-way ANOVA),非参数检验就选择Kruskal-Wallis检验。
2、分析不同数据间的联系
如果研究目的是弄清不同数据间的联系,那么就要采用相关分析、回归分析等。如果分析的是两组数据间的联系,参数检验选择Pearson相关,非参数检验采用Spearman相关(马广惠,2003)。如果分析的是三组或三组以上的数据,探讨的是它们之间一般的因果关系,即多个自变量与因变量之间的关系,就采用多元回归分析(multiple regression)。如果关心的是多重因果关系,即在分析自变量与因变量之间的关系时也检验不同自变量之间的关系,就可采用路径分析方法,如果这种分析中还存在潜在变量,就可使用线性结构关系模型分析方法(linear structural modeling)。
四、结语
SPSS已经成为量化研究的一种重要统计工具,能很好地分析研究中得来的数据。然而,由于人们对SPSS还不是特别熟悉,所以使用过程中也表现出一定的局限性,如对不同统计方法的适用性缺乏清晰的认识、对研究结果不能给予充分的解释等等,因而存在误用的情况。当然,SPSS只是一种统计手段,它不能完全保证研究的科学性,研究的科学性意味着从理论构建到数据收集再到数据整理最后到数据分析、数据解释,每一步骤都要科学严谨,有理有据。最后值得一提的是,SPSS是一种研究工具,是否使用和怎么使用还有赖于研究者的研究目的和研究类型,决不能为了哗众取宠而盲目套用,那样只会适得其反。
[1] 高一虹,等. 中西应用语言学研究方法发展趋势[J].外语教学与研究, 1999,(2):8-16.
[2] 秦晓晴. 外语教学研究中的定量数据分析[M]. 华中科技大学出版社,2003.
[3] 车宏生,王爱平,卞冉.心理与社会研究统计方法[M].北京师范大学出版社,2006.
[4] 马广惠. 外国语言学及应用语言学统计方法[M].陕西:西北农林科技大学出版社,2003.