SPSS 软件在定性数据分析中的技术处理
2014-04-14郭梦霞
郭梦霞
(陕西职业技术学院管理系,陕西西安,710000)
0 引言
SPSS 全称为社会科学统计软件包,英文全称为statistical product and service solutions。SPSS 软件操作简单、方便快捷、界面美观且具有准确完整的统计分析功能,因此SPSS 软件得到了众多用户的好评。无论是在生物医学还是社会科学上,都需要进行大规模的数据统计和数据分析工作,一般的数据处理软件很难满足这样的需求,然而只要熟练的掌握了SPSS 软件的使用,就可以轻松的利用SPSS 软件对各个领域、行业的数据进行分析和处理统计。利用SPSS 软件进行数据分析的首要工作就是建立SPSS 数据文件,然后利用SPSS 软件有效的对数据进行组织,从而极大的方便分析和解决各个领域的定性数据统计分析问题。本文侧重研究多变量的列联表、多选项和单变量这三种形式的统计分析方法以及输入方式。
1 定性数据
通常数据按照取值来说可以分为四大类,有序定性数据、名义定性数据、计数数据和计量数据。有序定性数据:有序定性数据通常具有一定的顺序或者序列,如文化程度,可以从高到低分为:博士、硕士、本科、专科、高中、初中、小学等。名义定性数据:名义定性数据通常可以区分出来是否关系,按照逻辑上来说不是0 即为1。比如人的性别,不是男即为女。计数数据:计数数据具有一定的统计能力,也就是说能够计算出来此类数据的数量。比如学生的人数、员工的数量等。计量数据:计量数据往往是某一个区间内的一个实数,比如人的体重、身高等。名义定性数据和有序定性数据往往我们称之为定性数据,而计量数据和计数数据往往我们称之为定距数据。
2 多变量数据列联表分析
列联表通常用来进行两类以上的定性数据关联性分析。本文以某汽车保险公司的保单为例,对无赔款记录和有赔款记录的保单按照被保险人年龄和车辆的类型进行分别统计分析。在统计分析表中,有无赔款记录、年龄、车型属于频数分布表中的三个变量。有无赔款记录、年龄、车型列联表如表1 所示。
表1 联列表
本文通过SPSS 软件,利用此例对多变量数据列联表进行研究。
1)建立赔款记录、年龄和车型三个变量,有无赔款记录的保单数用1、0 表示。年龄用1、2 表示。车型用1、2 表示。这样设置以后,如果客户属于无赔款记录包单数、25 岁以下、普通车型的话,就可以属于0、2、1 表示。类似此例,将表1 联列表中的数据输入到SPSS 软件中。
2)点击SPSS 软件中的Analyze、Descriptive、Crosstabs三个键,将变量赔款记录保单数输入到列框中,年龄输入到行框中,车型输入到Layer 框中。最后点击OK 即可。
同样,我们也可以利用加权的形式去组织数据。首先将数据输入到SPSS 软件中,将有无赔款记录保单数、车型、年龄按照之前所述,建立新的变量。然后对数据进行列联表分析。先加权:依次点击Date、Weight Cases、Weight Cases by,将权重加入到Frequency Variable 中,然后点击OK 键,进行列联表分析。
3 多选项变量的频数统计
在实际生活中,我们也会遇到多选项的问题,比如大学生的学习状态。
1)逃课状态有偶尔逃课、从不逃课、经常逃课
2)逃课理由有身边同学影响、有重要事情冲突、可以自学、教师讲的不好、厌倦此老师、厌倦此门课程等。
我们可以使用2 表示经常逃课、1 表示偶尔逃课、0 表示从不逃课。对于逃课理由因为是多选项变量,首先需要定义多选项变量集,将这些变量作为一个集合。下面我们通过大学生学习状态这个例子进行多选项变量频数统计的分析和研究。
1)首先对多选项问题进行分解,使用二分法,取0 和1 作为不被选择和被选择。
2)依次点击SPSS 软件中的Analyze、Multiple Response、Define Variable Sets 这些按键,然后输入多项变量集的名称。
3)再次点击Analyze、Multiple Response、Crosstabs 将会得到频数分析表。这样就可以把多选项问题转换成为多个变量的形式,然后就可以进一步的方便数据的统计分析工作。大学生逃课原因频数分析表如表2 所示。
表2 逃课原因频数分析表
4 单变量的频数分析
通常SPSS 软件所做的统计分析工作需要的数据必须是纯数据文件,因此在进行定性数据分析之前,必须将定性资料分析转换成为定性数据。比如:对消费者所喜欢的饮料情况进行调查,抽取50 名消费者作为样本,可口可乐、苹果汁、橘子汁、百事可乐、杏仁露作为饮料种类,分析50 名消费者对5 种饮料的喜欢程度,此时就需要将定性资料转换为定性的数据。通常我们使用变量值标签进行定性资料的定义,变量值标签,如图1 所示。
图1 变量值标签
利用变量值标签,定义变量值,杏仁露=5,百事可乐=4,可口可乐=3,苹果汁=2,橘子汁=1。然后将对50 名消费者的调查情况使用1、2、3、4、5 将调查数据输入到SPSS 软件中,最后点击Analyze、Descriptive、Frequencies 即可完成单变量的频数分析。最后点击OK 键就可以得到最喜欢饮料的频数分布表。最喜欢饮料的频数分布表如表3 所示。
表3 最喜欢饮料的频数分布表
5 结论
本文首先对定性数据进行分析和解释,然后通过对多变量数据列联表分析、多选项变量的频数统计和单变量的频数统计等三种形式的定性数据统计分析和输入方式的研究,来说明使用SPSS 软件在定性数据分析中的优势。熟练的掌握SPSS 软件定性分析数据的技术,不仅可以快速的进行频数统计,同时也可以进行列联表等方面的统计工作,对各个领域、行业定性数据的分析具有很大的帮助。
[1] 蔡建琼,于惠芳,朱志洪.SPSS 统计分析实例精选[M].北京:清华大学出版社.2006.
[2] 王静龙,梁小筠.定性数据统计分析[M].北京:中国统计出版社,2008.
[3] 吴世军.SPSS 在数据分析中的应用[J].统计与决策,2006,(5) :160- 161.
[4] 张文彤.SPSS11 统计分析教程[M].北京:北京希望电子出版社,2002.
[5] 郝黎仁,樊元,郝哲欧.SPSS 实用统计分析[M].北京:中国水利水电出版社,2003
[6] 姚友平,陶新,姚汝铖.SPSS17.0 与卫生统计学应用指南[M].武汉:华中科技大学出版社,2010.