无序多分类资料统计分析方法的选择及在SPSS上的实现

2024-01-15张蓼红冯孟潜包国章张晓君白春艳丁雪梅

长春师范大学学报 2023年12期

张蓼红,冯孟潜,包国章,张晓君,白春艳,丁雪梅

(1.吉林大学组织部,吉林长春 130012;2.吉林大学中日联谊医院,吉林长春 130033;3.吉林大学新能源与环境学院,吉林长春 130012;4.吉林大学教务处,吉林长春 130012;5.吉林大学动物科学学院,吉林长春 130062)

在自然科学和社会科学研究中,经常需要对无序多分类资料进行统计分析。例如,研究患某病仔兔的一个基因(3个基因型)和另一个基因(3个基因型)的分布情况,以及豌豆遗传性状实验中研究豌豆杆的3个性状和果实的3个性状的对应关系。再如,通过问卷调查,研究不同社区和不同性别居民获取健康知识途径(传统大众媒介、网络、社区宣传)是否相同,或者研究不同学习阶段的学生(本科生、硕士研究生、博士研究生)学习党的二十大报告内容更喜欢的学习方式(自学、专家作报告、小组学习)等。对于无序多分类资料的统计分析,要考虑变量的数量、分析目的、统计分析方法的前提条件等。如何快速、准确地选择正确的统计分析方法、如何在SPSS上实现统计分析以及如何解读SPSS输出结果,本研究选取典型案例,对上述问题进行逐一解答。

1 基于无序多分类资料的常用的统计分析方法

通过简单易懂的典型案例分析和流程图,厘清和展示针对无序多分类资料的常用的统计分析方法的选择思路。

1.1 典型案例分析

1.1.1 案例描述

为了提高大学生学习营养健康知识的学习效果,对3个学院(动物科学学院、动物医学学院、植物科学学院)的大学生偏好的学习方式(自学、小组、上课)进行问卷调查,结果见表1。

表1 三种学习方式在不同学院和不同性别学生中的分布情况

问题1:针对大学生偏好的学习方式进行对应分析。

问题2:不同学院的大学生偏好的学习方式构成比有没有差异?学院和学生偏好的学习方式之间是否有关联?

问题3:分析学院和性别对学生学习方式偏好的影响。

1.1.2 思路分析

问题1涉及2个变量,行变量“学院”有3个水平,列变量“学生偏好的学习方式”有3个水平。行变量和列变量均为无序多分类资料,研究2个变量之间的对应关系,可以采用简单对应分析。

问题2要求比较三个样本构成比之间的差异,可以采用χ2检验;研究2个无序多分类资料的变量之间是否有关联,可以采用关联性检验。

问题3涉及3个变量,其中原因变量有2个,为“学院”和“性别”;结果变量有1个,为“学生偏好的学习方式”。若要分析2个原因变量对结果变量的影响以及影响程度,可采用无序多分类Logistic回归分析。

1.2 统计分析方法选择流程

无序多分类资料统计分析方法选择的流程图,如图1和图2所示,其中R和C分别表示行数和列数,且都大于等于3。

图1 基于无序多分类资料的R×2、2×C、属性不同的R×C型常用的统计分析方法选择的流程图

图2 基于无序多分类资料的常用的多元统计分析方法选择的流程图

2 基于无序多分类资料的常用的统计分析方法在SPSS 19.0上的实现

2.1 简单对应分析在SPSS 19.0上的实现

(1)简单对应分析实现步骤。①数据录入和数据加权。数据录入时,在“变量视图”中为行变量“学院”和列变量“大学生偏好的学习方式”每个水平赋值(动物医学、植物科学、动物科学分别赋值为1、2、3;自学、小组、上课分别赋值为1、2、3)。加权步骤:数据→加权个案,加权个案(W)→频率变量(F):频数→确定。②简单对应分析。分析→降维→对应分析,学院→行,定义范围(最小值为1,最大值为3)→更新→继续;偏好的学习方式→列,定义范围(最小值为1,最大值为3)→更新→继续→确定。

(2)结果解读。针对问题1的对应分析结果见表2。第一维惯量值为0.038,第二维惯量值为0.003,其相对应的百分比分别解释了总信息量的93.1%和6.9%,前两个维度累计解释了总信息量的100%,即二维图形可以完全表示两变量间的信息,并且观察时以第一维度为主。列联表行列独立性的χ2检验结果为χ2=29.981,P=0.000<0.01,表明列联表的行列之间有较强的相关性。

表2 对应分析结果汇总表

对应分析图(图3)表明,维度1区分度好,维度2区分度差,动物医学学院、植物科学学院、动物科学学院的大学生分别倾向于选择上课、自学、小组学习的学习方式。

2.2 χ2检验和关联性检验在SPSS 19.0上的实现

(1)χ2检验和关联性检验步骤。①数据录入和数据加权。数据录入形式和加权步骤同“2.1”。②χ2检验和关联性检验。分析→描述统计→交叉表,学院→行,偏好的学习方式→列,统计量→卡方,相依系数→继续;单元格→观察值,期望值,行→继续→确定。

(2)结果解读。根据n(总数)和T(理论频数)的大小选择P值[1]。χ2检验(表3)的结果表明,χ2=29.981,n=741,最小期望计数为51.65,P=0.000<0.01,即3个学院学生偏好的学习方式构成比有极显著差异。进一步对每2个学院之间的学生偏好的学习方式构成比作差异性比较,χ2检验的结果表明,动物医学学院和植物科学学院,χ2=19.322,n=533,最小期望计数为59.05,P=0.000<0.01,即2个学院学生偏好的学习方式构成比有极显著差异;动物医学学院和动物科学学院,χ2=23.622,n=483,最小期望计数为45.22,P=0.000<0.01,即2个学院学生偏好的学习方式构成比有极显著差异;植物科学学院和动物科学学院,χ2=2.561,n=466,最小期望计数为56.69,P=0.278>0.05,即2个学院学生偏好的学习方式构成比没有差异。

表3 χ2检验结果

对称度量表中关联性检验结果表明,P=0.000<0.05,Pearson列联系数为0.197,表明学院和学生偏好的学习方式之间有一定关联。

2.3 无序多分类Logistic回归分析在SPSS 19.0上的实现

(1)无序多分类Logistic回归分析步骤。①数据录入和数据加权。数据录入时,在“变量视图”中为自变量“学院”“性别”和因变量“学生偏好的学习方式”的每个水平赋值(动物医学、植物科学、动物科学分别赋值为1、2、3;男生、女生分别赋值为1、2;自学、小组、上课分别赋值为1、2、3)。加权步骤同2.1。②无序多分类Logistic回归分析。分析→回归→多项Logistic回归,偏好的学习方式→因变量,学院、性别→因子→确定。

(2)结果解读。模型拟合(表4)的结果表明,似然比卡方检验结果P=0.000<0.01,说明至少有一个自变量系数不为0,模型有意义。似然比检验(表5)的结果表明,学院似然比检验结果P=0.000<0.01,性别似然比检验结果P=0.000<0.01,表明学院和性别对模型的作用都有统计学意义。参数估计(表6)的结果表明(动物科学学院和女生为参照,因此其参数默认为0,无法估计),自学与上课两种学习方式相比,动物医学学院的学生比动物科学学院的学生更倾向于选择上课的学习方式(χ2=19.147,P=0.000<0.01,优势比OR值为0.348),而植物科学学院与动物科学学院的学生的选择没有差别(χ2=0.316,P=0.574>0.05);男生比女生更倾向于选择自学的学习方式(χ2=7.205,P=0.007<0.01,优势比OR值为1.647,置信区间为[1.144, 2.370],置信区间不包括1)。小组学习与上课两种学习方式相比,动物医学学院的学生比动物科学学院的学生更倾向于选择上课的学习方式(χ2=8.966,P=0.003<0.01,优势比OR值为0.512),而植物科学学院与动物科学学院的学生的选择没有差别(χ2=2.829,P=0.093>0.05);男生比女生更倾向于选择小组学习的学习方式(χ2=10.526,P=0.001<0.01,优势比OR值为1.804,置信区间为[1.263,2.576],置信区间不包括1)。由此得出两个广义Logit模型:

表4 模型拟合信息

表5 似然比检验

表6 参数估计

其中,X1指动物医学学院;X2指植物科学学院;X3指男性;ps指各变量组合选择自学学习方式的概率;pc指各变量组合选择上课学习方式的概率;pt指各变量组合选择小组学习方式的概率。

表5中,χ2统计量是最终模型与简化后模型之间在-2倍对数似然值中的差值。通过从最终模型中省略效应而形成简化后的模型。零假设就是该效应的所有参数均为0。

3 结语

对于经常出现在R×2、2×C、属性不同的R×C二维列联表中的无序多分类资料,χ2检验可以进行两个或多个样本率或构成比之间的差异比较,如果R×2或不同属性的R×C类型之间样本率或构成比有显著差异,还要利用χ2检验进一步对每两个行变量做进一步差异比较。χ2检验的前提条件是:通常各格的理论频数不应小于1,且1≤T≤5的格子数不宜超过格子总数的1/5[2]。对于不同属性的R×C类型,如果是双向无序多分类资料还可以进行关联性检验。χ2检验只能进行两个或多个样本率或构成比之间的差异比较,不能够进行等级强度的差异比较;如果对分组变量无序、指标变量有序的单向无序的属性不同的R×C类型进行等级强度差异的比较,例如比较三种药物的治疗效果(显效、好转、无效),须采用秩和检验或Ridit分析或有序Logistic回归分析,其中非参数检验方法秩和检验和Ridit分析两种统计分析方法结果是等价的,不受总体分布限制,适用面广,但不能充分利用信息,检验效能低[3-4]。

无序多分类资料的多元统计分析中,常用对应分析和无序多分类Logistic回归分析。其中,对应分析利用降维思维,以二维效应图简洁、直观地揭示属性变量之间以及属性变量各种状态之间的相互关系[5]。针对两个变量的简单对应分析是通过SPSS软件的“降维”下的“对应分析”子模块来完成,三个或者三个以上变量则需要通过“最优尺度”子模块来完成多元对应分析(多重对应分析)。变量个数越多,各个变量的类别取值越多时,对应分析的优势就越明显[6]。简单对应分析能够输出对应分析图,无序多分类Logistic回归分析能够获得优势比(OR值)以及回归方程。无序多分类Logistic回归分析,要求因变量必须是无序多分类资料(自变量资料类型不限),对样本量也有较高的要求,变量的个数愈多需要的例数相应也愈大,样本至少大于100,大于500比较合适,一般每一个自变量至少需要10例结局[7-9]。本研究案例中,利用SPSS软件进行无序多分类Logistic回归分析时,无序多分类变量“学院”、二分类变量“性别”,这2个变量都进入到“因子”中,如果再增加一个因素:不同学习阶段学生(本科生、硕士生、博士生),则此有序变量也要进入到“因子”中,但如果增加的因素是年龄,则此连续变量就要进入到“协变量”中。进行无序多分类Logistic回归分析,SPSS软件默认因变量的水平中赋值最高即最后一个作为参考类别,也可以手动设置参考类别,为了方便,最关心哪个水平就赋值最高、选择系统默认即可。此外,无序多分类Logistic回归分析还可以考察因素之间的交互作用,只需在点击“模型”模块时,将系统默认的“主效应”改为“全因子”,或者选择“设定/步进式”,将要考察交互作用的因素选入。