多元统计分析中案例教学实践误区之探讨
2018-09-10李瑞阁万冰蓉张恒旷永鑫
李瑞阁 万冰蓉 张恒 旷永鑫
摘 要:多元统计分析是统计学专业的核心课程之一,该课程实践性极强,需要学生多学、多练,多实践、多总结。文章针对该课程案例教学中若干统计分析方法存在的一些误区,教师在反思学生出错的原因是概念问题,软件使用问题,还是对实际问题背景理解的偏差问题的基础上,有针对性地引导学生走出误区,学会不断反思,提出问题;不断创新实践,发散式研究学习,多渠道解决问题等方面展开探讨。
关键词:教学实践误区;方差分析;主成分分析;对应分析
中图分类号:G642 文献标志码:A 文章编号:2096-000X(2018)05-0097-03
Abstract: The multivariate statistical analysis is one of the professional core courses of statistics. As the most practical course, it needs students to learn, practice and summary. Based on the case teaching of some misunderstanding in some of the statistical analysis method, the teacher should reflect firstly whether the cause of the error of students is the problem of concept, of using software, or understanding deviation problem to the actual problem. Teacher should aim at leading students to walk out of the erroneous zone, and teaching them to think, ask question, practice innovatively, study by divergent thinking, and solve the problem through various channels.
Keywords: teaching practice myth; analysis of variance; principle component analysis; correspondence analysis
前言
多元统计分析是统计学专业的核心课程之一,包含诸多多维数据统计分析的方法,案例教学实践中要求学生依据问题采取适当的方法,做出合理分析、推断、预策等。由于案例的复杂性,教学实践中常存在一些误区。出现问题时教师首先应反思,学生出错的原因是什么?是概念问题,软件使用问题,还是对实际问题背景理解的偏差问题?然后有针对性地采取有效的策略解决问题。以下就如何有针对性地引导学生走出误区,学会自主学习、创新实践、提出问题并解决问题做些尝试性探讨。
一、有交互方差分析中单因素水平间的均值比较误区
教学过程中教学时间长度有限,但课堂中教会学生学习的方法,养成良好的学习习惯将终生受用。同样教科书和软件教材内容有限,不可能解决所有的问题,比如,SPSS软件的菜单操作命令简单且实用,但教学中仅要求学生会操作是不够的,同时还要求学生了解程序命令甚至自觉学习编程,这是培养学生创新思维的有效途径。比如在解決两因素有交互效应的方差分析问题时,固定一因素水平,另一因素水平间的均值比较问题,一般SPSS软件教材,会给出判断交互效应显著性判断,但交互比较就没有现成答案。为此向学生提出问题,提醒并鼓励学生查资料,一方面要弄清概念,另一方面通过自己编程去解决。
案例1 有三种降低转氨酶的药物,为了考察他们对甲型肝炎和乙型肝炎患者转氨酶降低程度之间的差异是否有统计学意义,收集试验数据(略),即从两型患者的总体中各随机抽取30例,然后分别随机分到3个药物组中。假定资料满足参数检验的条件,问不同药物种类之间是否有显著差异?不同的肝炎类型之间是否有显著差异?不同药物与肝炎类型之间的交互作用是否显著?教材文献[1]中使用SAS软件,课堂上鼓励学生用多种软件解题。如利用SPSS解决前两个问题很容易,最后一个问题不易,有学生查到文献[2-4],通过学习用SPSS方法编写程序;也有学生用MATLAB编程的办法解决,最终将结果公之于众,让学生讨论,起到很好的教学示范效应。然而学生在训练的过程中,仍会出现运行的问题,进一步让大家共同查找原因,并总结程序输入的两条注意事项:
(1)语句编写应为全英文符号,若有中文符号输入算错误指令,代码不会变色。
(2)所有代码输入完成后应在语句结尾划上英文句号,若没有句号,表示该脚本不完整,SPSS会不承认这个函数结构,代码开头会是红色,正常应是蓝色等。其中编写的SPSS程序如下:
UNIANOVA 缓解时间 BY 成分A 成分B
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(成分A*成分B 成分B*成分A)
/POSTHOC =成分A(BONFERRON)
/EMMEANS=TABLES(成分A)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分B)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分A*成分B)
/EMMEANS=TABLES(成分A*成分B)COMPARE (成分A)ADJ(BONFERRON)
/EMMEANS=TABLES(成分A*成分B)COMPARE(成分A)ADJ(BONFERRON)
/PRINT=HOMOGENEITY DESCRIPTIVE PARAMETE
R
/CRITERIA=ALPHA(0.05)
/DESIGN=成分A 成分B 成分A*成分B.
二、主成分分析中主成分表达误区
主成分分析中,SPSS软件输出的Component Matrix阵,往往被学生误读为主成分系数阵,直接以此为依据写出样本的主成分,实际上它是因子载荷阵,写主成分时,需在原系数的基础上除以相应特征根的平方根,得真正的主成分系数。针对这一情况,教学中,如何强调?才能引起学生重视?一方面课堂上应讲清楚概念,另一方面有意识让学生暴露问题,发现问题后让学生研讨,并通过MATLAB等软件实践确定特征根及特征向量的办法验证结果。
案例2某研究单位测得20名肝病患者的4项肝功能指标数据(略):转氨酶,肝大指数,硫酸锌浊度,甲胎球蛋白,试做主成分分析。
利用菜单命令,分析(Analyze)→降维(Data Reduction)→因子(Factor),按shift 键将x1至x4全部选入因子分析对话框,单击抽取(Extraction)选项,默认公因子提取方法(Principal components),默认相关阵(Correlation matrix)出发做主成分分析,因子数按特征根大于(Eigenvalues over)0.9保留,确定(OK)。得到输出部分结果如下表1-2:
从表1可见前三个主成分的方差解释率为94.828%,尽管第三个特征根小于1,但接近1,于是可选取前三个主成分,仅损失较少的方差信息。表2可见第一个主成分主要包含原变量转氨酶及肝大指数的信息,可作为急性肝炎的诊断指标;第二主成分主要包含硫酸辛浊度的信息,可作为慢性肝炎的诊断指标;第三个主成分主要包含甲胎球蛋白的信息,可作为原发性肝炎的诊断指标。根据表2可写出选取的三个主成分分别为:
然而也有同学选取的三个主成分均未除以相应特征根的算术平方根。哪个主成分表达式正确?鉴于此,提出问题,让学生自己去找答案,一方面查找教材或文献弄清概念做出判断,另一方面可通过编程,或用其他软件来加以验证。
本题中采用相关矩阵出发进行主成分分析,为什么呢?为此引导学生总结三种情形:各指标变量的量纲不同;各指标变量类型不同,如绝对指标,相对指标等;各指标变量的方差差异过大,前两种情形比较明显,第三种情形就需先确定协方差阵,再做决定。如何求协方差阵?鼓励学生积极思考,踊跃回答。有学生利用可靠性分析法,工具栏分析→尺度→可靠性分析,点选变量,点击设置统计,选择项间组内的选项,包含输出项间相关矩阵和项间协方差矩阵;也有同学任给分类,利用判别分析选项确定协方差矩阵。
为了训练学生,提出问题,能否通过编程直接求出呢?于是有学生几经尝试,修改,编出如下程序:
(1)打开文献[5]中案例6.1数据集,复制下面第一语句粘贴至打开数据集的新建语法窗口,运行下列程序生成相关矩阵(以数据集的形式存在)
CORRELATION MATRIX OUT('C:\Documents and Settings\Administrator\桌面\相关矩阵.sav')/VARIABLES=x1 x2 x3 x4。
(2)打开已生成相关矩阵数据集,再复制粘贴下述语句至语法窗口,运行,生成协方差阵,打开已有的相关阵数据集可见。
GET
FILE='C:\Documents and Settings\Administrator\桌面\相关矩阵.sav'。
MCONVERT/MATRIX=OUT('C:\Documents and Settin
gs\Administrator\桌面\协方差矩阵.sav')。
从输出的相关系数矩阵可见,各变量的相关性较强;从协方差阵可见,四个变量的方差差异很大,适合于从相關矩阵出发做主成分。
三、对应分析图中对应关系表达误区
对应分析图识别问题,主要是软件使用问题。课堂上利用论文健康教育与儿童呼吸道感染的关联性研究,研究儿童类(A类)受教育频次与住院频次的关联分析,采用的对应分析的操作步骤为:单击数据(Data)→加权(Weight Cases)→选入频数(num)加权,确定(OK)。接着单击分析(Analyze)→降维(Data Reduction)→对应分析(Correspondence Analysi
s),将儿童住院频次选入行,定义范围1到4,儿童受教育频次选入列,定义范围1到3,更新(Update),确定(OK)。对应分析图如下。
对应分析图1中儿童住院频次与儿童受教育频次对应的二维点除了颜色区别外,形状无区别,标识数字的类别关系不明朗,于是启发学生从多角度,多层面尝试实践,改变点的标识、形状,大小等。具体可点击图形区域,右击编辑内容Edit Content,或双击该窗口,选中特殊窗口In Separate Window,在编辑窗口中,分别点击儿童住院频次、儿童受教育频次,在新窗口中选择图标的形状、大小、宽度等,甚至可画出坐标轴方便找对应关系。数字替换为文字稍显复杂。引导学生从数据集的变量视图入手,定义变量儿童住院频次、儿童受教育频次的各个分类取值及名称,添加,确定形成图2,标识既清楚、醒目,可视化效果又好。
总之,多元统计分析是统计专业课中的教学实践性很强的课程,需要在案例教学实践过程中及时发现问题,分析原因,针对不同类型采取措施引导学生走出误区,及时纠偏并解决问题,有意识培养学生自主学习,创新实践能力,提升学生的综合素质。
参考文献:
[1]梅长林,范金城.数据分析方法[M].北京:高等教育出社,2012:111-112.
[2]傅德印.应用多元统计分析[M].北京:高等教育出版社,2008:159-161,130-134,212-220.
[3]项泾渭,傅德印.基于SPSS的二次开发直接求解主成分[J].统计研究,2006(4):73-75.
[4]宇传华.SPSS与统计分析[M].北京:电子工业出版社,2014:617-619.
[5]张文彤,董伟.SPSS统计分析高级教程[M].北京:高等教育出版社,2004:277-290.
[6]李瑞阁,连冬艳,柳德学.健康教育与儿童呼吸道感染的关联性研究[J].南阳理工学院学报,2015,7(2):108-110.
[7]王芬.案例教学法在概率论与数理统计教学中的应用[J].高教学刊,2016(20):74-75.