多元统计分析教学研究与实践
2014-10-21韩明
【摘要】多元统计分析是统计专业的核心课程,由于多元统计分析方法的应用领域很广,所以统计专业教学计划要求全日制本科学生必须掌握基本的多元统计分析方法,并且能够用于解决实际问题.本文通过国内外多元统计分析课程教学现状对比分析,结合作者编写《应用多元统计分析》教材以及本人的教学实践,谈谈多元统计分析教学研究与实践.
【关键词】多元统计分析;教学研究;实践
多元统计分析是应用统计方法来研究多变量(或多指标)问题的理论和方法.它不仅是统计专业开设的一门重要的专业课程,也是非统计专业本科生、研究生开设的一门重要的基础课程.
如何深化多元统计分析课程教学改革,培养学生的科学思维能力、应用能力和创新能力,改革现有的教学内容和课程体系,具有重要的意义(文献[1]).
一、国内外该课程教学现状对比分析
当今国际上先进国家多元统计分析得到了非常广泛的应用(文献[2]).这与他们的教学模式有很大的关系.美国的统计事业是发展得最好的,各行各业,特别是医药业,统计的应用非常深入,当今很多统计思想和方法都是美国人提出的,这与美国多元统计分析教学特别重视动手能力和创新能力的培养是分不开的.日本目前统计教育改革的动向为多元统计分析教育个性化、活动化和实践化,提倡学生综合学习和选择性学习.近年来,世界各国纷纷将信息技术应用于统计学科中,十分重视计算机辅助教学的研究与实施.英国国家统计课程标准要求给学生提供适当的机会来发展并应用信息技术学习统计的能力.荷兰的统计课程标准提出了跨学科目标的概念,反映了课程综合的基本理念.总之,国外比较先进的国家,对统计教育都非常重视,并各有自己的一套教学模式.
我国传统的多元统计分析课程教学就是“数学知识+例子说明+解题”,这种传统的教学模式虽然使学生在一定程度上掌握了基础知识,提高了学生的计算能力、逻辑推理能力、应用能力,但我们也不难看出,当前多元统计分析在教学以及考核中都存在一些问题.比如,只注重理论上的教学,缺乏主动性和创造性,缺少实践环节等.学生感觉到学到的不能用到实处,学习往往是应付考试,也就难以激发学生的学习兴趣,所以这种传统的教学与国外的教育相比缺乏生动性与普及性,难以与时俱进.
综合国外先进统计教育理念,我们必须“博采天下之长,弥补我之短”,对于多元统计分析课程教学进行改革,以适应时代和社会发展的需要.
多元统计分析课程是在高维空间讨论问题,离不开复杂的计算.如果没有相关软件的支撑,手工计算几乎是不可能.因此,引入软件实验教学,使学生既掌握理论知识,又能合理利用软件进行实践操作,这不仅是社会对人才培养的需要,更是新形势下多元统计分析教学改革的必然趋势.
二、编写《应用多元统计分析》教材的实践
作者结合多年来的教学实践,深感一本内容简练但又实用的《多元统计分析》教材的重要性.随着我国高等教育进一步“大众化”,特别是相关软件的普及,学习“多元统计分析”的人越来越多,人们不再只满足于学习一些理论知识,而且大家学习它更重要的是作为工具借助计算机和相关软件进行数据处理和分析.《应用多元统计分析》教材(文献[3]),在介绍多元统计分析的有关概念、背景的基础上,突出统计思想,着重讲解常用方法,并侧重于应用,对一些严格的数学推导被略去而只列出结论(降低了数学基础的要求),读者学习时关键是理解这些结果,清楚它们的意义和背景.
考虑到作为一款免费软件,R软件具有丰富的资源、良好的扩展性和完备的帮助系统;另外,考虑到MATLAB在工程等领域中应用广泛性、在国内外各高等院校使用的普及性,本书的应用案例采用R软件和MATLAB,并给出了相应的程序.
《应用多元统计分析》教材(文献[3])共分十二章,在介绍多元统计分析的有关概念、背景的基础上,突出统计思想,着重讲解常用方法,主要包括:多元数据的表示、线性回归分析、逐步回归与回归诊断、广义线性模型与非线性模型、方差分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析.注重体现多元统计分析在各个领域的应用,将应用案例贯穿于理论讲解的始终,并给出了R软件、MATLAB的相关程序.
三、教学研究的实践
以下我们通过《应用多元统计分析》教材(文献[3])中的几个例子,来看多元统计分析中如何从图形得到相应结论的.
例1 (服装标准制定中的變量聚类法)在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位 (上体长,手臂长,胸围,颈围,总肩围,总胸宽,后背宽,前腰节高,后腰节高,总体长,身高,下体长,腰围,臀围) 的测量资料,获得各因素之间的相关系数表(见文献[3]155页的表7-4).请根据以上数据,按最长距离法对这14个变量进行聚类,并画聚类图.
请根据以上数据,按最长距离法对这14个变量进行聚类,其画聚类图(有关程序见文献[3]的156页),如图1所示.
图1 聚类图
说明 在图1中,编号1,2,…,14分别表示前面的14个变量(上体长,手臂长,胸围,颈围,总肩围,总胸宽,后背宽,前腰节高,后腰节高,总体长,身高,下体长,腰围,臀围).
从图1可以看出,人体的变量大体可以分为两类:一类反映人高、矮的变量,如上体长、手臂长、前腰节高、后腰节高、总体长、身高、下体长;另一类是反映人体胖瘦的变量,如胸围、颈围、总肩围、总胸宽、后背宽、腰围、臀围.
例2 (蠓虫分类问题)两类蠓虫Af和Apf已由生物学家W.L.Grogon和W.W.Wirth (1981)根据它们的触角长度、翅膀长度加以区分.已经测得9只Af和6只Apf的数据,具体数据见文献[3]205页的表8-7.如何依据以上数据给出一种方法正确区分两类蠓虫?
根据数据已经测得9只Af和6只Apf的数据,散点图和分类直线图(有关程序见文献[3]的207页),如图2所示.
图2 散点图和分类直线图
从图2 可以看出,已经测得9只Af和6只Apf数据可以用判别直线分为两类.
例3 (学生身体四项指标的主成分分析)在某中学随机抽取某年级30名学生,测得身高、体重、胸围、坐高,具体数据见文獻[3]222页的表9-4.试对这30名学生身体四项指标数据画出主成分的碎石图,并从碎石图判断主成分的个数.
30名学生身体四项指标数据主成分的碎石图(有关程序见文献[3]的222-224页),如图3所示.
图3 碎石图
从图3 可以看出,取两个主成分比较合适.碎石图(或悬崖碎石图)是一种可以帮助我们确定主成分合适个数的有用的视觉工具,将特征值从大到小排列,选取一个拐点对应的序号,此序号后的特征值全部较小且彼此大小差异不大,这样选出的序号作为主成分的个数.
例4 (文化程度和就业观点的对应分析)利用20世纪90年代初期对某市若干个郊区已婚妇女的调查资料,主要调查她们对“应该男人在外工作,妇女在家操持家务”的态度,依据文化程度和就业观点(分为非常同意、同意、不同意、非常不同意)两个变量进行分类汇总,具体数据见文献[3]267页的表11-1.请根据以上调查数据画出文化程度和就业观点的对应分析图.
根据以上调查数据画文化程度和就业观点的对应分析图(有关程序见文献[3]的267页),如图4所示.
图4 对应分析图
对应分析图可以直观地来展示两个变量各个水平之间的关系.
结果说明: (1) 对于图4,主要看横坐标的两种点(就业观点与文化程度)的距离,纵坐标的距离对于分析贡献意义不大.(2) 从图4可以看出对该观点持赞同态度的是小学以下、小学、初中文化程度的,而大学文化程度的妇女主要持不同意或者非常不同意的观点,高中文化程度的持有非常不赞同或者非常同意两种观点.
四、结束语
多元统计分析既可以是统计专业核心课程,也可以是其他专业的专业课或基础课等.在该课程中培养学生的动手能力,对于该课程具有重要的意义.
多元统计分析是一门应用性很强的课程,要提高教学质量,学以致用,必须充分调动学生学习的主动性和积极性,采用多媒体教学、案例教学和实验教学相结合的多元化教学方法,强化相关软件的应用,改革考核方法,达到培养创新型人才的目的.
本文中给出了几个例子,通过一些图形,可以直观地帮助我们得到所需要的结论.当然画这些图形需要借助有关软件(如R软件和MATLAB等)来实现.
【参考文献】
[1]沈菊红.关于多元统计分析课程教学的几点思考[J].学科教学,2008(9).
[2]肖枝洪,郭明月.研究生多元统计分析课程教学的改革与实践[J].高等理科教育,2009(1).
[3]韩明.应用多元统计分析[M].上海:同济大学出版社,2013.