常见统计分析方法浅析
2013-04-10◇李坤
◇李 坤
统计分析是统计学最重要的应用之一,无论是数据收集,还是数据处理,其最终的目的都是要进行统计分析,以便得出结论,供信息的使用者在做决策或预测时参考,那么我们对不同的统计分析方法进行研究、比较,就显得异常重要,因为不同的统计分析方法适用的情况不一样,对于同一种情况使用不同的统计分析方法进行分析可能得出不同的结果,即使得出的结果是一样的,但是各种结果的准确性也可能有很大差异,基于此,本文对各种常见的统计分析方法进行了研究。
1.回归分析
(1)基本含义
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种常用的统计分析方法,回归分析的基本思想是:①从一组实测数据出发确定自变量和因变量之间的定量关系式,即建立数学模型,然后估计其中的未知参数。②对这些关系式的可信度进行检验。③在多个自变量共同影响一个因变量的关系中,判断哪些自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,将影响不显著的自变量剔除,常用两阶段最小二乘法、三阶段最小二乘法等方法。④利用最终求得的关系式对某一生产过程进行预测或控制。
(2)应用介绍
一般来说,回归分析是通过规定自变量和因变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后根据拟合优度值R2来评价回归模型是否能够很好地拟合实测数据,如果能够很好地拟合,则可以作进一步预测。
(3)优劣分析
回归分析的优点在于方法简单,易于操作,在统计软件包中使用各种回归方法计算十分方便。回归分析的缺点在于当自变量和因变量之间是非线性关系时,用回归分析进行拟合的效果往往并不好甚至很差。
2.判别分析
(1)基本含义
判别分析是在已知历史上用某些方法已把研究对象分成若干组的情况下,根据研究对象的各种特征值来判别其归属问题的一种多变量统计分析方法。判别分析的基本思想是,首先根据已知所属组的样本给出判别函数,然后在依次判别每一新样品因归属哪一组。常用的判别方法有距离判别、贝叶斯判别和费希尔判别等。
(2)应用介绍
判别分析在经济学、人口学、医学、气象学、市场预测、环境科学、考古学中有着广泛的应用,一般根据事先确定的因变量找出相应处理的区别特性。在判别分析中,因变量为类别数据,自变量通常为可度量数据。通过判别分析,可以建立能够最大限度地区分因变量类别的函数,考查自变量的组间差异是否显著,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值对样本进行归类。
(3)优劣分析
判别分析的优点在于通过判别分析能够将自变量很好地进行分类,判别分析的缺点在于计算复杂,程序繁琐。
3.聚类分析
(1)基本含义
聚类分析的目的是把分类对象按照一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必做任何假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。
聚类分析的基本思想是:首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的样品首先聚为一类,而把另一些相似程度较小的样品聚为另一类,直到所有的样品都聚合完毕。
(2)应用介绍
在经济学中,根据人均国民收入、人均工农产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在选拔青年运动员时,对青年的身体形态,身体素质以及生理功能的各项指标进行测试,据此对青年进行分类;根据啤酒中含有的酒精成分、钠成分和“卡路里”数值,对啤酒进行分类;在我国,按经济发展水平可以将各地区分为发达地区、欠发达地区和落后地区,这些都要用到聚类分析方法。
(3)优劣分析
聚类分析的优点在于能够清晰地描述数据并且简便快捷,是很好的统计分析方法。其缺点在于,在样本量较大时,要获得聚类结论有一定困难。
(4)判别分析和聚类分析的区别
判别分析和聚类分析是两种不同目的的分类方法,所起作用是不同的。判别分析方法假定组已经事先分好,判别新样品应归属哪一组。聚类分析方法是按照样品的数据特征,把相似的样品倾向于分在同一类中,把不相似的样品倾向于分在不同类中。
4.主成分分析
(1)基本含义
主成分分析是一种通过降维技术把多个变量化为少数几个主成分的统计分析方法,这些主成分能够反映原始变量的绝大部分信息,它们通常表现为原始变量的某种线性组合。主成分分析的基本思想是:设法将原来众多具有一定相关性的指标重新组合成一组新的互相无关的综合指标,来代替原来的指标以达到两个基本目的:①变量的降维;②主成分的解释。
(2)应用介绍
成功的主成分分析在降低维数的同时,能够使所提取的主成分仍保留着原始变量的绝大部分信息,这样就可以对问题给出符合实际背景的和有意义的解释。因此,当我们需要对问题给出合理而又有意义的解释但由于问题本身含有多个变量而又不方便时,可以采用主成分分析,在主成分的累计贡献率达到一个较高的比例时,就可以用这几个主成分对问题进行解释。比如影响男子田径赛跑成绩的因素,影响居民综合消费性支出水平的因素等,都可以用主成分分析进行解释。
(3)优劣分析
主成分分析的优点在于通过降维减少了变量的个数,将变量间重叠的信息展开,降低了分析问题的复杂性,使得对问题的解释变得容易.主成分分析的缺点在于主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚,确切。另外,当所提取的主成分中有一个主成分解释不了时,主成分分析就失去了意义。
5.因子分析
(1)基本含义
因子分析起源于20世纪初,K.皮尔逊和C.斯皮尔曼等学者为定义和测定智力所做的统计分析。因子分析的目的是,试图用几个潜在、不可观测的随机变量来描述原始变量间的协方差关系。
(2)应用介绍
当多个变量共同影响一个变量时,为了降低分析问题的难度,通常可以采用因子分析,找出主因子进行解释。抓住主要因素,忽略次要因素,在不影响分析问题的精确性时,因子分析不失为一种选择。
(3)优劣分析
与主成分分析相比,因子分析较为灵活(体现在因子旋转上),这种灵活性使得变量在降维之后更容易得到解释,这是因子分析比主成分分析有更广泛应用的一个重要原因。 其缺点在于,因子分析只能面对综合性的评价,同时对数据的数据量和成分也有要求。
6.相关分析
(1)基本含义
相关分析是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。其基本思想是:研究两个变量间线性关系的程度,用相关系数r来描述。
(2)应用介绍
相关分析在实际生活中应用广泛,牛肉、猪肉的价格与按人口平均的牛肉、猪肉的消费量之间的相关关系;初一学生的阅读速度、阅读才能与数学运算速度、数学运算才能之间的相关关系,等等。
(3)优劣分析
相关分析的优点在于,通过降维,减少了变量的个数,降低了分析问题的复杂性。相关分析的缺点在于这种降维技术可能会过分削减信息,以至于不能充分反映实际问题。