偏最小二乘通径模型在某高校学院综合实力评估中的实证研究(上)
2015-12-07姜英英李晋明
姜英英+李晋明
摘要:本文针对学院综合实力建立评价指标体系,采用偏最小二乘通径模型,确定潜变量与观测变量之间的关系,建立学院综合实力的评价指数,并以北京某高校9个学院为例,收集实际数据,进行实证分析。通过偏最小二乘通径模型,计算了模型的通径系数和各个学院的综合实力的得分并进行排名,从而对影响学院综合实力的因素进行分析,对学院的发展策略提出建议。
关键词:偏最小二乘通径模型;学院综合实力;评价指数
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)23-0168-02
第一章 引言
当今人类社会已迈入了知识经济时代,经济与科技的全球化竞争日益激烈。大学作为知识创造和传播的中心日益成为人们关注的焦点,而中国的大学及其体系也正在飞速发展。大学要有好的发展策略,必须综合考虑各个学院的综合实力,搞清楚学院存在哪些方面的不足。因此,制定一个学院的综合实力评估指数对于帮助学校制定适合各个学院的发展策略来说至关重要。目前研究通常的做法是采用一系列相关的指标进行替代解释,结构方程模型和偏最小二乘通径模型都可以解决这个问题。但相对于结构方程模型基于样本协方差矩阵进行建模的思路,偏最小二乘模型采用的是一系列一元或多元线性回归的迭代求解。其优点主要是无需对观测变量做特定的概率分布假设,不存在所谓的模型不可识别问题,对样本点容量的要求也十分宽松,能很好地解决指标之间的多重共线性等。因此,本文选择偏最小二乘通径模型来建立学院综合实力评估指数。
第二章 偏最小二乘通径模型
偏最小二乘通径模型是伍德于1975年提出的,用以分析多组变量集合之间的线性统计关系。它的特点是:模型假设条件较少,实用性较强。偏最小二乘通径模型也由测量模型和结构模型组成。其中,测量模型(外部模型)用来描述显变量和隐变量之间的关系;而结构模型(内部模型)用来描述隐变量之间的关系,其模型路径图见图1。
在图1中,x 与x 、x ∶x 和x 与x 分别为3组外生显变量,对应的外生隐变量分别为ξ 、ξ 和ξ ;y 与y 和y ∶y 分别为2组内生显变量,对应的内生隐变量为η 和η 。以上显变量和隐变量之间构成测量模型;而ξ 、ξ 、ξ 和η 、η 之间则构成结构模型。另外,δ ∶δ 、ε ∶ε 表示测量误差,ζ 和ζ 表示结构方程的误差项。
1.模型结构与假设条件。设有J组显变量,每组含有P 个变量,则每组显变量可以表示为:X =(X ,x ,…,x )(j=1,2,…,J)
通常假定显变量x (j=1,2,…,J;h=1,2,…,p )都基于n个共同的观测点,并且每个变量都是中心化的。每组显变量X 所对应的隐变量为ξ (j=1,2,…,J),并且假定,隐变量ξ 是标准化的,即均值为0、方差为1。
1.1测量模型。在测量模型中,一组显变量X 和对应的隐变量ξ 之间的关联关系由下式来表示:
x =λ ξ +ε
其中:ε 为随机误差项。该式需要满足假设条件
E(x |ξ )=λ ξ 。
该假设条件说明残差ε 均值为0,并且与隐变量ξ 不相关。
偏最小二乘通径分析认为,在反映方式中,一组显变量只反映事物某一方面的特征,即这组显变量所反映的隐变量是唯一的。满足上述假定的一组显变量被认为是唯一维度的。
1.2结构模型。结构模型描述不同隐变量δ 之间的因果关系,通常由一组线性方程组来表示,即:ξ = β ξ +ζ
其中,ζ 为随机误差项。由预测指定性条件知,同样假设残差ζ 的均值为0,并且与ζ 不相关。
2.模型的估计。偏最小二乘通径分析通过迭代的方法对隐变量进行估计,然后,根据模型的设定,对显变量和隐变量之间的关系方程进行估计。一般有两种方法:外部估计和内部估计。
3.偏最小二乘通径模型计算步骤。综上所述,偏最小二乘通径分析采用迭代的算法来计算隐变量,最后,根据隐变量的估计值,计算测量模型和结构模型,具体步骤如下:
第1步:取向量Y 的初始值等于x 。
第2步:计算Z 的估计值Z =( e Y ) ,其中:
e =sign(r(Y ,Y ))。
第3步:根据Z 的估计值,计算权重向量ω = X Z .
第4步:利用得到的ω ,计算新的Y =( ω x ) =(X ω ) 。
再回到第2步,直到计算收敛为止,以最终得到的Y 作为对隐变量ξ 的估计值 。从而可以采用偏最小二乘回归模型估计测量模型 =λ 。对于内生隐变量ξ ,有 = β 。
第三章 学院综合实力评价模型的初步构建
结合本高校的特点,建立如下模型。每个潜变量由图2中所示的相关显变量来描述,考虑到学院规模人数不一样,为使结果更客观公正,每个显变量都是采用百分率来计算的,以更好地刻画人均情况,使结果更客观公正。
第四章 模型数据的描述性分析
本文以北京某高校为基础经过实际访问调查咨询等,搜集了本模型所需数据,其中共有15个显变量,共有9个学院,见表4。通过相关统计量检验数据是否具有显著的正态分布特点;进行相关分析,掌握观测变量之间的相互影响关系。
1.数据的偏度、峰度分析。利用SPSS软件对数据进行分析,输出几个描述统计量,包括均值、标准差、偏度、峰度,可以大致了解数据的分布特征。
2.数据的正态性检验。为了检验数据是否呈正态分布,设样本容量为n,当8≤n≤50时,可以使用夏皮洛—威尔克(Shapiro-Wilk)检验进行有效的正态性检验。注意:SPSS输出的是双边检验的p值,需要除以2,显著性水平为0.05。
若 ≤0.05,就可以拒绝原假设。经过计算,对
x ,x ,x ,x 这四个变量来说,可以拒绝原假设,即它们不满足正态分布。
3.数据的相关性分析。为了分析数据内部的联系,可以分析数据之间的相关性。在此利用SPSS软件对这15个变量x ∶x 进行相关性分析。
4.小结。经过分析,这15个变量有的不服从正态分布,并且变量之间存在多重相关性,且样本量只有9个,小于变量的个数。由于以上原因,可以得出偏最小二乘通径模型比结构方程模型能更有效地解决本文中建立学院综合实力评估指数的问题。
参考文献:
[1]吴喜之.统计学:从数据到结论[M].北京:中国统计出版社,2006.endprint