APP下载

基于主成分分析和因子分析的中医药服务能力评价研究*

2020-12-25赵敏李军山南昌航空大学南昌330063江西中医药大学南昌330004

江西中医药大学学报 2020年6期
关键词:降维差值方差

★ 赵敏 李军山(1.南昌航空大学 南昌 330063;2.江西中医药大学 南昌 330004)

中医药是中华文明的瑰宝,为中华民族繁衍生息做出了巨大贡献。继2013年《中医药法》颁布实施后,2019年全国中医药大会在北京胜利召开,中医药迎来了大好发展机遇。2020年初,中医药在新冠疫情防治中的卓越表现,再次彰显了中医药在健康维护和促进方面的特色优势。习近平总书记多次作出重要批示,提出要大力发展好、保护好、挖掘好中医药。当前,相对于中医药人才、设备、技术等服务能力条件建设明显改善的状况,中医药服务能力评价理论研究显得有些滞后。多数文献为定性分析或描述性统计分析[1-2]。少数学者采用了主成分分析或因子分析等现代统计分析方法[3-4],但对这两种方法没有进行区分[5-8],研究结果科学性有待于进一步提升。为此,本文采用Python语言编程[9-10],分别运用主成分分析和因子分析两种方法,对我国中医药服务能力评价进行比较研究,为我国中医药服务能力评价和提升提供方法参考和智力支持。

1 资料来源与方法

1.1 资料来源 本文在全面梳理中医药服务能力相关文献的基础上,结合数据可得性,选取15个指标用来评价中医药服务能力,详见表1。

表1 中医药服务能力指标体系一览表

全部指标的数据均来源于2018年全国中医药统计摘编数据。除台湾和西藏数据缺失外,本文分析评价对象共计北京、上海等其余30省(自治区、直辖市),以下简称30省。

为消除不同变量不同单位带来的影响,所有变量数据分析之前均进行标准化处理。

1.2 研究方法与思路 本文主要分别采用主成分分析和因子分析法,对30省的中医药服务能力进行分析排名和聚类,旨在通过比较研究两种方法的对应排名结果和聚类分析结果,进一步阐释两种定量分析方法的异同点,从而为科学客观评价我国中医药服务能力提供方法参考。

主成分分析和因子分析都是利用降维思想,尝试用几个主成分(或公因子)来代表所有原始变量的信息。不同的是,主成分分析法是在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间一定互不相关。而因子分析中一般假定各公因子互不相关,但实际上各公因子并不一定满足互不相关要求。因子分析也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系。因子分析的前提是各公因子假定为互不相关,其重点在于解释各变量之间的协方差。

本文主要运用Python语言,通过编程,调用有关函数,完成原始数据输入、计算和结果输出。

2 研究结果

2.1 各省市中医药服务能力排名结果

2.1.1 主成分分析法对应排名结果 主成分分析法是通过方差值和方差比来评价降维效果是否合理。方差值代表降维后的各主成分的方差值,方差值越大,说明越是重要的成分;方差比代表降维后的各主成分的方差值占总方差值的比例,此比例越大,越是重要的主成分。15个指标(变量)会产生15个互相正交的主成分,各主成分的方差值和方差比见表2。

表2 全部成分的方差比和方差值

由表2可知,主成分(1)、(2)、(3)的方差比和方差值均远远大于其余成分的方差比和方差值。这3个主成分所占的方差值是总方差的98.0%,也远远大于其余成分的方差百分比,所以只选择前3个成分为主要成分,其余成分丢失信息可以忽略不计。

运用Python语言,调用主成分分析(PCA)函数,最终得到30省中医药服务能力综合得分排名,详见表3。

表3 基于主成分分析和因子分析的30省市中医药服务能力综合得分

从表3可以看出,两种分析方法排名结果完全的一致省市有8个,排名仅相差1位的有13个省市,相差2位的有7个省市,三者加起来共计28个省市。其余两个省市排名相差分别为3位和5位。

2.1.2 因子分析法对应排名结果

第一,因子分析适用性检验。运用Python语言,调用自定义函数及库函数,适用性检验结果如表4。由表4可以看出,KMO> 0.7,效果比较理想,同时,巴特利特球形度检验P<<0.05,说明因子分析可以应用于本文原始数据。

表4 KMO 和巴特利特检验

第二,公因子的选取。由表5可知,前3个因子(factor 0,factor 1,factor 2)对应的特征根大于1,因此本文选取此3个因子。此3个因子累计方差贡献率90.1%,也远远大于其余因子的累计方差贡献率。

表5 公共因子的方差累计贡献率、方差贡献率、特征值

第三,计算中医药服务能力综合得分。假定此3个因子互不相关。根据选取的3个因子,调用Factor Analyzer等相关函数,可得中医药服务能力综合得分公式,具体如下:

C=A.B;K=D.C;E=(K.F)/ 0.900 778

其中:A:相关系数矩阵的逆矩阵(15*15);B:旋转因子载荷矩阵(15*3);C:因子得分系数矩阵(15*3);D:原始数据(30*15);K:30省的3个因子得分(30*3);F:3个因子的方差贡献率(3*1);E:综合得分(30*1)。

根据以上公式,可得到基于因子分析的30省中医药服务能力综合得分及排名,详见表3。

2.2 30省中医药服务能力聚类分析结果 基于无监督学习聚类分析中的K-Means法,运用轮廓系数法选取K值,以确定30省中医药服务能力聚类分析的类别数量。若K值过大或过小,则失去聚类的意义,一般规定K值的选择范围为4~9。调整K值并对比轮廓系数的大小,轮廓系数越接近1,表示K值越合理。

在运行程序过程中,测试发现直接聚类和降维后再聚类的轮廓系数的大小会稍有差异。通过表6看出,降维前、后K=4时,轮廓系数值都最接近1,因此在K-Means法聚类分析中,K值选择4,即30省中医药服务能力分为四个类别比较合理。

表6 降维前后轮廓系数大小的比较

2.2.1 基于所有原始变量的对应聚类分析结果 首先,不对原始变量做任何降维操作,而是直接基于所有原始变量进行聚类分析。此聚类分析结果可作为比较主成分分析和因子分析相应结果的标准。具体结果如表7所示。

2.2.2 主成分分析法对应聚类分结果 运用主成分分析法,进行降维后聚类分析结果和没有进行降维并直接进行聚类分析的结果完全一致。说明基于主成分分析的聚类结果与直接基于所有原始变量的聚类分析结果无差别如表7(左侧)所示。

2.2.3 因子分析法对应聚类分析结果 运用因子分析降维后并进行聚类分析的结果如表7(右侧)所示。也分为四类,各类差别一目了然。

表7 基于原始变量的直接聚类分析结果

3 讨论

(1)两种方法都能够较好分析说明中医药服务能力排名。从表3可以看出,两种方法对应的中医药服务能力排名结果基本一致:30省中,排名相差3位以上的只有2个省市。比较表7和表8,两种方法聚类分析结果也比较相似。这充分说明,针对本文30省中医药服务能力数据信息资料,两种方法都能较好地分析中医药服务能力排名和分类。

(2)两种分析方法对应结果存在一些差异。主成分分析中,三个主成分互不相关,且代表了近98 %原始变量信息。而因子分析中,提取的三个公因子并不一定不相关,且其代表的原始变量信息也只有90 %。这导致二者分析结果存在一定差异。尤其是聚类分析中,四个类别中仅有一个类别完全一致(即海南省自成1类),但其他三类的组成存在差别,个别类别差别较大。

(3)从聚类分析结果看,主成分分析方法相对更为准确。主成分分析对应结果和没有进行降维,直接基于原始变量数据进行聚类分析的结果完全一致,而因子分析对应结果还存在一定差别,可能原因在于,因子分析必须假设各公因子互不相关,但实际上,往往并不一定符合此假设。

(4)相对SPSS,采用Python语言编程更具灵活性。Python语言可灵活调用相关函数,而基于SPSS的因子分析包含了主成分分析,容易导致混淆,初学者应优先使用Python。

(5)本文没有基于原始变量的相关关系来阐释两种分析方法的适用性,这是本文不足之处,也是未来研究方向所在。因子分析的优势在于能够更好地说明各变量之间的相关性。显然,用以表示中医药服务能力的15个变量之间有一定相关关系。未来需要基于原始变量之间相关性来分析两种方法的适用性。

猜你喜欢

降维差值方差
混动成为降维打击的实力 东风风神皓极
数字日照计和暗筒式日照计资料对比分析
概率与统计(2)——离散型随机变量的期望与方差
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
方差越小越好?
计算方差用哪个公式
方差生活秀
枳壳及其炮制品色差值与化学成分的相关性
一种改进的稀疏保持投影算法在高光谱数据降维中的应用