降维系统聚类方法在地域划分中的应用

2018-09-29刘俐，刘璐，王智森

大连工业大学学报 2018年5期

刘俐，刘璐，王智森

( 大连工业大学信息科学与工程学院, 辽宁大连 116034 )

0 引言

地域划分已成为产业、投资、创新投入等的重要依据，是制定地域发展政策的首要参考。因此，研究地域划分是为地域经济持续发展、产业调整、区域布局等战略设想的基础。常见的地域划分方法有行政划分和地理划分，这些方法属于定性划分，而随着社会经济发展和产业发展，定性的地域划分不能及时反映地域发展状态。近年来，国内外专家学者从不同角度对中国地域划分进行了定量的聚类研究[1-3]。以农村居民人均消费数据为研究对象，应用聚类分析方法将31省、市、自治区划分为较高、中等、较低3类区域，并提出促进消费的建议[4]。山东农业大学从肉羊产业发展的角度对山东省各市划分为发展潜力区域、优势欠缺区域和发展较成熟区域，进而分析各类区域的特征，并提出相应的发展建议[5]。范群林等[6]从环境技术创新能力的视角将中国30省、市的区域划分为5类，并分析5类地区的环境技术创新能力分布特征，据此提出各类地区关于提升环境技术创新能力的相应策略，促进我国的可持续发展。

聚类分析在目前实际应用中，最常用的两种方法是系统聚类法和快速聚类法。其中，快速聚类法虽然计算速度快，但需要实现根据样本空间分布指定分类的数目，而当样本的变量数超过3个时，该方法的可行性就较差。而系统聚类法利用样本之间的距离最近原则进行聚类，由于类与类之间的距离计算方法灵活多样，能使其适应不同的要求。但在聚类的过程中，如果对多个变量进行直接聚类，存在维度多和计算量大的问题，因此，本研究重点提出基于降维思想的系统聚类方法，使得降维后的聚类标准更加简单直观，降低计算量。利用中国城镇居民消费数据对地域进行划分，验证该方法的可用性。

1 降维系统聚类方法

在实际问题中有p个指标，将这p个指标看作p个随机变量，记为X1，X2，…，Xp，主成分分析就是将p个指标通过线性组合转化为p个新的指标，而这些新的指标C1，C2，…，Ck(k≤p)按照保留主要信息量的原则充分反映原指标的信息，并且相互独立，即

(1)

模型满足的条件包括主成分之间相互独立；主成分的方差依次递减；每个主成分的系数平方和为1，即

(2)

根据主成分分析的数学模型，原始数据及模型条件，将数学模型中式(1)写成

(3)

协方差矩阵的计算。利用原始数据计算协方差阵ΣX。

然后，根据协方差矩阵计算特征值和单位特征向量，即UT的列向量是λi，i=1，2，…，p对应的特征向量。

由式(4)计算特征值λi及其相应的单位特征向量ui=(ui1，ui2，…，uip)，i=1，2，…，p，其中I表示单位阵。

ΣX-λiI=0

(4)

由于ΣX为非负定的对称阵，必存在正交阵U，使得

(5)

ΣX的特征根λ1，λ2，…，λp分别代表主成分C1，C2，…，Cp的方差，且特征值依次递减。

最后，根据特征值计算贡献率(Cr)和累计贡献率。贡献率指某个主成分方差占全部方差的比重，也就是某个特征值占全部特征值合计的比重，如式(6)所示。累积贡献率指前k个贡献率的加和，为保留绝大部分数据信息，将选取累计贡献率达90%以上的前k个主成分。

(6)

累积贡献率选取前k个主成分，再由式(4)得到特征向量，得到C1，C2，…，Ck(k≤p)的具体线性表达式。对系统聚类的变量进行降维，以线性表达式中变量前的系数绝对值大于0.4为标准，筛选符合条件的主要变量集合进行系统聚类。

系统聚类法是先将n个样品各自看成一类，然后规定类与类之间的距离，选择距离最小的一对合并成新的一类，计算新类与其他类的距离，再将距离最近的两类合并，这样每次减少一类，直至所有的样品都成为一类为止。

计算样本间的欧氏距离。由于以地区为样本，对样本进行聚类，将距离作为聚类的统计量，且统计量采用欧氏距离，将每一个样品看作p维空间的一个点，令dij为样品Xi和Xj的距离，m为样品指标具体维度。

(7)

选取离差平方和计算类间距离。应用离差平方和计算距离，先将n个样品各自成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和增加最小的两类合并，直至所有的样品归为一类。

2 降维系统聚类的地域划分

2.1 数据来源及变量选取

研究数据来源于《中国统计年鉴》[7]，2011—2015年中国省级城镇居民的人均消费支出数据，具体消费项目名称及变量的选取如表1所示。

表1 居民消费项目表

2.2 降维系统聚类的地域划分

对5年31个地区城镇居民的8项消费支出项目进行主成分实证分析，得到主成分与8个变量之间的线性组合。并根据主成分的累计贡献率，确定主成分个数。再依据变量前系数绝对值的大小，筛选出主要变量作为地域聚类的标准。

以2015年数据为例，首先，利用省级城镇居民的人均八项消费数据计算得出协方差矩阵

根据式(4)，得到特征值及相应的单位特征向量

根据累计贡献率来确定需要选取的前k个主成分。由表2累积贡献率可知，即k取2即可满足主成分的选取标准，可见2015年主成分的选取保留了93.60%的原始信息。

表2 2015年主成分导出一览表

由单位特征向量写出主成分对应原始变量的系数，新成分选取为C1和C2与原始变量的线性关系。两个主成分C1和C2代替了原来8个变量来描述城镇居民的总消费支出情况。根据聚类变量降维筛选原则，在C1中符合条件的变量为X1和X3，在C2中为X1，因此2015年消费的聚类变量为X1和X3。利用同样的方法，分别对2011—2014年省级城镇居民人均消费支出的数据进行主成分分析，分别得到2011—2015年期间城镇居民消费的聚类变量，如表3所示。

表3 系统聚类变量

将表3主成分降维的聚类变量作为聚类标准，利用系统聚类方法，分别对2011—2015年省级地区进行聚类。利用式(7)计算省级地区间的距离，用离差平方和计算类与类之间的距离，然后将距离较近的两类合并为一类，以此类推，直至聚类结束，聚类结果如图1所示。

图1 省级地区的聚类结果

由图1可见，就单个省级地区而言，从5年的聚类结果来看，很难实现跨类发展，始终保持邻类别地区发展，即一二类内的地区之间波动，三四类内的地区之间波动。各地区的发展速度不同，导致有些地区发展速度快，超过了原处于同类别的地区，出现部分地区波动现象。

对比聚类结果与实际情况，发现此种方法的地域划分结果与地域发展的实际情况相符。一方面，由于各地的自然资源、产业发展潜力、人均收入等不同，造成省级之间非均衡发展的趋势，因此省级之间被聚为不同类别。另一方面，地域发展呈现阶段性，通过近5年的聚类结果显示，大部分省级地区保持稳定发展，而浙江、广东、青海、新疆、安徽、湖北、广西、云南、陕西在2013和2014年出现波动。这表明大部分地区发展较稳定，即使出现少数地区的波动现象，也是发生在邻近类别之间。

3 结论

利用降维系统聚类方法，对全国省级地区进行地域划分，该方法对2011—2015年省级地区城镇居民的消费数据进行实证分析。通过累积贡献率对主成分进行筛选，根据主成分中变量前系数绝对值大小来降低聚类变量的维度，并利用居民消费数据对该方法进行验证。结果显示，就单个地区而言，各省级地区始终保持在邻近类别之间发展，且未出现跨类发展的现象。表明各地区保持循序渐进的发展趋势，这与地域发展规律相符，验证了降维系统聚类方法的可用性。地域的有效划分有助于找准地域定位，确定发展目标，能够为探讨地域的发展路径提供有效参考。

展开全文▼