基于谱聚类算法的新疆增长极层级划分方法

2021-05-07刘凯

数字技术与应用 2021年3期

刘凯

(新疆财经大学统计与数据科学学院,新疆乌鲁木齐 830012)

0 引言

新疆作为我国西北边陲大省,自然环境相较于我国东部地区相对恶劣,地区经济发展仍然是相对滞后,基础设施建设不太完善、城市化进程相对缓慢。部分学者在针对区域城市群的城市化发展战略,提出走有层次性的网络化的区域城市化发展模式——层级增长极网络发展的道路。对于新疆这一特殊区域,建立这种层级的开放性网络系统,合理部署开发战略就显得尤为重要。而以何种方式来划分各城市所处于区域网络体系中的层级则是合理部署开发战略的前提;因此,本文探索性的用一种定量的标准化的算法作为区域层级划分方法,并以新疆这一区域为例做出实证。

1 区域层级增长极网络发展理论

层级增长极网络是一个开放的网络,汇集了各级不同的增长极。各个层级之间发展水平都有所差异,区域工业创新能力、资源、地理位置、运输条件等对于促进整个区域的发展都有其自身的优势[1-4]。经济增长本身的动态和驱动力位于不同的地理位置和不同的经济发展水平,而增长水平的层次网络一般都是如此,通常来说,将处于不同的增长水平的增长极分为核心增长极、次核心增长极和边缘增长极。关于层级增长极网络的运行机理,张建军(2008)给出如下论述,以交通网络和信息网络为通道,高层次增长极辐射带动低层次增长极,低层次增长极聚合高层次增长极,形成相互作用的复杂网络系统。层级增长极网络系统的内部,根据比较优势的原则来确定不同层级的增长极发展的强势型产业与战略布局方向,降低产业同构、重复建设等现象在区域内的出现概率;除此之外,以区域交通主干道为核心轴,通过分层增长极网络的极化和辐射效应,形成层次化的增长极网络结构,即层级增长极辐射圈(也有学者称之为层级增长极辐射带),让区域内的工业生产行为与人口迁移在辐射圈内实现合理的聚集和极化式分布。

2 新疆增长极网络的层级设计方法

对于一个地区的城市化建设,从土地城市化的视角来看城市建设面积越高,则一定程度上说明该增长极城市化水平越高,在新疆的辐射效应与极化效应越明显,对全域的影响越大,故本文选取城区建设用地面积较高的市、县作为进入层级网络的增长极,分别是乌鲁木齐市、克拉玛依市、库尔勒市、昌吉市、哈密市、石河子市、伊宁市、阿克苏市、库车县、喀什市、吐鲁番市、阿拉尔市、阜康市、五家渠市、奎屯市、莎车县、乌苏市、博乐市、鄯善县、霍尔果斯市。选取了增长极样本点后,依据无监督算法对各增长极进行划分。选取各增长极的各类城市建设用地面积指标数据,对增长极进行聚类,并划分增长极层级(如表1)。最后根据增长极地理位置与增长极层级,构建层级增长极网络。

层级增长极网络中,增长极按对全域内的影响可分为核心增长极(也可成为第一增长极)、次核心增长极(第二增长极)、边缘增长极(第三增长极)以及腹地。对于各区域内各增长极层级的确定,本文采用聚类算法来划分各增长极的层级,聚类方法法采用谱聚类算法。

谱聚类(Spectral Clustering)是广泛使用的聚类算法,该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的拉普拉斯矩阵,计算矩阵的特征值和特征向量,然后选择合适的维度构建新的特征向量,以此聚类不同的数据点[5]。相比起传统的K-means聚类算法,谱聚类对数据分布有更强的鲁棒性,非常适合非线性、高维度的数据结构。谱聚类算法是从图论发展而来的,后来在聚类中得到了广泛的应用,其主要思想是以一种数据点云的数据结构为基础,将点云的各个数据点用边连接起来,距离较近的两点之间的边的权重较高,距离较远的两点之间的边的权重较低。通过切图,使得切图后各个子图内边权重和尽量大,而不同的子图之间边的权重和尽量小,以此达到聚类的目的。还可将谱聚类算法理解为,通过对样本数据中的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本聚类的目的(将高维空间的数据映射到低维空间,然后用其他聚类算法如K-means算法进行聚类)。谱聚类算法主要有如下优点:由于计算了拉普拉斯矩阵的特征值和特征向量,达到降维的效果,在处理高维数据聚类时相比于传统聚类算法计算量大大减少;谱聚类算法用于处理稀疏数据集的聚类效果良好,非常有效[6]。

表1 新疆地区各类城市建设用地面积(部分) 单位:km2Tab.1 Areas (parts) of construction land in various cities in Xinjiang Unit: km2

谱聚类是是在图论的基础上提出的,一般用点的集合V和边的集合E来描述一个图G,记为G(V,E)。里面的V就是数据集(或点云)里面所有的点 (V1,V2,...VN)。对于V中的任意两个点,是否一定要有边存在,谱聚类算法不做要求。定义权重wij为点vi和点vj之间的权重,且wij=wji。若两点vi和vj之间存在相连的边,wij＞0,若两点vi和vj不存在相连的边,wij=0。对于图中的任意一个点vi的度di定义成和该点相连接的所有边的权重和,即:

根据公式对数据点度的定义,不难得到一个n×n的度矩阵D,度矩阵D是一个对角阵,主对角线对应了各个数据点度的值,即对应第i行的第i个点的度数,矩阵其余位置均为0,度矩阵定义如下:

邻接矩阵W是由任意两点之间边的权重值wij组成的矩阵,可由所有点之间的权重值得到,W是一个n×n的矩阵,第i行的第j个值对应点和点之间边的权重值wij。在谱聚类算法中,并没有直接给出这个邻接矩阵,依据距离较远的两个点之间的边权重值小,而距离较近的两个点之间的边权重值大,通过样本点距离度量的相似矩阵S来获得邻接矩阵W。

构建邻接矩阵W的方法主要是以下三种,分别是∈-NN,KNN和全连接法。在实际应用中,最常用的是全连接法建立邻接矩阵,而高斯径向核RBF是全连接法中最常用的。因此,本文采用全连接法,使用高斯径向核RBF,采用K-means方法作为层级增长极谱聚类的模型方法参数。

本文中用到的谱聚类具体的算法步骤如下:

输入:样本集S={x1,x2, LxN}、相似矩阵的生成方式(如全连接)、聚类方法的算法(如DBSCAN、层次聚类)、降维后的维度k、聚类的簇的个数m。

输出:簇划分Cluster= {c1,c2LcM},其中m为聚类维度,即类的个数。

(1)根据相似矩阵的构建方法(本文为全连接法)构建数据样本的相似矩阵S;(2)根据相似矩阵S构建邻接矩阵W,根据公式(1)计算数据样本点的度,于是就得到矩阵D;(3)将度矩阵与相似矩阵相减L=D-S计算得到Laplacian矩阵;(4)将Laplacian矩阵标准化处理后得到所有特征值,并取前k个特征值的特征向量构建成Laplacian特征矩阵;(5)用K-means聚类算法对Laplacian特征矩阵进行聚类,就得到了分类簇划分Cluster= {c1,c2LcM}。

表2 新疆增长极层级划分表Tab.2 Classification of growth poles in Xinjiang

在本文中,对于增长极层级的划分标准,增长极不同层级之间都存在一些典型的层级特征,根据无监督模型算法聚类结果,对各类分别定义为核心增长极、次核心增长极、边缘增长极。采用谱聚类确定各增长极所处的层级是一个相对合适的方法。

3 结果分析

本文基于python的numpy计算库、pandas数据分析库以及sklearn机器学习库对增长极各维度的数据进行处理、拼接以及模型学习。sklearn中的谱聚类函数spectral Clustering可直接通过谱聚类算法计算出聚类结果,设置谱聚类算法参数n_cluster分为3类,gamma值为1,得到聚类结果(如表2):

谱聚类算法聚类结果:第一类只有乌鲁木齐市,是新疆唯一的特大型城市,城市化发展领先于新疆其他地区,是明显的核心层,具有拉动乌昌地区周边城市发展,影响全疆城市化进程的城市功能,故将聚类结果中的第一类定义为层级增长极网络中的核心增长极这一层次;第二类的城市有克拉玛依市、库尔勒市、昌吉市、哈密市、石河子市、吐鲁番市,都是新疆各地州区域内的核心城市,是小区域和经济圈中的“领头羊”和“风向标”,带动着周边市县的发展,故将聚类结果中的第二类定义为层级增长极网络结构中的次核心增长极;聚类结果的第三类包括了伊宁市、阿克苏市、库车县、喀什市、阿拉尔市、阜康市、五家渠市、奎屯市、莎车县、乌苏市、博乐市、鄯善县、霍尔果斯市,是一些经济体量较小城市化发展相对于核心增长极地区还存在差距的市、县,但同样这些行政区划对于周边地区乃至农村腹地都有一定程度的影响力,将第三类增长极定义为层级增长极网络中的边缘增长极。

本文基于以上聚类结果,将各增长极划分为三类,其中第一类对应核心增长极,第二类对应次核心增长极,第三类对应边缘增长极。谱聚类算法聚类得到得层级增长极网络结构。增长极随着层级的差异所展现外向功能的辐射效应也有所差异,增长极层级越高,则辐射范围越广,强度越大;以乌鲁木齐为核心的区域增长极比较集中;从这个角度也反映出以乌鲁木齐为核心增长极的层级网络体系中,乌昌地区以及其辐射周边地区有较好的城市化发展。乌昌地区在经过十几年一体化的建设和发展后,已经成为全疆城市化发展的龙头地区,其内的几个市对其他增长极的城市化发展均有带动作用。