基于改进密度峰值聚类的私人汽车保有量影响因素分析
2019-06-11王传鑫袁永生周铭华
王传鑫 袁永生 周铭华
摘要:为了研究不同地区间私人汽车保有量影响因素的差异性,选取了五个影响因素,通过改进的密度峰值聚类方法将全国31个省市自治区分成了以甘肃省和江西省为聚类中心的两类地区,并分别建立了影响因素的面板数据模型。结果表明:社会消费品零售总额、公路旅客周转量和年末公共交通车辆运营数对第一类地区私人汽车的发展有较大影响;社会消费品零售总额、年末实有道路长度和年末公共交通车辆运营数会影响第二类地区私人汽车的发展。研究结果可为两类地区私人汽车的发展提供一定的参考意义。
关键词:影响因素;密度峰值聚类;私人汽车保有量;面板数据模型
中图分类号:F407.471
文献标识码:A
近年来,我国的汽车工业得到了迅猛的发展,私人汽车保有量也在不断地增长,其对社会经济的发展和道路规划的影响也越来越大。因此,研究私人汽车保有量的发展情况对经济的发展和道路交通网的建设具有重要的意义。
目前对私人汽车保有量的研究主要集中在保有量的预测方面,如古继宝等根据我国3 1个省市的面板数据建立了Gompertz模型,并以此预测了中国民用汽车保有量[1];龚华炜等基于计量经济学模型对广东省2004年和2005年的汽车保有量进行了预测[2];蒋艳梅等基于Logistic模型预测了我国私人汽车保有量[3]。纵观这些研究,在汽车保有量的预测方面做出了许多努力,并给出了许多可行性的建议。但这些研究大都是从宏观的角度的去选择与私人汽车保有量的影响因素,未能充分考虑到各个地区间由于政策、环境以及文化等的不同所导致的影响因素的不同。同时,由于现有的聚类算法,如K-Means算法、密度峰值聚类算法等不能有效地对面板数据进行聚类。因此,通过改进密度峰值聚类算法的相似性度量方式,使算法能够适用于面板数据,并保留其能够快速地确定聚类中心和类簇的优点。进而根据2005年到2015年全国31个省市地区的数据进行地区划分,并对每一类地区建立了私人汽车保有量的影响因素模型,从而分析了不同类别之间的影响因素的差异性原因。
1 基于改进密度峰值算法的聚类分析模型
聚类算法是根据变量之间的相似性或差异性将数据进行分类,常见的聚类算法主要有基于划分的K-Means算法、基于密度的DBSCAN算法等。但前者在K值的选取上缺乏客观性,后者的聚类结果容易受到参数的影响。为了避免出现此类问题,文献[4]提出了一种基于密度峰值的聚类方法。算法的前提是,聚类中心被密度比其小的点围绕,并且距离其他的较高密度点有着较大的距离。算法先对于任何一个待分数据点都计算了两个量:局部密度值以及该点到有着更高局部密度点的距离δi,然后将ρi和δi都较大的点选为聚类中心,最后将剩下的数据点划分给离它最近的聚类中心所属的类簇中去。相比较于传统的聚类算法,该算法能够快速地确定聚类中心和类簇,而且不需要指定聚类参数,并能发现非球状簇。但是,该算法只适用于二维数据的聚类,不能有效地对面板数据进行分析。针对这个问题,文章将算法中的相似性度量方式加以改进,使其能够对面板数据进行分类。
1.2 决策图
为了选择聚类中心,算法以ρ值为横坐标、δ值为纵坐标建立了数据集对应的决策图,并将p值和δ值都较大的点选为聚类中心,然后将其余数据点划分到离它最近的聚类中心所属的类簇中去。
2 影响因素的分类模型
2.1 私人汽车保有量影响因素的选取
影响私人保有量的因素有许多,大致可以分为三类,社会经济发展水平,道路交通运输水平,人口因素。根据实际情况和过往研究中对影响因素的选取[6-10],选择了三类中具有代表性的因素,即地区生产总值、社会消费品零售总额、年末实有道路长度、公路旅客周转量和年末公共交通车辆运营数。
2.2 建立分类模型
为了便于程序运行,将全国31个省市地区进行编号为1到31,并选取了《中国统计年鉴》上影响私有汽车保有量的地区生产总值、社会消费品零售总额、年末实有道路长度、公路旅客周转量和年末公共交通车辆运营数的数据。由于所选取的数据之间的单位差别较大,因此,先根据下列公式,即区间化的方法对原始数据进行标准化处理,以消除量纲的影响,减少误差。
然后根据公式(1)和公式(2)分别计算每一个地区的局部密度值和距离值,并以ρ值為横坐标、6值为纵坐标建立直角坐标系,并在坐标系上画出每个地区的值ρ和δ值,如图1所示。并将ρ值较大且δ值较大的28号甘肃省和20号江西省选为聚类中心(图中有上部分的两个点),最后将其他地区分配给这两个聚类中心,分配结果如图2所示,并根据运行结果得出全国31个省市地区的分类结果,见表1。
由上表可以初步看出,以甘肃省为聚类中心的第一类地区大都属于经济发展水平不高,且道路建设水平以及道路运输水平都较低的地区;以江西省为聚类中心的第二类地区在总体上经济发展情况较好,且道路基础设施建设较完善。
3 分地区私人汽车保有量影响因素的面板数据模型
为了更加清楚分析地区间私有汽车保有量影响因素的不同,采用面板数据的分析方法。面板数据,又称纵列数据,是指由大量个体的时序观测构成的数据集。它既包括时间序列数据,也能涵盖截面数据,因此能更全面地反映研究对象的特征[11]。
面板数据模型的一般形式为
3.1 模型选取
固定效应模型和随机效应模型是面板数据模型中的两个重要模型,具有不同的适应范围。一般而言,根据Hausman检验的结果来选择模型,检验结果及参考模型见表2。
根据检验结果,对第一类和第二类地区在显著性水平为5%的条件下建立固定效应模型。
3.2 模型设定
根据前面的分析,设定面板数据的模型为