基于随机森林方法的吉林省新型城镇化水平评价

2020-07-15王淑影张亚男程云飞

长春工业大学学报 2020年3期

王淑影, 张亚男，程云飞

(长春工业大学数学与统计学院，吉林长春 130012)

1 研究背景及意义

新型城镇化作为城乡之间协调互补的城镇化进程，其主要特点是城乡一体化、生态文明、产业良性互动、协调更好更快的发展。对于衡量区域乃至国家经济发展水平以及可持续经济发展来说，新型城镇化不但是重要指标,还是主要推动力。2012年11月，“新型城镇化”理念在党的十八大上首次被提出，侧重城乡一体协调发展，缩小城乡之间差距，提高新型城镇化建设速度；发改委于2019年4月推出《新型城镇化建设重点任务》，重点强调户籍体制深层次改革，以及不同城市之间协调发展的问题,这对于新型城镇化高水平发展乃至以后优化布局及形态都有极其深远的意义。城镇不仅在资源配置和资源积累方面表现出独特优势，而且对国家繁荣、民族复兴以及经济发展都起着不可替代的重要作用。因此，近些年来新型城镇化的发展受到了国内外专家学者的关注。

张春燕[1]以湖北省京山市为研究对象，利用耦合度模型研究了旅游业与新型城镇化的关系，考虑将优势传统产业与旅游产业进行产业融合，以此推动新型城镇化进程更上一层；熊湘辉等[2]提出外部动力远小于市场动力、政府动力和内源动力是中国新型城镇化建设进程面临的最严峻的问题;Michaels等[3]提出要影响产业结构升级必须通过城镇化来实现新兴产业整合、旧产业分工重组以及提高技术水平等问题；Gerald[4]提出小城镇的城镇化发展要“因地制宜”，而且在适宜的发展模式基础上注重基础设施建设。综上所述，对于新型城镇化的研究，国内外学者大都把研究范围定为全国或地级市，很少对县级市做针对性研究。此外，在做评价研究方面，大多数人都青睐于因子分析、聚类分析及主成分分析的方法，这几种方法缺乏信息特征。因此，文中立足于吉林省县级市，从吉林省的经济发展、城市环境以及生活品质三个方面进行数据收集，而且使用的随机森林方法可以避免带有主观性质的指标赋权，泛化能力好、调节参数少,可以避免“过拟合”的现象出现,准确度更高。

虽然吉林省近几年在新型城镇化建设中取得了令人瞩目的成绩，但是跟全国的新型城镇化与经济发展水平相比还相较甚远。“中国农业大省”作为吉林省长久以来的标签，导致吉林省关注的焦点一直放在“三农”问题上。为了能够促进经济长期稳定增长、实现城乡一体化，并且解决“三农”问题，新型城镇化建设就成了当下首选目标。因此，通过定量分析其发展水平，探寻吉林省新型城镇化进程中存在的问题和区域差异具有十分重要的意义。

2 随机森林方法下的吉林省新型城镇化水平实证分析

2.1 数据来源及评价指标体系构建

针对吉林省新型城镇化发展水平，结合其发展现状和数据的可行性。文中从经济发展、城市环境以及生活品质三个方面选取16项指标对吉林省新型城镇化进行研究，指标体系见表1。

表1 吉林省新型城镇化指标体系

注：数据来源于2018年吉林省统计年鉴[5]。

2.2 随机森林方法介绍

随机森林是通过自助重抽样技术建立一个树型分类器的集合，而分类器的集合又是由多棵决策树构成的。这些决策树之间相互独立，由每棵决策树给出独立预测结果，最后通过全部决策树的预测，用所有决策树的均值即可得到最终预测结果。其步骤可归纳如下：

1)采用重抽样技术从原始数据集N中随机抽取k个样本集，以此来构成k棵决策树;

2)在决策树生长期间会出现节点，在每个节点处随机选取m个特征，这m个特征均来自于变量个数M,且m小于M。然后再从m个特征中挑选出一个特征进行分支生长，循环该步骤，直到满足分类停止规则时就停止生长;

3)对待预测数据使用已经建立好的决策树分类器进行预测，然后利用决策树预测结果进行平均,即可得到回归结果。

2.3 吉林省新型城镇化发展水平实证分析

2.3.1 数据预处理

从经济发展、城市环境以及生活品质三个方面选取吉林省39个县级市的数据进行分析，但是由于各个指标的单位不统一，所以需要对原始数据进行归一化处理，

式中：Xi----输入变量;

Xmin----输入变量中的最小值;

Xmax----输入变量中的最大值。

2.3.2 构建各评价指标分级标准

考虑到指标体系中的数据大多都是偏态分布，而自然断点分级法刚好是一种根据统计数值分布规律分级和分类的统计方法，能够使类与类之间的差异变的更加明显。因此，文中采用自然断点分级法对数据进行等级划分，结果见表2。

表2 吉林省新型城镇化指标分级标准

2.3.3 基于随机森林模型的发展水平评价

在吉林省新型城镇化指标分级标准的基础上，采用随机生成的方法在各评价等级中生成100组随机样本，8个评价等级共得到800组随机样本，其中600组作为训练样本，200组作为检验样本。继而创建X1～X16指标分级标准作为模型输入，1～8评价等级作为模型输出的随机森林评价模型。文中采用R软件模拟，调用randomForest包里面的randomForest函数来建立随机森林模型。软件输出结果如下：

Call:randomForest(formula = V17 ～ .,data=data,mtry=5,ntree=1000, importance = T, proximity = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 5

Mean of squared residuals: 0.726557

% Var explained: 85.81

其中,V17表示输出变量，data表示数据集名称，ntree表示随机森林模型中决策树的数量，mtry表示在决策树的节点分支上所选择的变量个数，逻辑参数importance代表是否计算各个变量对模型的贡献，逻辑参数proximity表示是否计算模型的临近矩阵。由此可知,残差平方的均值为0.726 557，变量解释了85.81%的评价等级，效果较好。吉林省新型城镇化评价模型指标重要性参数见表3。

表3 吉林省新型城镇化评价模型指标重要性参数

表3中%IncMSE代表精度平均减少值，IncNodePurity代表节点不纯度平均减少值，这两个指标都是用来说明输入变量对输出变量的影响程度，指标值越大，影响程度就越大。由表3可知,影响吉林省新型城镇化发展水平的指标差异程度并不是很大，其中影响最大的三个指标分别为：城镇居民最低生活保障人数(V11)、居民生活用电量(V15)、地方公共财政收入(V2)。

随机森林模型建好之后，输入归一化处理之后的数据进行评价，得出的评价结果见表4。

表4 吉林省新型城镇化发展水平评价值

续表4

由表4可知，延吉市、公主岭市和梅河口市的新型城镇化水平都比较高，而通榆县、靖宇县、图们市的新型城镇化水平就显得有些差强人意。总的来说，吉林省县级市的发展趋势呈上升和良好的态势，但内部发展差异较大，区域发展不平衡更为明显。

3 结论及建议

3.1 结论

吉林省各地区新型城镇化发展趋势大致服从以长春市为圆心的圆形趋势，离圆心越远，发展越落后,吉林省地理位置分布如图1所示。

从行政等级上来看，各市的发展优于各县的发展。从地理特征来看，隶属于长春市直辖范围的地区发展较好，其次是长春周边各市、县。吉林省边缘地区发展较落后，其中东部发展较西部相比更落后。延吉市、公主岭市、梅河口市、农安县名列前茅，除延吉市外，他们都隶属于长春市或在其周边，即在整个吉林省的中心地带，因此在综合竞争力及发展趋势方面都比其他地区有优势。

市、县的发展差异较为显著,在所有地区中，共有20个市，19个县。评价值大于4的地区共有11个，4个县名列其中；而评价值小于4的地区有28个，里面却包含13个市。这说明吉林省各市、县的新型城镇化发展不协调。

延吉市凭借自身地理位置及自身优势位列第一。虽然排在第一位的延吉市不隶属于省会城市长春市，但是结合其自身发展情况来看，延吉市位列第一也是意料之中。首先，延吉市具有明显的地理和文化优势。它位于东北亚经济圈的腹地，在县域经济方面的实力大家也是有目共睹的，多次排名吉林省第一。其次，延吉市在综合实力、科技创新、新型城镇化质量以及营商环境等方面均取得了不错的成绩。

3.2 建议

每个地区的新型城镇化发展水平不同，经济实力也有较大差别，自然不能用一套政策去要求所有地区。所以,各地区政府要依据本地目前的新型城镇化发展水平，结合其独有的地理优势和文化背景，制定适合本地区的发展政策。以每个地区独有的优势为依托，吸引大量资金涌入，提高新型城镇化发展水平。

吉林省作为全国农业高水平发展地区，必须优化自己的产业结构，逐步实现农业现代化。要做到因地制宜，合理利用气候、土壤等自然环境条件，发展有名、优秀、新型、特别的农副产品。只有当下先实现农业现代化，以后才能为新型城镇化的发展贡献力量。

完善基础设施建设，改善供水和供气设施,政府要优化水资源配置，加强水源地的保护。企业应提高污水处理率，积极促进污水循环再利用，实现工业循环用水。要合理利用地表水和地下水资源，农村和社区都应该完善水管输配和二次供水体系，使供水能力大大提高。要坚持天然气家家入户的理念，完善农村和社区的供气设施，保障用户安全，逐渐提高人民生活水平和品质。