APP下载

小康社会评价体系构建与进程研究
——基于主成分分析与LightGBM 算法

2022-10-10范志鹏马泉梅郑铿城

环渤海经济瞭望 2022年5期
关键词:直方图小康社会节点

范志鹏 马泉梅 郑铿城

一、前言

小康社会的本质问题与城镇化发展的实质具有共通性,即均是共同致力于构建一个相对富裕且稳定良好的高质量经济发展水平国家,根本宗旨是为了能够促进全国人民公平共享我国的社会主义现代化伟大成果。本文通过采用“主成分分析方法”和“LightGBM 算法”,结合中国近20 年相关统计数据,对中国小康社会的发展情况进行评价,并以上海为例,分析如何提高小康化水平,带动经济可持续发展。

二、指标构建与数据收集

20 世纪70 年代末开始的改革开放大大促进了中国经济的发展,提高了人们的生活水平,提升了国家实力。随着21 世纪的到来,人们对小康社会的要求也逐渐强烈,本文通过“人均国内生产总值”“人口老龄化比重”“人口劳动力数量”“全社会固定资产投资额”“进出口额”“居民消费价格指数”“医疗卫生机构个数”“碳氧化物排放量”“城市绿地面积”指标数据在近20 年的变化,来衡量中国小康社会的发展,探索我国全面建成小康社会过程中的成功经验。本文所选择的指标分别属于不同的分类级别,具体如下图所示。

图1:全面建成小康社会指标构建

结合国家统计年鉴、地方统计年鉴等官方数据,总结归纳诸如我国各省份全面建成小康社会完成难度系数、完成比例及未来可持续发展能力等在内的多重指标对各省份全面建成小康社会总体情况进行合理的评价与排序。选择上海作为研究城市。选取数据指标为:“总人口(万人)”“进出口额(千美元)”“地方财政一般预算收入(亿元)”“地方财政一般预算支出(亿元)”“居民消费价格指数(上年=100)”“城市绿地面积(万公顷)”“普通高等学校数量(个)”“医疗卫生机构个数(个)”“参加失业保险的人数(万人)”。选取近20 年数据。

三、模型构建与结果分析

(一)主成分分析法建模与相关结果分析

结合上述考虑的因素,利用主成分分析的方法,研究我国逐步进入小康社会的历程,并结合各数据的情况,对未来小康社会将要面临的问题做出分析,提出未来20年可持续发展的思路。由于各变量间可能存在相关性,因此采用主成分分析法,降低变量维度,并进行评分。

(1)数据标准化

表1:衡量小康社会发展的因素相关性分析表

(3)计算特征根与特征向量。计算相关系数矩阵R的特征根:λ1≥λ2≥…≥λn≥0,及对应的特征向量u1,u2,…,um,其中:

uj=[u1j,u2j,u3j,…,umj]T,由特征向量组成m个新的指标变量:

式中:1y为第一主成分;y2为第二个主成分,……,ym为第n 个主成分。

计算特征值λj(j=1,2,……,m)的信息贡献率和累计贡献率。称:

为主成分yi的信息贡献率,同时有:

利用Matlab 进行编程,计算三个评价指标特征根以及其所对应贡献率为:

表2:主成分分析中贡献率结果表

由此可以看出前四个特征根的累积贡献率已经达到了98%以上,主成分分析效果很好。因此选取前四个主成分进行综合评价。

最后,分别以四个主成分贡献率作为权重,计算综合得分:

得到2000—2020 年的得分走势图如下:

图2:小康社会的综合得分走势图

从图2 可以看出,近20 年内,中国小康社会的得分值是呈现一个上升的趋势,中国小康社会的发展稳步提升。虽然国内外形势都会对小康社会的发展带来影响,但只要政府积极调整政策,探索符合可持续发展的战略模式,有利于中国经济社会更长远地发展。

(二)LightGBM 算法建模与结果分析

这里我们使用人均GDP 作为衡量一个城市全面建成小康社会的重要指标,因此论证分析围绕人均GDP 的主要影响因素展开。本文采用的是LightGBM 算法,通过定量分析的方法,针对人均GDP 的问题进行建模分析,可归纳为如下公式:

首先我们针对人均GDP 进行机器学习建模,在对比了解决回归问题的机器学习算法(主要包括最近邻算法,SVR,多元线性回归)优缺点后,我们决定采用LightGBM 算法,一种基于梯度提升树框架的实现。

本文围绕LightGBM 算法一些特性展开:

1.合并互斥特征。LightG 关于互斥特征的合并用到了直方图(Histogram)算法。直方图算法的基本思想是先把连续的特征值离散化成k 个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。Histogram 算法的优势主要体现在:

2.减少分割增益的计算量。通过直方图相减来进一步地加速模型的训练:在二叉树中可以通过利用叶节点的父节点和相邻节点的直方图的相减来获得该叶节点的直方图。

3.减少内存的使用。

4.减少并行学习的通信代价。

5.Leaf-wise 的决策树生长策略。LightGBM 通过leafwise 策略来生长树。每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同Levelwise 相比,在分裂次数相同的情况下,Leaf-wise 可以降低更多的误差,得到更好的精度。但是,当样本量较小的时候,leaf-wise 可能会造成过拟合。所以,LightGBM 可以利用额外的参数max_depth 来限制树的深度并避免过拟合。

图3:LightGBM 节点分裂图

通过LightGBM 算法分别进行建模分析,结果发现,人均GDP 问题可归为回归问题,其本身不含有分类标注。对于该类回归问题,其输出空间B 是一个度量空间,即所谓“定量”。可归纳为,回归问题的输出空间定义了一个度量去衡量输出值与真实值之间的“误差大小”,诸如均方误差等此类误差函数。

本文使用的评价标准为MAE(Mean Absolute Error)。平均绝对误差MAE 是绝对误差的平均值,该定义如下:

若MAE 越小,则表明模型预测越准确。人均GDP 的模型训练曲线随着迭代次数的增加,不断降低,说明其误差越来越小,可以根据该算法所训练的模型进行未来的人均GDP 预测,并通过该算法确定影响全面建设小康社会的重要特征,然后对特征进行排序及评价。

我们分析研究影响当地人均GDP 的主要因素使用LightGBM 算法的特征重要度分析方法,这是Friedman 在GBM 的论文中提出的方法:

特征j 的全局重要度通过特征j 在单棵树中的重要度的平均值来衡量:

其中,M 是树的数量。特征j 在单棵树中的重要度如下:

其中,L 为树的叶子节点数量,L-1 即为树的非叶子节点数量(构建的树都是具有左右孩子的二叉树),tv是和节点t 相关联的特征,是节点t 分裂之后平方损失的减少值。

本文选取了相对具有良好的数据表达能力的上海地区的多个数据集进行建模分析。就上海地区而言,上海属于国际一线城市,当地资源设施在全国范围内也是翘楚。从特征重要度图可以得出,其居民消费价格指数以及总人口数的重要度得分相对较高,而地方财政一般预算支出,城市绿化情况的特征重要度得分为0;基本可以判断城市的绿化对人均GDP 在发达地区是不适用的。相反,“总人口(万人)”“进出口额(千美元)”“地方财政一般预算收入(亿元)”“地方财政一般预算支出(亿元)”“居民消费价格指数(上年=100)”“城市绿地面积(万公顷)”“普通高等学校数量(个)”“医疗卫生机构个数(个)”“参加失业保险的人数(万人)”等该类特征对人均GDP 影响较大,对居民消费价格指数以及总人口数影响最大。可见,在小康社会发展过程中,影响权重比较大的因素将会发挥更大的作用,需要在政策制定过程中重点关注。

四、结语

本文通过“人均国内生产总值”“人口老龄化比重”“人口劳动力数量”“全社会固定资产投资额”“进出口额”“居民消费价格指数”“医疗卫生机构个数”“碳氧化物排放量”“城市绿地面积”这些指标数据在近20 年的变化来分析小康社会的发展,采用主成分分析法进行分析,得出中国近20 年的小康社会得分值,得分上总体呈现上升趋势,趋势发展良好。本文同时使用人均GDP作为衡量社会发展的重要指标,并针对该指标进行回归模型分析,模型使用了工业界常用的LightGBM 算法。对连续20 年的上海地区的统计数据进行模型训练,并对训练曲线进行可视化展示;鉴于LightGBM 算法的特性,继而使用了特征重要度法衡量统计数据中的特征的重要度影响,分析各指标对上海全面建成小康社会总体的影响并进行合理的评价与排序。基于以上研究结论,本文认为,当前我国小康社会进程发展趋势良好,但随着国内外环境的恶化,将会面临更多的挑战,需要政府重点关注影响小康社会的重要指标,在人口方面,要关注区域人口流动、人口老龄化问题等,在财政方面,要关注社保制度建设等,同时注意教育、医疗等方面的保障。

引用

[1]徐绍史.奋力开拓人大财经工作新局面为全面建成小康社会作出新贡献[J].中国人大,2020(09):20-23.

[2]夏庆宇,桂玉.全面建成小康社会后新生贫困问题对策研究[J].厦门特区党校学报,2020(02):52-56.

[3]赵新勇,刘军利,薄莹莹,王嘉炜.奋力夺取疫情防控和实现经济社会发展目标“双胜利”[J].陕西发展和改革,2020(02):9-11

[4]张倩,马秋华.全面建成小康社会指标体系构建[J].统计与管理,2018(10):114-116.

[5]杨宜勇,张强.全面建成小康社会的测评方法研究[J].人民论坛·学术前沿,2016(18):17-26.

猜你喜欢

直方图小康社会节点
基于RSSI测距的最大似然估计的节点定位算法
分区域的树型多链的无线传感器网络路由算法
一种基于能量和区域密度的LEACH算法的改进
河北省全面建成小康社会群众文艺云上展演
汇聚打赢疫情阻击战 决胜全面建成小康社会的巾帼力量
基于点权的混合K-shell关键节点识别方法
用直方图控制画面影调
凝聚三秦巾帼力量 决胜全面小康社会
例析频率分布直方图
中考频数分布直方图题型展示