APP下载

基于谱聚类建模的外来常住人口识别研究

2018-08-03徐珊珊唐大鹏梁伟明董会孙炜程

江苏通信 2018年2期
关键词:常住人口外地口径

徐珊珊 唐大鹏 梁伟明 董会 孙炜程

南京华苏科技有限公司

0 引言

随着经济体制改革的推进,城市中外来常住人口迅速扩大,成为了一个不可忽视的特殊群体。常住人口,作为一种统计口径,主要针对地区而言,常住人口与户籍人口的统计口径不同,在社会与政府部门工作中发挥着不同的作用。在当前流动人口规模大、人户分离现象较为普遍的情况下,常住人口更能准确地反映一个地区的人口规模与现状,对于政府制定相关政策与服务措施提供更为有效的信息。所以统计外来常住人口数量对于了解国情国力,制定人口计划和经济、社会发展计划,进行人口科学研究,都有十分重要的意义。

但人口统计一直是一项费时费力的工作。现有的外来常住人口识别方法中,主要靠人工来完成,通过发放问卷的方式或者电话外呼的方式来确认,这种方法不但耗费人力物力,而且效率低下。部分运营商也会采取口径的方式进行定义,但此种定义规则缺乏科学解释性。如何减少人力物力,采用更高效科学的手段对外来常住人口进行识别是一项具有挑战的工作。本文根据移动手机用户驻留数据,使用大数据手段对外来常住人口进行统计,从而为政府提供具有科学解释性的数据支撑,既不用像传统普查方式那样费时费力,也让识别结果更具科学性。

移动运营商所收集的用户驻留信息可以统计用户在本市的驻留天数、驻留时长以及ECI切换数据。其中常住和非常住用户在驻留特征上一定不同,因此通过对驻留信息进行处理形成驻留特征变量,则可使用聚类算法对两类用户进行区分。

研究结果表明,利用机器学习算法可以使用科学的方法对外来常住人口进行识别,且识别准确率较高。

1 背景

人口是一个地区发展最重要的基础,人口的多少与质量直接关系到所在地区的经济水平、生活质量以及未来的发展潜力。人口、资源、环境三者相互影响、相互制约,人口规模的增减会直接影响地区的资源消耗与环境保护这两项指标水平的高低。其中常住人口更能准确地反映一个地区的人口规模与现状,对于政府制定相关政策与服务措施提供更为有效的信息。

目前大多数研究都只停留在宏观的常住人口规模预测上,宋汉杰在多模型方法下的地区常住人口规模预测分析一文中,通过运用一元线性回归法、二次指数平滑法、灰色GM(1,1)模型预测法,分别对2013—2020年株洲市的常住人口进行了短期预测。另一项研究也是采用Logistic模型对青岛常住人口进行预测,从而了解青岛人口发展趋势。从以往这些研究中发现,对人口微观上的研究非常少,并没有细分到单个常住人口的识别。

当用户缺乏标签时,对用户的划分则需要用到非监督机器学习算法。无监督学习中最典型的就是聚类算法,聚类可根据用户数据特征,将有相似特征的数据点聚成一组。每一个组都被称作一个集群(簇)。对象之间的相似性可通过解析方式进行定义。存在很多不同的聚类算法,其区别在于衡量对象相似性的标准不同:可通过距离、密度、图论或是统计分布来衡量。

本文采用无监督机器学习算法,挖掘出常住人口与非常住人口的驻留行为特征,对单个用户进行识别,从而便于政府部门进行管理。

2 概述

本文中所研究的数据来自无锡移动通信公司(位于中国江苏省)。下面,我们详述了无锡移动公司目前的相关数据情况。

2.1 外来人口

在外来人口的定义上,本文根据运营商的要求对外来人口做出如下定义。根据手机号码归属地和身份证信息共分为以下四种用户类型,如图1所示。

(1)本地号码本地户籍的用户;

(2)本地号码外地户籍本地户口的用户;

(3)本地号码外地户籍外地户口的用户;

(4)外地号码的用户。

其中第一类和第二类人均不归类为外来人口,所以常住外来人口识别只需针对第三类和第四类用户进行分析。

图1 全网用户分类图

2.2 数据集

为了保护用户隐私,目前无锡移动仅能为我们提供一种类型的数据:用户驻留数据。驻留数据主要包括用户在某个时刻某一小区下的驻留时长。

本文用于实验的是无锡2月用户驻留数据(包含2/3/4G所有数据),按照以上四类用户共分为四个数据集,包含以下字段:用户手机号,小区唯一标识码,秒级驻留时长,时间,以及一些标签变量。其中第一类数据集中包含236个用户,第二类数据集中包含182个用户,第三类数据集中包含178个用户,第四类数据集中包含199个用户,共795个用户。本文用于建模的主要为第三类和第四类用户。

3 建模与算法

本文的目的是区分外来流动人口和外来常住人口。但数据中缺乏标签,因此选择无监督学习中的聚类算法完成两类人口的区分,主要分为以下几个步骤:

(1)数据预处理。即将数据中的异常值和缺失值从数据集中剔除;

(2)变量转换。即对驻留数据进行变形转换,运用统计手段处理产生新的可用变量;

(3)变量筛选。目的为避免某些相关性较强的变量影响最终的聚类结果;

(4)数据标准化。目的是为消除各变量由于量纲不同所产生的影响;

(5)聚类模型相关机器学习算法。

3.1 数据预处理

前面已经提到,本文将使用到用户驻留数据,所以在建模前需要对数据中的缺失值和异常值进行处理。通过对数据进行观察发现,有些数据中的用户标识码和小区标识码存在缺失,对于此类数据,我们选择行删除的方式进行处理。有些用户的驻留时长也会存在异常值,理论上驻留时长应该在0-3600s之间,对于大于3600s和小于0s的数据需要删除。

3.2 变量转换

为了保护客户隐私,运营商只能提供用户驻留数据。未经处理的驻留数据无法用于用户聚类分析,因此要对驻留数据进行转换,运用统计手段处理产生新的可用变量。根据用户驻留数据进行如下统计分析,形成以下15个新变量∶

(1)统计各用户一个月中驻留的天数总和

(2)统计各用户一个月中驻留的小时数总和

(3)统计各用户一个月中驻留的秒数总和

(4)统计各用户工作日eci类别总数(只统计驻留超过10min 的 eci)

(5)统计各用户休息日eci类别总数(只统计驻留超过10min 的 eci)

(6)统计各用户工作日eci总和

(7)统计各用户休息日eci总和

(8)统计各用户工作日驻留的天数总和

(9)统计各用户休息日驻留的天数总和

(10)统计各用户工作日驻留的小时数总和

(11)统计各用户休息日驻留的小时数总和

(12)统计各用户工作日驻留秒数总和

(13)统计各用户休息日驻留秒数总和

(14)统计各用户平均每天驻留时长(按小时统计)

(15)统计各用户平均每天驻留时长(按秒统计)

3.3 变量筛选

在进行聚类分析时,若各变量间存在强相关性,则会导致相关变量权重增大,影响最终聚类结果。因此在做聚类分析之前,需要通过相关性检验对变量进行筛选。

Pearson相关系数又叫做Pearson积矩相关系数,是一种统计学参数,一般用来定量的衡量变量之间的相关关系,其计算公式如公式(1)所示:

上式中,变量X是所有点的x坐标的集合,变量Y是所有点的y坐标的集合,N表示点的总个数。Pearson相关系数的绝对值越大,反映变量之间的相关性越强。当相关系数越接近于1或-1,表示相关度越强;当相关系数越接近于0,表示相关度越弱。当相关系数大于0时,表示为正相关;当相关系数小于0时,表示为负相关。通常情况下可以通过相关系数的绝对值取值范围判断变量的相关强度,相关系数和相关强度的关系如表1所示。

表1 相关系数和相关强度关系表

图2为各变量之间的相关性可视化图,通过图形可以更直观的看出各变量之间的相关性,根据相关系数和相关强度关系表可以删除具有强相关的变量。

图2 变量相关性可视化图

3.4 数据标准化

由于转换的新变量在量纲上不同,因此进行聚类之前要先对变量进行无量纲化的处理,本文采用了min-max标准化,即对原始数据进行线性变换,使结果映射到[0,1]之间,公式为:

其中max为样本数据的最大值,min为样本数据的最小值。

3.5 聚类模型相关机器学习算法

完成变量筛选及无量纲化处理后,则可对用户进行聚类分析。聚类就是按照事物的某些特征,把事物分成若干类或簇,使得在同一个类内的对象之间最大程度相似,而不同类之间的对象最大程度不同。聚类作为无监督学习方法,广泛地应用在了各个领域,本文尝试了以下四种聚类算法:

(1)均值聚类

首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下的其他对象,则根据他们与这些聚类中心的相似度(距离),分别将他们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

(2)Ward层次聚类

Ward层次聚类方法具体的可以分为两大类,第一,分裂型层次聚类方法,即在聚类开始时假定所有数据点都属于同一个类,在迭代的过程中,利用相应的准则一个类被一直的分解,使之成为更小类,直到满足预定的条件时,分裂的过程停止。第二,合并型层次聚类方法,相反的,设每个样本点都是一个独立的类,之后把相似度高的类逐渐合并,当满足算法的终止条件时,停止迭代。

(3)DBSCAN算法

是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。DBSCAN算法需要输入两个参数:一个参数是半径(Eps),表示以给定点p为中心的圆形领域的范围;另一个参数是以点p为中心的领域内最少点的数量(min_sample)。如果满足:以点p为中心,半径为Eps的邻域内的点的个数不少于min_sample,则称点p为核心点。

(4)谱聚类

谱聚类原理上是一种基于图论的聚类方法。将样本看成顶点,样本的相似度看作带权边。这样,把样本集划分成K个簇的过程就等同于一个图的分割问题。要求组间相似度低,组内相似度高。如图3所示,谱聚类能对任意形状的样本空间聚类,并能获得全局最优解,其基本思想是通过对样本数据的拉普拉斯矩阵进行特征分解而得到的特征向量进行聚类。假定将每个数据样本看作图中的顶点V,且样本中的数据对之间都有一定的相似性,由样本间的相似度,将顶点间的边E赋权重值W,得到一个无向加权图G = (V,E),V = {v1,v2,…,vn}表示点集。图G中,可将聚类问题转化为在图G上的图划分问题。图论中的划分准则一般有Minimum Cut、Normalized Cut、Ratio Cut、Average Cut、Min-max Cut、MN Cut等,划分准则的好坏对聚类结果的优劣产生很大影响。

图3 谱聚类无向图划分图

4 结果分析

本节主要从下几个部分展示模型的结果:

(1)列出两到三个选择的特征变量

(2)展示聚类中的最优聚类个数

(3)列出两种聚类效果的比较结果

(4)展示模型最终聚类效果

(5)对比口径法和聚类法结果

4.1 特征标量的选择

通过相关性检验对变量进行筛选后,结合最终聚类效果共保留了十一个变量。其中用户一个月中驻留的天数总和是最重要的特征之一。从经验判断,一般常住人口一个月中驻留的天数一般较长。

用户平均每天驻留时长也是另一个重要的特征向量。一般常住人口不仅在一个月中驻留的天数较长,且每天的驻留时间也会比较长。通过这个变量可以排除一些每天路过无锡的过路人。

4.2 最优聚类个数的确定

在进行聚类分析前,首先要确定最优聚类个数。本文结合轮廓系数和业务背景对K值进行了选择。其中轮廓系数法结合了凝聚度和分离度,可以以此来判断聚类的优良性,其值在-1到+1之间取值,值越大表示聚类效果越好。于是我们可以计算在每个簇数条件下的轮廓系数,当轮廓系数取最大时,其相应的簇个数是最好的。如图4所示,轮廓系数方法建议最优簇数为K=2。结合实际情况考虑,需要人群区分为非常住和常住,也是两类的情况。因此在最终的聚类算法中,将K值设为2。

4.3 多种聚类效果的比较

本文尝试了k-means、层次聚类、DBSCAN、谱聚类共四种聚类算法。以上四种算法在数据集的聚类效果上差别较大。以下图形展示了在第三类数据集上各算法的聚类效果比较,各聚类算法在第四类数据集上的表现与第三类数据集类似。

下图中的横坐标表示用户一个月中的驻留天数总和,纵坐标表示用户平均每天驻留时长。一般常住人口在行为特征上表现为一个月中驻留天数长且每天驻留时间也较久。从各聚类结果中可以看出,只有谱聚类能够很好地挖掘出此类行为特征。

图4 轮廓系数图

图5 聚类结果二维分布图

4.4 最终聚类效果

衡量各种聚类效果,本文最终选择谱聚类作为最终聚类算法。谱聚类不对样本空间的整体结构做任何假设,能够识别样本点在空间上的非凸分布。因此,谱聚类方法适用于具有任何分布形状的样本空间,从而求解到全局最优解。同时,谱聚类算法在实现上仅涉及标准的线性代数方法,易于实现。而传统的k-means聚类中,当样本维数增大时,k-means计算会很困难。因为在k-means中,输入计算的是欧式空间中的原始向量。而且k-means求得的是一种局部最优策略,SSE不一定是最小的。

图6、图7分别为第三类和第四类用户样本数据集的最终聚类效果图,从图中可以看出聚类效果较好地区分了外来常住与非常住人群。外来常住人口在特征上基本表现为一个月中驻留天数长且每天驻留时间也较久,而非常住人口基本表现为驻留天数短。将聚类标签与运营商口径法的结果进行对比,用户标签完全相同的平均占比高达92%以上。

图6 第三类用户聚类效果图

图7 第四类用户聚类效果图

4.5 口径法和聚类法结果对比

表2、3分别为本地号码外地户籍外地户口和外地号码的结果对比。无锡移动通过口径法对外来常住人口进行了判断,认为除本地用户外,当月每天晚9点至第二天8点时间内驻留超过5小时并且驻留7天以上的人即为外来常住人口。通过对比口径法的结果,本地号码外地户籍外地户口这类用户中,聚类法得到的结果与口径法结果完全一致的用户有163个,占总用户数的91.57%;在外地号码这类用户中,聚类法得到的结果与口径法结果完全一致的用户有186个,占总用户数的93.47%。

在本地号码外地户籍外地户口这类用户中,口径法判断为常住,而聚类法判断为非常住的用户有两个,从驻留原始数据中可以看出,这两个用户2月在无锡分别只驻留了5天和6天,且为连续驻留,理论上不应认为是常住人口。而口径法判断为非常住,聚类法判断为常住的用户有13个,这13个用户2月在无锡最少驻留12天,且每日驻留时间较长,理论上应判断为常住。外地号码这类用户中的情况也是如此。

表2 本地号码外地户籍外地户口结果对比表

表3 外地号码结果对比表

5 总结

本文通过对用户驻留数据进行转换处理,形成用户驻留行为特征变量,并采用多种聚类算法对外来常住人口进行识别。最后选取了计算速度快且能产生全局最优解的谱聚类算法进行建模预测。预测结果表明预测精度较高,与口径法判断结果基本一致,且能识别出口径法中无法判断的异常事件。此模型不仅可以为政府部门节省人力物力资源,也能有力支撑运营商在外来常住人口市场营销服务工作的开展,为市场部门提供精细化营销所必须的分析支撑服务。

猜你喜欢

常住人口外地口径
2021 年内蒙古自治区常住人口主要数据公报
步枪口径之争(下)
步枪口径之争(上)
大口径超高附塔管线安装技术
北京城市副中心:常住人口控制在130万以内
北京郊区外埠车猛增本地人高价买外地牌
全口径预决算审查监督的实践与思考
2015年上海市常住人口首现负增长
借伞
没有不会停下来的绝望