APP下载

基于聚类算法的新能源汽车用户居住地预测*

2021-06-04程登张亮赵小羽黎飞王兴月黄祖朋

汽车实用技术 2021年10期
关键词:居住地画像聚类

程登,张亮,赵小羽,黎飞,王兴月,黄祖朋

(上汽通用五菱汽车股份有限公司技术中心,广西 柳州 545007)

引言

用户画像也叫用户角色,是用户大数据分析的主要内容[1]。用户画像属于用户信息标签集合,在现实生活中真实存在,除了用户姓名、年龄等静态信息外,还包括用户的使用特性等。通过用户访谈的形式收集用户画像会导致信息缺失以及统计不及时等不足。大数据时代,数据成倍地增加,通过对用户大数据的挖掘,获取用户驾驶行为的数据,可以帮助整车企业深入分析用户画像,为用户提供更好的服务用户。

本文基于DBSCAN聚类[2]和K-means聚类[3]算法,通过某型新能源汽车T-BOX实时采集的海量数据,应用数据挖掘技术对数据进行预清洗、聚类分析、通过建立预测模型去预测用户的居住地,从而丰富某型新能源汽车的用户画像。

1 数据预处理

1.1 数据样本

新能源汽车终端基于 GB/T 32960-2016《电动汽车远程服务与管理系统技术规范》,定时采集CAN网络上的数据,并上传到企业的新能源大数据平台。本次实验所使用的是某整车企业100台新能源汽车,最近3个月的用户车辆行驶数据,主要包含有:车辆停车经纬度、启动时间、行驶里程、充电时刻、充电经纬度等数据。

1.2 数据清洗

海量的原始数据中存在着大量不完整的数据,这将影响数学建模的效率,导致挖掘结果存在偏差,因此数据清洗尤为重要。数据清洗主要是删除原始数据中的无关数据、重复数据、噪声数据等。本次数据清洗主要是将经纬度越界数据、异常数据和轨迹漂移点等剔除。

2 聚类算法

2.1 DBSCAN聚类算法

DBSCAN算法是一类基于密度的聚类算法。其主要思想为:在样本集合X={x1,x2,x3,…,xN}中任意选取一个数据点出发,按照密度可达的条件往外扩张,最终得到一个最大化的区域。若初始点是核心点,则这个最大化的区域就是一个类或一簇;若初始点为边界点,则会跳至下一个点;若初始点为噪声点,则直接将该点标记为噪声点。

在DBSCAN聚类算法中,主要涉及以下定义:

定义1 Eps邻域。对于聚类样本集合X中的任意一点p,以p为圆心,Eps为半径,所包含的区域就是p的Eps邻域,记为 NEps(p)。

定义2 核心对象。对于聚类样本集合X中的任意一点p,统计该点Eps邻域范围内的所有数据点个数v,则核心对象是指v不小于MinPts的数据点。

定义3 直接密度可达。如果q∈NEps(p),同时点p为核心对象,则认为对象q从p直接密度可达。

定义4 密度可达。在聚类样本集合X中,如果存在序列p1,p2,…pn,且满足p1=q,pn=p。若是pi+1从pi直接密度可达,则对象p从q密度可达。

图1 DBSCAN聚类算法解析图

2.2 K-means聚类算法

空间聚类算法作为一种空间数据划分的重要方法,主要将对象的空间距离按照相似性准则划分到若干个子集中,使得相同子集中各元素间差别最小,不同子集中各元素间差别最大。空间聚类算法是建立在各种样本的空间距离基础上,最常用的是欧几里得距离:

式中,i=(xi1,xi2,…,xim)和j=(yj1,yj2,…,yjm)是两个m维的数据样本。

根据空间聚类算法的类别划分是使得同一类的内部相似度最大、差异度最小,而不同类别的相似度最小、差异度最大。公式(1)的欧几里得距离作为划分准则,即任一空间对象与该对象所属类的几何中心之间的距离比该对象到任何其他类的几何中心距离都小。

图2 K-means聚类算法解析图

如图2所示,详细描述了K-means聚类算法的聚类设计过程。首先,由用户确定所要聚类的准确数目k,并随机选择k个对象,代表一个类的均值或中心,对剩余的每个对象,根据其(各类中心的距离将它赋给最近的簇。然后重新计算每个簇内对象的平均值形成新的聚类中心,这个过程重复进行,直到下列(2)式准则函数收敛为止。

这里,E是所有研究对象的平方误差总和,p为空间的点,即数据对象。ai是簇Ai的平均值,按照这个准则生成的结果簇趋向于独立和紧凑。

2.3 DBSCAN聚类和K-means聚类混合算法

K-means聚类算法对异常点敏感,无法解决噪声点的问题,若地理位置的分布过于分散,按照固定k值聚合,得到的中心点位置可能和实际相差甚远,导致结果有差异。DBSCAN聚类算法是按照活动半径的密度可达来聚合,其结果是将数据集合分类,并不求出中心点。

因此本文设计了一种基于DBSCAN聚类和K-means聚类的混合算法:利用 DBSCAN算法的密度可达特性将用户的地理位置数据按活动半径聚合成若干个簇,并且将每一簇的数据集作为新的输入,再利用K-means算法的迭代聚合求出中心点的位置。

3 实验结果及分析

基于DBSCAN聚类的实现过程,设定关键参数Eps和MinPts。从聚类数据样本集X中任意选取一点p,若该点的条件符合核心对象的判定,那么从该点密度可达的所有数据点成为一个聚类,而不属于任何簇的数据点则被标记为噪声点。关键参数Eps和MinPts的选择对聚类效果影响很大,表1中展示出不同Eps和MinPts组合时,算法模型的准确率,根据多次实验,最终确定最优解。

表1 DBSCAN算法参数选择

图3分别给出了不同Eps和MinPts组合时,其聚合效果。通过对比,可以看到Eps=1000米浅黄色的类聚的精度较差,Eps=500米聚类未完全剔除噪声点,Eps=200米聚类结果精度较高。因此,本文在DBSCAN算法中选取的关键参数为:Eps=200米,MinPts=5。

图3 不同参数聚类对比图

通过 K-means聚类算法可以得到用户居住地的 GPS数据,再对数据纠偏,将聚类出来的GPS数值转化为适配电子地图的值。再通过电子地图开放平台中的逆地理编码API服务地址得到精确的地址,最后得出该地址周边的居住小区。以高德地图为例,将聚类后的GPS数据纠偏后,通过高德地图开放平台的数据接口,实现逆地理编码,得到用户的居住地。

表2是采集分预测结果,可以看出,基于DBSCAN聚类和K-means聚类混合算法的用户居住地预测,可以精准算出用户居住地。对于整个数据采集样本,整体的准确度高达85%以上。

表2 用户居住地预测结果

4 结论

本文基于DBSCAN聚类和K-means聚类混合算法设计了一种新能源汽车用户居住地的预测模型,结合大数据能够准确预测用户居住地,有效地解决无法获取新能源汽车用户居住地的难题,丰富了用户画像的标签种类,有助于营销推广活动制定。

猜你喜欢

居住地画像聚类
一种傅里叶域海量数据高速谱聚类方法
威猛的画像
基于数据降维与聚类的车联网数据分析应用
你熟悉“成长经典”吗
画像
基于模糊聚类和支持向量回归的成绩预测
画像
流动人口参与居住地选举的困境及其实现路径
山东:符合条件外来人口可在居住地申请低保
探悉居住区园林景观设计问题