APP下载

简述一种基于DBSCAN的宽带小区位置和住户识别方法

2020-10-26刘炼

科学与信息化 2020年29期
关键词:精准营销

刘炼

摘 要 随着中国移动网格化运营的推进,寻找特定小区中的住户,已经成为一个重要课题。传统的小区宽带住户寻找方法,多是通过夜间用户通信基站的临近小区进行匹配,面临两大问题,一方面是由于基站信号覆盖半径过大,导致基站经纬度无法准确代表用户晚间居住地经纬度,另一方面由于小区经纬度仅仅由小区四个顶点代表,且为人为输入误差较多,导致小区的覆盖范围经纬度表征不充分不准确,最终导致无法准确识别小区位置以及其内住户。本文提出了一种利用DBSCAN算法,处理用户夜间常住地高精度MR坐标点云,来表征小区并寻找点云覆盖范围内住户的方法。首先在宽带付费手机用户的夜间MR点云空间上,自动剔除噪声点即非小区实际住户,进而通过小区宽带住户点云寻找其他手机用户的点云,从而实现全量宽带小区住户识别。

关键词 小区住户;MR;DBSCAN;密度聚类;精准营销

引言

针对用户的电信营销活动已经从传统的广泛撒网方式,转化为特定属性客户群的精准营销。当前,基于客户属性标签的精准化营销技术已经发展的较为成熟,主要是将基于机器学习或深度学习算法的各种推荐模型运用在实际营销场景中,但基于空间的精准化营销技术还未形成较为成熟的方法,现有的位置营销也大都基于人工划定范围开展,效率较低,不利于高质量营销活动的开展。

传统的空间层面的精准营销技术通过仪器测量各小区或单位的边界坐标,然后在测量的边界范围内寻找覆盖用户开展定向营销活动,存在如下问题:

(1)小区或单位的边界坐标为手工上传,人为因素会导致大量的假数据和误差数据

(2)小区住户夜间坐标存在误差,在小区边界准确时,反而可能导致住户无法归入小区。

1目的

利用DBSCAN密度聚类算法代替传统的区域位置人工测量和标注方法,解决了传统人工方法会出现的计算区域边界和实际边界有较大误差,甚至无法计算的问题,并能够根据计算输出的区域核心用户点经纬度,进而计算识别目标区域内的经纬度密度可达的其他目标用户[1]。

2技术方案

2.1 DBSCAN 算法介绍

DBSCAN,全称基于密度的噪声适应空间聚类,是比较有代表性的基于密度的聚类算法

(1)算法目标:将足够高密度的核心点划分成簇,并能在具有噪声的空间数据库中发现任意形状的簇

(2)算法核心思想:从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连

(3)算法优点:能发现任意形状的簇,聚类结果几乎不依赖于结点遍历顺序,能够有效剔除噪声点

2.2 方案中对DBSCAN 算法的应用说明

该方案中对DBSCAN 算法的应用,通过基于该算法构建机器学习模型对小区宽带用户的经纬度数据进行分析计算,最终输出代表各小区范围内的核心点成员经纬度,而整个过程需要通过反复调参优化完成,具体过程如下:

(1)输入数据:归属于各小区的宽带用户MR经纬度数据。

(2)算法入参:eps(密度半径)、min_samples(密度半径内经纬度最少个数)。

(3)模型输出:小区核心宽带用户MR经纬度、识别的小区全量住户。

(4)宽带覆盖小区核心宽带住户计算过程描述:

1)基于DBSCAN 算法构建模型,赋予密度半径参数eps和邻域密度阈值min_samples初始值,根据精度需要eps取值范围从0.0001到0.01;根据实际小区宽带住户数,min_samples首轮取值范围为500到2。

2)固定eps=0.0001(折算约100米)不变,将min_samples从200开始进行模型聚类,如果该小区宽带用户经纬度聚类结果为多个簇,则将min_samples加1,如果该小区宽带用户经纬度聚类结果为空,则将min_samples减1,再次聚类,如此循环,直到聚类结果为一个簇,跳出循环。

3)此时输出的聚类结果即为居住在该小区的核心宽带住户的MR经纬度,其邻域半径的圆的集合代表该小区的实际地理范围。

宽带覆盖小区全量住户计算过程描述:

4)针对每个目标小区,在已经计算出的该小区核心宽带住户MR点中基于经度和纬度计算出中心位置点,再基于该中心位置点在经度和纬度方向上往外延伸经纬度0.015,圈定该范围内所有非核心宽带用户作为待筛选用户。

5)基于二分查找算法依次计算各待筛选用户MR点跟每个核心住户MR点的距离,当与某个核心点经度和纬度之差均小于邻域半径参数eps时,将该待筛选用户标注为居住在该小区的其他住户(非核心宽带住户),其与核心宽带住户共同构成宽带覆盖小区全量住户。

方案示意图:

说明:红色点为计算出的宽带覆盖小区核心寬带住户,圆圈代表该小区实际地理范围,圆圈中的黑色点为居住在该小区非核心宽带住户。

3方案优点

本方案摆脱了传统人工方法给定小区边界产生的误差和脏数据问题,取而代之采用住户高精度MR坐标表征小区物理覆盖范围。采用比较其他用户夜间坐标和已知住户夜间坐标的距离来判定其他用户是否为小区实际住户,取代了将其他用户夜间坐标和小区边界进行比较来判断是否为居住在该小区,避免了用户自身坐标不准或小区边界不准导致的二者匹配不准问题

4实施效果

湖北移动共有宽带覆盖小区75820个,项目上线后共识别宽带覆盖小区44646个,完成6520020位用户的居住小区识别,极大地方便了市场部门实施小区宽带精准营销。随着高精度用户位置数据的来源丰富和覆盖用户更多,模型将自动实现更多的小区及其住户的识别。

5结束语

由于特定小区宽带用户的夜间居住地存在天然唯一聚类簇的物理现实,DBSCAN密度聚类算法可以很好地剔除非居住在该小区的噪声用户,利用运营商已有的MR等高精度用户经纬度数据,可以实现不依赖小区经纬度的小区住户筛选。

参考文献

[1] 罗云朝,丁一.基于DBSCAN聚类算法的重要位置提取及聚类[J].中文科技期刊数据库(文摘版)工程技术,2017(6):384.

猜你喜欢

精准营销
大数据在企业网络精准营销中的作用分析
产业大数据分析技术对新型设计思维模式的影响
大数据技术之一“数据标识”
新疆电信大数据在移动增值业务推广中的应用研究
浅谈大数据时代的精准营销
基于微博的大数据用户画像与精准营销
场景:大数据挖掘的新标准
百事可乐在新媒体中的品牌传播
电信企业创新营销策略的应用探析
中小企业精准营销策略研究