徐州马拉松大数据保障应用案例分析
2018-12-04李旭东苏莎莎中国电信股份有限公司徐州分公司
李旭东 苏莎莎中国电信股份有限公司徐州分公司
0 引言
当前,全球范围内掀起一股大数据研究热潮,各种数据密集型行业都致力于挖掘其中隐藏的价值,以期提升自身的整体水平和行业竞争力。中国电信股份有限公司更是提出了战略转型3.0的战略,着重推进网络智能化、业务生态化、运营智慧化,为用户提供综合智能信息服务,引领数字生态,服务产业转型升级和社会治理创新。大数据研究就是推进电信3.0战略转型的重要方法之一。聚焦电信领域,利用话单数据、套餐消费数据以及基本信息数据等内部和外部获得的大数据进行系统性和战略性的管理,可以在客流监控、精准营销、智慧运维等方面起到十分重要的作用。
在马拉松、龙舟赛等大型赛事举办期间,利用无线话单对用户进行定位追踪,可以实现对赛道周围观众分布以及车站、地铁口、起点终点等重点指定区域客流量的监控,帮助主办方及时发现客流拥塞、人员拥堵等情况,以便及时做好人员疏散,保证赛场人员安全,防止人员踩踏事故。同时,结合用户特征模型对现场运动员和观众进行分析,分析用户年龄、性别、爱好、职业、家乡、热搜词、外地用户驻留天数、出行方式、游玩景区、居住宾馆等信息,可以帮助主办方分析赛事的社会影响力以及经济效益,为进一步改进赛事举办过程中的不足打下坚实的基础。
1 大数据平台的需求
基于与赛事组委会的沟通,结合无线大数据的特点和能力,将平台可以实现的用户需求分为以下四点:
1.1 重点区域客流检测
为了保障赛事安全有序举行,及时疏散重点区域内的观众以及运动员,需要实时监控马拉松比赛起点、迷你马拉松终点、半程马拉松终点、全程马拉松终点附近的客流变化情况,保证在客流人数突然变多的情况下,能够及时执行相关应急预案。
1.2 赛道沿线人流分析
在马拉松赛事举办期间,赛道沿线会聚集大量的观众,随着比赛的进行,观众也会随着运动员的行进发生一定程度的位移,实时监控赛道沿线人流可以发现观众位置的变化情况,为电视直播提供一定的参考依据。
1.3 参赛运动员与观众特征分析
对马拉松赛事的观众与参赛运动员的职业、爱好、年龄、性别、归属地、热搜词进行分析,可以了解赛事的参与者和关注者的特点,为之后赛事的定向精准营销推广提供支撑数据,帮助扩大赛事的影响力。同时,也可以根据运动员与观众的特征,吸引赞助商的投资。
1.4 外地用户活动情况分析
马拉松赛事会吸引周边地市的观众和运动员参与到其中,对外地运动员和观众的归属地、在本地驻留时长、去过的商场和景点、住宿的宾馆、出行的交通方式等进行分析,能够为组委会分析马拉松赛事带来的辐射影响力、社会效益、经济效益提供重要的依据。
2 大数据平台开发工具
马拉松大数据分析平台利用网页的形式对赛场当天的情况进行展示,主要分为后台进行数据分析和前台进行数据展示两个方面。平台后台数据处理采用Hadoop平台采集CDMA和LTE的话单数据,利用SQL SERVER结合用户特征分析模型对采集到的话单数据进行数据分析处理。前台展示用javascript对可视化展示页面进行设计,采用Layout框架进行页面布局,结合echarts中各种图表和百度地图中的热力图对分析出来的数据进行可视化展示。
3 大数据平台功能实现原理
无线大数据平台从用户需求入手,按照需求分析——话单采集——数据清洗——挖掘分析——产品包装的五步分析法进行设计。具体流程如图1所示。
图1 五步法平台开发设计流程图
基于赛事组委会的需求,利用五步法对相关功能予以实现,主要分为以下几个方面的内容:
3.1 基础数据确认
根据组委会确认的比赛赛道,利用打点测试的方法确定赛道周边的无线环境,如图2所示。
图2 徐州马拉松赛道沿线无线环境示意图
根据赛道沿线的各个采样点和CDMA以及LTE基站扇区一一对应的关系,得到每个赛道上每个经纬度对应的点覆盖的基站扇区清单,确定话单采集的CDMA和LTE基站扇区范围,如图3所示。根据组委会对实时性的要求,按照5分钟的时间粒度分别对用户的1X话单、DO话单以及LTE话单进行采集,得到疑似用户清单。
图3 赛道采样点与基站扇区对应关系
3.2 噪声用户清洗
根据基站取到的原始话单,有很多不属于赛事观众和运动员,这些用户就是噪声用户。噪声用户主要由以下2个部分组成:
(1)空间维度上的噪声用户。由于基站扇区覆盖范围较大,仅仅从基站扇区覆盖范围来提取的话单数量会远远超出赛道区域范围内的话单数量。对于空间维度上的噪声用户,可以利用手机与基站扇区交互信息的三角定位算法,确定某用户在某一时刻的位置,算法原理如图4所示。
图4 三角定位算法原理示意图
根据定位的误差在50-100米的范围内,将赛道区域用50米×50米的栅格来表示,如图5所示,将落在栅格内的话单提取出来,剔除区域外用户。
图5 马拉松赛道沿线栅格示意图
(2)时间维度上的噪声用户。由于栅格范围是50米×50米,栅格范围内会包含长期在这个栅格内的常驻用户和比赛当天路过该栅格的过路用户。常驻用户和过路用户不在目标用户的范围之内,也属于噪声用户。为了清洗掉时间维度上的噪声用户,对于比赛当天话单只出现过一次或者首次出现和最后一次出现时间间隔不超过10分钟的定义为过路用户。另外,提取比赛开始前一周的扇区话单数据,将一周中有5天时间在某一特定栅格出现过,并且每天出现时间超过5个小时的用户记录为常驻用户。对于常驻用户,如果比赛当天只在常驻栅格内出现过,那么作为噪声用户进行剔除。
3.3 挖掘分析
经过噪声用户清洗后,得到目标用户清单。基于目标用户历史话单分析的位置信息、基站场景信息以及时间信息三个维度,结合用户感知数据、套餐资费、上网行为等数据为用户建立职业、兴趣特征、理财消费、早晚常驻地以及基础信息五个维度的用户特征模型。用户特征模型内容如图6所示。
图6 用户五维标签特征体系
用户特征标签模型的参数主要包括以下几个部分:
(1)地理维度:覆盖某一目标区域的室分扇区和有效覆盖目标区域达到80%以上的室外扇区。
(2)时间维度:根据工作性质不同,判断一天中在某个时间段中出现N小时以上则当天满足,一周有M天及以上满足则当值满足。
(3)加权统计规范:最近P周加权统计(满足的周给相应的加权分数),这P周按照时间等因素赋予不同的权重分数,若总分达到门限值要求,则符合特征标签要求,为用户添加相应特征标签。
(4)附加信息来源:结合大客户套餐信息、用户感知数据、用户上网行为、套餐消费数据以及用户基本信息等进行分析。
(5)更新方式:特征标签每周根据加权信息进行统计,对于用户特征标签进行更新。标签权重门限值以及权重占比分值会根据属于该标签用户的时间维度参数,作为训练集,利用聚类算法结合浮动范围更新N值和M值,同时对于加权统计门限值,也根据训练集结果,利用聚类算法结合浮动范围的方法对满足的门限值进行更新。
(6)标签数量:若标签属于互斥标签,如职业、常驻地等信息,那么同一用户取权重最大的标签;若标签不属于互斥的,如爱好特征等,则取权重最大的TOP5标签。
3.4 平台设计包装
信息安全:将涉及到的用户标识信息进行加密,并在平台展示中只展示统计性数据,不提供用户详单,保证用户隐私不会泄露。
实时展示:根据组委会需求,需要对马拉松赛事期间相关情况进行大屏展示。根据相关要求,利用网页形式结合echarts图表中的矢量地图、柱状图、饼状图、堆积折线图、字符云和热力图,对组委会关心的用户归属地、性别、年龄、爱好、职业、重点区域客流监控、赛道人流分布、特征词等进行可视化展示。
赛后分析:对赛事影响力的相关分析,包括赛事参与总人数、用户特征分析,外地参与用户分布、外地用户的归属地、在本地驻留时长、去过的商场和景点、住宿的宾馆、出行的交通方式等分析。
4 马拉松大数据保障设计实现
4.1 马拉松大数据监控平台设计
平台利用JAVA语言借助Myeclipse开发工具进行开发,采用了Layout架构进行设计。
主要展示功能实现如下:
整体布局:将展示页面分为6个区域,分为标题栏、客流来源、客流特征、赛道实时人数监控、客流监控、客流喜好6个区域。
功能设计:标题栏展示中国电信LOGO、智慧无线LOGO、大数据智观、平台标题、时间以及天气情况。可以第一时间让用户了解本平台的用途、开发者和当时的天气情况。
客流来源:利用矢量地图展示当前赛场内用户的归属地和柱状图,从大到小显示所有省份人数的统计,人数多少直观明了。如图7所示。
图7 客流来源模块示意图
客流特征:利用饼状图对赛道内用户的职业、爱好、年龄、性别进行统计分析,并且两组数据进行轮播,很直观地可以看出各类特征所占比例。如图8所示。
图8 客流特征设计示意图
赛道实时人数监控:利用赛道内的点和栅格对应关系,将栅格内的人数吸附到马拉松赛道之上,根据人数多少用不同的颜色来表示人流密集情况,并实施显示赛场内用户总人数。如图9所示。
图9 赛道实时人数监控设计示意图
客流监控:对赛事起点、迷你马拉松终点、半程马拉松终点、全程马拉松终点四个区域的人流量进行监控,并用堆积折线图对不同时间的人数进行展示,可以展示不同地点人数随时间变化的趋势。如图10所示。
图10 客流监控模块设计示意图
客流喜好:利用字符云的形式对赛场内用户关注的热搜词进行展示,并根据权重大小用不同大小的字体进行展示。可以知道赛场内用户的关注热点。如图11所示。
创新与发展——大数据、云计算、网信安全及其他新技术
图11 客流喜好模块设计示意图
将各个模块组合在一起并且对页面定时刷新,可以实现对赛道沿线用户的实时监控分析。平台如图12所示。
图12 2017年徐州国际马拉松电信大数据智观
4.2 马拉松大数据分析报告
赛后分析报告是根据客户需求,对赛事参与总人数、用户特征分析、外地参与用户分布、外地用户的归属地、在本地驻留时长、去过的商场和景点、住宿的宾馆、出行的交通方式等进行分析,并制作可以供微信,微博等网络平台分享传播的宣传文案。
5 总结与推广
本次对徐州马拉松的大数据分析保障,取得了重大的社会经济效益,得到了组委会的认可,增强了电信与市政府在大数据方面的进一步合作与交流,打造了电信智能化的品牌效应。同时,本次马拉松赛事的分析保障也为之后举办诸如龙舟赛等其他重大赛事提供了重要的示范参考。