APP下载

基于大数据和AI 技术的客流位置区域网格融合分析方法

2022-07-08孙苑苑

江苏通信 2022年3期
关键词:客流时段网格

孙苑苑

中国移动通信集团江苏有限公司

0 引言

通信运营商的大数据优势在于数据种类多样、用户群体覆盖范围广、数据周期连续性好、数据准确性高等。基于海量而丰富的运营商数据资产,综合运用大数据、人工智能、物联网、云计算等新兴技术,结合行业场景需求,打造行业大数据产品体系,面向文化旅游、城市管理、金融商贸等行业和政府客户提供量身定制的信息化解决方案,能够实现大数据价值变现。

基于位置数据分析与挖掘的大数据产品与服务是运营商行业大数据产品的重要组成部分,在文化旅游、城市管理、公共服务等行业广泛应用。位置区域是位置类服务中最常见的位置计算形态,随着客户需求的涌现,为支撑大量行业应用需求,运营商在大数据平台位置中心配置了大量区域场景,存在区域面积大、关联基站数量多等问题,造成区域客流计算效率低,同时,在旅游景区、交通枢纽、行政区域等类型区域出现较多区域重叠、基站重复计算等情况,再次降低了区域计算效率。

针对上述问题,以下研究方法将融合大数据及AI 技术提出区域网格融合计算模型,通过实现区域网格化,并以此为基础进行网格融合计算,达到提升大数据位置区域分析能力和计算效率的目的。

1 现状和问题分析

位置区域是运营商对外大数据服务中位置类服务的常见位置计算形态,在文化旅游等行业的业务场景中有大量应用。传统的位置客流分析存在区域数据统计分析不准确、区域数据计算耗时久、区域数据预测能力不足等问题,为改变粗放、割裂的位置区域管理模式,本研究方法将按照常见业务管理模式,基于政府行政城市管辖区域或规则形状的网格划分,进行区域网格融合后的实时和离线分析,能够有效降低区域计算复杂度,提升区域客流计算效率,提高区域数据实时性,扩展和增强区域客流预测能力。

2 方案设计

本研究建设统一的大数据位置区域分析和应用架构,总体研究架构详见图1。基于区域网格融合计算模型,提供网格化管理、区域数据分析、区域客流预测等应用,以精准高效为建设目标来提升大数据位置区域分析计算效率。

图1 大数据位置区域分析和应用架构图

在数据层,主要融合包括位置信令数据、基站工参数据、区域网格数据、客户画像数据等在内的多源数据,借助ETL能力,对数据进行加工清洗和处理,形成基础的位置资产能力。

在模型层,构建区域网格融合计算模型、网格自动划分模型、区域网格客流分析模型等,通过借助AI 算法,完成模型的选择、训练、调优和部署,实现了高效、自动化的区域划分及区域网格客流分析计算。

在应用层,实现网格化管理、区域客流分析、区域客流预测、基站数据统计等功能,并通过Web 和API 的方式面向行业产品提供服务。

在产品层,支撑智慧旅游、智慧城市、智商贸、智慧社区、重大活动保障等行业大数据产品。

在服务行业上,主要覆盖交通、旅游、政府、公安、医疗、城市管理等行业的业务场景。

3 关键设计

本研究中的关键设计主要包括:通过区域网格划分模型的建设,实现网格划分解耦和区域计算拆分,提升区域配置效率,降低区域计算对平台的资源需求;借助区域管理工具,构建区域网格融合计算模型,降低区域计算复杂度,提升区域分析服务效率;结合改进的多元线性回归方法,提供区域客流预测分析,提升位置区域数据分析能力。

3.1 区域网格划分模型

主要基于两种方法对网格进行划分:(1)基于政府行政城市管辖范围的行政网格划分;(2)基于500*500 的规则形状网格划分。支持基于网格的人口统计、客群洞察、来源特征等方面的分析。

对于区域网格划分,其关键点在于:

(1)网格划分范围:在获取的覆盖国土最小外接矩形区域内,输出该矩形区域内可以归属到行政区域的所有网格。

(2)网格行政区划归属:若网格中心点经纬度落在行政区划边界上则可将此网格分配给城市编码较小的行政区划。在国界上,若网格中心点不在国界内,且存在一个或多个边界点在国界内,则按符合国界内的边界点顺序,取第一个符合国界内的边界点归属区划。

(3)网格划分坐标系:按火星坐标获取网格经纬度。对于基站信息中缺失方向角(缺失用圆)、覆盖距离信息(500-1000m)无法实现交叉面积计算的内容,后续根据用户信令中实际基站切换序列进行调整完善,网格划分热力展示如图2 所示。

图2 网格划分热力图

3.2 区域管理工具

在网格化的基础上建设区域管理工具,改变目前粗放、割裂的区域管理模式,能够提升区域配置效率和区域标准化程度。工具对区划区域、标准区域、自定义区域三种类型区域进行融合管理,用户可以通过区域进行订阅,区域用户订阅分布方式详见图3。

图3 区域用户订阅分布图

在区域融合管理工具中,针对不同用户订阅,可对其订阅区域及订阅参数作出智能分析,对同区域不同参数的规则进行融合,通过仅执行一次数据查询、多次订阅运算的方式,提升订阅运行时的效率。同时对参数类似订阅提供订阅建议,协助提升规则制定的业务有效性。

3.3 区域网格客流分析

区域网格客流计算方法如下:

(1)将需要计算的区域进行网格划分,形成区域与网格的对应关系。

(2)当用户生成一条新的信令时,就对该用户信息进行处理,匹配到指定区域中,位置信令处理流程详见图4。对同一用户连续在一个区域出现的多条信令数据进行合并处理,合并处理时,按时间顺序,取第一条信令的发生时间作为合并后的开始时间,取最后一条信令的发生时间作为合并后的最后活跃时间。

(3)统计区域客流,直接拉取区域中已分类归纳完成的数据。

图4位置信令处理流程图

3.4 区域网格客流预测

(1)24 小时分时段多元线性回归模型

将3 个月按全天的小时段客流拆分成24 个分段重新组合,消除影响因子后,构造净客流矩阵:

式中:Xij′为每个时段的净客流数据,i 为24 个时段(1~24),j 为3 个月天数(1~90)。

每个时段的净客流数据作为因变量依次带入模型,构建24 个多元回归方程式,通过模型参数的计算及误差修正的方式对预测日对应时段客流数据进行预测,将连续时间序列上多点预测转化为单点预测,将复杂问题简单化,此处预测的为当日净客流值,并未加上影响因子部分。

设yt为因变量,x1,x2,…xk为自变量,分时段构建24个小时回归模型:

1 点回归方程:yt=1=b1x1+b1x2+…+bkxk+et

2 点回归方程:yt=2=b1x1+b2x2+…+bkxk+et

……

24 点回归方程:yt=24=b1x1+b2x2+…+bkxk+et

式中:xk为近三个月全天24 个时段的净客流,yt为预测日对应24 个时段的净客流,b1,b2,…bk为回归系数,是24个时间段参数,et为常数项,t 为24 个时段(1~24)。

通过回归分析,得到常数项及各时段的参数估计值为e 和B 的矩阵:

将参数带入回归方程中,即可得到预测日对应24 个时段的净客流值。

(2)客流影响综合因子分析模型

设影响客流的月份因子为Mi,星期因子为Wj,节假日因子为H0,天气因子为S0,使用如下模型:

式中:Ft为ft客流综合影响因子数,mi为影响客流月份因子回归参数估计值,wj为影响客流星期因子回归参数估计值,h0为影响客流节假日因子回归参数估计值,s0为影响客流天气因子回归参数估计值。

(3)综合影响因子修正分段线性回归模型表示如下:

组合24 个分时段多元线性回归方程,形成24 小时区域综合净客流预测模型,加入天气、节假日、季节等综合因子来预测区域实际客流。

3.5 位置区域微服务

借助Istio 架构技术,将位置服务解耦成一系列轻量、敏捷的微服务,将服务开发和服务发布进行分离,极大降低了平台管理的复杂度,减少上层行业大数据应用对服务技术的关注范围,满足对外大数据行业多、规模大、复杂性高的服务场景需求,提高支撑效能,为相关行业客户提供区域指导和管理工作。

通过智能代理(Envoy),将位置区域微服务组成服务网格,承载服务间以及服务与外部的通信。通过流量管理(Pilot)机制,将流量和基础设施扩展解耦,智能化控制服务间以及外部调用的流向,并可以针对不同网络质量进行调整,提高服务可用性。

根据业务特点和数据能力,已规划建设的位置区域微服务主要包括:区域流量实时查询、区域用户分析、区域用户流量、区域流量预测、区域用户明细、区域用户进入等。

4 研究成效及应用

本研究基于区域网格融合计算模型,通过网格划分解耦和区域计算拆分,提升区域配置效率,降低区域计算对平台的资源需求。通过区域配置,调整计算优先级,决定区域计算任务调度权值,在资源上合理分配计算任务,有目的性的选择资源,使系统在最短的执行时间内实现整个网格系统资源利用的最大化,提升了区域配置效率和区域标准化程度。结合改进的多元线性回归方法,引入“近重远轻”的赋权原则构造自变量,解决全天24 小时时段的位置区域时间序列数据预测准确性问题,拓展了位置区域分析业务场景。

通过区域网格融合后,相同区域的计算由多次减至一次。以区域客流量实时查询服务为例,平台目前订阅该服务的区域有1671 个,其中有424 个区域存在重叠,应用本研究后,实时区域数据计算效率提升50%,区域数据实时更新周期从15 分钟缩短到5 分钟,显著提高了实时计算的效率及准确性,CPU 消耗减少4%-8%,内存资源占用减少5%-8%,硬件资源利用率也得到提升。

此研究已广泛服务于旅游、政府、金融等行业大数据产品中,为景区、政府、交通枢纽等研究区域客流规律提供有力支撑。

案例1:某街道在疫情防控中的“网格化管理”。

疫情期间为加强街道人员流动管理,南京某街道依据此研究成果构建网格化管理系统。以可视化大屏界面实施监控管理,划分8 个网格,街道全天24 小时监控网格内实时客流情况。通过客流网格化管理,加强数据分析效率,掌握高风险地区人员流入情况,强化了街道疫情风险防范能力,有力保障街道居民的卫生安全。

案例2:某马拉松活动交通要塞口客流预测。

此研究应用于某马拉松活动中,通过搭建交通要塞客流预测系统,全方位全流程实施客流预测。在通往大型活动的入口、活动区域、出口等关键路径上设置网格区域,根据网格区域历史客流数据及区域网格融合计算模型,预测各区域活动人群流量,协助相关部门对客流进行控制及疏散。

5 结束语

以上提出了一种融合大数据和AI 技术的客流位置区域网格融合模型算法。在运营商大数据行业应用领域,通过区域网格融合计算模型和应用的建设,提升大数据位置区域分析计算效率,对于行业位置区域类分析需求能提供更加科学、高效和精准的支撑;通过高效的区域数据分析能力,为行业客户提供更精准、实时、丰富的大数据产品服务,提升行业客户的满意度。在此研究基础上,客流位置分析精确度方面还需继续深入挖掘研究,不断提高客流数据统计、洞察、分析的质量。

猜你喜欢

客流时段网格
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
基于系统动力学的城市轨道交通车站客流控制仿真与优化
追逐
四个养生黄金时段,你抓住了吗
第70届黄金时段艾美奖主要奖项提名
重叠网格装配中的一种改进ADT搜索方法
基于自学习补偿的室内定位及在客流分析中的应用