大数据行程卡精准计算边界漫游位置的研究与实践
2022-11-17马聪柏勇
马 聪 柏 勇
中国移动通信集团江苏有限公司
0 引言
2020年初由中国工业和信息化部指导,中国信息通信研究院联合中国电信、中国移动、中国联通三家基础电信企业共同推出的公益性行程查询服务,通过大数据中心整合3家运营商提供的用户手机所处基站位置数据,提供个人查询前14天以内所到过国家及停留满4小时的国内地市行程轨迹证明,为全国各地精准制定新冠疫情防控措施提供了技术保障。
通信大数据行程卡提供的位置查询服务数据,来源于手机话单数据与信令数据,其中信令数据包含了用户通信使用的基站位置信息。为了保障移动信号覆盖无死角,当用户处于行政区交界处时,会出现基站信号交叉覆盖现象,从而造成行程结果的偏差。当前疫情常态化防控状态下,行程卡作为全国民众日常出行的重要凭证,每当部分区域发生疫情时,就会出现行程轨迹与实际不符的投诉工单突增。
本文重点从分析边界漫游行程不准的投诉入手,因地制宜制定“三合一”行程码优化方案,实现数据与算法的完美结合,提供更准确的技术支撑。
1 边界漫游产生的原理
用户处于行政区划分交接地区,由于无线信号扇形传播的特点,基站信号的覆盖范围难以与行政区划的边界完全吻合,用户手机被两地或两地以上(省级或地市级)基站信号交叉覆盖,这种现象称为“边界漫游”,如图1所示。如果两地信号强弱不同,就可能造成用户实际定位处于A地行政区内,却使用了B地行政区的基站信号,而产生边界漫游话单或信令,信号覆盖范围受到天气、地形、建筑等因素影响,会出现不稳定的情况,用户手机位置将取决于哪一边的网络信号强。
图1 边界漫游示意图
随着各地网络大规模建设与扩容,无法避免带来部分边界漫游地区,造成基站信号越界覆盖的情况。为解决由于边界漫游带来的数据问题,移动计费系统会对处于边漫区域的基站进行独立标记,并对这些基站小区内产生的通信数据,根据应用场景重新处理。自取消手机国内长途漫游费与取消流量漫游费后,在边界使用占用两边基站都是一样计费,用户不用担心边界漫游带来的计费问题,但是,行政区划之间有一条界限,在交界处手机能收到来自两个地区的信号,这个问题一直存在,因此,当通信大数据行程卡使用通信数据作为定位依据,处于交界处的手机则可能出现定位不准的问题,使用户对行程卡结果产生质疑。
2 通信大数据行程卡技术原理
通信大数据行程卡服务是通过客户手机号码通信数据计算,根据使用的基站信息识别,主要应用于个人用户通过10086、二维码、互联网客户端查询本人手机号码截至查询时的漫游城市,用于辅助识别手机号持有人是否经历疫区。
支撑系统首先汇总通信数据,进行初步的加工,使其具备统计条件,通信数据类型包括:语音话单、流量话单、手机信令等信息。
话单是指客户原始通信记录信息,又可称之为详单,以语音话单为例,主要记录以下信息:流水号、用户标识、主叫号码、被叫号码、起始时间、结束时间、通话时长、通话性质等关键信息。除语音话单之外,话单记录的信息还包括V网、流量等其他类型,记录格式与语音话单类似。用户在通话或上网过程中,核心网网元记录相关计费信息,并发送计费消息到计费系统,再由计费系统生成话单。有些核心网网元可以直接产生话单,并发送到计费系统或计费中心。
信令是指客户手机与网络的交互信息,通讯设备之间任何实际应用信息的传送总是伴随着一些控制信息的传递,它们按照既定的通讯协议工作,将应用信息安全、可靠、高效地传送到目的地。为检测客户手机是否在网,即使客户不打电话或上网,手机也会与网络设备之间信息交互。信令包括:MC、MME、N1N2、VOLTE、CSFB等类型。
汇总数据后,进行数据准备工作:(1)选取与用户行程信息有关联的字段;(2)获取省区内用户T-1账期的通信数据进行合并;(3)根据跟踪区域代码、位置区码、蜂窝小区号,求取基站归属地市以及基站归属边漫地市;(4)按所有话单开始时间、结束时间排序;(5)按相同基站归属地以及相同归属边漫地市进行聚合。
通信记录字段示意如表1所示。该模式下,用户行为轨迹是根据其通信信息归属的行政区地域计算,而在边界漫游区域中,存在终端信号漂移、通信基站归属模糊、位置驻留时间长短等干扰因素,导致最终结果精度不高,随着疫情防控形势逐步严峻,引发边漫用户投诉比例升高。
表1 通信记录字段示意表
序号 字段名 说明2 USER_ID 用户编码3 MSC 移动交换中心4 RA 跟踪区域代码5 LAC 位置区码6 CELL_ID 蜂窝小区号7 VISIT_AREA_CODE 到访地8 START_TIME 开始时间9 END_TIME 结束时间10 …… ……
3 边界漫游优化技术与实施
通信大数据行程卡边界漫游的准确性取决于界定边漫基站的准确性和计算用户到访地算法的科学性。
此部分详细介绍了计算用户在边界漫游地区位置过程中的几个重要方法。
3.1 边漫基站参数调优
对于边漫基站信号处理方面,设备既需兼顾边界漫游基站的通话质量,又需实现基站位置的相对准确性,可通过合理调整双边基站的天线方向角,输出功率等基站参数,增强B地的覆盖场强,减弱A地的覆盖场强,使用户在B地更多占用B地基站信号。
3.2 边漫基站打点调优
在边漫基站科学识别方面,支撑系统可采用一套维护闭环管理流程,如图2所示。
图2 边漫基站维护流程图
第一步,支撑系统通过数据模型每周自动生成边界漫游差异小区,模型设定用户在短时间内基站在边界地市切换的阈值,输出边界漫游疑似基站,再将计算数据与网络部配置的边界漫游小区的数据对比,并结合近期用户投诉过的基站信息,综合分析得出边界漫游差异基站;第二步,交由网络部对系统识别出的边界漫游差异,进行地图打点等全面的核查,经过专业的确认后及时修正数据,删除无边漫特征的基站。通过固化这套对边界漫游基站的维护流程,可实现动态、及时地添加符合特征的边漫基站,从而减少用户行程争议的概率,并建立良好的闭环管理机制。
3.3 全边漫算法优化
对于用户全天在全边界漫游地区的情况,可采用以下规则计算:根据边界漫游基站归属排序分别统计A与B地市的驻留集合时长,取A、B两地驻留时长相对较长的地市作为整个边界漫游到访地归属。全边漫用户行程如图3所示。
图3 全边漫用户行程示意图
求取全边漫驻留集合时长的算法简单说明如下:
(1)遍历用户当天的所有通信数据,当全天记录均为边界漫游,则分别计算出每条话单的时长,如果话单数据存在时长重叠的情况,则将后一条话单的开始时间减去前一条话单的开始时间作为前一天话单的时长。
(2)按照基站归属地市、基站所在漫游地市集合、时长进行汇总,相同的“基站归属地市、基站所在漫游地市集合”数据进行时长的汇总,得到集合结果数据。数据结构为:归属地市、漫游地市集合、时长,例如:0511-[025,0511] 2分钟。根据汇总集合的结果数据,对每条话单的基站归属地市和边漫地市进行时长判断,采用时长更长的地市作为该条边漫话单的到访地。
(3)完成边界漫游的更新后,再根据用户详单数据的开始时间、结束时间进行排序。相邻为连续地市时,将数据进行合并,开始时间为该地市的最早开始时间,结束时间为该地市的最晚结束时间。地市数据排序后,如果出现前一地市与后一地市的时间产生交叉,则将后一个到访地数据的开始时间作为前一个到访地市的结束时间。
(4)得到集合列表,计算出用户的连续地市时长。根据时长计算判定,完成后续数据加工、排重、翻译等步骤,最终计算出用户行程。
3.4 部分边漫算法优化
对于用户部分时间在边界漫游地区内,部分时间在非边界漫游地区的情况,采用以下规则计算:取有驻留时长绝对优势的地市,作为边漫话单的到访地结果,即用户驻留所在地域的时长远比另一边界地域长,则假设用户出现在该地区的腹地(中心区),以减少边漫话单的到访地求取误差。部分边漫用户行程如图4所示。
图4 部分边漫用户行程示意图
求取部分边界漫游时长的算法简单说明如下:
(1)遍历用户当天的所有通信数据,当部分记录为边界漫游时,则分别汇总非边界漫游基站时长和边界漫游基站时长。时长按照地市汇总,存储结构包括:归属地市、漫游地市集合、驻留时长。
(2)设定2个阈值:非边界漫游地市时间差a、边界漫游地市时间差b。阈值a、b根据30天内无投诉用户边界漫游地区驻留时长平均取整得到,在实际生产运营中可根据运营情况灵活调整。
(3)取通信记录基站中边界漫游集合,根据地市时长进行判断并更新归属地市:在基站边界漫游集合中,地市的非边界漫游时长均为0,则取通信数据中包含基站漫游地市的最长时间地市作为基站归属地;在基站边界漫游集合中,地市的非边界漫游不为0,则计算最大时长和第二大时长差值,如果大于等于设置阈值a,取最大时长的地市作为边界漫游基站地市;在基站边界漫游集合中,地市的非边界漫游最大时长和第二大时长差值小于阈值a,再判断边界漫游基站的地市时长,如果边界漫游地市的最大和第二大时长大于差值,大于等于阈值b,取边界漫游地市中最大时长的地市作为边界漫游基站地市;在基站边界漫游集合中,地市的非边界漫游最大时长和第二大时长差值小于阈值a,判断边界漫游基站的地市时长,如果边界漫游地市的最大和第二大时长大于差值,小于阈值b,边界漫游基站地市取为未知地市(无法判断)。
(4)完成边界漫游数据更新后,进行非常驻地市剔除:如果基站的边界漫游地市包含在常驻地市中,但判定结果地市不包含在常驻地中,则该条基站记录到访地判别为未知。
(5)最后进行投诉用户地市剔除:如果基站判别地为用户的投诉不认可地市,则该条基站记录到访地判别为未知。(6)输出用户基站归属信息,完成后续行程计算。
4 结束语
本文介绍了通信大数据行程卡的实现原理和边界漫游投诉的产生原因,结合对边漫投诉案例进行系统分析研究,分析出边界漫游基站准确性与位置算法的影响因子,提出了因地制宜的“三合一”解决方案,实现对边漫易引起的行程卡到访地数据进行纠偏,从而保障用户行程卡数据的准确性。通过长期的实际反复验证与测试,行程码边漫投诉量有效减少了95%,万投比降低至0.34,解决了疫情期间客户投诉的实际问题。
随着国内外疫情不断变化,通信大数据行程卡的使用场景越来越多,传统简单基站判断的方式已经很难解决用户实际诉求。下一步系统将持续探索调优新思路,引入用户主动上报的GPS定位数据,用于辅助判定边界漫游位置,研究边界漫游算法校准方法。通过科技革新,可实际解决群众的行程数据边界漫游投诉,从严从细从实做好常态化疫情防控工作,同时也体现了中国移动作为一家央企,用信息化手段助力疫情防控工作的企业社会责任。