(2017年度“华苏杯”获奖论文二等奖)基于LTE信令切换的高铁小区质量评估方法
2018-05-21AlexisHuet魏文俊王计斌刘晓春金栋梁
Alexis Huet 魏文俊 王计斌 刘晓春 金栋梁
南京华苏科技有限公司
0 引言
高速铁路(后文中简称高铁),是一种比普通铁路速度更快(一般而言速度约为普通铁路的两至三倍,或最高运营时速200公里/小时以上),使用特别机车车辆与专用轨道的铁路运输系统。
随着我国经济发展需求,各地高铁线路应运而生,提高高铁线上客户移动网络体验的也成为各移动运营商后期网络优化的重要工作。尤其随着4G网络的发展,LTE无线网络得到普及,增加了大量的相关基础设施。而高速铁路移动速度快,客流量大等因素,让旅客在乘坐高铁的时候享受到优质连续的移动网络体验,就成为要深入研究的课题。
本文通过对高铁特殊地区场景LTE信令切换的数据进行分析,应用相关机器学习算法,实现对高铁网络性能的实时监控与评估。
1 背景
在过去几年中,LTE无线网络已经越来越普遍,并且引起了专项基础设施的大量增加。截至2016年底,全球用户数量已达9.15亿,且亚洲拥有巨大的市场和庞大的潜在客户群体。与此同时,中国高铁近年来得到高速发展:从2004年开始建设并实现商业化运营,截至2016年9月总里程达到2万公里,占世界高速铁路的总里程的60%以上。在2016年高铁安全运送旅客逾14.4亿人次,相当于帮非洲和南美洲的总人口搬了一次家,这样的运输效率,即便对很多发达国家而言,仍是“不可能完成的任务”。考虑到这种特殊环境(高速且特定路线),移动运营商为高铁沿线配置了专网小区来保障高速移动用户的通信体验。
通过提供全天候无差别网络的可能性,LTE无线网络的发展为客户提供了新的通信方式。 由于过去几年的投资,4G网络的普及化,运营商提供了一些专门的基础设施来满足用户的特殊需求。其中一个需求是当用户乘坐高速移动的高铁上时,可以不掉话、不掉网的在通信世界遨游。在这种特殊环境下,运营商必须建立特殊的小区(专网小区)以保障良好的信号质量,小区数量可根据高铁客运量及高铁线长度按需分配。
高铁专网进行业务评估与故障定位,传统方式是通过人工路测,耗费大量人力物力。目前,已经有一些文章对高铁专网小区覆盖和优化的行为进行过研究,主要讨论的方向是针对列车车体穿透损耗、多普勒频移和站址的规划与布局等方面提出了优化方案,对于本文中提到的区分用户达到性能监控的研究少之又少。
本文的核心问题是检测高速铁路附近小区网络服务质量,传统网络质量评估的方法是分析使用该小区网络的用户网络质量的相关指标,并不区分用户类型。而在高铁沿线小区,有专网、大网和组网三种覆盖模式,用传统方式并不能正确的评估网络质量,因为存在用户混用小区的问题。
本文运用高铁用户判别分析算法,在数据处理中运用到了“大圆距离”等对基站间距离进行分析,利用机器学习中“决策树”对旅客的速度进行分类,判别出有高速移动的用户为高铁用户。在试验中也应用到了相关特征选择的方法,从结果来看,筛选后的指标符合相关逻辑意义。
2 数据简介
2.1 数据源提供方概述
文中所研究的数据来自无锡移动通信公司(中国江苏省)。无锡移动隶属于中国移动江苏公司,下辖江阴、宜兴两个县级分公司。目前用户总数超过600万,是无锡地区最大的移动通信运营公司。公司拥有全球通、动感地带和神州行三大品牌,主要运营移动语音业务、增值业务以及互联网、IP电话等数据通信业务。实现无锡地区网络的完全覆盖,网络运行情况良好。
2.2 数据收集概述
无锡移动为我们提供了两种类型的数据,用户相关信令数据和高铁专网小区和大网小区数据。
本文中涉及到的高铁线路,指经过无锡(中国江苏省)的三条高铁线路(往返线路),途经站点为:无锡、无锡东和宜兴站,截取线路距离都为50km左右。高铁专网路线:京沪、宁杭、沪宁高铁,这三条线路总长度均超过了150km,对于4G网络均有针对性的专网覆盖。
本文中,专网小区是指高铁沿线专门用于高铁用户使用的小区,大网小区是指非高铁小区的其他小区,通常为普通用户即非高铁用户提供服务。同样的,高铁用户是乘坐高铁的用户,而普通用户(大网用户)则是指网络中的任何其他客户(如:高铁沿线居民等)。
首先确定高铁线和日期,接着收集两份数据,一份是小区信息数据:该线路高铁小区及1公里内的大网小区数据,另一份是用户数据:包含使用这些小区网络用户的信令切换数据。
小区信息数据:首先收集位于当前高铁线的高铁小区,对于每个高铁小区,可以获得小区的经纬度。接着根据经纬度得到附近1公里内的大网小区。这样就获得了目标小区信息,每个小区包含经纬度以及标记为是否高铁小区的二元逻辑变量。
用户数据:需确定特定日期下连接目标小区的所有用户,通过IMSI(国际移动用户身份)和IMEI(国际移动设备身份识别码)唯一化用户。这样就得到了用户使用小区网络的列表,时间精确到秒。由于连接网络的不规则性,收集到的数据也不会固定在某个特定时间内。用户数据包含用户信令切换信息以及相应的时间标识。
举例说明相关数据,例如:一个高铁线上的高铁小区有50个,1公里范围内的大网小区有450个。连接这些网络的用户数量可达到100万,超过280万条信令切换信息(24小时内)。
图1 高铁小区示意图
图1显示的是高铁小区的一个切换示意图。在图中高速铁路线上,绿色区域表示专网小区信号覆盖区域,灰色表示大网小区信号覆盖区域。
3 实验设计原理
本文研究的主要目的是从高铁小区基站收集的信令切换数据中对高铁专网用户和大网用户进行分类,进而从该分类中评估高铁小区服务质量。主要分为两点:
(1)需要鉴别出使用高铁小区网络的大网用户,这部分人在总体使用该小区的比例应该很低,以防止高铁小区的超负荷连接;
(2)鉴别出使用大网小区网络的高铁用户,这种情况会导致高铁用户上网体验的下降,这种情况是由高铁小区和大网小区信号的快速切换导致的;
在整个实验设计阶段,我们分两部分:训练阶段和自动化阶段。
3.1 训练阶段
训练阶段流程如图2所示,我们首先收集有关高铁线路周围的小区信息。从这些信息中可得到高铁线路图。同时,收集用户的信令切换数据,该数据可推出高铁专网用户及高铁周边大网用户的网络连接行为。在做分类模型前,需要手动的区分高铁用户和大网用户,创建信号切换速度等行为特征指标。最后,选择合适的分类算法鉴别出两种用户。
图2 训练阶段流程图
3.2 自动化阶段
训练阶段的流程有手动分类部分,对于数据量不大的训练数据可行,但如果数据集增大,且要求自主分类的后期实验不可行,所以我们又设计了一个自动化阶段,其流程如图3所示:
图3 自动化阶段流程图
自动化阶段:本阶段的目的是实现代码运行及结果输出的自动化,流程图详见图3。对于训练阶段,从数据中提取用户行为特征指标。利用分类算法区分出高铁用户和大网用户,最后,通过总结用户使用小区网络的情况来评估小区的服务质量。
4 建模和算法
这部分介绍了建模流程和用到的算法概述,结合上面的实验设计描述,我们分成:训练阶段和自动化阶段进行详细讲解。
4.1 训练阶段
整个过程是对相关数据进行挖掘分析,步骤主要分为以下几点:
(1)得到数据,确定高铁线路(京沪、宁杭、沪宁)和日期,接着收集两份数据:小区信息数据和用户数据。
(2)在根据高铁小区经纬度信息刻画出高速铁路轨道线路。利用主成分分析方法对小区经纬度信息进行合适的旋转,接着通过广义加性模型(GAM)刻画出高铁线路,当列车线呈现垂直方向,即从北向南或南向北时,算法中应用到了空间旋转的概念。如图4,红点表示高铁小区;黑色曲线代表高铁路线;蓝点表示距高铁小区1公里内的大网小区。从高铁线路可推测出每个小区之间和高铁线路距离,进而推导出目标小区和高铁出发站之间的距离,在计算经纬度距离的时候,我们应用到了大圆距离(Great-circle distance)的方法。
(3)创建模型数据集。该数据集是在用户数据的基础上增加了两列数据:第一列是逻辑变量,标记小区是高铁小区还是大网小区;第二列是对应小区离高铁出发站的距离(km)。
图4 高铁沿线和覆盖小区图
图5中,图5a显示出了高铁用户仅连接到专网小区的示例图,图5b显示出了高铁用户连接到一些大网小区的示例;图5c显示出了非高铁用户连接到大网小区的示例;图5d显示出了非高铁用户连接到专网小区的示例。
在模型训练阶段,需要对用户当天在高铁小区的时间及小区距离进行可视化呈现。实践中,只画出了部分用户的信息图。图5a,5b,5c,5d是4个典型用户的小区移动图。每个点表示用户和小区之间发生网络连接,红色为高铁小区,黑色为大网小区。
在模型训练阶段需要人工对用户分类,目的是为了得到一些样本数据的明确标签,高铁用户或大网用户。创建提取相关指标后,使用分类算法对样本数据进行分析建模,提取能够显著区分高铁用户和大网用户的特征指标。用户的人工分类依据如下:图形表现中,若用户快速的从一个基站移动到另一个基站,则标记为高铁用户(图5a,5b),反之标记为大网用户(图5c,5d)。对用户人工分类可以把一切可能影响分类结果的情形考虑在内。数据实例如下:从50万个用户中选择2000个用户进行人工分类。
4.2 自动化阶段
在自动化阶段,模型结果用于预测每个用户的分类。如模型训练阶段,需要获取小区信息数据以及用户数据,接着创建特征指标,利用模型筛选出的重要特征指标预测用户是高铁用户还是大网用户。
特征提取是模型训练阶段和产品阶段共同的一个环节。在做此步骤之前,每个用户都会有信令切换时间及切换小区离高铁出发站的距离信息,且时间是不规则的。做完特征提取后,每个用户的小区切换信息、移动速度、移动距离都可以用固定的时间来表达。
其中特征较重要的是用户的移动速度。移动速度根据小区离高铁出发站距离及切换至该小区网络的时间与出发时间计算所得。但若计算瞬时速度的话可达600km/h,详见图5c(12点前)。为了避免这种情况发生,考虑计算用户在不同时间段的平均速度。具体可以计算一天内特定持续时间段(例如30分钟)的用户最大移动距离。在本系统中,用如下时间段来计算最大移动距离:1秒,5秒,25秒,2分钟,10分钟,15分钟,20分钟,25分钟,30分钟,35分钟,40分钟,45分钟,50分钟,55分钟,1小时,4小时,24小时。
对于每个用户,还可以创建和小区数关联的特征变量,这些附加特征包括如下条件:
(a) 连接小区的总次数;
(b) 连接到专网小区的总次数;
(c)定义专网小区连接次数占比 (a)/(b);
(d)用户连接到小区的数目(单个小区有多次连接只计数一次)。
提取所有特征指标后,每个用户将有21个特征指标。
接下来的步骤专注于建立模型(该步骤仅在模型训练阶段中执行)。该模型需在特征指标基础上预测每个用户是高铁用户还是大网用户。而这一问题是典型的分类问题,实现流程为:首先特征提取,接着区分用户是高铁用户还是大网用户。这个流程适合人工分类后的数据集,模型可在该数据集上进行训练。在机器学习领域,已有很多成熟的分类算法,其中一个较简单的算法是随机森林,可以在分类的同时提取出重要的特征变量。
为了确保结果的可靠性,将人工分类的数据集分成两部分:随机抽取80%用户为训练集;剩下的20%用户为验证集。用训练集对模型进行训练,接着在训练集和验证集上同时测试。结果显示,该模型可以高效的区分出高铁用户及大网用户:在训练集上,准确率达到99%;在验证集上,准确率为98%。每个新用户可以通过该模型提取的重要特征指标进行分类。具体分类如图6所示:
图6 特征指标分类结果图
我们根据分类用户将得到相关的汇总表格。每个表格能够得到小区服务质量的关键指标。如表1所示,其结果为相关高铁线路每日小区服务性能的全局概要。对于高铁专网小区中不准确的服务(专网用户占用大网)、高铁专网小区的服务于高铁专网用户的服务性能(高铁专网用户脱网)、高铁专网用户及大网用户等其他数据,我们都有相关表格输出,由于表格都涉及用户信息,这里不作实例描述。
表1 相关高铁线路每日小区服务性能的全局概要表
5 结论与改进措施
高速铁路的商业化运营,带来了高效舒适的出行方式,给铁路运输行业带来新鲜血液的同时也带来了移动网络优化的新问题,这个部分对于相关模型结果进行了解释。
本文对信令数据在时间序列上进行时间、频率、速度等特征的提取,并对提取的特征通过机器学习算法进行分类,通过用户速度特征提取和决策树判别,区分出高铁和非高铁用户,目前用户识别准确率为90%以上。
本文的主要研究成果如下:
(1)通过大圆距离方法计算出小区所在距离,然后利用相关时间数据提取速度特征,通过随机森林算法对用户进行分类,区分出高铁及非高铁用户,且验证得到高铁用户识别准确率达到90%以上;
(2)基于高速铁路用户判别分析算法,对高铁专网进行业务质量评估与故障定位,替代传统路测,对重点问题区域与小区进行性能评估、故障与定位分析;
由于高速铁路运行环境的不规则性,高铁轨道会存在隧道、弯道、桥梁等各种场景,我们之后可以提起一段不规则轨道对本文中的算法进行验证及优化。