核心网数据挖掘下的移动通信用户行为分析
2023-08-20史厚兵
史厚兵
(中兴通讯股份有限公司西安研究所,陕西 西安 710000)
1 核心网和移动通信用户行为
1.1 核心网
通常情况下,基站子系统、网络子系统以及系统支撑部分是一个完整的移动网络结构的重要组成部分。网络子系统包含核心网,能够及时对接入网和其他网络进行有效连接,通过管理人员的优化与配置,能够在特定环境下对用户位置、网络功能以及业务进行综合控制[1]。
电路域及分组域是核心网的重要组成部分,一个完整的电路域能够对传统的电路交换方式进行综合处理,并承载语音和短信等传统电信业务。分组域则采用分组交换方式进行处理,主要承载数据业务。
1.1.1 电路域主要网元功能
整个核心网的数据移动交换功能主要是依靠移动业务交换中心(Mobile Switching Center,MSC)等完成,经过不断优化与调整,能够对大量电路交换业务传输指令和业务数据信息进行交换。与此同时,在网络架构内部安设移动交换局的网关MSC(Gateway MSC,GMSC),与外部网络结构全面连接后,从而达到与MSC 合设、分设的应用效果。
通过设置访问位置寄存器(Visiting Location Register,VLR),及时建立完整的用户信息数据库,实现对所在区的移动用户进行登记,分配漫游号码,存储移动台状态、位置区域识别码、临时移动用户识别码等。
针对短路消息服务中心(Short Message Service Center,SMSC)架构,能够同时对移动站、基站等转发或存储数据消息,严格遵守SMSC 的协议达到预设工作效果。
1.1.2 分组域主要网元功能
针对服务GPRS 支持节点(Serving GPRS Support Node,SGSN),通过适当措施对用户身份信息进行识别。通过压缩和加密处理,提供完整的IP 数据包向无线单元的传输通路内部进行协议转换,促使电路业务和数据业务能够协同工作。
针对网关GPRS 支持节点(Gateway GPRS Support Node,GGSN),促使外部网络结构和GPRS 网络有效连接的同时,能够对会话管理、路由选择等进行转发,并及时生成单独的会话清单。与此同时,针对域名系统(Domain Name System,DNS)结构,管理人员能够充分结合释放辅助指示(Release Auxiliary Indication,RAI)对SGSN 地址进行全面查询,结合接入点名称(Access Point Name,APN)对GGSN 地址进行全面查询。
针对在线计费系统(Online Charging System,OCS),经过科研人员的不断开发与应用,能够对提前支付费用的用户进行在线统计。
针对计费网关(Charging Gateway,CG)结构,在对用户话单数据信息全面收集、分析、处理及生成后,通过特定方式将其传输至计费中心。以无线接入点(Wireless Access Point,WAP)网关为例,主要发挥内容编/解码、用户代理特征值管理、高速缓存代理以及用户信息转发等功能。
1.2 移动通信用户行为要点及主要作用
通过对核心网数据信息的分析与挖掘,针对语音业务,相关网络能够及时分析用户号码的位置更新,并在最短时间内找出网络热点的覆盖区域。对于位置更新失败的区域,要分析是覆盖不好还是网络故障等问题,对相关突发情况要及时反映并传递给相关通信管理人员。尤其是在对语音业务进行处理期间,要考虑通话时长、通话频率、掉话率以及切换成功率等,分析出有问题的小区或站点,全面掌握不同业务繁忙的时间和区域,对容量不足的区域要考虑扩容管理,对有问题的站点等要及时维护[2]。
基于完整的移动通信行为能够更好地分析业务数据进行分析,在智能机终端设备广泛普及的时代背景下,人们可以合理应用专业的抓包工具分析用户的行为。对于业务量大的App 和软件平台应用,可以考虑在中心核心机房部署相关的App 应用服务器,以加快用户访问。例如,Google 在每个业务相对发展较快的国家都部署有二级或三级Google 访问服务器,以满足用户的快速查询需求。
针对有营销需求的系统,为了更好地实现业务推广,App 公司可以向运营商投入适当建设资金,用户访问其网站时免费。一方面,运营商可以推广其数据业务套餐;另一方面,也可以提升公司的形象。与此同时,对于某一地区业务量的波动可以分析用户行为或网络原因。如果某段时间业务量骤降,很有可能是网络故障,还可能是传输中断、核心网设备故障导致计费系统异常等。
对于负荷较大的电路交换(Circuit Switching,CS)系统、演进的分组核心网(Evloved Packet Core,EPC)系统或某些热点区域,要考虑提前规划和及时扩容,核心网侧和无线侧都要扩容。对于个人用户行为的分析,除对运营商和各大互联网App 厂家有利之外,还可以帮助公安人员对某些特殊用户进行网络跟踪,通过核心网系统相关接口跟踪/查询非法人员位置更新的时间,根据其访问Internet 的时间和IP地址可以确定大致区域,全面收集并获取相关数据信息。
2 核心网数据类型与数据挖掘
2.1 核心网数据类型
在互联网技术不断普及与推广的过程中,传统语音模式的应用范围在逐渐缩小。随着5G 技术的不断普及和智能终端的飞速发展,近年来移动通信用户数量逐年递增,运营商通过对通信网络进行优化与改善,全面提升数据传输的速度。由此可以推断,运营商网络架构内部形成的数据信息会越来越多,也从侧面反映出电信行业进入真正的大数据时代。
根据不完全统计,一个中小城市每小时有将近100 万次移动电话呼叫记录,在整个数据访问量高达10 ~40 TB 的基础上,互联网每日点击数量可以达到上亿次。与此同时,运营商会通过特定模式对海量的数据信息进行综合收集,将其融合至运营商的各个网络节点,确保不会遗失大量有价值的数据信息,为后期运营商网络管理水平的提高创设诸多有利条件。
运营商数据的多元性与通信用户的基数有着密切的联系,移动通信用户一般都具有长期在线的特性,这从一定程度上促使运营商管理人员可以通过特定形式及时对用户位置信息进行分析,在全面摸清移动信息和实际行为规律的基础上,为后期用户通信行为信息管理工作的顺利进行夯实基础。
2.2 数据挖掘
在实际的数据挖掘过程中,应确定适宜的数据挖掘算法,相关人员应及时提取不同的数据源,得出有价值的用户行为信息。数据挖掘工作的基本流程包括收集整理数据、认知数据、数据变换和筛选、制定分析策略、创建和执行模型、分析和评估模型、模型调优以及预测报告和沟通等[3]。
在数据挖掘前,管理人员需要选择合理的挖掘目标,设定特定的应用场景达到现实目的,明确自身需求,掌握挖掘方向。与此同时,应高度重视数据信息的采集方式,在深刻了解不同数据信息的内容后,掌握相应的数据信息采集技巧。针对核心网数据,数据信息的多样性导致采集方法存在差异,大部分数据信息包含的时间颗粒度有所不同,会造成数据采集周期也存在差异。
只有经过全面的预处理,才能确保数据在采集后被全面挖掘。具体来讲,应及时对采集信息的异常点进行全面检测,并采用适当手段去除。受到外界客观环境因素的影响,大数据的采集会出现相应的偏差编码和记录错误等,在采集数据信息相对不准确的情况下,管理人员发现此类状况时应立即查找这些数据信息是纯粹错误还是存在部分异常点。如果错误数据相对较多,应立即去除,继而保留有价值的数据信息。除此之外,采用适当方式对采集的数据信息进行系统编码、缩放以及特征选择处理。例如,应整合相同类别的数据进行数值编码,在对数据按照特定比例进行放大或缩小处理后,根据不同类型的数据信息进行特征选择,通过完整的数据维度促使大规模的数据信息得到简化处理,为后期数据挖掘算法的顺利实施提供诸多有利条件[4]。
一个完整的核心数据挖掘基本流程主要包含需求整理、数据清洗、模型建立和实施、多维度分析以及参数调整等环节,相关人员掌握的经过迭代过程后获得的数据分析结果可能不适用于特定场景,需要由专业人员进行全面评估与调整,为二次挖掘工作奠定基础。
相关人员应全面掌握不同数据源的含义,了解与其他数据源的联系,确定合适的数据分析需求。对由用户侧、终端故障或个体行为导致的异常事件进行数据清洗,确保数据信息的真实性和完整性。紧密联系不同通信业务的实际需求,利用先进的计算机技术选择最佳的数据挖掘方法,统筹利用聚类、分类、关联以及拟合等数据挖掘手段,根据最后的数据挖掘算法特征拟建完整的数据挖掘模型。依托适当的数据挖掘工具,确保挖掘模型能够高效建立。数据挖掘人员应巧妙应用相关多维度关联、异常检测、分析预测以及TopN分析等挖掘方法,确定完整的挖掘结果。此外,及时进行参数分析与调整,在确保多维度数据挖掘结果正确的情况下,根据实际情况对挖掘算法进行优化与改进,一旦发现不当之处,就立即进行调整,并考虑对挖掘模型进行重新分析与设计[5]。
3 移动通信用户行为的数值模型及其应用
通信用户在没有建立完整的数据模型前,应采用适当手段对采集数据样本信息进行优化及整理。收集大量原始数据信息组成样本模型,使用聚类分析方法做好数据的预处理工作,确保原始数据操作的平均化。高度重视样本的权重问题,通过聚类分析方法对大量数据信息进行压缩处理。数据分析结果融入聚类样本中时会存在一定的差异性,如果不对聚类频数进行分析,极有可能造成大部分通信用户群体出现偏差,因此应统一按照相关权重方法促使样本能够实现点压缩。
面向用户行为建模,提前展开拟合分析。分析所得到的数值结果,并进行深度数据挖掘。数据挖掘人员应通过适当手段及时分析,并找出数据信息的内部联系,确定不同参数信息和系统参数信息的关联性后,获取完整的样本点变量值。在实际的分析过程中,获取完整的样本联系函数,从中还可以得出语音流量数量关系,促使拟合处理工作顺利进行[6]。
用户曲线的流量截距是用户分群的重要区分特征,对通信用户行为的分析工作具有重要影响。如果一个用户的基准流量较小,说明其未来具有较大的发展空间。就现实情况来看,国内大多数运营商都会采用套餐内产品加上超出部分收费的定价方式进行综合管理,在客户套餐相对较多的情况下,客户选择套餐时与自身的实际需求有着较大关联。随着社会的进步和互联网通信技术的普及与推广,用户大多选择使用流量来满足自身的实际需求,用户流量比重随之增加。以用户群重心点权值一致为前提,关注用户群分布趋势。所有用户群体中,中等基准流量用户群数量相对较多,高、低流量基准用户群的人数则相对较少。针对此现象,结合语音业务、数据业务以及总业务量,确定语音业务和数据业务占比,明确2 者的换算关系。采用等价值曲线,面向用户等级展开量化式分级,同时将用户业务总量作为用户价值级别的判断依据,了解用户实际价值贡献。
4 结 论
核心网数据挖掘下的移动通信用户行为涉及多个方面,在互联网技术不断推广与普及的过程中,相关通信管理部门应积极学习并引进先进的数据信息挖掘算法,适当投入建设资金,加大研发力度,在数据挖掘模型信息准确的情况下及时了解用户行为特征,促进通信领域的可持续发展。