在移动通信数据分析上孤立点检测的研究与应用
2016-10-13鲁琳
鲁 琳
在移动通信数据分析上孤立点检测的研究与应用
鲁 琳
中国联合网络通信有限公司广东分公司,广东 广州 510627
移动通信数据最为凸出的特点便是高维度及大规模,常规数据分析便具有一定的难度,而异常数据分析更为困难。因此,分析了孤立点检测在移动通信数据分析中的研究与应用,旨在指导实践,逐步提高分析的有效性与准确性。
移动通信;数据分析;孤立点检测
1 孤立点检测的概况
国外学者[1]指出,孤立点是与数据集中正常数据不同的数据,从聚类算法角度出发,孤立点为噪音数据。通常,它是由各异机制引起的,具有一定的现实意义。孤立点检测方法主要有两种,一种为基于距离检测法,主要是对数据对象间的距离进行计算,以此检测孤立点。对于任何数据对象而言,如果其周围邻居较少,则可视为孤立点范围,具体方法有基于索引、嵌套循环算法以及基于单元算法。上述检测法存在一定的不足,其均为0(kN2)复杂度,与数据维数k与数据模型N有一定的关系,未能满足大规模数据集分析需求,此外,该方法对用户有一定要求,需要提供参数d,但通常情况下,该参数确定难度较大。另一种为基于密度检测法,其弥补了基于距离检测法的不足,通过观察对象周围密度实现的,一旦数据对象周围存在较多的邻居,则非孤立点,而邻居不足时,则为孤立点,为了呈现各数据孤立程度,有关学者对孤立程度与周围邻居偏离程度进行了研究,二者保持着紧密联系,经研究提出了局部孤立因子算法,此外,经研究,逐渐提出了基于聚类、神经网络等方法[2]。
2 在移动通信数据分析上孤立点检测的研究与应用
2.1 基于划分检测法
根据移动通信数据特点,本文提出了基于划分检测法,此方法是对原始数据进行划分,借助剪枝策略,剪枝各划分中的非孤立点,随之形成候选孤立点集,再使用孤立点检测技术进行判断,经计算获得度量值,明确平衡隶属度,从而实现对异常信号数据点的检测。
2.2 孤立点检测
在实际分析中对候选孤立点距离进行计算,借助相应的距离函数计算公式,获得数据对象的基于距离的局部离群因子(LDOF)值,根据此数值的大小进行排序,同时充分利用平衡隶属度,经综合判断,以此明确是否为孤立点。
在距离函数方面,使用LDOF度量孤立点,通常,LDOF值越大,其越偏离邻居,其成为孤立点的可能性更大。以数据对象p为例,其LDOF公式为:
在实际应用中面对海量数据,所有数据集均要计算LDOF值,在此情况下,计算复杂度将明显增加,可达到0(N2),为了减少计算量,需要使用有效的方法,具体为:剪枝非孤立点对象,再计算候选孤立点,从而提高了计算效率,减少了用时。
在平衡隶属度方面,关于某一对象的隶属函数构造尚无统一性,实践中仅依赖经验,即便是同一概念,不同学者所建立的隶属函数各异,主要是因其切入点不同造成的,但对实际问题的处理效果基本一致。常见的方法如下:统计法、二元对比排序法或者专家评审法,待确定隶属函数后,可根据生活实践对其进行改进与完善。在分析移动通信数据过程中,隶属函数判断可依据信号平衡等级判断,并根据通信数据具体情况,利用模糊处理法,判断信号强弱,具体的公式如下:信号强度=下行电平-上行电平-参数X,经计算分析显示,平衡隶属度为0.8时为孤立,对其进行模糊处理,显示孤立点判断具有一定的准确性。
2.3 实验研究
为了证实孤立点检测法的实际价值,将其应用于移动通信数据分析,但其数据规模偏大,并且数据呈不均匀分布,从而增加了检测难度。实际研究中以偏离程度较大的数据为研究对象,根据数据特性,利用剪枝法,获得了与中心偏离,并且稀疏的数据,将其视为候选孤立点集,此后计算其LDOF值及平衡隶属度,并展开了专业分析,进而指导了实际应用,如:用户投诉问题处理、用户行为分析等。
2.3.1 选取数据
选取某移动通信网络公司为研究对象,经处理后,保证了数据集质量,随机抽取路测数据,其均与平均接受电平(RXLEV)有关,具体属性有两个,分别为上行链路与下行链路,参数取值为-110~-48 dBm,通信信号电平数值被映射到某个RXLEV值,具体范围为0~63,在非连续性发射环境下,RXLEV属性分别FULL与SUB两种,前者为测量所用载频所有时隙均值,后者为测量特定通话时隙均值,经调查发现,用户提交的报告中FULL缺少准确性。因此,本研究选用了SUB[4]。
2.3.2 分析结果
孤立点检测主要考虑检测时间、检测准确性,随机抽取6组数据,数量呈递增趋势,分别为10000,15000,30000,50000,75000与100000,其检测时间分别为90.43、17.454、25.743、40.432、52.463、78.354s,与传统检测法相比,孤立点检测时间明显缩短、检测效率大幅度提高,主要是因实验中使用剪枝策略,减少了计算量。此外实验中选取领域中的m个样本,经孤立点检测发现,5、8、10、13、15的准确率分别为0.67、0.79、0.87、0.86、0.86,此结果表明,m为10以后,准确率基本未变,因此,m确定为10。
3 总结
综上所述,移动通信数据分析中仅有少部分为信号异常数据,通过孤立点检测法展开挖掘分析,提升了检测水平,为管理决策奠定了坚持基础。日后实践中应大力推广孤立点检测法。
[1]张凯书,李志刚,吴慧芳,等.孤立点检测在移动通信数据分析上的研究与应用[J].信息系统工程,2014(11):38.
[2]林国华.时间序列分析法在移动通信数据分析中的研究与应用[D].广州:广东工业大学,2013.
Research and Application of outlier Detection in Mobile Communication Data Analysis
LuLin
China United Network Communications Limited Guangdong Branch, Guangdong Guangzhou 510627
The most protruding characteristics of mobile communication data is high dimension and large scale, conventional data analysis has a certain degree of difficulty, and abnormal data analysis more difficult. Therefore, this paper analyzes the research and application of outlier detection in mobile communication data analysis, to guide the practice, gradually improve the effectiveness and accuracy of analysis.
mobile communication; data analysis; outlier detection
TP311.13
A
1009-6434(2016)10-0016-02