APP下载

基于MIC的江苏省邮电业务数据分析应用

2018-08-03郝诗佳

江苏通信 2018年2期
关键词:电信业务互信息业务收入

郝诗佳

中通服咨询设计研究院有限公司

0 引言

当今社会,人类活动产生的各种痕迹生成数据,通过不同渠道源源不断地积累和记载于数据库中。随着大数据在当今科学研究领域乃至社会的关注度与日俱增,人们对其理解不再仅限于数据本身的价值,而是更加关注数据背后呈现的关联性,这就需要数据分析,构建数据模型等相关技术手段来实现。

邮电业务是邮政和电信部门为社会各行各业和人民群众提供各种产品和服务的总称。其设施和网络遍布城乡、联通各地,是与经济发展和社会生活密切相关的基础设施。对于地域经济发展而言,邮电业务主要用于满足地区内个体及社会团体对各种信息的分享与交流需求,是必不可少的一个部门。因此在社会发展的过程当中,人与人之间的关系越密切,研究邮电业务的作用和意义就越深远。本文基于2011~2015年江苏省全省及各地市的邮电业务基础情况数据,运用基于最大信息系数MIC的数据模型分析邮电业务数据内部两两指标之间的关系,并提出相关决策的理论依据。

1 数据收集与模型选择

1.1 数据收集

经过邮政局和电信局受理承办的各种业务,统统称为邮电业务,其中包括邮政、电信、互联网等相关业务。本文选取江苏省2016年统计年鉴中的邮电业务部分作为数据来源,该数据集中包含全省及13个地市关于邮政行业业务、电信业务总量及收入和快递、长途电话、移动短信、长途光缆线路长度等35个指标,此数据样本的时间跨度为2011~2015年。

该数据集属性多样,数据真实可靠,具有一定的可信度和研究价值。

1.2 模型选择

(1)Pearson相关系数

Pearson相关系数(Pearson correlation coefficient) 也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反映两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。

皮尔森相关系数计算公式如下:

(2)互信息

互信息是信息论里一种有效的信息度量,它可以看成是一个随机变量中包含另一个随机变量的相关信息量,或者说是一个随机变量由另一个已知随机变量而影响其自身的不稳定性。互信息的定义是,设两个随机变量 (X,Y)的联合分布为p(x,y),边际分布分别为 p(x),p(y) ,因此互信息I(X;Y)作为联合分布p(x,y)与乘积分布p(x),p(y)的相对熵,即:

(3)最大信息系数 MIC(Maximal Information Coef fi cient)

利用Pearson相关系数或者Spearman相关系数等可以有效地度量数据的线性相关性,甚至可以通过回归分析确定线性关系和简单非线性关系的数学公式。然而由于自然规律的复杂性,现实世界中的数据之间即使有较强的相关关系,绝大多数也是非线性的而且无法用简单的数学公式表达。为了度量数据间非线性相关性的强弱,科学家们提出了基于阀值相关、相位同步相关、距离相关、互信息等的度量方法。

最大信息系数(The Maximal Information Coef fi cient,MIC)是在互信息的基础上发展起来的,MIC方法能快速通过给不同类型的关联关系进行评估,从而发现广泛范围的关系类型。MIC可以检测各种类型的函数关系,比如。当存在f使得Y=f(X)时,MIC(X,Y)=1;如果X与Y相互独立时,那么MIC(X,Y)=0。

MIC与相关系数相比有以下两个优点:

1、MIC稳健性,即MIC不受异常值的影响,然而相关系数易受异常值的影响。

2、MIC普适性,可以检测出相关系数无法识别的函数关系。

因此,本文将用MIC作为数据关联性的主要衡量标准。

2 模型对比与优化

本节根据上文介绍的Pearson相关系数、最大信息系数MIC模型进行对比,论证MIC作为数据特征度量的优越性。并在此基础上,结合两个相关系数,设计一种基于MIC的优化模型用于分析邮电业务数据。

2.1 模型对比

首先,为了验证MIC作为相关度量的优越性,本文采用Pearson相关系数作为参考指标进行比较分析,运用数据测试工具生成不同函数图。其中一个关键性问题是如何运用相应的程序评估捕捉完整的线性与非线性相关依赖。然而,如何检测非线性信息依赖是一个问题挑战,特别是处于噪声的数据具有可用性时。因此,第二个关键问题是如何使用评估技术检测非线性的可靠有用的数据。同时,也需要一个明确的测量方法去度量噪声中可靠健壮的数据来确定数据间的非线性关系。

模型对比所运用到的函数分别有:线性直线,三角函数,椭圆等;测试样本容量为1000;置协方差系数分别为:1.0,0.8,0.4,0.0.-0.4,-0.8,-1.0。实验结果如图1、图2和图3所示:

图1 直线加噪旋转测试MIC、Pearson相关系数

表1 图1的MIC和Pearson相关系数实验结果(n为噪声r为旋转)

图1是表明在线性函数上进行噪声处理,对其相关性度量会有多大影响。因为在实际大型数据集中,数据是分散而无序的。而面对0.2比例的加噪,Pearson相关系数比MIC仍有较好的测量;但当噪声比例加到1时,Pearson相关系数已无法检测其相关性,此时的MIC值仍有0.1。这就说明,面对噪声极大的函数,无论其是否是相关函数,MIC的度量比pearson相关系数更可靠。

图2 线性直线旋转测试MIC、Pearson相关系数

表2 图2的MIC和Pearson相关系数实验结果

根据图2、表3对比可知,面对线性相关的函数,MIC没有Pearson相关系数准确;但是作为互相关度量,两个事件的互信息是对称,即MIC(X,Y)=MIC(Y,X),所以函数的旋转对于MIC没有影响,而Pearson相关系数则会出现负值。这对于数据关联性的测量具有较好的呈现,即在对比分析时,无需考虑正负差异和主因变因交换是否会影响分析结果。

图3 其他函数加噪测试MIC、Pearson相关系数

表3 图3的MIC和Pearson相关系数实验结果

图3则是在非线性加噪函数模型上的相关性测量,MIC在面对加噪非线性相关函数呈现较好的度量,并且根据函数的线性关系数值增大或减小,如三角函数和椭圆就明显比其余图像的值更大。而Pearson相关系数则是全部为0。由此可见,对于非线性度量,MIC也有很好的测量性。所以MIC相对于以Pearson相关系数为代表的线性相关性度量更适合面对大型非线性数据集的数据分析。

2.2 模型优化

因为最大信息系数MIC作为互信息基础上发展出来的相关系数,其本质仍然是测量两个随机变量之间的线性相关程度。对于非线性相关,最大信息系数MIC并没有非常好的表现。因此本文根据最大信息系数定义,结合皮尔森积差相关系数,用于测试数据之间的非线性相关,其公式为:

非线性相关系数= MIC(X,Y)-ρ^2 (X,Y)

其中:ρ(X,Y)为皮尔森积差相关系数,且当MIC(X,Y)-ρ^2(X,Y)>0时,两个变量间存在非线性关系。

3 应用分析

根据前文的方法进行特征度量并建立模型。首先,从江苏省2016年鉴中选取邮电业务作数据集,将数据集中的邮电业务总量与邮电业务收入两个指标设为自变量,其他指标作应变量,输出其MIC与MIC-ρ^2模型结果。然后,对两项指标的MIC与MIC-ρ^2 值进行比较,筛选出相关数据。最后,对结果进行讨论以了解观察到的差异,并针对改进的方法提出了一些见解。

将与邮电业务总量MIC值最高的前14项指标以表格的形式将其MIC和MIC-ρ^2值列出,如表4所示:

表4 邮电业务总量(亿元)相关因素表

由表4可看出,MIC值分为0.99572和0.67713两个档,其中电信业务总量、电信业务收入、年末固定电话用户、年末移动电话用户和固定宽带接入用户是MIC值最高的5项。这说明该5项与邮电业务总量具有极大相关性,而针对这5项的MIC-ρ^2值进行排序分析,可看出年末固定电话用户与年末移动电话用户这两项指标是具有较大的非线性相关,也就是数据之间内部潜在的关联性较高。由此,可得出推论:对于邮电业务总量,电信业务与其相关性极高,说明电信业务的增长能带动邮电业务总量的增长;其中,固定电话用户与移动电话用户是最能刺激邮电业务总量的两项指标,如果能对这两项数据进行有效提升,可大幅提高邮电业务总量。

将与邮电业务收入MIC值最高的前14项指标以表格的形式将其MIC和MIC-ρ^2值列出,如表5所示:

表5 邮电业务收入(亿元)相关因素表

同理分析表5,可看出MIC值主要分为0.99572、0.67713、0.49647和0.31781四个值,其中邮政行业业务收入、快递是MIC值最高的2项,并且MIC-ρ^2值皆为正。这说明该2项与邮电业务收入具有数据内部之间的极大相关性。而电信业务收入与邮政行业业务收入相比,无论是MIC值还是MIC-ρ^2值都没有后者高,同理分析剩下的11项指标,由此可以得出推论:对于邮电业务收入,邮政行业业务收入,特别是快递业务对其影响远高于其他指标。如果能加大快递业务的扩展,提高快递业务的规模,对邮电行业业务收入会有明显的提高。

综合邮电业务总量与邮电业务收入两项相关因素表,不难看出,电信业务占邮电业务总量的主体,对邮电业务具有极大相关性的影响;但在邮电业务收入方面,邮政行业业务特别是快递业务对邮电业务收入的影响巨大。因此针对邮电业务收入,可以着重发展快递业务,从而有效保证邮电业务收入指标的提升;并同时对电信业务进行维持与扩展,从而保证邮电业务总量的稳步增长。

4 结论

本文基于最大信息系数MIC的模型设计了一个优化模型,并根据这两个模型对江苏省近5年来的邮电业务进行了分析应用,提出了关于邮电业务总量与邮电业务收入的相关建议。首先,列举类比了线性相关Pearson相关系数与最大信息系数MIC;然后根据MIC设计了一个数据内部间非线性相关的度量模型MIC-ρ^2;最后选取江苏省2016年统计年鉴中邮电业务的数据,以MIC和MIC-ρ^2为相关性度量,提取特征值。分析研究结果显示,邮电业务总量主要影响在于电信业务,而邮电业务收入则主要影响在于邮政行业业务收入,特别是快递业务。

基于MIC的新优化模型更有利于用户在数据分析的同时,发现数据内部之间的非线性相关性,这样更有助于邮电业务从业者对关键影响因素指标进行分析定位。例如,邮电业务总量中,固定电话用户与移动电话用户的MIC值一样,此时就需要运用MIC-ρ^2。通过对比得到:移动电话用户相较于固定电话用户对邮电业务总量有更大的影响,从而帮助邮电业务从业者针对相关指标作出更好的分析决策。

猜你喜欢

电信业务互信息业务收入
软件业:加速增长、加速转型
1—11月移动互联网累计流量同比增长35,1%
电信业务总量保持高位增长
基于改进互信息和邻接熵的微博新词发现方法
对身份不明用户不得提供服务工信部规范电信服务协议
基于互信息的贝叶斯网络结构学习
一种利用点特征和互信息的多源遥感影像配准方法
基于增量式互信息的图像快速匹配方法
SQL语言在电信业务数据库数据查询中的应用