基于叠加马尔可夫链的4G流量订购量分析与预测*
2017-08-31任小强夏耩吴光华管一霖
任小强,夏耩,吴光华,管一霖
(1 中国移动通信集团甘肃有限公司兰州分公司,兰州 730000; 2 成都理工大学,成都 610059)
基于叠加马尔可夫链的4G流量订购量分析与预测*
任小强1,2,夏耩2,吴光华1,管一霖1
(1 中国移动通信集团甘肃有限公司兰州分公司,兰州 730000; 2 成都理工大学,成都 610059)
针对马尔可夫链预测的局限性,本文提出了能够定量计算叠加4G流量订购量的马尔可夫链预测方法。以定西地区2月4G流量订购量进行状态分级,划分为滞销、偏滞销、一般、偏畅销和畅销,计算状态转移矩阵,将不同步长转移矩阵求得的预测值进行加权平均,并运用叠加马尔可夫链方法建立该地区4G流量订购量模型,分析拟合结果。结果表明,该模型的预测精度达到了87.99%,预测效果较好,为4G流量订购量的预测提供了一种方法。
叠加马尔科夫链;4G流量订购量;状态分级
通信运营商资费主要由话音资费、4G流量资费、数据业务资费3部分组成,4G流量业务是资费的组成部分之一。科学合理地预测4G流量订购量,既是合理安排促销人员的科学依据,又是制定方针政策的有效指导。然而由于多种条件因素的综合影响增加了4G流量订购量预测的复杂性,如人员流动、地理差异和时间变化等。常见的预测方法有线性拟合方法、插值法、函数逼近法、迭代法、解析法等方法,实际工作中,通常需要预测出未来某时段订购量的变化区间,进而预测某时段订购量的数值,而马尔科夫链模型比较适合预测波动比较大的随机动态过程,但是只能预测某个时期预测量处于某种状态的概率,预测结果是一个区间,预测效果较为模糊。针对马尔科夫链模型的局限性,分析叠加马尔科夫链模型在4G流量订购量中的应用,它能够充分利用已知信息,得到具体的预测结果,该方法应用较为广泛。
本文选取定西市2016年2月中国移动4G流量订购量作为研究对象,采用均值——方差设立分级标准,将其分为滞销、偏滞销、一般、偏畅销和畅销5种状态,并用叠加马尔科夫链预测方法对4G流量订购量进行预测,利用马尔科夫链的稳态分布求的每种状态分级出现的概率,为当地运营商提供分析和制定政策的科学依据。
1 定西市地区基本概况
定西市位于甘肃中部,距离兰州市98 km,截至2015年12月31日定西市管辖6县1区,包括安定区、通渭、陇西、渭源、临洮、漳县和岷县,常住人口297万,占地面积20 330 km2。主要以中国移动、中国电信和中国联通三大运营商为主,由于地处偏僻,加之交通较为不便,当地居民的平均收入水平较低,有些地区4G信号甚至还没有完全覆盖,仍然以传统的非智能机为主,所以这一地区的流量订购量相比其它地区较差,但是也呈现出一定的规律。以2016年2月4G流量订购量为原始序列,其变化曲线如图1所示。由图1可知,该地区4G订购量的变化区间为[4 000,120 000],在1-8日、26-29日高于平均水平,其它日期段的订购量低于平均水平,不过15日附近有个缓慢增减趋势。
图1 研究区2016年2月4G流量订购量变化曲线
2 4G流量订购量状态等级划分
定西市地区2016年2月4G流量订购量的原始序列的均值及均方差的无偏估计量由下式计算得出:
采用均值方差法将4G流量订购量序列进行分级,这里分为5种状态:分别为滞销、偏滞销、一般、偏畅销和畅销。因此,用均值方差法把该序列划分为5个区间,每个区间对应一个马尔科夫状态,4G流量订购量分级标准如表1所示。
依据表1中的分级标准对定西市地区2016年2月4G流量订购量进行分级,结果如表2所示。
表1 4G流量订购量分级标准
表2 研究地区2月4G流量订购量状态等级划分
3 叠加马尔可夫链模型预测
在建立马尔可夫链模型前,需要计算步长为1-4的状态转移矩阵,其中第k步状态转移矩阵中第i行,第j列的元素,表示由状态i经过第k步转移到状态j的概率,即
4G流量订购量的状态均值向量分量是其分级区间的上下限均值,第一个分量的下限是原始序列的最小值,最后一个分量的上限是原始序列的最大值,计算得到均值向量a={5 804、5 092、6 320、7 429、8 864}。根据2016年2月4G流量订购量序列及其相应步长的状态转移概率矩阵对2月26-29日的订购量进行预测,26日的4G流量订购量分级状态为3,距离3月的步长为4,就可以利用均值向量的转置与状态为3,步长为4的状态转移矩阵进行相乘,得到的预测值为6 162,与实际值的相对误差为0.030 9,依次类推,27-29日预测结果与相对误差如表3和图2所示。
表3 研究地区26-29号4G流量订购量预测结果
图2 研究地区26-29日4G流量订购量预测值与实际值
由叠加马尔可夫链对2月26-29日的4G流量订购量的预测结果来看,预测值总体偏小,其相对误差达到-0.243 4。其中一般状态等级下的误差较小,如26、27日。偏畅销状态等级下的误差较大,如28日。畅销状态等级下的误差也较大,如29日。在上述预测的基础上,用叠加马尔可夫链对2016年研究地区3月的4G流量订购量进行预测,结果如表4和图3所示。对表4中的相对误差进行平均,得到0.120 1,则叠加马尔科夫链的预测精度为0.879 9,预测效果较好。
表4 研究地区3月4G流量订购量预测结果
设稳态分布的概率为P=(π1,π2,π3,π4,π5),由于2步状态转移概率矩阵与其它的状态转移概率矩阵都有联系,这里选择2步长状态转移概率矩阵求其4G流量订购量的马尔科夫链模型的平稳分布,即
代入2步状态转移概率矩阵得
解以上方程组,得到π1,π2,π3,π4,π5的值分别为0.144 6、0.204 5、0.431 4、0.128 6和0.090 9。这说明,研究地区的4G流量订购量的变化过程,在很多次状态转移以后,该商品处于滞销、偏滞销、一般、偏畅销和畅销出现的概率分别为0.144 6、0.204 5、0.431 4、0.128 6和0.090 9。
图3 研究3月4G流量订购量预测值与实际值
4 结论
(1)叠加马尔可夫链预测方法克服了马尔可夫链预测方法不能给出具体预测值的缺陷,利用已知4G流量订购量数据信息,对未来4G流量订购量进行预测,为运营商制定政策和安排促销人员等提供了科学依据。
(2)马尔可夫链的状态转移概率矩阵的元素都是某一状态下的事件发生的概率,需要较多的资料数据才能进行较为合理的预测。本文采用研究地区29天的4G流量订购量作为原始数据序列,这种情况下的频率可以近似于概率,从而使马尔可夫链模型对4G流量订购量预测提供了科学依据,预测精度达到0.8799,说明该方法改进了马尔可夫链预测方法,其预测精度更高。
(3)利用马尔可夫链中的遍历性定理,计算出研究地区的稳态分布概率,得出研究地区4G流量订购量处于滞销、偏滞销、一般、偏畅销和畅销出现的概率分别为0.1446、0.2045、0.4314、0.1286和0.0909。
(4)这里选取2016年2月定西市地区数据,运用叠加马尔可夫链预测4G流量订购量的变化趋势,由于样本量较少,加上时间影响,使其预测值与实际值的相对误差较大,下一步的主要工作就是利用大数据和快数据的特点,并结合叠加马尔可夫链方法对研究地区的4G流量订购量进行分析与预测,使预测的相对误差更小。
[1] 裘俊红, 郭天民. 若干数据线性拟合方法分析[J]. 中国石油大学学报:自然科学版, 1996(6):121-125.
[2] 涂俐兰, 黄丹. 插值法在数据修正中的应用[J]. 数学理论与应用, 2012(3):110-116.
[3] 吴方应. 可靠性计算中失效区线性逼近的最小割集模型研究及验证[D]. 合肥:合肥工业大学, 2015.
[4] 楚敬龙. 解析法在山区地下水环境影响评价中的应用[J]. 有色金属:矿山部分, 2011, 63(5):71-74.
[5] 张聪聪, 陈效民, 陈旭, 等. 基于马尔可夫链的太湖流域典型地区年降水量分析与预测[J]. 水土保持通报, 2015, 35(1).
[6] 廖普明. 基于马尔科夫链状态转移概率矩阵的商品市场状态预测[J]. 统计与决策, 2015(2):97-99.
[7] 张有存. 马尔可夫链在韶关市年降水量预测中的应用[J]. 韶关学院学报, 2015(4):4-7.
Analysis and prediction of 4G data traffic order based on superimposed markov chain
REN Xiao-qiang1,2, XIA Jiang2, WU Guang-hua1, GUAN Yi-lin1
(1 China Mobile Group Gansu Co., Ltd. Lanzhou Branch, Lanzhou 730000, China; 2 Chengdu University of Technology, Chengdu 610059, China)
Aiming at the limitation of Markov chain prediction, a Markov chain forecasting method is proposed to calculate and superpose the order amount of the 4G roaming data quantitatively. In the Dingxi prefecture’s order amount of the 4G roaming data in february for example, it is classified by status, which includes five parts, the unsalable, the partial unsalable, the general, the popular and the bestselling. The model of the region’s 4G roaming data ordering amount is established by using the additive Markov chain method, through weighted averages of the predicted value obtained by the different step transfer matrix. Last but not least, the results show that the prediction accuracy of the model is up to 87.99%, and the prediction effect is good, which provides a method for the prediction of 4G traffic order quantity.
superimposed Markov chain; business dealing of 4G data traffic; status classification
TP391.1
A
1008-5599(2017)08-0082-04
2017-03-04
2016年国家级大学生创新创业训练计划项目(201610616091)和2016四川省科技创新苗子工程(2016138)。