APP下载

基于数据挖掘和地理可视化的4G/5G语音质量优化研究

2022-11-07胡坚孙磊尹以雁杨晓康白金贵张叶江

电信科学 2022年10期
关键词:劣化门限决策树

胡坚,孙磊,尹以雁,杨晓康,白金贵,张叶江

研究与开发

基于数据挖掘和地理可视化的4G/5G语音质量优化研究

胡坚1,孙磊1,尹以雁1,杨晓康1,白金贵2,张叶江1

(1. 中国移动通信集团云南有限公司,云南 昆明 650041;2. 上海诺基亚贝尔股份有限公司,上海 201206)

传统语音质量优化依赖于现场测试、案例积累和专家经验,以人工试验的方式分析问题,成本高昂且效率低下。通过应用数据挖掘、决策树机器学习算法以及地理可视化等多种技术,开发了基于大数据分析的语音体验优化可视化平台,可有效识别语音大数据中的规律,实现用户语音体验指标与无线网络性能指标关联分析、劣化门限智能识别以及质差区域画像分析等功能,有利于降低网络工程师技能门槛、提升网络优化工作效率、节省网络运维成本,为行业提供精准有效的语音体验提升解决方案。

数据挖掘;地理可视化;决策树;语音体验;皮尔森相关系数

0 引言

语音业务是运营商向用户提供的基础通信服务,用户语音通话体验问题将直接影响运营商的服务口碑和形象。随着4G/5G在国内的商用部署,运营商面临电路域回落(circuit switched fall back,CSFB)、长期演进语音承载(voice over long-term evolution,VoLTE)、演进分组系统回落(evolved packet system fall back,EPSFB)、新空口承载语音(voice over new radio,VoNR)等多种语音业务共存的局面,语音体验问题分析呈现数据海量化、问题根因端到端定位复杂等特点[1-3]。传统语音体验提升依赖于现场测试、案例积累和专家经验,以人工试验的方式分析问题、发现规律,不仅成本高昂,而且效率低下。如何在海量的语音数据中快速、精准地挖掘出其中蕴含的客观规律和有用信息,将语音大数据转换为网络优化工作的重要助力,成为网络优化中的一项重要课题。

在此背景下,通过应用数据挖掘、决策树机器学习算法以及地理可视化等多种技术,开发了基于大数据分析的语音体验优化可视化平台,可以有效识别语音大数据中的规律,实现用户语音体验关键质量指标(key quality indicator,KQI)与无线网络关键性能指标(key performance indicator,KPI)的关联性分析、KPI劣化门限智能识别以及质差区域画像分析,传统优化方法和数据挖掘新思路流程如图1所示,为语音体验优化人工智能化转型提供了落地方法和路径[4-6]。

1 语音体验问题数据挖掘

4G/5G语音类型的KQI包含无法接通、掉话和通话过程中的吞字、断续和单通等指标,它能直观反映用户语音体验问题,但这些问题背后的网络原因非常复杂[7-8]。为了挖掘语音体验问题背后的网络质量原因,需要对用户语音体验KQI和无线网络KPI两类指标进行相关性分析,找出相关性较大的一系列KPI,并应用基于决策树的机器学习算法从海量数据中进行数据挖掘,精准识别引发语音体验劣化的KPI及门限,最终确定问题的根因,从而提出有效的解决方案[9]。

图1 传统优化方法和数据挖掘新思路流程

1.1 用户语音体验KQI与无线网络KPI相关性

基于相关性算法分析语音体验KQI与无线网络KPI之间的相关性,可以找出与语音体验问题关联性较大的一系列KPI,并借助Python语言的bokeh库模块可视化呈现两者之间的相关性散点矩阵,从而理顺用户语音体验KQI与无线网络KPI之间的逻辑关系。用户语音体验KQI与无线网络KPI的相关性大小可以选择Pearson相关系数(Pearson correlation coefficient)判断[10]。Pearson相关系数用来衡量两个数据集合是否在一条线上,衡量定距变量间的线性相关关系,其绝对值越大,相关性越强:相关系数越接近于1或−1,相关性越强;相关系数越接近于0,相关性越弱[11-12],其计算式如式(1)所示。

语音体验KQI与无线网络KPI间关系的复杂性,导致单纯用Pearson相关系数难以衡量非线性相关关系,因此需要引入互信息算法进行相关性算法补充。互信息算法可用于判断分类型数字之间的相关性,它可以看作一个随机变量中包含的关于另一个随机变量的信息量,或者说一个随机变量由于已知另一个随机变量而减少的不肯定性。假设两个随机变量(x, y)的联合分布为p(x, y),边缘分布为p(x)、p(y),互信息I(X; Y)是联合分布p(x, y)与边缘分布p(x)、p(y)的相对熵,其计算式如式(2)所示。

注:图中用方框圈定的区域表示吞字、断续和单通KQI和KPI之间的相关性矩阵,数字表示两者之间的相关性系数。

以VoLTE语音用户出现的吞字、断续和单通等问题为例进行相关性计算并绘图,可视化展示吞字、断续和单通等KQI与KPI之间的相关性矩阵,相关性分析及可视化呈现视图如图2所示,结论如下。

●小区语音吞字分片数与以下KPI相关:平均抖动、实时传输控制协议(real-time transport control protocol,RTCP)平均时延、寻呼平均时延、异系统重定向次数、平均上行发射功率余量、平均上行丢包率和平均上行信噪比。

●小区语音断续分片数与以下KPI相关:平均抖动、寻呼平均时延、异系统重定向次数和平均上行发射功率余量。

●小区语音单通分片数与以下KPI相关:跟踪区更新平均时延、寻呼平均时延、平均参考信号接收电平、平均参考信号接收质量和平均上行信噪比。

1.2 决策树模型与劣化门限判决及场景画像

利用相关性分析算法分析语音体验KQI与无线网络KPI之间的相关性,找出与语音体验问题关联性较大的一系列KPI之后,再基于决策树的机器学习算法从海量数量中精准识别出引发语音体验劣化的KPI及相应门限,才能定位影响语音体验问题的主要根因。决策树算法逐级对不同分类的数据(如语音体验好或者不好)进行条件判断,将两个分类区分出来[13]。决策树算法用于生成判断的规则,如某指标门限应该大于多少或者小于多少。完成分类后的模型中,每个叶节点代表分类中的一个细分场景。这些细分场景的判断条件组合,可用于预测一组数据属于哪种分类、一个细分场景的画像及设置指标的劣化门限。决策树算法智能识别实现原理如图3所示。

图3 决策树算法智能识别实现原理

注:图中字母B、G、W分别表示黑色、灰色、白色样本,、代表横、纵坐标取值。

基于决策树模型进行规则挖掘,将决策树中质差小区高识别率叶节点所包含的不同条件组合起来,可以形成语音体验差的细分场景画像,并精准识别导致语音体验质差的KPI劣化门限,决策树模型可视化视图如图4所示。

图4 决策树模型可视化视图

注:paging_latency为寻呼时延,tau_latency_avg为位置更新平均时延,avg_received_power为平均接收电平,字母为符合叶节点条件的样本个数。

例如,定义平均意见得分(mean opinion score,MOS)<3.5为VoLTE语音质差小区,则质差小区占比为9.40%。经过决策树算法识别的质差细分场景和KPI劣化门限,置信度可提升至83.85%,准确率提升8.92倍。在细分场景5种劣化门限识别方面,平均接收信号强度识别为−114.63 dB,与传统“一刀切”方式定义的−110 dB弱覆盖门限相比,精确度更高。在场景画像方面,当TAU时延大于127 ms、寻呼时延为3.46~6.22 s时,语音体验劣化概率显著提高,从而较精准地刻画出导致语音问题的场景,语音体验劣化门限识别/细分场景画像如图5所示。

基于决策树模型的规则挖掘可实现语音体验问题的提前预判,提高语音体验问题分析的精准性。和以往凭经验分析的体验劣化门限相比,通过决策树的机器学习算法识别出导致语音体验质差的KPI劣化门限准确度更高,降低了全网语音体验类工单量的46.38%,有效提升了语音体验优化工作的生产效率。

2 质差区域地理可视化呈现

无线网络优化工作中普遍存在渲染、打点、多边形、劣化点聚类等地理数据可视化管理需求。当前业界主流解决方案是采用国外Mapinfo软件,但该软件费用高昂,且存在技术受限的风险[14]。通过在线自定义的地理可视化和具有噪声的基于密度的聚类方法(density-based spatial clustering of application with noise,DBSCAN)[15],在地理上可以智能识别语音体验差的汇集区域,让优化人员直观获取语音问题发生的区域,实现问题的快速分析和解决。

图5 语音体验劣化门限识别/细分场景画像

2.1 在线自定义地理可视化

在语音体验分析系统的应用数据库GreenPlum上部署地理可视化数据模型,供地理可视化引擎GeoServer调用,实现可在线自定义的专题地图,替代Mapinfo软件最常用的专题地图功能,避免了日常工作中将数据导出再作图的情况,可使工作效率提升90%以上。在线自定义+地理可视化技术流程如图6所示,在系统界面配置渲染参数后,通过程序将参数写入数据库,根据参数自动生成XML文件,并通过标准接口将配置文件上传地理可视化引擎,页面调用后可生成渲染图进行地理化呈现。

2.2 基于DBSCAN算法的语音体验差点聚类簇画像

DBSCAN算法是一种典型的基于密度的聚类方法,可用于识别基于密度连贯的不规则形状聚类簇,适用于发现体验差点的聚类簇。它将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪声的空间数据集中发现任意形状的簇[16]。DBSCAN算法中有两个重要参数:邻域半径和最少点数目minpoints。是定义密度时的邻域半径,minpoints为定义核心点时的阈值。当邻域半径内点的个数大于最少点数目minpoints时,就是一个聚类簇。DBSCAN算法原理如图7所示。

图6 在线自定义+地理可视化技术流程

本文以VoLTE语音体验黑点聚类的实现方案为例,通过在线自定义密度聚类参数、DBSCAN算法生成连续聚类簇、聚类簇地理可视化等步骤,可以完成聚类簇识别和地理可视化过程,指导优化人员快速识别语音问题聚集区域,由被动应对投诉转变为主动定点优化。

3 语音体验大数据分析系统

本文通过应用数据挖掘、决策树机器学习算法和地理可视化技术,开发了语音体验优化可视化平台,可实现海量语音数据挖掘分析。平台基于Hadoop+数据库+应用组件的大数据IT架构进行搭建,将数据挖掘算法集成到开源的ThriftServer组件,对外提供标准接口,供应用层进行数据挖掘和数据可视化类应用的调用。根据需要还可以利用该架构扩展更多种类的机器学习数据挖掘算法,实现更加丰富的生产应用。

图7 DBSCAN算法原理

语音体验优化可视化平台系统架构如图8所示,从下至上分为Hadoop数据存储、数据库GreenPlum、应用以及用户界面4层架构。在底层架构中,Hadoop实现上线数据的存储和处理,通过标准数据接口,将结果存储于应用数据库GreenPlum中。通过在应用数据库GreenPlum上部署新的地理可视化数据模型,供地理可视化应用GeoServer调用,实现在线自定义的专题地图类型地理可视化,可替代Mapinfo最常用的专题地图功能,实现在线自定义密度聚类挖掘与可视化,用于语音体验黑点的聚类簇发现[17-18]。

图8 语音体验优化可视化平台系统架构

第3层架构中还插入开源ThriftServer作为数据挖掘应用服务,集成numpy、pandas、scikit_ learn、matplotlib、py_echart、bokeh、graphviz、dtreeviz等数据挖掘组件,用于数据挖掘建模和预测。数据挖掘应用ThriftServer与应用数据库GreenPlum进行数据挖掘数据流交互,数据挖掘结果存储于GreenPlum,供应用调用。用户访问用户界面时,页面应用Tomcat通过通用应用数据流与应用数据库GreenPlum进行交互。

该系统架构依托开源软件进行集成开发,不依赖于任何需要商业授权的软件,产品自主度高。基于该套系统架构开发了语音体验优化可视化平台,实现了KQI/KPI相关性分析、语音体验劣化门限识别、体验劣化区域画像和地理数据的在线可视化等一系列功能,具有较强的实用性和创新性。其中,平台KQI、KPI相关性分析功能,主要通过语音吞字、单通、断续等KQI问题与网络质量KPI进行相关性计算,绘制相关性散点矩阵(如图2所示),识别与KQI关联性较大的一系列KPI,即高相关性的KPI;平台语音体验劣化门限识别功能负责高相关性KPI的劣化门限挖掘,主要通过决策树模型进行规则挖掘,将决策树中质差小区高识别率叶节点所包含的不同条件组合起来,可以形成语音体验质差的细分场景画像,从而识别导致语音体验质差的高相关性KPI劣化门限(如图5所示);平台体验劣化区域画像和地理数据的在线可视化功能,主要通过在线自定义密度聚类参数、DBSCAN算法生成连续聚类簇、聚类簇地理可视化等步骤,实现聚类簇的地理可视化视图。

4 语音体验优化可视化平台应用成效

基于大数据分析的语音体验优化可视化平台自全网应用以来,累计发现并解决问题点42 453个。省内用户调查数据表明,用户语音体验得到较明显改善,语音满意度评分从87.65提升至88.76,语音领先度评分从2.08提升至3.16。与此同时,该平台还显著提升了语音体验提升工作的工作效率,有效降低了企业生产成本。在工作效率提升方面,平台KQI和KPI相关性分析和语音体验劣化门限识别等功能使问题发现时长从5 h缩短到0.1 h以内,地理可视化功能使问题解决天数从2天降到1.3天;在生产成本降低方面,高端优化人员数量从50人减少到30人,低端优化人员数量从200人减少到150人,地图渲染工具从70套降到20套,每月派发质差问题工单从8 790件降到4 713件,每年可为企业节省成本约431.39万元。语音体验优化可视化平台效益提升参数见表1。

表1 语音体验优化可视化平台效益提升参数

5 结束语

本文通过运用语音体验问题的数据挖掘和地理可视化技术,从大数据中挖掘知识和规律,并提供了基于Hadoop+数据库+应用组件的大数据IT系统架构的解决方案,实现了KQI/KPI相关性分析、语音体验劣化门限智能识别和体验劣化区域画像,提升了工作效率,大幅节省了运营商的成本开支,具有较强的实用性和创新性。该套技术方案的设计理念不仅适用于语音体验类问题的精准分析和处理,也适用于上网体验等其他类复杂问题的分析和预判。

[1] 李宏佳, 王利明, 徐震, 等. 5G安全: 通信与计算融合演进中的需求分析与架构设计[J]. 信息安全学报, 2018, 3(5): 1-14.

LI H J, WANG L M, XU Z, et al. 5G security: requirements analysis and architecture design towards CT and IT convergent evolution[J]. Journal of Cyber Security, 2018, 3(5): 1-14.

[2] 李贝, 刘光海, 肖天, 等. VoNR语音解决方案应用研究[J]. 电信科学, 2022, 38(5): 149-157.

LI B, LIU G H, XIAO T, et al. Research on VoNR solution application[J]. Telecommunications Science, 2022, 38(5): 149-157.

[3] 覃思旺, 雷梦丹, 赵志民. 5G初期语音业务方案与优化策略[J]. 广西通信技术, 2019(3): 25-28.

QIN S W, LEI M D, ZHAO Z M. Voice service scheme and optimization strategy in 5G initialstage[J]. Guangxi Communication Technology, 2019(3): 25-28.

[4] 黄冰柏, 程佳鸣, 林永兴, 等. 提升VoLTE客户感知的优化分析方法浅析[J]. 移动通信, 2016, 40(6): 25-29.

HUANG B B, CHENG J M, LIN Y X, et al. VoLTE customer perception improvement and optimization method analysis[J]. Mobile Communications, 2016, 40(6): 25-29.

[5] 屈军锁, 唐晨雪, 蔡星, 等. 人工智能与通信网络融合趋势[J]. 西安邮电大学学报, 2021, 26(5): 15-26.

QU J S, TANG C X, CAI X, et al. Integration trend of AI and communication network[J]. Journal of Xi'an University of Posts and Telecommunications, 2021, 26(5): 15-26.

[6] 刘通. 移动互联网端到端客户感知评估与问题分析思路探讨[J]. 移动通信, 2016, 40(11): 64-72.

LIU T. Discussion on end to end customer perception evaluation and problem analysis methodsfor mobile Internet[J]. Mobile Communications, 2016, 40(11): 64-72.

[7] 吕军. 中国电信FDD 4G VoLTE语音感知MOS质量问题分析和优化提升的研究[J]. 数据通信, 2020(5): 1-9.

LYU J. Analysis and optimization of MOS quality of FDD 4G VoLTE voice perception in China Telecom[J]. Data Communications, 2020(5): 1-9.

[8] 伏玉笋. 移动通信网络评价准则与解决方案[J]. 电信科学, 2020, 36(11): 28-38.

FU Y S. Evaluation criteria and solution of mobile communication network[J]. Telecommunications Science, 2020, 36(11): 28-38.

[9] 黄毅华, 孙柳益, 卢洪涛, 等. 用户感知体系优化的探讨及应用[J]. 移动通信, 2018, 42(4): 90-96.

HUANG Y H, SUN L Y, LU H T, et al. Discussion and application of user experience system optimization[J]. Mobile Communications, 2018, 42(4): 90-96.

[10] 陈森, 陈超, 张小勇, 等. 基于大数据分析的移动互联网用户感知评估系统[J]. 电信科学, 2015, 31(4): 154-161.

CHEN S, CHEN C, ZHANG X Y, et al. Evaluation system of mobile Internet user experience based on big data analysis[J]. Telecommunications Science, 2015, 31(4): 154-161.

[11] 杨燕. 浅析移动通信网络中的QoE[J]. 电信科学, 2007, 23(8): 34-38.

YANG Y. Simple analysis of QoE in mobile communication network[J]. Telecommunications Science, 2007, 23(8): 34-38.

[12] 李强, 金陈潇帅, 许一骅. 浅谈自动语音识别测评指标字错率和句错率的应用[J]. 现代传输, 2020(1): 61-64.

LI Q, JIN C X S, XU Y H. Brief talk on the application of word error rate and sentence error rate of automatic speech recognition evaluation index [J]. Modern Transmission, 2020(1): 61-64.

[13] 李莉. 统计学原理与应用[M]. 南京: 南京大学出版社, 2019.

LI L. Principles and applications of statistics[M]. Nanjing: Nanjing University Press, 2019

[14] 刘宝锺. 大数据分类模型和算法研究[M]. 昆明: 云南大学出版社, 2020.

LIU B Z. Research on big data classification model and algorithm[M]. Kunming: Yunnan University Press, 2020.

[15] 孙韶辉, 戴翠琴, 徐晖, 等. 面向6G的星地融合一体化组网研究[J]. 重庆邮电大学学报(自然科学版), 2021, 33(6): 891-901.

SUN S H, DAI C Q, XU H, et al. Survey on satellite-terrestrial integration networking towards 6G[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2021, 33(6): 891-901.

[16] 刘璐, 陈睿杰, 李嘉. 基于MDT重叠覆盖度数据的KNN-DBSCAN参数自适应调优研究[J]. 电信科学, 2022, 38(2): 119-129.

LIU L, CHEN R J, LI J. Research on adaptive optimization of KNN-DBSCAN parameters based on MDT overlapping coverage data[J]. Telecommunications Science, 2022, 38(2): 119-129.

[17] 朱懿, 邵柱. 部署Greenplum数据库[J]. 网络安全和信息化, 2019(10): 81-83.

ZHU Y, SHAO Z. Deploy the Greenplum database [J]. Security & Informatization, 2019(10): 81-83.

[18] 余彪. 基于数据挖掘的Greenplum分析[J]. 计算机与网络, 2017, 43(16): 62-65.

YU B. Analysis on Greenplum based on data mining[J]. Computer & Network, 2017, 43(16): 62-65.

Research on 4G/5G voice quality optimization based on data mining and geographic visualization

HU Jian1,SUN Lei1, YIN Yiyan1, YANG Xiaokang1, BAI Jingui2, ZHANG Yejiang1

1. China Mobile Group Yunnan Co., Ltd., Kunming 650041, China 2. Nokia Shanghai Bell Co., Ltd., Shanghai 201206, China

Traditional voice quality optimization relies on field test, case accumulation and expert experience. It is costly and inefficient to analyze problems by manual test. Through the application of data mining, decision tree machine learning algorithm, geographic visualization and other technologies, a voice experience optimization visualization platform based on big data analysis was developed, which could effectively identify the laws in voice big data, and realize the functions of correlation analysis between user voice experience index and wireless network performance index, intelligent recognition of degradation threshold and image analysis of poor quality areas. It is conducive to reduce the skill threshold of network engineers, improve the work efficiency of network optimization, save network operation and maintenance costs, and provide accurate and effective voice experience improvement solutions for the industry.

data mining, geographic visualization, decision tree, voice experience, Pearson correlation coefficient

TN929.5

A

10.11959/j.issn.1000−0801.2022243

2022−03−09;

2022−08−13

张叶江,zhangyejiang@139.com

胡坚(1977− ),男,中国移动通信集团云南有限公司高级工程师,主要研究方向为4G/5G无线网络优化、VoLTE语音优化等。

孙磊(1982− ),男,现就职于中国移动通信集团云南有限公司,主要研究方向为4G/5G无线网络优化。

尹以雁(1984− ),男,现就职于中国移动通信集团云南有限公司,主要研究方向为4G/5G无线网络优化。

杨晓康(1976− ),男,现就职于中国移动通信集团云南有限公司,主要研究方向为4G/5G无线网络优化。

白金贵(1978− ),男,现就职于上海诺基亚贝尔股份有限公司,主要研究方向为4G/5G无线网络优化。

张叶江(1989− ),男,中国移动通信集团云南有限公司工程师,主要研究方向为4G/5G无线网络优化、网络规划建设等。

猜你喜欢

劣化门限决策树
高含盐08系统劣化原因分析及恢复过程
基于规则的HEV逻辑门限控制策略
基于方向加权多级门限DP-TBD的目标轨迹检测算法
随机失效门限下指数退化轨道模型的分析与应用
简述一种基于C4.5的随机决策树集成分类算法设计
基于Neyman-Pearson准则的自适应门限干扰抑制算法*
决策树和随机森林方法在管理决策中的应用
TRC与老混凝土界面黏结力破坏模型
十里泉发电厂330MW机组高压抗燃油酸值异常的分析与处理
MOV压敏电阻电气参数与冲击劣化关系初探