基于监督学习LTE质差样本的自动修正方法

2017-11-09张霖

电子技术与软件工程 2017年19期

关键词：样本

张霖

摘要目前基于监督学习的LTE质差样本都是通过人工标记形成，由于工作人员对LTE质差的理解存在较大差异，因此LTE质差样本存在很大的主观性和错误性。论文中通过对LTE质差样本的数据表现进行计算分析，能够过滤LTE质差样本中数据表现趋势与标签明显不符合的训练样本，避免监督学习算法对大量错误LTE质差样本进行训练，提高监督学习的算法准确率。

【关键词】LTE 监督学习样本自动修正

1 引言

随着人工智能的兴起，以及数据挖掘不断发展和应用，目前移动网络优化中心在LTE质差的分析方向，引入了监督学习神经网络算法来进行主要根因定位，该方案能够将LTE质差小区的根因进行矩阵化，通过概率神经网络（PNN）进行矩阵自学习，输出质差小区的主要根因，形成LTE质差小区根因分析的动态经验矩阵。

但是，目前监督学习概率神经网络（PNN）的训练样本，是通过现有LTE质差小区采用人工的方式针对覆盖、干扰、容量、参数等4大类47个小类根因进行人工分析，按照47个小类的指标进行分析，给出最有可能的小类根因，并打上相应标签，然后提供给监督学习概率神经网络（PNN）作为训练样本。由于通过人工标记标签，在对质差主要根因判断时与工作人员的经验水平和能力相关，非常依赖于工作人员对小类根因熟悉程度，因此人工标记形成的LTE质差样本标签，存在很大的主观性和错误性。

基于上述背景，本文通过对LTE质差样本的数据表现进行计算分析，能够过滤LTE质差样本中数据表现趋势与标签明显不符合的训练样本，避免监督学习算法对大量错误LTE质差样本进行训练，提高监督学习的算法准确率。

2 LTE质差样本的自动修正方法

先把LTE质差样本按人工标记的主要根因标签进行分类，然后把每类的主要根因标签样本数据，按图1步骤进行处理。

2.1 人工标记训练样本

由于LTE质差样本比较多，而且维度较广，本实验只取了部分案例数据，如表1所示：目前LTE质差样本有8个根因，分别为StatCause001-StatCause008，通过人工对质差样本进行主要根因标记，工作人员根据自己的能力和经验，标记了主要根因是StatCause001的7个样本。

2.2 训练样本矩阵化处理

其中行表示LTE质差样本根因维度，列表示样本数。本矩阵是通过对LTE质差样本数据进行预处理后，进行矩阵转置，方便分析各个样本在根因维度的趋势表现情况。

2.3 训练样本数据趋势分析

根据LTE质差样本矩阵，绘制样本根因数据趋势图，如图3。

其中，每一条线都代表一个样本，横坐标标识样本根因，纵坐标标识样本根因值，总的来说就是分析下每个样本在各个根因维度上的趋势表现情况。

2.4 计算样本轨迹相似度

常用轨迹相似度计算方法：

欧式距离：最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离，又称之为欧几里得度量，它定义于欧几里得空间中，如点 X=（x1，…，xn）和 Y=（y1，…，yn）之间的距离，因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，具体公式如下：

向量夹角余弦：余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本间的差异。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而不是距离或长度上，具体公式如下：

皮尔森相关系数：皮爾森相关系数也称皮尔森积矩相关系数，是一种线性相关系数，用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强，具体公式如下：

其中E是数学期望，cov表示协方差

本论文通过以上三种常用轨迹相似度计算了主要根因是StatCause001的7个LTE质差小区样本，把每个样本作为一个向量，然后初步设定基准向量为1，最后把每个样本向量分别与基准向量作轨迹相似度计算，分别得到表2结果。

从轨迹相似度计算结果可以看出，欧式距离的区分度最小，基本不能反馈出样本的差异性；向量夹角余弦表现稍微好点，样本1、2和其他样本有差异，但是表现的不是太明显；而皮尔森系数表现的最好，能够较明显的区分出样本1、2和其他样本的差异性。

经过三种算法的结果比较，本提案最终采用皮尔森相关系数作为样本之间轨迹相似度计算方法，然后存储每个样本的轨迹相似度值，以作下一步分析处理。

2.5 训练样本离散点处理

从第三步计算LTE质差小区样本矩阵向量的相似度之后，获取每个样本轨迹相似度值，然后对样本轨迹相似度进行异样点离散点处理，如图4所示。

从图4中可以可看出，样本的25%分位值为3.477，而样本0和1的轨迹相似度值都分布在25%分位值以下，而其他样本都分布在25%分位值以上。由此可知样本0和1偏离了大众LTE质差小区样本轨迹，可以打上偏离标识。

2.6 自动修正训练样本

本提案经过以上的算法流程步骤处理后，能够得到被标记为偏离标识的样本是样本1、2，这样就能过滤错误样本，自动修正LTE质差小区样本，最终只拿样本3-7的5个LTE质差样本进行监督学习算法模型训练，提高模型准确率。见表3。

3 应用模型准确率对比

3.1 数据源情况

目前应用数据取自分析平台，截止到2017.07.10日，LTE质差小区问题记录为50737条，其中人工标记主要根因样本为6918条，问题的触发类型共有47个维度，主要根因有StatCause001-StatCause075，共75个根因维度。列出前十的问题触发类型源数据，具体情况如表3所示。

3.2 样本自动修正后

经过LTE质差样本的自动修正方法处理后，共去除过滤了其中错误样本513条记录，共涉及21个触发模型，过滤样本占比为7.42%。见表4。

3.3 模型准确率对比

总体来说，经过LTE质差样本的自动修正方法处理后，总样本过滤了513条记录，占比7.42%，概率神经网络（PNN）算法训练和测试集都按9：1比例进行，本次应用针对现有PNN模型，以及自动修正LTE质差样本后的PNN模型准确率进行相关对比，具体结果如表5所示。

从模型准确率对比结果中可以看出，修正LTE质差样本后，虽然总样本比例下降了7.42%，但是概率神经网络（PNN）算法模型的准确率提升了8.87%，效果还是很明显的。

4 结束语

本文针对监督学习的人工标记样本中存在的主观性和错误性，以及工作人员经验水平和能力的局限性，通过对LTE质差样本进行的矩阵化处理、数据趋势分析、样本轨迹相似度计算、离散点处理，能够过滤LTE质差样本中数据表现趋势与标签明显不符合的训练样本，达到自动修正LTE质差样本的目的，避免监督学习算法对大量错误LTE质差样本进行训练，提高监督学习的算法准确率。

总的来说，只要是需要通过人工标记样本来进行监督学习的算法模型，都可以通过本论文的自动修正方法处理，过滤明显有错误的标记样本，提高训练样本的质量，进而提高监督学习的模型准确率。

参考文献

[1]王希.基于概率神经网络（PNN）的LTE质差小区分析方法[J].数字通信世界，2017，（02）：2-5.

[2]徐樹良，王俊红.结合无监督学习的数据流分类算法[J].模式识别与人工智能，2016，29（07）：3-7.

[3]任维雅，李国辉.面向监督学习的稀疏平滑岭回归方法[J].国防科技大学学报，2015（06）：8-15.

[4]郭忠华，王建东，孙英杰，张在林.LTE网络中CQI质差优化分析思路[J].山东通信技术，2016，36（4）：5-10.

[5]卓松华.VoLTE无线感知丢包与质差小区问题研究[J].广东通信技术，2017，37（02）：5-15.

[6]李学贵，许少华，李娜，于文韬.一种基于多示例学习的动态样本集半监督聚类算法[J]. 化工自动化及仪表，2016，43（11）：14-20.

[7]李宇峰，黄圣君，周志华.一种基于正则化的半监督多标记学习方法[J].计算机研究与发展，2012，49（06）：10-13.

作者单位

中国电信股份有限公司贵州分公司贵州省贵阳市 550025