基于LTE小区评估的SOM和k-means算法比较

2022-07-04王晓东

微处理机 2022年3期

王晓东

（陕西飞机工业责任有限公司，陕西汉中，723200）

1 引言

无线移动网络的大规模建设保证了网络的覆盖优势，也为未来的5G大规模商用铺平了道路，但庞大的网络规模进一步增加了网络优化的难度。移动接入网络产生了大量运营、管理和维护数据，在运营商基于基本网络运营模式的情况下，如何组织、管理有限的无线网络资源变得越发紧迫，是电信运营商不可回避的难题。智能网络规划工具的出现为解决这一问题给出了方案，它可以通过评估小区和用户性能来实时调整无线资源的分配。为了解决此类问题，移动网络运营商也越来越注重工具和流程的创新，这些工具和流程不仅能够帮助工程师维护和优化移动无线电网络，也会使网络更加自治。在这其中，机器学习近来已成为一项热门技术，用于平衡问题计算的复杂性和准确性，引起数学优化界的广泛关注[1]。同样的趋势也在无线通信领域促使研究人员利用机器学习算法来解决无线网络优化的有限资源分配问题[2]。

2 研究背景

数据处理技术领域的最新发展为使用机器学习技术铺平了道路，也为探索自动评估移动网络性能的解决方案提供了动力[3]。基于关键性能指标评估网络性能的数据在无线移动网络中被普遍使用。例如，文献[4]提出了由支持向量机（SVM）、谱聚类和深度学习方法组成的检测模型，通过检测异常用户来评估无线性能，结果表明谱聚类等传统机器方法在异常检测中的表现具有更好的性能。此项工作中使用的数据有明确的正负标签，很容易计算每种算法的准确性。与此同时，在移动通信领域，Lavneet Singh等人[5]通过对电信用户数据集的分类，比较了SOM、k-means和层次聚类算法，证明了SOM和kmeans在3G网络中的性能优于层次聚类算法。此研究的创新之处在于其任务是使用SOM和k-means算法来对蜂窝小区行为模式进行提取，分析LTE蜂窝小区的性能，同时对SOM和k-means集群结果的质量进行有效评估。最后，Santos等人[6]进行了一项类似的研究，使用性能指标比较了三种聚类算法。研究表明，与使用k-means获得的结果相比，使用高斯混合模型期望最大化和基于不同KPI的LTE小区聚类中的频谱聚类所获得的结果没有显著差异。该方法侧重于比较三种传统算法，但是其实验数据集维度过低，不够贴近现实生活中的实际情况。

由于聚类算法的数据集取决于小区的样本特征数目，本研究尝试通过仿真模拟不同维度的小区数据的聚类来评估不同机器学习算法的优劣。

3 SOM和k-means聚类

SOM是一种无监督神经网络，其算法的工作原理是将n维输入数据投影到某些表示上。通过降低数据维度，可以使用视觉聚类来获得直观的表示[7]。其结构包括一个向量输入层和一个竞争输出层，允许通过竞争层来可视化输出[8]，使高维数据项目表示在低维空间中[9]。

在网络中，SOM是一个单一的神经网络，其N个节点呈网格分布，大多数分布模式是六边形和矩形。SOM不同于其他人工神经网络，其采用的是竞争学习而不是错误校正学习，同时使用了邻域函数来保持输入空间的拓扑属性。在SOM模型中，一个输入节点与其他节点广泛连接，相互激励，其交互强度由连接权重决定。连接权重包括输入层和竞争层神经元之间的权重，以及竞争输出层节点之间的权重。前者代表神经元对外部输入的反应，后者代表神经元之间的相互作用。SOM可以根据外部刺激动态地改变其结构，从而形成合适的簇。SOM的拓扑结构如图1所示。

图1 SOM网络拓扑图

k-means算法的基本思想是以每个簇子集中数据样本的均值作为簇的代表点进行迭代。该过程将数据集划分为不同类别，以便进行聚类评估。能量的准则函数可以达到最优，从而生成每个簇。簇与簇的间距是紧凑和独立的[10]。在迭代过程中，不断移动聚类集中的对象，直到获得理想的聚类集，每个簇都用类似聚类过程获得。使用k-means得到的聚类簇，簇中对象的相似度很高，不同簇对象之间的相异程度也很高[11]。

“肘部”方法是通过拟合k的一系列值来帮助数据科学家选择最佳聚类数。如果折线图类似于手臂，则“肘部”（对应于曲线上的拐点）能很好地表明基础模型在该点最适合。在可视化器中，“肘部”将用虚线注释。在聚类分析中，肘部法是一种启发式方法，用于确定数据集中的聚类数量。该方法包括将解释的变化绘制为集群数量的函数，并选择曲线的肘部作为要使用的集群数量。

图2显示了一个肘形图，用于确定聚类的数量。X轴表示聚类的数量，Y轴表示聚类簇内的质心距离和簇间质心距离的比率[12]。质心内聚类距离也称为聚类内距离，表示聚类内样本到聚类质心的距离。相反，簇间距离是两个不同簇的质心之间的距离。这是两个非常重要的无监督学习聚类指标。可观察得知，当k＜4时，曲线迅速下降；当k＞4时，曲线趋于波动，最终越来越稳定。

图2 最佳聚类数拟合

由此，认为拐点4是通过肘部法获得的最佳k值。最终，初始聚类最优数目设置为4，同时SOM模型的神经元数目也设置为相同数值。

4 结果分析

4.1 不同样本小区的低维聚类

在此次仿真实验中，首先通过使用不同小区数据作为输入，其小区特征是低维度的。例如，CQI（信道质量指标）是下行频谱效率指标，它表示从终端测量的网络质量，即在某些无线电条件（干扰条件）下，一个终端的下行吞吐量的多少。因此，CQI可以准确地反映具体的无线电状况[13]。下行链路吞吐量或下行链路网络吞吐量是从通信信道到终端的成功消息传递率。吞吐量通常以每秒兆比特（Mb/s)为单位，有时以每秒数据包或每个时隙的数据包为单位。如此建模，便能够探索在数据集特征值较低时小区特征提取分析的可行性。

SOM和k-means定位质心和簇内距离（低维特征）实验数据如表1所示。可见当两种算法都聚类为4种不同簇时，SOM小区聚类的簇内质心距离比kmeans略微大些。例如，SOM中的集群#1、#2、#3和#4都大于相同的k-means集群。这四个簇之间的距离差距分别为0.12、0.14、0.02和0.17。与簇内小区集群距离相比，两种算法簇间距离非常接近。由于簇内质心距离越短聚类效果越好，可以得出k-means聚类簇内的距离更近，聚类效果更好。

表1 定位质心和簇内距离（低维特征）

k-means聚类的小区模式描述实验结果如表2所示。其中，簇#1和#4的距离几乎相同，#2和#3也相似，意味着SOM的间距和低维k-means差异不大，即质心间距越大，集群性能越好。因此，只能将聚类簇内的距离作为评估标准。

表2 k-means聚类的小区模式描述

SOM和k-means聚类中心分布情况实验结果如图3所示。图中可见SOM和k-means簇质心在吞吐量和CQI特征内的63个蜂窝小区样本中的分布。在SOM聚类的簇#3中，质心坐标与在k-means算法中的簇#4是相同的。

图3 聚类中心分布情况

SOM聚类的小区模式描述实验结果如表3所示。比较表2和表3便可发现，k-means聚类簇#3和#4的簇特征类似于SOM聚类簇#3和#2，唯一区别在于簇#1和#4之间，例如k-means簇#2的特点是下行吞吐量最低。簇#2的CQI跨度很大，覆盖从0.013到1的区间，其中包括在相似的下行链路吞吐量内从低到高的CQI。但在SOM小区聚类中，簇#4的特征具有最低的CQI和下行链路吞吐量。因此可得出结论，SOM聚类中的簇#4与k-means中的簇#2相似，但k-means聚类的簇#2中样本已经包含了SOM聚类簇#4中的所有样本。

表3 SOM聚类的小区模式描述

最终，k-means聚类的簇#1和SOM聚类的簇#1特征也不尽相同。对于SOM聚类的簇#1，它具有中等CQI和高下行吞吐量。同时，k-means的簇#1具有较高的CQI和中等的下行吞吐量，因此这两个簇的特征非常接近。概括来讲，对比两种聚类结果可以发现，在低维特征中，蜂窝小区模式聚类存在一定的差异，SOM和k-means的聚类结果大体上相似，但k-means的聚类结果更直观。

4.2 不同样本小区的高维特征聚类

与上述使用低维蜂窝小区特征数据不同，此处使用高维特征数据（即每个小区包含29个特征）来测试SOM和k-means的性能。

k-means和SOM之间的距离比较实验结果数据如表4所示。在第一阶段，在k-means和SOM中，簇的平均距离与样本的平均距离之间的总体差异并不明显。例如，k-means和SOM中的簇#2和#3相似且更接近。唯一存在巨大差异的是簇#4，分别为0.93和0.53。k-means中不同簇质心的平均距离小于SOM。

表4 距离比较（高维特征）

k-means的簇内质心样本平均距离以及簇间质心的平均距离是相似的，例如，簇#3中这两个值分别是0.56和0.64，比较接近。由此可以得出结论：kmeans可以对高维数据进行聚类，但是聚类簇内的样本小区距离和聚类间距离非常接近。另一方面，SOM的簇质内和簇间距离上具有良好的性能。因此，对于高维数据集，k-means的聚类效果不尽如人意，较少被研究人员选用。

对高维特征样本小区k-means和SOM聚类结果对比情况如表5所示。表中显示出SOM和kmeans的聚类簇中所包含的小区数目。小区样本在SOM拓扑下的分布情况如图4所示。通过对比可发现此两种方法在簇#1和#2中的小区数相似，分别为12、23和11、21。SOM和k-means之间的小区数量之间的唯一区别是簇#3和#4。

表5 高维特征样本小区聚类结果（小区数目）

5 结束语

使用聚类技术对真实LTE蜂窝小区的网络性能进行评估，由于聚类算法的数据集取决于小区的样本特征数目，通过仿真模拟不同维度的小区数据的聚类来评估不同机器学习算法的优劣。在低维数据聚类中，与使用SOM得到的结果相比，k-means小区聚类效果要优于SOM。但是，与其他高维数据集聚类相比，LTE小区数据的KPI特征在高维特征空间中充当特征向量，使用SOM进行聚类的结果在小区聚类中获得的性能更好，也意味着得到的小区分类更加精准。在网络优化中使用大数据分析和挖掘，能够实现在现有的高度可扩展的方法上进行网络性能调整。通过聚类的方法高效地利用大数据，几乎能够实时地识别感兴趣的区域，对减少蜂窝网络运营商的运营支出，有重要的参考价值。