电信网络领域实时数据挖掘的智能代理技术

2020-12-21张英继

通信电源技术 2020年2期

关键词：代理数据挖掘预测

张英继

（中国电信股份有限公司保定分公司，河北保定 071000）

0 引言

近年来，网络技术的发展给通信技术的发展带来了曙光，特别是电信行业的迅猛发展，更是推动了数据挖掘技术的应用。

1 数据挖掘的智能代理技术导论

数据挖掘技术是一种对数据进行处理的技术，将所能获得的数据进行深层挖掘，挖掘出常人所不熟知的潜在的有用信息。数据挖掘技术需要根据所获得的数据类型选择分析方法，如网络结构分析法、数据统计法等，该过程是一个动态重复的过程，如果在数据挖掘的过程中没有获得预期的数值就要重新回到前面的步骤进行重复操作[1]。

该挖掘技术的主要方法是通过对所观测到的数据进行解析，以天为单位或以时、分为单位对未来的数据进行预测，根据所要研究的对象设置自变量和因变量。例如，将t作为自变量，x作为因变量来推测所产生的数据关系。其中t代表的是同一天（时、分）时间内的时间间隔，x代表的是所有可预测的变化量[2]。

要对电信网络数据进行分析，就要将这些数据进行适当的形式转换。转换以时间序列作为基础。近年来，通过学者们对数据挖掘技术的不断研究出现了很多以时间序列为主的数据挖掘技术。但是在电信领域，网络环境不稳定，尤其是数据变换具有十分频繁的波动，所以电信网的问题不应该只是数据统计、保管那么简单。因此，传统的数字挖掘技术将不能广范围的应用于电信行业的发展。

2 数据挖掘的主要过程

数据挖掘主要从数据本身出发。一般数据挖掘包括信息采集、将数据进行整合、对数据的规范化整理、数据排除和清理、数据之间进行变换、实施数据挖掘过程、对数据挖掘过程进行评估、用相关的知识进行表达八个步骤。

2.1 信息采集

首先确定研究对象，根据所要研究的对象确定数据特征，然后选择出合适的信息采集方法，收集整理所要研究的数据。对于数据量大的数据库，选择一个合适的保管途径和数据存储器是十分有必要的。

2.2 将数据进行整合

由于数据来源、格式特点、数据特征等性质的不同，要有逻辑性的对所要数据进行整理。电信行业不同于一般的商业化企业，它作为世界通信过程中十分重要的一种介质，自然需要信息的共享，而这种信息数据的整合就方便了电信行业的各企业之间的资源共享[3]。

2.3 对数据的规范化整理

数据挖掘技术虽然对数据汇总及分析十分方便，但是所用的时间很长，即使是对少量的数据进行分析也需要很长的时间，而企业运营和商业化管理往往包含的数据量是十分巨大的。所以对数据的规范化整理可以将数据库进行适当程度的缩小，将大多数存在同一水平的数据进行求平均值的处理。这样不仅将数据挖掘技术的范围缩小了不少，而且不会对最终数据的结果产生影响，甚至与原结果保持高度一致。

2.4 数据排除和清理

在庞大的数据库中，有的数据存在明显的错误、有的数据结构不完整，并且这些数据面对不同的信息采集途径时会有不同的表示方法，所以要对数据进行排除和清理。将不完整的数据补充完整，存在明显错误和偶然性的数据就要舍弃，否则所得到的结果将会存在较大程度上的误差，导致对整个电信行业的发展预期产生影响。

2.5 数据之间进行变换

数据变换的方法有很多种，如平滑聚集、数据规范化、数据概括等方式就是将数据转化成有用的知识点进行数据分析和挖掘。对于有实际作用，但是计算量大的一些数据可以采用概念分化、数据离散整合的方法进行转换。

2.6 实施数据挖掘过程

根据所得数据的特征及所包含的数据信息的不同，要选择正确的分析方法。常用的几种分析方法有数据概括法、大规模的数据统计法、利用数据规则进行推理的方法、模糊集、网络结构法（常见的为神经网络）、遗传算法、通过实例进行推断的方法等。通过这些方法可以将数据中存在的隐藏信息挖掘出来，给整个电信行业的发展带来极大的商业价值。

2.7 对数据挖掘过程进行评估

这些数据大多数都是从商业途径获得，所以避免不了具有一定的商业价值，尤其是对于电信这一特殊的行业。所以对最终的数据进行评估也是数据商业化的一种体现方式[4]。

2.8 用相关的知识进行表达

将数据挖掘的最终结果通过透明公开的方式展示给电信用户是十分必要的。此外，将其作为商业数据密封起来以供其他方面的商业发展也是数据挖掘的另一种作用。

3 数据挖掘的智能代理技术的预测方式

由导论可知，数据挖掘为各方面的预测做出了很大的贡献。其预测方式主要包括时间序列基础上的感知预测、协作组合预测以及利用网状结构模型进行预测。

3.1 时间序列基础上的感知预测

将时间序列作为主要观察量，通过观察数据变化得出计算公式，将计算公式中的斜率值代入，取代时间序列的值。主要通过斜率值的变化来观测最接近于实际的数值，进而对全局模式进行预测。但是，在此过程中需要注意考虑时间序列存在的随机性和偶然性，要建立可靠的描述图进行观察，对一些具有明显误差的数据和具有偶然性的数据进行删除，通过观察平均数据得出结论。更需要注意的是，由于电信号的不稳定性使得电信号会在短时间内出现多次数据波动，所以，每隔一段时间就要对电信号根据脉冲进行分类。从最相似的数据中提取出符合实际和电信号波动范围的数值，并将该数值应用到全局观测的位置。

3.2 协作组合预测

数据挖掘的智能代理技术的预测方式有很多种，但他们都有一个共同点就是预测的基础都是时间序列。这些不同的预测方式之间必定存在不同的优势和劣势，所以就需要对不同的预测方式即代理进行组合，协调出相对完善的预测方式。其中的协作主要是该过程中多方代理之间的协作，即当存在多种代理时，需要一种外在的具有冲击性的策略对其进行调整。对于这一问题，很多学者的解决策略都只是侧重于将数据进行分类整理，并没有考虑到最佳数值的组合[5]。

3.3 利用网状结构模型进行预测（以神经网络为例）

由斜率等替代量观测出各水平变量的等量变化。网状模型结构特别是神经网络相对于其他结构，预测性、准确性要高。它可以准确地计算出7个自变量和1个因变量之间的运算关系。其主要计算方式为线性函数、激活函数等。在规定的区间、特定的节点内，将该输入节点的输入信号与对应的加权数相乘，就可以将各输入神经之间连接起来，由脉冲信号转变为电信号发出。

4 数据挖掘的智能代理技术的框架模式

数据挖掘的智能代理技术常用的框架模式为多代理框架模式，即借助于多个代理实现对网络信号及电信号的监测和控制。该框架模式通过环球网的代理服务完成了不同的监管任务。该框架模式的主要步骤具体如下。最初是通过各种途径收集用户的相关信息和电信号的网络数据。将这些数据进行整合、筛选后就会将这些数据发送给相关管理员，进行保管。这样的过程主要是为了将一些错误的数据及具有偶然性的数据排除在外，保证预测结果的准确性。主要预测的目标为网络延时状态、链接程序的接受率、服务器所能承载的负荷等。其中，链接程序的接受率是预测的重点，它直接关系到后面服务器所能承载的负荷的情况。然后是对变量之间的变化关系进行推断及相关运算。运用各感知系统对预测代理进行感知预测，但是由于数据是一直在变化的，所以在监测时间内每隔一段时间就要对数据进行重新采取、计算和评估。在此过程中需要注意的是，有些时间段内数据波动范围会比较大，有些时间段内数据波动范围比较小，所谓对于时间段的选取也要有充分的考虑。

5 各数据结构所产生的实验结果分析

通过建立模型器和引用模型结构建立模拟环境可以将各变量之间的数据关系展现出来。但是，同样的数据关系通过智能代理技术也可以获得。这些数据关系依然是建立在时间序列的基础上，便于对后台的各统计数据、服务器的负荷能力进行统计[6]。

例如，在一家工厂中设计出了一个网状统计结构，在该结构中可以看到该企业的信息获取途径和索取手段。这时可以将该企业的所有数据分为三个层面：全局统计数据、断点（阶段性）数据统计和链接程序数据统计。运用这些不同层面的数据进行计算，计算最后出现的数据代表着该事件中各变量之间的变化关系，这种关系同样是建立在时间序列的基础上的。

例如，根据计算结果可以得到200个有效数据。这些数据中，每一个数据都可以代表一个变量。对于时间序列与这些变量之间的关系要进行预处理。首先，对这些变量之间的变化关系进行线性分析，得到一个新的数据组，然后利用这一新的数据组之间的变化量的变化关系来推测链接程序的接受率。当然，并不是这组数据中的所有数值都可以拿来进行数据推测，我们可以将其中大部分数值代入到计算公式中进行计算，剩下的一小部分作为数据验证。因为这种数据分布具有一定的随机性，所以这种数据计算并不适合建立在时间序列的基础上。