APP下载

基于数学模型的通信数据智能挖掘加速算法

2019-10-14刘静瑞潘东阳

数字通信世界 2019年9期
关键词:数学模型公式分类

刘静瑞,潘东阳

(信阳职业技术学院,数学与计算机科学学院,信阳 464000)

1 引言

数学模型在我们的日常生活中运用的地方是非常广泛的,不论是我们的日常生活还是有关通信数据智能挖掘算法的运用上都是非常重要的。所谓的数学模型是为现实世界的特殊目的而提出的更抽象和简化的结构模型。具体一点来说,数学模型就是通过一些字母、数字及数学符号等等而组成的一些式子、图表或图像用来描述客观事物及其内部关系特征,从而达到一种特定的目的而建立起来的数学结构表达式[1]。数学模型是对具体问题以数学思维来解决,通过数学中的概念、方法和思路来深入思考与分析,从精密的逻辑思维对现实问题进行分析与研究,为解决现实问题提供精确地指导与数据。

传统的算法需要将处理查询机制下的全部数据进行载入,再将全部数据按照一定的分类规则进行切割计算,大大限制了通信数据智能挖掘算法的速度,效率低下。因此本文提出基于数学模型提出一种新型的通信数据智能挖掘的加速算法,这种新型的算法对于分类的条件匹配和全部数据的精确查找可以以较高的速度实现,并且保证准确率,这种新型的加速算法与传统的算法相比有性能上的优越。

2 基于数学模型的通信数据智能挖掘加速算法

2.1 选取候选属性子集

基于数学模型提出的通信数据智能挖掘加速算法在速度上有明显的提升,原因如下。假设在某一时刻t,将某个增量数据集的全部数据载入系统,用公示表示如下:

假设在某个时长为T 的时间段内,将某一个小时刻标记为t=1,2,…,T,全部数据将被采集到数据块DT中,对其公式表示如下:

H(.)用于表示启发式算法的功能[2]。在传统算法中,贪婪式算法通常被用作启发式算法的主要内容,以实现最优数据树(TRGLOBAL)的目标。全局最优树源自数据集中的所有数据,因此绝对是全局最优的。然后,启发式算法H(.)的功能是从最大的信息增量从上到下排序标签的每个分支点的边界,然后选择关于分类的最佳属性。对于每一个最佳的属性Xi,对i(i ≤M)和j(j ≤N)进行检索,其中M 代表的是最大的属性个数,那么N 代表最大接收实例的个数,也就是xij的分支值。因此,从xi1到xij的分支值中根据条件xij=argmaxH(xij)来选取函数的功能最大属性Xi。以上所描述的信息在DT 中已经全部包括了。要保证输入结果是全局最优结果的前提就是要在这个处理过程中保证所有的数据都在数据集DT中,用公式可表示为以下形式:

在对于未来某一任意的时刻t,Xt,将要到达的全部新数据集,该模型全部数据都可以安排在新集合{ ytk }中。在这一集合中,k 表示的是在可能集合K 中的一个可能的集合序列号。

根据目前已经收集到的所有数据集,基于数学模型的启发式算法H(.)的建立是根据最优分类的错误类型为目标的,用公式可表示为[3]:

在时间t 内,数据已经积累到DT,并在全部数据的分类模型TRGLOBAL中表现良好。在时刻t+1时间内,数据已经到达了新的数据集,分类模型TRGLOBAL要基于新的数据集合,并重复公式(3)和(4)的运算来实现自我更新。随着时刻t 和DT的上升,更新时间延长,在每次更新时都需要重新载入集合DT的历史数据。

2.2 拟合度挖掘计算

在运用本文算法进行数据的挖掘时,所采集到的数据量庞大并且数据频繁更新,新数据不断出现。如何在新数据不断更新的情况下仍保持挖掘算法的速度,仍然没有解决方案,在不断更新的数据模型中,对历史数据进行多次计算是不可行的做法,因此,对于此类数据库的更新必须采用增量分类的方法来保证算法的速度。

为了解决数据库更新数据庞大的问题,本文提出的加速算法将通过在候选属性数据集中选择最可靠的数据集来实现候选集属性的输出。加速算法的数据提取过程只需执行一次即可读取数据,因此可称为任意算法。该加速算法将根据每个属性值的出现次数构建决策分支树。在计算加速算法的过程中,属性Xi的值的出现频率和属性Xi的类yk由Hoffding 边界在下面的公式中检查[4-5]。其公式如下:

在公式中分类属性由R 来确定,属于同一个数据集合中的个数用n 来表示。与传统的算法不同,这一新型的加速算法对于属性Xi的检测是根据对推荐前的两组高值的集合项来确定的。在任意时刻中,xi存在两个最大集合值项,分别为xia和xib,这两个值都满足xia=argmaxH(xij)和xib=argmaxH(xij),其中j ≠a。至此完成通信数据智能挖掘的加速算过程。为了测试本文算法的加速效果进行仿真实验。实验建立在Maglab 仿真环境中。实验的硬件环境为:IntelCole5-540 1G 内存,操作系统为Windows 7。假设在通信环境下光纤网络通信节点分布3000m×3000m 的均匀阵列区域,光纤通信采用频带为3kHz 至11 kHz,载频时宽为 2 ms[6]。本文在传统算法中选取3种常见算法进行比较分析[7-8]。分别为混合通道,HP 的每个分类的建立都依靠于这个分离内所有的数据的实现。测试的数据根据包含最多实例的数据库的原则选取;贝叶斯,NB 基于训练数据进行分析。其分类器并不进行更新。贝叶斯网络学习通过不同的搜算算法和结果质量评估方法来组成;决策树,DT生成C45决策树。

3 实验与结果分析

此实验所运用到的环境和数据参数如上所述,对通信智能挖掘加速算法模型的运用首先进行数据时间的序列采样,并以采集到的数据进行对比。

将基于数学模型的新型加速算法与传统算法进行性能的对比,得到的通信数据智能挖掘算法的速度对比结果。

图1 新型加速算法与传统算法的速度对比

如图1所示。通过实验的对比结果表明,采用基于数学模型的新型通信数据智能挖掘加速算法的速度快于传统的算法,提高了算法的效率,具有较高的推广度。

4 结束语

本文提出的新加速算法是基于数学模型的智能挖掘加速。新型的加速算法排除掉了全部数据重新载入的过程,实现通信数据智能挖掘算法的加速查询。为测试新型加速算法的性能,将新型算法与其他的三种传统算法进行对比实验,结果表明新型算法在查询准确度与速度上有更为明显的优势,具有推广价值。但是本文提出的新型加速算法有一定的限制,在今后的研究中将继续研究有关加速算法,为通信智能挖掘算法效率的提高做出理论支撑。

猜你喜欢

数学模型公式分类
AHP法短跑数学模型分析
活用数学模型,理解排列组合
组合数与组合数公式
排列数与排列数公式
分类算一算
等差数列前2n-1及2n项和公式与应用
分类讨论求坐标
基于电力机器人控制系统的数学模型简述
例说:二倍角公式的巧用
数据分析中的分类讨论