基于卷积神经网络的大数据去模糊挖掘仿真

2023-07-29唐莉君

计算机仿真 2023年6期

苑颖,唐莉君

(1. 银川能源学院信息传媒学院,宁夏银川 750102;2. 宁夏大学信息工程学院,宁夏银川 750105)

1 引言

当前的网络环境中,部署了大量的客户应用和服务器,每天所产生的数据量达到TB以上[1]。无论是从体量或者增速方面,都在不断增长。于此同时,数据的来源也呈现出多样化,形成了大量多源异构数据。对于金融服务、通讯管理、自动驾驶,以及电子商务等行业[2,3],大数据挖掘具有重要的经济和发展利益。但是,由于异构数据和临阶噪声的原因[4],使得在处理大数据时需要解决准确性与抗干扰问题。

目前针对大数据挖掘已经取得了不少的研究成果,文献[5]提出了FCM改进算法,改善了增量聚类的收敛性能,该方法的普适性较好,但是对于模糊数据处理的效果并不理想。文献[6]针对云平台数据分析了特征状态,并引入BP神经网络对数据做聚类处理。该方法是基于云平台的数据分析,在应用场景和抗干扰方面都有一定的局限性。文献[7]首先对数据采取特征分析与滤波操作,然后也通过BP神经网络做聚类处理。该方法利用滤波来改善噪声影响,但是对于随机数据的处理精度仍然不够完善。文献[8]先获取频繁项及其关联性,在此基础上设计了具有三层结构的模糊DCNN,并通过降维方式进行特征抽取与压缩。该方法在云服务场景下的性能较好,对于其它应用场景的适用性还有待确认。

虽然很多学者提出并设计了不同的解决方案,但是面对大数据体量和属性的快速发展,降低当前分类算法的计算代价,依旧是一件亟待解决的事情。本文在引入DCNN后,为了增强其特征搜索性,结合并行思想设计了模糊DCNN算法。利用剪枝降低多余参数的出现,根据共轭梯度法求解训练方向,避免算法重启,并采用选边与渐进方式改善网络各层单元不匹配问题,提高网络训练的稳定性。

2 大数据去模糊挖掘

为了优化大数据的挖掘性能,首先根据相似性计算来得到属性特征。对于任意数据集D,其属性i对应的数据与训练集描述如下

(1)

JλD=M{C∈M/J|c(C,D)≤λ}

(2)

其中,M表示数据集D经过SVD分解后得到的特征矩阵;J表示判断准则。同理推导出分类属性特征如下:

JλD=M{C∈M/J|c(C,D)≤1-λ}

(3)

对某一分类的数据采取特征分析,通过属性差别确定模糊集如下

(4)

d0表示基;f(t)表示训练函数。利用模糊融合,就可以得到各个属性的自关联特征。经过归一化操作后,就可以计算出数据集的聚类模态,完成数据分类。

由于上述计算过程是基于混合属性分析的,难免会受到冗余数据和噪声数据的影响,于是,这里引入加权滤波操作,函数描述如下

(5)

式中,v为分类对应的质心参量;c(t)为对应的属性值;φ为时间窗口。

此外,依据统计原理,可以将模糊分类的匹配公式描述如下

(6)

其中,m表示数据阶数;li表示离散区间数;ωi表示分类的特征因子;pi表示分类的分布密度。利用匹配公式计算各个分类的质心差异程度,进而得到模糊分类:

(7)

其中,μ1与μ2代表模糊分类的融合权重,μ1与μ2的满足如下条件

(8)

假定分类规则:X⊂V,Y⊂V,同时X∩Y为非空集合,此时的匹配集合可以描述如下

x(t+1)=x(0)+cd(at0>T0pd-x(t))+cg(btc>Tcpg-x(t))

(9)

其中,cd与cg依次为数值与分类对应的属性值;at0>T0与btc>Tc依次为数值与分类对应的特征。经过该公式处理后,便可完成对混合数据的模糊分块挖掘。

3 改进DCNN

DCNN包含若干卷积层和池化层,这样有利于对混合大数据的有效降维[9]。同时,数据的训练包含正反向传播。其中,正向传播的目的是用来计算各层输入特征,公式描述为

(10)

反向传播的目的是通过训练结果对权重进行修正,该过程的目标方程描述如下

(11)

S(xk)是损失函数;r(α)是正则处理。

3.1 网络参量压缩

当数据量增长时,DCNN的参数会随之急剧增长,从而导致在大数据场景中的应用存在性能瓶颈,于是这里采取预训练方式来减轻后续网络层的参量与计算。采用Softmax替代式(11)内部的S(xk),通过Softmax可以描述训练过程中所有样本的损失情况。并基于此,把任意样本损失采取泰勒展开式处理,可以得到

(12)

3.2 搜索方向

网络对样本进行训练时,其搜索方向采用如下规则

(13)

ei=∇O(α);νi为方向参数。寻优的过程就是找到目标下降的趋势,在大数据分类过程中,采取Hadoop处理,首先利用split将数据集合切分为若干个子块,然后通过map求解所有网络的权重信息。最后根据权重数据确定特征分类。由于式(13)是从共轭梯度推到而来的,在进行最优解计算时,νi是关键因素,合理的νi有利于提高网络收敛性能。νi的确定采取如下方式

(14)

其中,Diffi-1=ei-ei-1。同时,为保证目标的下降趋势和减轻计算负担,di的计算公式设置如下

(15)

利用该公式可以避免算法的重启,进一步增强网络训练速度。

3.3 选边与渐进搜索

在特征搜索完成,进入到评估过程时,通常会采用层数扩充的方式动态构建网络。虽然有利于降低资源占用,可是因为不同时间段的网络层数对应不上,会产生性能震荡与鸿沟[10]。于是,本文采用选边与渐进策略消除这些问题。其中,选边是为了更好的改善不同阶段的关联性,选边指标如下

(16)

(17)

(18)

上述过程增强了训练环节的关联程度,可是层数单元的前后差异依然会影响准确程度,严重的情况下会使平方差超过0.2。因此,整体网络采取多个渐进式结构设计。同时,考虑到层数增加带来的额外处理量,对于每一层,都做了最优解的搜寻范围,结合贪婪的选边策略,提高训练网络的稳定性。

3.4 算法流程

改进DCNN的计算流程总结如下:

Step1:数据分块。把输入数据分割为大小一致的子块。

Step2:剪枝压缩。计算特征损失值,根据损失值采取剪枝操作。

Step3:确定搜索方向。计算方向参数和下降趋势。

Step4:渐进搜索。根据重要程度与确定程度,得到搜索评估之间的关联程度,并通过若干渐进式层单元设计,使关联程度较大的数据能够准确快速到达相应单元,执行合理操作。

Step5:训练输出。通过正反向传播,Map函数得到训练输出,同时进行持久化处理。

Step6:合并输出。通过Reduce,将Step5的输出结果进行加权合并,输出最终结果。

4 仿真与结果分析

仿真平台选择Ubuntu,大数据挖掘环境为Apache Hadoop3.2.1,配置1个Master节点,5个Slaver节点。java运行环境为JDK1.8,MapReduce实现了基于java编写的去模糊挖掘算法,并部署于Hadoop。为了防止在不同数据集上的性能差异,实验过程中采用Versicotor与Setosa两个数据集。同时,选择文献[7]和[8]作为对比,从多方面进行仿真分析。

4.1 抗干扰分析

实验过程中,向数据集Versicotor与Setosa中分别注入定量的噪声数据,得到在不同信噪比情况下,各方法的挖掘准确率,结果如图1所示。

图1 噪声对准确率的影响

由仿真结果可以看出,两种数据集中,在信噪比增加的时候,各算法的挖掘准确率都在上升,但是不管数据集或者信噪比如何变化,本文算法的挖掘准确率一直保持领先。在Versicotor数据集中,噪声最严重的情况下,本文方法的挖掘准确率分别高出对比方法7.97%和10.38%。在Setosa数据集中,噪声最严重的情况下,本文方法的挖掘准确率分别高出对比方法9.46%和10.49%。

4.2 执行效率分析

调整原始数据中冗余数据的比例,在不同冗余度情况下,得到各个算法的执行效率,结果如图2所示。

图2 冗余数据对执行效率的影响

从结果曲线来看,冗余数据比例的增长对两种文献方法的影响较为严重,其执行效率均出现大幅下跌。而本文方法则影响不大,即便在冗余数据比例达到50%时,在Versicotor与Setosa两个数据集下的执行效率依然可以达到90%以上。这得益于本文方法引入了加权滤波,同时在网络训练过程中,采取了网络压缩等多项优化,使大数据挖掘的训练复杂度得到大幅缩减。

4.3 资源消耗分析

调整数据量的大小,调整范围为[20,60]M,调整步长为5M,仿真得到各个方法在数据挖掘过程中的内存使用情况,结果曲线如图3。

图3 内存消耗曲线

比较内存消耗曲线可得,本文算法的内存消耗较两种文献方法都要少,尤其是数据规模增加时,对内存空间的占用优势愈加突出。当数据量为50M时,本文方法的内存消耗仅为两种文献方法的34.78%和49.49%。这也得益于网络训练算法的去模糊机制,使无效数据和计算参量大幅缩减,有效降低过程参量的存储。

5 结束语

为了提高复杂大数据的挖掘效率和挖掘精度,本文设计了改进DCNN算法模型。针对噪声数据和冗余数据,采用了加权滤波、参量压缩、选边和渐进处理,并对搜索方向及参数进行了优化设计,改善DCNN空间搜索性能的同时,也提高了大数据的并发处理效率。基于Hadoop平台部署仿真环境,经过与其它方法的数据对比,证明本文算法在大数据去模糊挖掘方面具有更好的抗干扰性和更高的执行效率,同时有效降低了对内存的消耗。