多层实时网络加密数据流频繁项集挖掘方法*
2021-05-24蔡中民
蔡中民
(河南牧业经济学院 信息工程学院,郑州 450044)
频繁项集挖掘是数据挖掘的一个主要分支,是很多数据分析的基础内容[1].随着多层实时网络的大规模应用,如何从数据流中实现频繁项集的挖掘引起了人们越来越多的关注.与静态数据不同的是,加密数据流是一组随着时间的推移连续不断产生的加密数据序列.由于其具有连续性、数据量大、保密级别高等性质,导致其中的数据难以完整储存,只能在数据流入时进行扫描处理[2],使得普通的数据挖掘算法无法直接应用.
对此,国内外相关研究学者们提出了一些数据流频繁项集挖掘方法.茹蓓等[3]提出了一种基于改进FPTree的高效实时数据流完全频繁项集挖掘方法.使用改进的FPTree表示数据流中的所有数据,并建立完整的数据基树,利用字母顺序实现基树的插入与删除操作,再利用分组Tree结构对基树进行由上而下的遍历,通过较低的计算成本实现完全频繁项集的挖掘.马力[4]提出了一种基于预裁剪的不确定数据流频繁项集挖掘方法,并通过Prep-UF-Streaming算法过滤出非频繁项集,缩减挖掘时间.朱付保等[5]提出一种基于MapReduce的数据流频繁项集挖掘方法,对数据进行分块压缩和传输,将频繁项的计算置于节点上,通过一次调度处理合并频繁项集.
通常加密数据流的传输受码间干扰的影响较大,如果不对干扰进行滤除,会影响后续的挖掘过程.上述方法虽在不同程度上完善了频繁项集的挖掘,但均缺少干扰滤除过程,导致挖掘输出效果不好、传输误码率偏高.基于此,本文设计一种新的基于集对分析的多层实时网络加密数据流频繁项集挖掘方法,在挖掘过程前利用自适应滤波器对码间干扰进行抑制,增加加密数据流频繁项集挖掘过程的抗干扰能力,降低传输误码率,且滤波效果好,使挖掘输出效果更加理想.
1 建模及干扰抑制
1.1 信道模型设计与分析
为了实现基于集对分析的多层实时网络加密大数据流频繁项集挖掘,构建多层实时网络加密数据流频繁项集的信道模型,本文结合信道结构进行控制.采用随机链路转发控制协议进行多层实时网络加密大数据流频繁项集传输的优化聚类处理,提取数据流频繁项集的关联特征量,对多层实时网络加密输出的大数据流频繁项集进行时间反转处理,以时间反转的尺度为挖掘窗口,对关联特征量进行卷积处理,实现大数据流频繁项集的配置.
对多层实时网络传输信息特征量进行自适应调制和模糊聚类处理,得到多层实时网络加密大数据流频繁项集挖掘的冲激响应为
(1)
式中:n为网络加密数据;N为网络加密数据量;τ为数据频繁项集;r(N)(τ)和r(N+1)(τ)为N和N+1个加密数据的频繁项集模糊聚类函数;c(N)(τ)为N个加密数据的频繁项集自适应调制函数.
根据上述分析,构建多层实时网络加密数据流频繁项集的信道模型,如图1所示.
图1 信道模型Fig.1 Channel model
根据信道模型,采用自适应判决反馈滤波方法进行多层实时网络加密大数据流频繁项集的输出跟踪识别.根据多层实时网络加密大数据流频繁项集的空频结构,在簇首节点中进行大数据流频繁项集集成处理[6],对数据流频繁项集输出频谱进行分块,构建的分块模型可描述为
(2)
式中:E(p)为输出频谱分块模型;γth为频繁项集输出频谱系数;σ为功率谱密度;hi为链路增益值;G为集成量.
通过对多层实时网络加密大数据流频繁项集进行分块匹配,在转发节点对数据流频繁项集进行链路设计,采用相关功率谱密度匹配方法,构建最佳博弈模型[7],得到信道传输功率谱密度为
(3)
式中,N(l)为网络加密数据链路.令pi(l+1)=0,采用窄带波束形成算法进行空时结构加权处理,提取空时结构特征量,以此得到数据信息融合的全局性寻优返回值为pi(l+1)=min(pmax,Ωi(l+1)),将大数据流频繁项集输入到缓冲器中,得到多层实时网络加密大数据流频繁项集的链路增益值hi≠hmin(l)且Ωi(l)>0.根据上述分析,将加权输出信号合成,构建多层实时网络加密大数据流频繁项集传输信道模型,对数据流频繁项集进行挖掘.
1.2 加密数据流频繁项集传输的滤波处理和干扰抑制
在传输信道模型中,需要在大规模MIMO信道的近场源中提取数据流频繁项集的平均集对特征量[8],采用IIR滤波器进行码间干扰滤波.
提取多层实时网络加密大数据流频繁项集存储链路层中的实信号特征量x(t),定义多层实时网络加密大数据流频繁项集输出的斜度和峰度分别为
Sx=E[x3(t)]
(4)
Kx=E[x4(t)]-3E2[x2(t)]
(5)
式中,E[x2(t)]、E[x3(t)]和E[x4(t)]分别为链路层不同数量实信号特征输出频谱分块模型.
利用DFT将接收的多层实时网络加密数据进行自适应加权学习,将频域信号变换成时域信号[9],得到每个子带中多层实时网络加密的波束旁瓣权值为
(6)
(7)
计算多层实时网络加密波束旁瓣的冲激响应特征量,采用波束赋形方法提取多层实时网络加密大数据流频繁项集的相关功率谱[10],得到多层实时网络加密大数据流频繁项集的干扰滤波输出描述为
(8)
式中:ASM为每个子带数据流频繁项集的加权输出幅值;ρSM为输入缓冲器结构中多层实时网络加密数据流频繁项集的自适应调节参数;DSM为不等式约束条件.采用滑窗处理器进行滤波处理,得到发射数据流频繁项集包,多层实时网络路由终端进行大数据流频繁项集控制的时间窗口描述为
Tc=ent(Tf/Nc)
(9)
式中:Nc为大数据流频繁项集终端数量;Tf为频繁项集控制时间.
采用自适应滤波器实现对多层实时网络加密大数据流频繁项集的码间干扰抑制,利用Ns表示宽带波束赋形的码元个数,计算多层实时网络加密大数据流频繁项集波束旁瓣的码元数量,即
f(θ)=Q+(θ)Tc
(10)
(11)
通过相关功率谱调制,实现对多层实时网络加密数据流频繁项集传输的滤波处理和干扰抑制[11].
2 挖掘方法设计
2.1 加密大数据流频繁项集的码间干扰输出
在上述构建模型与抗干扰设计的基础上,对经干扰抑制的加密大数据流频繁项集进行集对分析,通过提取多层实时网络加密大数据流频繁项集的平均集对特征量[12],得到多层实时网络加密大数据流频繁项集并行挖掘的期望输入和测量误差分别为
(12)
针对多层实时网络加密大数据流频繁项集的集对簇,对加密序列x的值减1,对空频结构权值进行IDFT处理,调整迭代步长,如果x=0,更新多层实时网络加密大数据流频繁项集的抽头延迟[13],通过集对特征值形成零陷以抑制强转发干扰,其迭代函数为
(13)
基于散射簇的有效概率分析方法进行多层实时网络加密大数据流频繁项集挖掘的集对分析和三维空间散射簇建模[14],平均集对特征量的调节因子计算公式为
(14)
可见,通过多层实时网络加密大数据流频繁项集的集对分析,可以提高多层实时网络加密大数据流频繁项集挖掘能力[15].
实现数据流频繁项集集对分析,多层实时网络加密大数据流频繁项集的码间干扰输出为
(15)
式中:αl为码间干扰量;l为编码数;L为编码数最大值.
2.2 挖掘函数优化
采用波束赋形方法得到多层实时网络加密大数据流频繁项集挖掘的边界条件为
Yβ=ph(t)(mi+mj)
(16)
对于阵列加权输出特征块mi和mj,得到控制波束旁瓣的关联规则量为mij(1≤i≤n,1≤j≤k),关联规则的确定时常伴随着最小支持度的选取问题,挖掘关联规则时,最小支持度用来对搜索空间进行简化处理,并控制规则的产生数量.在加密数据流频度相差很多的情况下,若将最小支持度设置得过高,则频度较小的数据就可能会丢失;若将最小支持度设置得过低,则有可能会产生过多的冗余关联规则.本文通过调整支持度阈值的方法选取出最佳的最小支持度,即
综上,在不同年龄发病及性别组的分析中,各组DCM患者临床特点有相似也有差异,这可能与基因、遗传、环境、代谢等因素相关,随着基因遗传学和分子生物学发展,学者们对该病的研究已在基因遗传领域有所收获。在与多项研究对比中,表明该病在不同人群、地区、民族之间,其发病特点有所不同。本研究首次对本地区的138例DCM患者的临床特征进行分析,较好代表本人群、地区、民族中DCM患者的发病及临床特点,但仍存在较多限制及不足,下一步我们应该扩大样本量、加强随访并收集心电图、肝肾功能等代谢指标,对于猝死病人,可通过心肌组织活检方式进一步明确病理类型,才能进一步充分体现本地区人群DCM患者临床特征。
(17)
(18)
在大规模MIMO信道的近场源中提取多层实时网络加密大数据流频繁项集的平均集对特征量,得到多层实时网络加密大数据流频繁项集挖掘尺度特征为
(19)
式中:o(i,j)为多层实时网络挖掘尺度约束值;oij为频繁项集尺度值.
对于每个时帧A上,得到多层实时网络加密输出通道的空频结构权值为
W=w1Z+w2D+w3M
(20)
式中:wi为阵元间距;Z为子带中心频率;D为挖掘时间尺度;M为线性约束参量.结合多尺度调节方法,在多层实时网络加密输出通道中采用空频结构与空时结构权值转换方法实现多层实时网络加密大数据流频繁项集集对分析和挖掘,优化的挖掘函数为
(21)
3 仿真实验分析
为了测试本文方法在实现多层实时网络加密大数据流频繁项集挖掘中的应用性能,进行了实验分析.实验采用Matlab设计,多层实时网络加密采样的数据流频繁项集长度为5 000,中心频率为5 GHz,结构波束权值为1.25,波束指向为0,噪声增益为-12 dB,期望响应为1.56,均衡系数为2.15,根据上述仿真环境和参数设定,进行多层实时网络加密大数据流频繁项集挖掘.
测试通过加密大数据流频繁项集挖掘输出码元的误码率,得到对比结果如图2所示.分析图2可知,采用本文方法进行集对分析时,多层实时网络加密大数据流频繁项集输出的误码率较低,提高了输出的稳定性.
图2 输出误码率对比Fig.2 Comparison of transmission BER
对比不同支持度下挖掘大数据流频繁项集数目,本次实验与上述实验参数一致,表1给出了相应的实验结果.
表1 不同支持度下挖掘大数据流频繁项集数目Tab.1 Number of frequent item sets for mining big datastream under different support degrees
由表1可以看出,本文方法与其他两种方法产生的频繁项集数目均有较大差距.这一结果从某种意义上说明,本文方法具有较高的精确度,因此,本文设计的改进方法对数据流挖掘是可行的.为了进一步验证改进挖掘方法的挖掘输出效果,在不同支持度下对不同方法的运行时间进行对比,如图3所示.
图3 不同支持度下不同方法运行时间对比Fig.3 Comparison of running time with various methods under different support degrees
由图3可以看出,在不同支持度下,改进挖掘方法的运行时间较少,且处于相对平稳的状态,不随支持度的变化而发生过大改变.其他两种方法运行时间或变化速率较大,或始终处于较长耗时状态,因而本文方法对于数据挖掘的时间更短,效果更好.主要原因在于本文在完善了频繁项集挖掘的基础上,增加干扰滤除过程,导致挖掘输出效果较好,传输误码率较低,节省了挖掘时间.
为进一步验证本文方法的有效性,对本文方法的数据流频繁项集干扰滤波效果进行分析.根据式(8)可知,数据流频繁项集干扰滤波效果与ASM呈正相关关系,需要注意的是,当ASM的取值低于1.0时,ASM与滤波结果呈负相关关系;当ASM的取值低于1.0时,ASM与滤波结果呈正相关关系.本次实验分析中,主要通过对ASM的对比分析来验证本文方法的滤波效果,结果如图4所示.
图4 不同方法的频繁项集滤波效果对比Fig.4 Comparison of filtering effect for frequent item sets with different methods
分析图4可以看出,本文方法进行数据流频繁项集干扰滤波中,加权输出幅值的变化较为稳定,且在1.0以上,而文献[4]和文献[3]两种方法的加权输出幅值较低,文献[4]方法的输出幅值在0.5~1.0之间,滤波效果相对较好,而文献[3]方法的加权输出幅值始终在1.0以下,表明其滤波效果不佳.
4 结 论
在多层实时网络加密大数据流频繁项集挖掘中,受到码间干扰以及多径特征的影响,导致挖掘输出效果不好,本文设计改进方法实现多层实时网络加密大数据流频繁项集集对分析和挖掘.实验研究可知,本文方法能有效实现多层实时网络加密大数据流频繁项集挖掘,传输误码率较低,数据挖掘过程耗时较少,滤波效果好,整体性能优越.