APP下载

异构物联网中关联数据一致性规则挖掘模型

2023-03-29许明宇王宜怀

计算机仿真 2023年2期
关键词:异构一致性关联

许明宇,王宜怀

(苏州大学计算机科学与技术学院,江苏 苏州 215000)

1 引言

因信息产业发展速度加快,大数据技术的应用范围越来越广。在社会个领域的运转中,各式各样的数据以海量式模式快速增长[1,2]。在这一背景下,数据一致性问题愈发重要。在数据挖掘、数据聚类等相关应用中,数据一致性挖掘必不可少。

关联数据一致性规则挖掘的目的在于发现网络关联数据中不同数据在邻近域内的相互依赖关系以及相似性关系,其对于理解数据间的交互作用具有重要意义。然而,目前关于异构物联网中关联数据一致性规则挖掘这一问题有关的研究还有待进一步加强[3]。为此,本研究构建了异构物联网中关联数据一致性规则挖掘模型。

异构物联网信息属于多源异构特性,也存在大量重复数据。因此,本研究在设计一致性规则挖掘过程时,考虑到异构物联网信息中的重复数据,引入了重复数据优化清除过程。该过程对异构物联网中关联数据一致性规则挖掘存在积极作用,且以内容相关条件函数依赖规则为挖掘规则。然后通过基于内容相关条件函数依赖的关联数据一致性规则挖掘模型,有效获取关联数据一致性规则。

2 模型设计

2.1 基于多维数据聚类过程清除重复数据

2.1.1 特征向量的量化

在异构物联网中,为了准确挖掘其中关联数据的一致性规则,本研究首先基于异构物联网多维数据聚类的的方式对重复数据进行清除。通过多维数据聚类分析方法,把所有数据集里各个数据项均映射至对应的种类之中,再采用贝叶斯方法划分异构物联网数据样本空间,获取每个异构物联网数据文本里的特征向量,实现特征向量的量化[4-6]。详细流程如下:

设定异构物联网数据集表示为E,E的种类集合为D。将异构物联网数据集E中的各个数据项E1均映射至D中的数据种类Q里,则存在

(1)

式(1)中,ϖ表示依存关系;s表示有向边。若将有向边集合设成β,似然率测试规则表示为N,数据特征矢量种类表示为W,事件e出现几率是α,则数据样本空间划分的过程如下

(2)

式(2)中,数据集映射后的值与映射至的相似性依次表示为r、ε;字符串匹配阈值表示为q。

在此基础上,将数据间耦合度与聚类集的相似性依次设成φ、rs,则每个数据文本里特征量f的提取方法是

(3)

式(3)中,h表示数据核心属性占所有属性的百分比,k表示数据集的扫描次数。

根据上述提取的数据文本里特征量f,将差异数据集的维度与变量集合依次设定位m、c,则可得到所有特征量的量化集f′为

(4)

式(4)中,I表示学习数据结果集,S表示测试训练集。

在上述操作过程中,还需注意在去除异构物联网中的重复数据时,把所有数据集各个数据项均映射至对应种类之中[7],通过贝叶斯方法实现数据样本空间划分,得到每个数据文本里的特征向量,对所有特征向量完成量化。

2.1.2 基于数据相似度的重复数据清除

清除重复数据时,把上一小节得到的量化处理后特征量f′作成依据,设置字符语义数值,然后运算各个数据集合相应的语义数值序列,得到字符间相邻关系,获取每个数据的傅立叶展开系数向量,设置数据相似度判断阈值,完成异构物联网的重复数据清除。详细流程如下:

假设离散数值序列为γ,重复数据近似数值序列为g,将数值序列实施傅立叶转换获取傅立叶系数,可得到字符语义数值为

(5)

式(5)中,n表示字符语义数值的种类数目,y表示各个数据集合相应的语义数值序列,字符间相邻关系表示为i′。

在此基础上,设置字符j的语义数值是jφ,拉格朗日乘子表示为φ,yj所描述的各个数据集合相应的语义数值序列是

(6)

式(6)中,emax表示特征绝对值向量最大值是;F′表示数据属性集合。

设置滑动窗口大小与平滑操作后第u个字符相应的语义数值表示为ru,则可得到字符间相连关系B′swdftr为

(7)

式(7)中,l表示字符语义相对距离。

在此基础上,设置不同数据的语义数值分布概率为p,傅立叶展开系数为x,一个周期离散数列是rt,那么数据相似度判断阈值是:

(8)

式(8)中,ht表示各个数据的权重。然后设置各个异构物联网数据映射空间是G,重复数据清除结果如下

(9)

式(9)中,z表示清除重复数据后的异构物联网数据。

2.2 基于内容相关的条件函数依赖关系挖掘关联数据的一致性规则

在上一小节得到的重复数据被清除的异构物联网数据中,使用基于内容相关的条件函数依赖关系构建关联数据一致性规则挖掘模型,按照内容相关条件函数依赖规则,挖掘异构物联网中关联数据一致性规则。

2.2.1 异构模式融合

异构物联网中,因为数据间关联模式的不同,某种关联模式中规则集合难以在其它关联模式里有效应用[8-10]。在此种情况下,异构物联网关联数据一致性规则的使用效果将受到影响。因此,在挖掘关联数据一致性规则前,在重复数据清除结果E中,需要实现异构物联网关联数据融合,而异构融合与简单的数据合并存在一定差异[11]。

将异构物联网数据的关联模式设成Sa、Sb,然后在异构物联网关联数据的关联模式中,将关联数据实例设成La、Lb,条件函数依赖(conditional functional dependencies,CFDs)的规则集合设成Ω,且存在σ∈Ω,这里的σ表示为属性匹配模式。则Sa、Sb、σ的模式融合过程如下

(10)

式(10)中,R(Sa*Sb)σ表示异构物联网关联数据的融合结果;V表示融合后衍生的新模式属性;attr(Sa)、attr(Sb)依次表示Sa、Sb的属性数量;lhsσ、rhsσ依次表示σ的左部、右部属性集合。在上述操作过程中,R(Sa*Sb)σ中原始异构模式里以σ为标准所的匹配属性将聚类于一组,变成融合模式里的关联数据属性;未能被匹配的关联数据属性还留在原始模式里,针对融合后关联数据属性值,阈值属于2个关联数据属性的并集[12]。

异构物联网关联数据实例简称异构实例,规则挖掘问题一般是在实例里对数据关系实施抽象。模式融合对关系属性存在扩展功能,以此让关系实例出现差异。异构实例融合的概念如下:

假设T表示融合模式中合并获取的关系实例,其获取过程如下

(11)

式(11)中,关联模式Sa里不具有的属性表示为Lv;v、g表示不同类型的关联数据属性;关联模式Sb里不具有的属性是Lg;La、Lb依次表示关联模式Sa、Sb里数据特征值。

2.2.2 规则发现

函数依赖(functional dependencies,FDs)、条件函数依赖、扩展条件函数依赖(extended conditional functional dependencies,eCFDs),其属于数据一致性管理的核心技术。在关联模式中,将函数依赖设成ς:v→C。其中,ς、C表示关联数据一致性规则的属性值。

针对条件函数依赖、扩展函数依赖而言,因为在函数依赖规则中,规则左部条件属性被划分,在实施规则挖掘时,必须依次分析条件属性与变量属性,本文构建一种二级lattice结构模型,详情见图1。使用此模型在挖掘一致性规则时,自vg→Γ开始,穿过v|g→Γ、g|v→Γ直至vg|→Γ停止,以此获取内容相关条件函数依赖,Γ是关联数据一致性规则属性。二级lattice结构如图1所示。

图1 二级lattice结构示意图

2.2.3 一致性规则合并挖掘

在使用二级lattice结构获取内容相关条件函数依赖后,将符合一致形式Γ|g→v的关联数据一致性规则实施合并,获取融合后关联数据一致性规则相应的内容相关条件函数依赖。但是,不是全部关联数据一致性规则的条件值均可以实施合并。为此,为了准确挖掘一致性规则,需要清除条件冲突值。条件冲突值τΓ的判断过程如下:

(12)

式(12)中,πΓ∪g表示实例La⊕ΩLb中,条件值为Γ=Γj的选择操作、投影操作。

去除条件冲突值后,将不存在冲突的关联数据规则实施一致性合并,输出的合并结果即为异构物联网中关联数据一致性挖掘结果。

3 实验与分析

为验证上述异构物联网中关联数据一致性规则挖掘模型的有效性,设计如下仿真检验过程。

3.1 实验设置

使用Inter Core i5-7400CPU,与RAM主机相连,使用Java语言设计实验程序。

实验数据集分为NBA数据与豆瓣数据,NBA数据集主要为赛季统计数据构成,其中的数据具有11种属性,数据为20000条。豆瓣数据来自于豆瓣网站,由豆瓣电影数据与豆瓣读书数据构成,豆瓣电影数据属性为10种,元组数为50000条,豆瓣读书数据属性为12种,元组数为50000条。

3.2 本文模型使用性能验证

首先测试本文模型对异构物联网中关联数据一致性规则的挖掘时间,以此判断本文模型的挖掘效率。实验结果如图2所示。

图2 本文模型挖掘效果实验结果

分析图2结果可知,3种不同来来源数据量的异构物联网数据中,本文模型在异构模式融合阶段、规则发现阶段、规则合并阶段中,对关联数据一致性规则挖掘耗时始终在2.50s以下。具体来看,本文模型针对赛季统计数据、豆瓣电影数据、豆瓣读书数据的总挖掘耗时最大值依次为2.15s、2.20s、2.40s,挖掘耗时可满足异构物联网中关联数据一致性规则挖掘需求。

因异构物联网数据中关联数据一致性规则属于虚体,不具有可衡量性,本文模型对NBA队员数据、赛季统计数据、豆瓣电影数据、豆瓣读书数据的关联数据一致性规则挖掘结果以四种数据的属性为判断结果,本文模型的挖掘准确性如图3所示。

图3 本文模型挖掘准确性实验结果

分析图3所示结果可知。本文模型对豆瓣电影数据和豆瓣读书数据中一致性规则挖掘的准确率呈上升状态,对赛季统计数据中一致性规则挖掘的准确率呈下降状态。但本文模型对赛季统计数据、豆瓣电影数据、豆瓣读书数据的关联数据一致性规则挖掘准确率较高,其准确率始终保持在90%以上。产生这一结果的原因在于本文模型先使用了基于异构物联网多维数据聚类的重复数据优化清除方法,去除异构物联网多维数据聚类的重复数据,大大降低关联数据一致性规则挖掘误差。

为了进一步测试本文模型对重复数据的清除效果,以数据重复率为测试指标验证其有效性。数据重复率B计算方法如下

(13)

式(13)中,d、m依次表示查全率与重复数据数目;ϑ是正确清除的数据量。本文模型的清除效果测试结果如表1所示。

表1 本文模型的清除效果测试结果

分析表1所示结果可知,本文模型处理后的异构物联网数据重复率均值最大值是0.03,重复率极小,对关联数据一致性规则挖掘不存在显著影响。由此可以说明,本文模型对异构物联网中关联数据的处理性能显著。

4 结束语

在异构物联网环境中,关联数据一致性规则挖掘的准确与否,与数据挖掘、数据应用的合理与否存在直接联系。为此,本文构建了一种异构物联网中关联数据一致性规则挖掘模型。在实验中通过NBA数据与豆瓣数据测试本文模型的应用效果。测试结果验证,本文模型对关联数据一致性规则的挖掘耗时较短,挖掘准确性较高,且本文模型清洗后的关联数据重复率较低,本文模型可优化异构物联网中关联数据一致性规则挖掘效果。

猜你喜欢

异构一致性关联
关注减污降碳协同的一致性和整体性
试论同课异构之“同”与“异”
注重教、学、评一致性 提高一轮复习效率
IOl-master 700和Pentacam测量Kappa角一致性分析
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
基于事件触发的多智能体输入饱和一致性控制