基于人工智能技术的物联网大数据挖掘算法

2021-02-16朱敏

黑龙江工业学院学报(综合版) 2021年12期

朱敏

(1.安徽警官职业学院，安徽合肥 230031；2.合肥工业大学，安徽合肥 230009)

为了更好地处理物物相连的网络延伸情况[1]，提升物联网设备的应用性能，满足快速增长的物联网大数据应用要求[2]，数据挖掘技术成为当前备受关注的问题。以信息有效利用为核心，涌现出多种数据挖掘算法。文献[3]分析当前网络技术、计算机技术的发展情况，以此为依据，汇总网络上越来越多的数据信息，添加分布式隐私保护理念，实现聚类挖掘算法的设计。将大数据挖掘技术，与隐私数据保护技术相结合，探索数据挖掘算法，在用户隐私得到保护的基础上，提升了大数据聚类挖掘准确度，但算法的鲁棒性较差。文献[4]分析了现有数据挖掘算法的缺陷，提出以粗糙集原理为基础的挖掘算法。该算法的重点在于动态聚类技术，通过两步离散化算法有效处理大数据，并应用并行计算技术达到提升算法执行效率的目的。根据实例验证结果，明确算法面对海量数据处理的可行性，虽然大大提升了数据处理效率，但算法拓展性较差。文献[5]在数据挖掘过程中，采用聚类算法筛选出符合要求的数据，根据数据结构和相似度获取数据类型距离计算结果。通过上述操作，在聚类分析框架中输入数据，根据挖掘算法策略与SLIO算法，输出有价值的数据信息。该算法的挖掘速度稳定，但数据挖掘精度不稳定。

本文采用人工智能技术，将其融入数据挖掘算法之中，完成物联网大数据挖掘算法的设计，有效提升数据聚类精度。

1 物联网大数据挖掘算法设计

1.1 建立数据模型树

为了保证数据挖掘算法符合物联网大数据的动态特性，建立了维度控制机制，并在此基础上生成了数据模型树[6]。在物联网应用过程中，获取的用户信息准确度，对最终的数据挖掘结果具有极大影响。所以，在物联网大数据挖掘算法设计时，需要利用信息模型树挖掘用户行为。

为了保证数据模型树和物联网应用模式的匹配度，从数据模型树自身出发，全面扫描物联网所有数据内容，确保物联网大数据的全面性。根据物联网数据提取出具体的网络节点，从而得出整体数据集。从数据集中选择数据量最大的网络节点，数据挖掘工作就是从该节点开始，通过排序处理的方式处理其余的数据节点[7]。根据上述节点选择方式，得到每个排序周期的节点，形成图1所示的数据模型树。

图1 数据模式树

以图1所示的数据模型树为基础，考虑到物联网用户的行为习惯，判断用户行为与网络节点之间的关联，初步得到数据挖掘范围。除此之外，数据挖掘算法的设计还需要考虑大数据的形成特点，及其与用户行为的关联。在考虑周期性特征后，更改查看等行为，并完成用户行为排序[8]。按照用户行为排序结果，将与用户行为关联度较大的节点，对所对应的数据总量阶段进行排序，作为后续物联网大数据挖掘的基础。

1.2 检测物联网特征数据

依靠维度综合控制机制得到的数据模式树，可以一定程度上获取数据挖掘范围，但是由于模型关联度计算不够准确，无法获得数据挖掘具体结果[9]。所以，本文采用特征提取方法，检测出物联网大数据中的特征数据。根据大数据的属性维度，获取信息数据的价值性维度，将需要挖掘的数据集设置为D，并且将该数据集的维度设置为d，根据数据属性取值，得到集合W。

构建数据挖掘所需的子空间S，子空间被包含在数据属性值集合内，且子空间内的数据对象o∈D。根据数据离群分布特点，可以得出子空间内的数据对象最近邻域(o,S)，也呈现出非均匀分布的情况。子空间内随机选择的一个数据对象，其在数据集中的离群概率可以表示为Id(o,S)。从多维数据属性的角度分析，可以发现子空间的中心点就是数据对象o，则概率距离计算公式为：

(1)

式中，距离表示为d，倘若在待挖掘全体数据集内，数据对象o依旧处于中心位置，那么数据s与数据o之间的标准距离σ，可以通过公式(2)计算。

(2)

由于物联网大数据内局部离散数据呈现出非均匀分布状态，离散数据的特征需要通过离散数据的密度与标准距离之间的近似值来表示：

(3)

通过公式(3)得出离散特征λ的值，基于该结果得出所需数据在局部离散数据内的分布情况。

综合上述特征提取方法，在物联网大数据挖掘中，采用基于信息熵的检测算法，得到所需的数据信息。在待检测数据集X中，对某一项数据x分布情况进行检测，依托于取值概率函数p获得数据x的信息熵E(x)：

(4)

通过信息熵计算结果，将数据空间内包含的所有待检测数据，依据降序的方式排列。然后，按照待检测数据集合从大到小的序列，选择信息熵比较大的多个数据，作为数据聚类中心完成其余数据的检测。聚类中心之间的距离公式为：

(5)

公式(5)中，a、b是随机选取的两聚类中心，以聚类中心为核心，在分析所有数据信息熵后，通过平均值计算设置聚类阈值。当聚类中心之间的距离dist比设置的阈值更小，则需要更换其他的数据作为聚类中心，并重复公式(5)的计算，直到所有的计算结果均大于给定阈值才可以终止。

在检测数据集中，计算数据与聚类中心的距离。要检测的数据是最近聚类中心的同一类数据对象。在分配物联网所有大数据后，得到每个分类簇的平均值。基于上述计算结果，使用数据集中的数据再次完成聚类处理[10]。通过重复上述聚类过程直到没有新的聚类中心出现，计算将终止。物联网大数据集按照最终的聚类中心进行处理，没有任何分类聚类的数据称为非局部离群数据。分类簇中已有的数据信息是基于信息熵算法检测到的所有特征数据。为了提高数据挖掘的准确性，所有检测到的数据都被标准化。

1.3 特征数据标准化处理

通过上述特征数据检测结果，提取出满足要求的局部离散数据。然而，由于本文检测到的特征信息具有很强的相关性，因此检测到的数据中不可避免地存在一些噪声数据。为了保证后续数据分析处理的正常运行，对上述操作检测到的数据进行了标准化处理。

由于检测出来的数据量纲存在差异，对物联网大数据挖掘结果产生一定负面影响，所以需要按照标准格式处理检测出的数据，如式(6)所示。

(6)

数据标准化处理结果α′，需要根据检测出的数据的属性均值α和数据的属性标准差Yα进行计算。在计算过程中，利用标准差使得数据特征更加显著，以保证数据挖掘精度。除此之外，还可以采用检测数据的属性平均偏差Gα，获得数据标准化处理结果，计算公式为：

(7)

通过上述公式达到提升算法抗干扰性能的目的，而数据属性均值α、数据属性标准差Yα、数据属性平均偏差Gα的计算公式分别为：

(8)

式中，迭代次数为m，在完成数据标准化处理后，对处理后的数据应用人工智能技术，获取最终的数据挖掘结果。

1.4 实现人工智能数据挖掘

本文利用人工智能技术的一个重要分支神经网络技术来实现物联网大数据挖掘的目的。采用三层传输结构的BP神经网络作为主体结构，将标准化数据输入神经网络。由于神经网络结构的特殊性，采用数据信息熵的平均值E，代替网络输入层与中间层之间的连接权值ω，则权值计算公式为：

(9)

式中，通过数据的第i维属性的熵值Hi，获取神经网络的连接权值计算结果，按照图2所示流程，在物联网大数据中挖掘出所需数据信息。

图2 神经网络挖掘流程

由图2可知，在文中设计的人工智能数据挖掘流程中，添加了遗传学习步骤，设计以网络非线性分类能力、网络结构为核心的分类器。通过遗传学习算法的优化，输出符合挖掘要求的数据，这种人工智能技术方法的改进，在保证非线性能力的同时，与之前的处理方法相连接，确保数据挖掘精度。

数据挖掘过程中融合了遗传算法，需要对输入神经网络的数据完成杂交算子与变异算子的修改。将杂交算子的计算表示为一种线性组合，表示为：

(10)

式中，θ1、θ2为线性组合的两个数据，而常数u的取值范围在0到1之间，并依据实际情况缩小取值范围。当常数取值处于固定不变的状态，表示计算过程中的杂交算子具有非一致性。当常量值随着迭代次数的变化而变化时，可以提高杂交算子的平均性能，使物联网大数据完成渐进混合。

数据挖掘中变异算子的修改，每一个随机数据vk都可能会有一定几率发生变异情况，将该数据一次变异后的值Vk随机表示为：

(11)

根据变量k的左、右邻居LB、UB，以及函数Δ返回值生成数据变异值。数据变异值往往会伴随着代数t的增大，而无限接近于0。

基于以上操作，完成算子在数据集的整体搜索，并输出符合数据挖掘要求的物联网数据信息。通过上述所有处理步骤，实现基于人工智能技术的物联网大数据挖掘算法设计。

2 仿真实验

2.1 获取实验数据集

为了验证数据挖掘算法的应用性能，根据仿真实验结果判断算法实际应用效果。选择含有3500个二维特征向量的物联网数据，构成实验数据集。将数据点划分为图3所示的数据分布情况。

图3 数据分布图

如图3所示，数据划分结果为15类，数据点聚类时的模糊系数为1.7，每一个聚类中的传递点数量为2。为了保证向量的维度数值在0～1的范围内，在每一维度中去除最小值，利用计算结果除以维度中最大值，完成数据的正则化处理。

此外，当数据集中包含的数据量较大时，为了提升数据挖掘质量，往往会将原始数据集分成多个数据块，文中采用不放回的随机抽样法，划分实验数据集。确保划分后的每个数据块大小相同，从而降低实验计算复杂度。在仿真实验中，设置数据集子块的大小分别为10%、20%、25%和50%。

2.2 性能指标

除了文中设计的物联网大数据挖掘算法，在实验中应用文献[3]与文献[4]所提出的算法进行数据挖掘测试。采用F-measure与RI作为判断算法性能的两个指标。其中，F-measure评价法是一种最为常用的评价标准，计算公式为：

(12)

如公式(12)所示，指标F的计算结果，取决于精度P与召回率R。精度指的是数据挖掘结果中特定类所占据的比例，而召回率则表示含有特定类的所有对象数量。两个数据类i、j的精度与召回率计算为公式(13)和公式(14)。

(13)

(14)

数据挖掘结果的准确性还可以通过RI指标来判断。依靠计算获得数据集X的聚类结果CIN，以及实际聚类结果CT。对于一个无序的数据点对(xi,xj)，可以定义出四个计算RI值所需的集合TP、TN、FP、FN：

(15)

基于上述集合，得出RI计算公式：

(16)

根据公式(16)计算结果得出两个聚类结果的相似程度，由于RI的取值范围在0到1之间，所以计算结果越接近1表示数据挖掘结果与实际结果相似度越高，数据挖掘算法的聚类精度更高。相反，计算结果越接近于零，则表明数据挖掘结果准确度较低，算法性能较差。

2.3 算法性能对比分析

在实验数据集中运行文中设计挖掘算法，和文献[3]、文献[4]所提出的算法。获取三种算法运行后的F-measure和RI结果，为了更加直观地体现出对比结果，设置每种算法在数据集上的运行次数为20次，计算20次实验的平均值、方差，以及最大值和最小值。其中，平均值计算结果反映了平均意义上的数据挖掘性能，而算法的鲁棒性则与方差计算结果密切相关。不同算法F-measure结果对比如图4所示。

(a)平均值mean对比

(b)方差var对比

(c)最大值max对比

(d)最小值min对比图4 不同算法F-measure结果对比

根据图4(b)显示的方差可知，文中算法具有较强的鲁棒性。并且分析图4(a)(c)(d)数据后，得出文中设计算法F-measure结果的平均值、最大值、最小值测试结果均高于其他两种文献算法。以F-measure结果的平均值为例，文中设计算法的数据挖掘精度相比文献[3]最高提升了15.01%，相比文献[4]算法的数据挖掘精度提升的最高值为17.52%。从F-measure指标来看，文中设计挖掘算法具有更好的性能。

根据三种算法的RI值计算结果，绘制图5所示的不同算法RI结果对比图。

(a)平均值mean对比

(b)方差var对比

(c)最大值max对比

(d)最小值min对比图5 不同算法RI结果对比

从三种算法RI结果分析可以发现，与F-measure结果相似，文中设计挖掘算法的整体优于文献[3]和文献[4]算法。特别是当数据块大小为4%时，文中设计算法的RI值提高了20.32%、25.03%，此时数据挖掘精度提高最为明显。

在物联网大数据挖掘过程中，由于挖掘技术的不同，原有的数据挖掘算法往往会导致一些数据受到内存的限制而无法有效处理。本文采用人工智能中的神经网络技术，加入了遗传学习方法。通过对数据集的独特处理，解决了大数据集中聚类信息传递不准确的问题，从而提高了数据挖掘算法的性能。通过仿真结果可以发现，与文献[3]和文献[4]中的算法相比，本文设计的算法在F-测度结果和RI结果上都有所改进，证明了人工智能技术与物联网大数据挖掘算法的融合促进了数据挖掘技术的发展。