基于云计算的物联网数据挖掘研究

2023-05-22宋蕊

物联网技术 2023年5期

宋蕊

（黄河水利职业技术学院，河南开封 475000）

0 引言

物联网作为基于网络平台形成的一种具有针对性和联动性的网络化结构，其应用范围呈逐步拓展的趋势。数据挖掘则强调从固有的数据信息中寻找和挖掘有价值的信息，通过数据信息的分析和研究找到问题解决的办法。只要保证数据信息的来源和计算方法的准确性和可靠性，就能够在物联网时代充分发挥数据对问题分析和解决过程的支撑作用，体现物联网系统在实践应用中的优势。

1 数据挖掘技术应用的基本流程分析

数据挖掘是基于固定的数据信息进行分析和研究的过程，整个数据挖掘的工作流程具有典型的程序化特征，且各个步骤之间也有非常紧密的联系。对数据挖掘基本流程的充分了解，是进一步为物联网实践应用提供服务的重要条件。具体来说，数据挖掘技术的具体应用流程如下。

1.1 数据集的初步选择

数据集的选择主要是指，从数据信息的来源方面进行有效控制并合理选择。现阶段比较常见的数据集选择方式包括网站下载、网络爬虫技术支持下的爬取、数据库下载等多种渠道。亲戚关系数据集选取环节所选定的数据集模式，会直接影响后续的数据信息算法的选择[1]。因此，在数据挖掘技术的应用中，应当对前期的数据集选择环节的工作引起充分的重视，并慎重完成筛选过程。

1.2 数据集的预处理

数据集的预处理环节是指，在具体的数据挖掘技术实践应用前，需要对数据集进行细节性筛选和处理，形成优质数据集。在进行预处理的过程中，主要步骤包括数据集成、数据转换以及数据规约。经过处理的数据可向目的端进行传送，并进一步应用[2]。

1.3 数据发掘

数据挖掘是整个技术实施的核心环节，需要相关的技术人员和数据分析研究人员分别从数据的结构、维度等方面对数据的基本性质和特征进行明确[3]。在此基础上，结合数据挖掘技术应用过程中涉及的不同类型的算法进行充分了解，明确其实践应用中的基本特征和优缺点，以便结合实际选择适当的算法完成数据挖掘的过程，确保在大批量的数据信息中找到具有应用价值的关键性信息。

1.4 模式评估

在这一阶段，工作要点在于，对已经选择的计算方法和计算流程状态进行评估，确认此模式在实践应用中是否具有合理性和可靠性[4]。在分析了整体模式的状态后，也能够为发现新的运行模式提供一定的支持和帮助。图1 为数据挖掘环节的具体工作开展流程。

图1 数据挖掘技术应用流程

2 云计算关键技术分析

2.1 虚拟化技术

虚拟化技术主要应用于：当高性能的硬件出现了产能过剩的问题或者由于陈旧性因素导致产能不足问题时，通过虚拟化技术完成硬件的充足与再利用。通过底层物理硬件的透明化处理，实现软件和硬件的分离操作。利用独立的高性能硬件实现多种类型资源的虚拟，实现客观上产能不足的资源的整合和应用，提升物理硬件本身的利用率[5]。

2.2 数据处理与编程模型构建技术

云计算技术的优势主要体现在对多种不同类型数据的集中处理，并建立相应的编程模型。具体的编程模型结构方面包括了不同类型的函数公式，在不同的阶段需要利用函数公式完成相应的计算以及数据的读取和加工。完成数据的初步读取过程后，需进一步对数据进行合并处理[6]。这种数据处理模型对大批量的数据都具有处理能力，并且对于数据集也能够起到监控作用。一旦出现运行异常的情况，也能够及时进行识别处理，在整体的运行稳定性上更高。图2 为常用并行编程模型。

图2 并行编程模型

2.3 云计算典型平台分析

Hadoop 平台是云计算技术应用的典型常用平台。此平台在实践应用中能够实现大批量数据的存储，在硬件分布式集群化处理时，均可发挥相应的作用。在具体特征方面，此平台具有典型的适应性和扩展性优势，可根据用户在实践应用中的具体需求，完成内容和信息的扩展。在这一云计算平台上，数据存储在模块结构中。在不同的模块结构支撑下，数据信息实现不同位置的复制，而集群节点周围的数据是数据分析中具有高度可用性的关键数据。此平台的基本组件主要包括了分布式文件系统以及MapReduce 系统[7]。前者主要提供集群中的复制数据块信息，并且实现大批量数据的有效存储；而后者则主要发挥分布式大数据计算的功能。在实践运行应用中，除了要保证平台功能的有效发挥，平台运行中的安全以及数据信息一致性，也是需要考虑的典型问题。在此平台中，随着数据计算和分析功能的发挥，安全模式会同步启动。这时，文件系统只接受读取的请求；而对于删除、修改等变更性请求不予处理。数据的一致性主要是指，在平台运行的过程中，节点之间的数据传送会导致数据出现损失和破坏的现象。因此，为了保证数据信息的准确性和完整性，利用系统内的分布式文件功能，完成对基础数据信息的校验和分析，确保新文件的存储经过校验和分析。

3 聚类算法分析

3.1 聚类算法的基本介绍

聚类算法在数据挖掘技术中属于核心的算法方式。在聚类算法应用中，又可细分为不同类型的细节算法。比较常见的聚类算法包括了K-means 算法和LDC 算法。而本文探讨的ALDCK-means 算法，能够解决传统算法中的噪声问题和数值异常问题。在算法应用的过程中，簇的质心将作为聚类的中心点，开启下一轮的计算。此种计算方法的应用是对传统的计算方法进行改进和优化形成的一种综合性和全面性更强的计算方法。例如，在前期的K-means 算法中，K 值的选择以及LDC 算法中初始中心的选择，都能够为ALDCKmeans算法的应用提供一定的参考和辅助[8-10]。在实践应用中，此种综合性更强的计算方法，能够更好地对数据点的局部密集度和高密度最小距离进行合理确认。从数据集中，去除满足条件的相应噪声点，随后再按照降序排列的基本规则，对数据集中高密度的最小距离进行确认；而确认了最小距离后，可进一步在相关的序列数据中，选择初始聚类中心区域，执行K-means 聚类操作。这类操作完成后，实现距离最近的两个类别的合并，并且计算合并之前的评判值（E0）和合并之后的评判值（E）。评判值计算结果需要满足的公式为：

合并完成后，若能够进一步确认合并的合理性，则可进行下一阶段的合并。直到无法确保满足条件时停止，这时输出聚类结果，并终止计算过程。

3.2 LDCK-K-means 算法的具体步骤分析

LDCK-K-means 算法是综合性更强的ALDCK-means 算法应用的重要基础。在具体的算法流程上包括：①输入截距指标（dc）和数据集（A）；②计算单独数据点的高密度最小距离值（δi）以及局部密度值（ρi）；③针对整个数据集区间进行搜索，将满足以下公式的数据直接从数据集中删除：ρi≤μσ(ρ)-2σ(ρ)和δi≥μ(δ)+σ(δ)；④将剩余的数据点按照高密度的最小距离进行降序形式的排列，选出前n个根号数据形成聚类中心点；⑤应用K-means 聚类算法，对数据进行计算，获得相应的集群数据；⑥计算簇之间的分散度和簇内的聚合度指标，最终求出评判值；⑦进行可聚类中心点之间距离的计算，并完成类别的合并，求出新的聚类中心点，进行循环聚类操作；⑧用迭代计算方式，计算出满足条件的相关数据，当无法满足既定条件时，则宣布算法结束。

3.3 ALDCK-means 算法实验

算法实验的具体落实执行，需选取人工数据集作为基础依托数据，并且对优化后的聚类效果以及准确率进行试验分析。在具体的实验过程中，可选取具有代表性的数据集纳入实验过程，分别按照聚类数目、形态、数据量三项指标，对算法的准确性进行观察验证。通过对算法聚类效果的观察可知，不同的计算方法在效果上存在一定的差异。本文所探讨的ALDCK-means 算法，在聚类效果上较之传统算法具有一定的优势，且算法所得的数据信息在准确性上也更强。

3.4 Hadoop 背景下的ALCDK-means 算法设计与实践

在新的计算方法得到优化后，能够更加显著地完成更大数量级的数据集计算。计算中，每个数据点的高密度最小距离、局部密度、中心点距离等各项数据都能保持相对独立的状态。因此，可进一步考虑将新的计算方法进行并行化处理，以便应用在更大规模的数据信息计算过程中。在此种新型的计算方法应用和并行化的过程中，独立的迭代都会对应相应的数据分析任务。另外，还会产生相应的密度最小距离值以及局部密度值。在不同的运算阶段，其所执行的计算流程也有非常显著的特征。

在完成了并行化后，ALCDK-means 算法的执行流程如下：①实现集群的初始化处理，并将聚类数据传输到分布式的系统平台中；②立足于系统平台读取聚类数据，完成相应专业格式的解析；③各部分的区域性状态都形成独立运行的模式，可分别读取数据点计算出的高密度最小距离值和局部密度值；④对所有数据点进行分析和检验，删除噪声点，完成降序排列，选择合理的聚类中心。

4 结语

通过本文的分析可知，在云计算背景下的物联网数据挖掘技术应用过程中，需要应用不同的数据算法，进行数据的分析和研究。具体的算法选择，需结合算法应用的实际状态和效果进行合理的规划。与此同时，算法的实践应用也需要按照不同的步骤，依托具体的基础数据和公式进行计算确认。最终得到具有核心参照价值的参数指标。获得相应的数据计算结果，可为云计算技术支持下的物联网数据计算分析提供支持。