APP下载

基于物联网和云计算技术的数据挖掘模型设计

2023-09-20杨晓娟

无线互联科技 2023年14期
关键词:数据处理数据挖掘联网

杨晓娟

(河南牧业经济学院,河南 郑州 450000)

0 引言

数据挖掘技术是从海量、庞大的数据库中,筛选和提取具有价值的信息数据,并对信息数据进行深入挖掘和分析。另外,在综合应用物联网技术和云计算技术的基础上,完成对数据挖掘模型的构建,确保该模型具有功能运行良好、结构稳定可靠等特点,确保各种统计学因素进行有效的融合[1],从而实现对物联网数据的高效化、智能化处理,使得物联网数据处理成本降到最低。所以,充分发挥和利用数据挖掘技术的应用优势,如何科学地设计数据挖掘模型是技术人员必须思考和解决的问题。

1 相关技术概述

1.1 物联网技术

1.1.1 物联网概念

物联网作为一种重要网络,可以将不同物体进行相连相通,有效突显出信息时代特点。物联网使用原理是借助智能感知技术,融会贯通处理网络[2],保证物物相连的稳定性和可靠性,同时,还要有效地延伸和扩大互联网客户端。物联网主要适用于智能交通、环境保护、智能家居等领域。

1.1.2 物联网特点

物联网主要具有以下几个特点:(1)感知能力强。通过综合运用多种传感器,可以实现对多种实时数据的获取,这些实时数据在形式、内容呈现上具有一定的差异。(2)智能化处理能力强。通过将物联网与传感器的有效结合,可以获得较高的智能化处理能力,然后,从海量信息数据中,可以深入分析和挖掘出有价值的信息数据,从而满足用户的实际使用需求。

1.2 信息融合技术

1.2.1 信息融合技术概念

信息融合技术又叫数据融合,主要通过运用计算机技术,对多种传感器信息进行综合化分析和处理,从而获得有用的信息数据。另外,也可以融合处理多个传感器信息,将多个信息源进行综合化处理,从而获得需要的信息数据[3]。然后,在关联处理信息的基础上,对身份信息和位置信息进行估计和确定。整个过程表现出一定的创新性和时效性,有利于后期数据结果的实时化更新和发布。

1.2.2 信息融合技术的基本方法

信息融合技术基本方法如图1所示,可以看出,该技术基本方法主要包含以下几种:(1)小波分析法。该方法除了可以直接分析分布特征信息外,还能分析分布特征信号。(2)加权平均法。通过加权平均法对传感器收集的信息进行处理,并获得相应的融合值,该融合值属于平均值,是信息融合技术的典型应用[4]。(3)概率论法。通过概率论法对不同传感器信息源进行分析和整理,有针对性地删除错误信息、低水平信息,如果将先验概率直接设置为已知条件,可以采用贝叶斯概率法获得最终信息融合结果。(4)卡尔曼滤波法。该方法主要适用于传感器冗余信息处理。线性系统在实际运行时,一旦产生的传感器噪声符合设置的建模条件,通过利用卡尔曼滤波法可以实现融合值的提取和统计,无需占用太大存储空间,促使信息数据处理向高效化、实时化发展。(5)D-S证据理论方法。该方法主要适用于专家系统、人工智能等领域,可以实现对概率论的有效扩充。(6)模糊逻辑理论法。该方法内部主要用到多数据逻辑处理技术,在实际推理过程中,该方法可以真实、有效地突显传感器的随机性和不确定性[5],被广泛地应用于多传感器信息融合领域,取得了良好的应用效果。(7)贝叶斯信息融合法。在融合处理多传感器信息时,要使用概率,精确地表示不同传感器传递的随机性和不确定性,利用独立决策,科学地划分和处理样本空间,最后,严格按照系统决策的相关标准和要求,获得最终有价值的信息数据。

图1 信息融合技术基本方法

2 基于云计算技术的数据挖掘模型设计

物联网与云计算两种先进技术的有效结合是信息时代发展的必然趋势。基于云计算的数据挖掘模型,如图2所示,为后期高效化处理物联网数据提供重要的技术支持。在具体设计中,数据挖掘模型除了用到挖掘算法的并行运行模式[6],还用到推荐算法的分布运行模式。另外,数据挖掘模型的设计,运用了分层设计思想,有效地保证物联网数据处理的可靠性和有效性,使得物联网数据处理效率得以显著提升。数据挖掘模型主要包含以下几个层次。

图2 基于云计算的数据挖掘模型

2.1 云计算支撑平台层

云计算支撑平台层设计,为用户提供充足的数据存储空间,使得模型具有较高的数据计算能力,因此,该层次被视为数据处理模型的“骨架”。在该模型中,主要用到第三方挖掘算法。整个模型业务运作方式主要利用云计算平台[7],有效地突出物联网的智能性和便捷性。

2.2 数据挖掘能力

数据挖掘能力层设计为整个模型提供强大的数据挖掘功能。在具体设计中,该层次要从服务管理、数据并行处理等环节入手,保证框架处理水平,使得整个数据挖掘模型表现出较高的数据挖掘云服务能力。通常情况下,数据挖掘能力大小,对云计算服务性能和物联网的服务能力产生明显的影响。

2.3 数据挖掘云服务层

数据挖掘云服务层通常会用到多种封装接口,如对象访问协议接口、XML接口、程序编程接口。物联网技术的应用优势是借助信息化技术为用户提供更加优质的智能化服务体验,而云计算技术的应用优势是不断地提高模型的服务能力[8]。在设计云服务层时,要利用这两种技术的优势,结合用户实际需求,不断地提高整个模型的服务水平。同时,通过设计云服务层,可以方便用户快速地访问各种数据库查询语句,促使数据在实际处理期间,表现出强大的语言转化能力。

3 基于物联网技术的实时数据处理

在整个物联网中,通过运用不同种类的传感器,对所需数据进行采集,发现采集到的数据主要以实时数据流为主,因此,在进行物联网数据处理时,技术人员除了要重视对实时数据流的处理[9],还要重视对实时数据流的加工。本文以某出租车数据集为研究对象,将采集和处理好的出租车交通相关定位数据呈现在用户面前,便于用户全面、实时地了解和掌握当前城市实际交通状况。此外,技术人员还要重视对原始系统的搭建,为后期和加工处理物联网实时数据提供一定的便利。

在获取传感数据时,要利用出租车GPS技术,完成对行车轨迹信息的全面化获取和整理,同时,还要做好原型系统的搭建,并对数据挖掘模型进行科学验证。在采集某城市交通数据时,采集到的交通信息主要涉及8 000辆以上出租车当天行驶轨迹数据信息,采集到的传感数据相对较多,为1 900万条。为保证数据处理质量,技术人员要重点做好对以下两种问题的处理:(1)交通状况始终处于不断变化的状态,通过对重要数据的实时化、有效化处理,可以确保交通状况信息的完整性和可靠性。(2)城市中的所有出租车在实际行驶时,均采用随机行驶的方式,同时,所采集的数据在时空纬度上呈现的状态特点为均匀性、稀疏性,这些数据主要分布于不同的道路中。所以,在实时估算法的应用背景下,可以完成对物联网实时数据处理平台的搭建和开发[10]。

3.1 估算法实施

为避免出现估算缺失值现象,技术人员要在构建多元线性回归模型的基础上,运用在线算法,精确地计算出相关系数。

vit=β0+β1v1t+β2v2t+...+βmvmt+μt

(1)

公式(1)中的vit表示出租车于t时刻,在ri区域内所对应的交通条件;vkt,k={1,2,3...m},表示出租车于t时刻,在rk中对应的交通条件;βk表示vit和vkt两者之间的偏相关系数;μ表示随机误差项。

(2)

通过公式(2)可以精确地计算出系数估计值,在交通缺失情况下的估计算法。

通过geohash法(地址编码方法)对地球表现经纬度进行科学化分割,并在指定的纬度、经度上,对地球经纬度进行不断迭代二分处理,直到获得最终精度位置即可。在原始二进制的应用背景下,可以实现对位置精度信息的安全化存储和操作,同时,还能对geohash进行转化,使其全部转化为相应的浮点数,便于用户结合所获得的浮点数自动存储和访问需要的数据。另外,在geohash法的应用背景下,可以将二进制的字符串一一映射到浮点数中。在某个城市,确定的研究区域始终保持不变,运用二进制,获得的字符串完全相同,在某出租车GPS数据集中,前10位字符串保持一致。此时,采用截断的方式,对相同部位的字符串进行截断处理,并对需要的数据进行压缩处理,这为后期计算提供重要依据和参考。通过采用移位操作的方式,对有效位进行处理,可以获得需要存储的浮点数。为实现对整个运算流程的优化,需要将整个区域划分为9个矩形,然后,获得8个估算样本参考区。结合确定好的估算速度方向,确定出空缺区域值,然后结合最终获得的交通信息,开展相关估算工作。

3.2 原型系统结构及其验证

在实时处理数据期间,出租车相关行驶轨迹数据按照设置好的时间顺序,集中分布于消息队列中。为保证实时数据处理效率和效果,在验证原型系统结构时,需要重视对一种Spout业务和3种Bolt业务逻辑关系的处理。其中,在处理Bolt业务逻辑关系时,要做好对各条原始数据的切分处理,确保原始数据被直接处理为一种典型的标准化数据结构。在整个样本区域中,当geohash划分工作完成后,要重视对业务的聚合操纵处理,确保数据传感速度显著提升,如果采用传统数据库处理模式,会降低数据传感速度。因此,在储存数据时,要提高数据内存利用率,不断缩短数据处理时间。另外,为提高实时数据处理水平,要利用5台台式计算机,完成集群运行环境的搭建,同时,将需要使用的操作系统安装和固定于节点上,然后,利用Web页面,将这些数据形象、直观地呈现在用户面前,保护用户交互效率和效果。

通过灵活运用上述算法,完成分布式计算框架的设计,并结合当前计算机设备运行环境需求,突出数据处理的时效性。另外,在进行交换和访问数据时,需要将计算单元时延设置为ms级,总之,原型系统结构经过验证,发现在处理实时数据方面具有一定的可行性和可操作性。

4 结语

综上所述,在科学技术的不断普及和推广下,人们对网络性能提出了更高的要求,本文通过综合运用物联网和云计算技术,完成对数据挖掘模型的科学化设计,并验证该模型的有效性和可靠性。结果发现,与传统数据处理模式相比,本文设计的数据挖掘模型具有较高的拓展性,不仅可以提高数据处理效率,还能保证数据处理准确度,为用户提供更加优质的服务。

猜你喜欢

数据处理数据挖掘联网
“身联网”等五则
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
抢占物联网
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
可再生能源与物联网
得MCU者得物联网天下
基于GPGPU的离散数据挖掘研究