APP下载

基于云计算平台的物联网数据挖掘研究

2017-05-25廖志聪

移动信息 2017年2期
关键词:数据源分布式数据挖掘

廖志聪



基于云计算平台的物联网数据挖掘研究

廖志聪

广东省电信规划设计院有限公司,广东 广州 510630

基于云计算的物联网数据挖掘系统对于当前物联网应用的发展有着深远的意义,并且经过Hadoop 平台进行模拟数据挖掘实验后,也验证了这种方案有着极大的可行性。

云计算;数据挖掘;物联网;模式构建

1 数据挖掘技术概述

1.1 数据挖掘技术的含义

数据挖掘技术自从20世纪90年代诞生以来,在人类社会中产生了巨大的影响,同时受到了人们的广泛应用。目前来说,数据挖掘并不是一个独立的学科,而是交叉学科,因此不同领域不同行业的人对其理解也存在不同之处,其定义尚无定论。目前,大部分学者比较认同韩家炜等人的定义[1-2],包括三个方面的内容:第一,具有大量的数据来源,并且是真实的数据;第二,通过数据挖掘获得的信息对人们有着较高的价值与作用;第三,获得信息是可以被人们理解分析,被人们接受与运用,能够以此来做出判断或决策。

1.2 数据挖掘技术的特征

数据挖掘技术具有分布广、规模大、节点资源有限以及安全性复杂等特征。首先,物联网数据本身具有分布广的特点,因为数据一般都存储在不同的地方。其次,物联网数据极为庞大,本身有许多传感器节点,因而需要有能够快速解决处理数据的中央节点。再次,节点资源并不是无限的,因而中央节点一般不需要所有的数据,但需要数据参数,从而依靠分布式节点将用户需要的数据传输出去。

2 在云计算平台下的数据挖掘技术分析

2.1 物联网感知层

物联网感知层主要依靠在目标区域范围内放置极多的数据采集节点来发挥感知作用。具体来说,节点主要是通过传感器、摄像头以及其他设备进行数据采集工作,而采集到的数据则会依靠物联网感知层所具备的网络通信设备进行汇聚,将所有的数据传送到节点,而后经过汇总存储之后再次通过传输层输送到云计算平台的数据处理中心[3]。

2.2 物联网传输层

物联网传输层主要包括传感器、无线(有线)网络等,通过诸多网络设备搭建的高速度无缝数据传输系统,能够快速将物联网感知层采集到的数据通过网络传送到数据处理中心,从而实现全方位的互通互联目标,也就是将各种类别的监测处理设备进行联网传输,实现设备之间网络信息的传递。

2.3 数据层

数据层是物联网云计算平台中数据挖掘技术的关键部分。物联网本身具有异构性和海量性的特征,因而在数据层内将物联网设备采集到的数据进行存储处理分析的能力是基于云计算的物联网数据挖掘平台的关键。数据层中主要包括数据源转化与存储两大部分,其中,数据源转化主要对物联网异构性的数据进行转化,而存储部分则是使用Hadoop 搭建的平台中的HDFS 系统进行分布式存储,从而将海量性的数据完整存储到数据节点。

在物联网平台中,由于对于不同的目标会采用不同的数据类型来表现,某种情况下,相同的目标也会采用不同的数据类型来表现,因此数据源转化的作用主要体现在保持数据的完整,防止异构性的物联网数据在转化中出现损毁,从而达到保证数据挖掘的目标。数据源转化在系统中的作用相当于数据层与感知层的连接线,通过数据包的解码转换将不同的数据转换成需要的数据类型,并且分布式存储到数据处理中心。

2.4 数据挖掘服务层

数据挖掘服务层包含数据准备、数据挖掘引擎以及用户三大部分。其中,数据准备部分的主要用途是对数据进行清零、转化以及规约等。数据挖掘引擎则主要包含数据挖掘算法以及模式评估,而用户部分则主要将数据挖掘的内容进行可视化的表现。用户部分是整个云计算平台中数据挖掘技术面对用户的直接体现,因而具有友好性,能够让用户通过操作来对数据挖掘任务进行处理认知。

3 云计算平台上物联网数据挖掘技术应用分析

数据挖掘工作流程为:用户发出数据挖掘的请求,主要控制节点收到用户请求之后会首先判断能否进行任务,并且将结果回馈给用户。若是可以进行,主要控制节点就会调用数据挖掘算法,然后根据算法进行分布式数据挖掘工作。通过挖掘数据任务的划分之后,将具体内容传送到众多节点中,节点再具体进行数据挖掘。

本次选择Hadoop 搭建云计算平台,并以此进行模拟实验。

首先,选择一台实验所需要的PC 机器,配置基于普通水平的2 G内存,操作系统为win 7。然后在PC 端安装虚拟机,虚拟机的操作系统都是Linux 操作系统。随后开始部署分布式节点,本次共安装3 个虚拟机。其次,需要安装与Linux 版本相适应的Eclipse 7.5 开发环境,并且于PC 机上安装SSH 服务,用于实验开始之后传递实验数据。3 台虚拟机中也安装SSH 服务,以便于Hadoop 平台运用。

配置安装完毕后,选择采用关联规则算法的数据,将数据依据C++ 代码程序转换成标准的PML 文件,文件大小为1 G,然后将文件利用HDFS 传入Hadoop 平台,采用分布式存储。接下来,运行Apriori 算法,根据计算结果来判断能否找到实验数据集合中所有的项目,然后选用不同大小的文件再次重复实验,以此来得到较为准确的结果。实验运行Hadoop 平台计算得到的数据如表1。

表1 文件大小与运行时间的关系

从表1可以看出,伴随着文件不断扩大,在Hadoop平台上运行,采用Apriori 算法所运行的时间也随之上升。经过大量模拟实验后,可以看出Hadoop 平台有着较高的拓展性能,能够满足当前市场对于物联网大量数据挖掘的要求。

4 结语

信息技术的发展推进为人们的生活和工作带来了很大的便利,将云计算技术应用到物联网数据挖掘中,能够提升其数据处理、分析、储存、传送能力,进而有效促进国民经济的发展,值得进一步研究与推广。

[1]谢杨.基于云计算的现代农业物联网监控系统[D].成都:西南交通大学,2015.

[2]吴边.云计算中物联网数据挖掘模式的研究[J].价值工程,2013(18):15.

[3]褚翠霞.基于云计算平台的物联网数据挖掘研究[J].数字技术与应用,2015,1(9):85.

Research on Data Mining of Internet of Things Based on Cloud Computing Platform

Liao Zhicong

GuangDong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630

The data mining system based on cloud computing based on cloud computing has far-reaching significance for the development of current Internet of Things applications. After the simulation data mining experiment through Hadoop platform, it has also proved that this scheme has great feasibility.

cloud computing; data mining; Internet of things; model construction

TP311.13;TP391.44;TN929.5

A

1009-6434(2017)02-0145-02

猜你喜欢

数据源分布式数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
浅析分布式发电对电力系统的影响
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
基于预处理MUSIC算法的分布式阵列DOA估计
软件工程领域中的异常数据挖掘算法
分布式并联逆变器解耦电流下垂控制技术
数据有增加 图表自适应