APP下载

基于云计算的物联网数据挖掘模型研究

2018-01-02

软件 2017年12期
关键词:数据处理数据挖掘联网

任 伟

(南通科技职业学院,江苏 南通 226007)

基于云计算的物联网数据挖掘模型研究

任 伟

(南通科技职业学院,江苏 南通 226007)

随着计算机和网络技术的发展,数据挖掘、云计算、物联网等技术在人们生活、工作当中占据着越来越重要的地位。本文分析了物联网、信息融合技术及其应用方法,阐述了以云为中心的物联网数据处理模型,并以城市公共交通出租车数据集为例,描述了数据处理的基本过程,验证了物联网实时数据处理的可行性与可操作性。

云计算;物联网;数据挖掘;模型

0 引言

数据挖掘技术是从一个随机海量数据中,提取有效可用的信息,进而过渡到信息数据挖掘其应用价值的过程。数据挖掘平台在物联网、云计算等强大技术的支持下,功能更加强大,结构更加稳固,进而将模式辨别、统计学等科技元素融为一体,使得数据处理高效而经济。数据挖掘技术在现代科技领域中发挥着极其重要作用。

1 物联网技术

1.1 物联网的概念

物联网(“Internet of things”,简称 IOT。)是指物与物之间相通相连的一种网络,是信息时代最重要的技术之一。物联网利用其本身强大的辨别和智能感知技术,在网络中融会贯通,使物物相连的同时,也使互联网客户端的应用业务得以延伸。为此,物联网被称之为继计算机、Internet之后的第三次世界信息产业浪潮。

物联网的应用领域十分广泛,从智能交通、政府工作、环境保护,再到智慧城市、公共安全、环境监测、食品溯源、智能家居等,都或多或少涉及到物联网的应用。具体而言,在家电、电网、食品以及铁路桥梁等物之中设置传感器,对网络信息予以整合,进而通过中心控制系统,反馈、解决实时信息,方可达到有效管理、提高生产的目的。在应用领域中进一步创新,加强用户体验,是物联网未来发展的核心所在。

1.2 物联网的特点

首先,物联网技术具有强大感知能力,利用诸多传感器,获取不同信息源的实时数据,这些数据具有不用的形式、内容,并且根据一定的周期频率搜集环境信息,予以更新。

其次,物联网是一种基于互联网的泛在网络,其技术核心仍然是互联网。由物联网传感器定时收集信息,利用网络协议传递物体实时信息。由于数据信息量大,导致形成海量数据,在传递期间,为确保实时性信息,必须与不同结构的协议、网络相适应。

再次,物联网中的传感器具有智能化处理的功能。物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理出有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。

2 信息融合技术

2.1 信息融合技术的概念

信息与技术融合,又称数据融合。通过计算机技术,在一定原则下,综合、分析多种信息源的传感器信息,以此来取得一个或者是单个信息源所不及的有价值信息。也可以是多传感器信息融合,综合一个或多个信息源,进而获取相关数据、关联信息,以此来精准估计身份、确定位置,动态评估、处理信息的过程。该过程具有持续性和创新性,最终实现结果的更新。

2.2 信息融合技术的基本方法

信息融合技术中,具有代表性的方法,有以下几种:

第一,小波分析方法:这种方法最大的特征在于局部化信息时域,可良好解决分布特征信息、信号。

第二,加权平均方法:对传感器所获取的信息实施加权平均,最后的融合值为平均过后的数值,是信息融合技术中最简单直接的一种方法。

第三,概率论:分析不同传感器信息源,将错误、低水平的信息删除,如果已知条件为先验概率,则通过贝叶斯概率法,最终取得有价值的信息融合结果。

第四,卡尔曼滤波法:适用于低层次动态实时传感器冗余信息,于线性系统而言,当传感器噪声、系统噪声达到建模条件时,此方法可提取有意义的统计融合值,在此期间的存储不需要太大的空间,对信息的处理可以达到实时化。

第五,D-S证据理论方法:此方法可扩充概率论,可应用于人工智能、辨别技术、专家系统以及系统决策领域。

第六,模糊逻辑理论法:这种逻辑是一种多数据逻辑,在推理期间,可反应出传感器的不确定性。该方法可运用在多传感器信息融合技术中。

第七,贝叶斯信息融合方法:多传感器信息融合时,将诸多不同传感器传递的不确定信息,以概率来表示,把互相独立的决策视作样本空间划分,利用贝叶斯概率方法,予以处理,最后利用系统决策中的准则,获取有用信息。

3 基于云计算的数据挖掘模型及其层次分析

云计算作为一种新型技术,与物联网的结合,是社会发展的必然结果。图1是基于云计算所形成的数据处理平台,也是物联网数据处理中的挖掘环节。在模型中,充分考虑了挖掘算法与推荐算法的并行运行与分布运行。模型将数据处理平台分为三个基本层次,分层设计的思想使得整个物联网数据处理的有效性更高,处理效率也得到极大的提升。自下而上为:云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。

3.1 云计算支撑平台层

提供文件或数据存储空间以及数据计算能力,是数据处理平台的基石。在该平台中,融入了第三方挖掘算法服务,业务运作可以基于企业自主研发的云计算平台,也可以基于第三方提供的云计算平台来进行,这也是物联网的便捷性所在。

图1 基于云计算的数据处理平台模型Fig.1 A model of data processing platform based on cloud computing

3.2 数据挖掘能力层

给予整个平台数据挖掘的基础能力。在该层次中,必须要有基本的算法服务管理、调度引擎和数据并行处理框架。同时,还需要对数据挖掘云服务层的能力提供必然的支撑。从某种程度上来说,数据挖掘能力的高低,直接影响云计算的服务能力,整个物联网的服务力都将受到影响。

3.3 数据挖掘云服务层

对外提供数据挖掘云服务,其服务能力封装的接口形式对外是具有多样性的,简单的对象访问协议、XML或者本地应用程序编程接口等形式,都可以成为云服务的对外接口形式。物联网的基本作用就是利用信息技术为用户提供更加便捷的服务。而云服务的存在,就是为了强化其服务能力。云服务层实际上是综合其下两层的数据处理,实现的某种用户需求。另外,云服务层还可以支持结构化的查询语言语句的访问,从而使得数据在处理的过程中,语言的转化更加方便。

4 物联网中实时数据处理

物联网中,运用不同传感器所采集到的数据多数为实时数据流,对实时数据进行处理和加工成为物联网数据处理的核心问题。本文通过对路面部分公共交通监控定位数据的采集与处理以感知城市交通状况。与此同时,还搭建了原型系统来处理物联网的实时数据。

笔者通过利用出租车GPS获得的行车轨迹信息作为传感数据来源,搭建原型系统以及必要的验证平台。在某城市采集数据时,有7648辆出租车在一天时间内正常行驶的轨迹信息,传感采样的数据达1800万条。在处理数据时,需要处理好两个问题。第一,交通状况处于不断变化中,应该如何确保实时处理的数据对交通状况的有效性。第二,出租车在城市中随机行使,在时空维度上,采集的数据呈现出非均匀稀疏状态且分布在不同道路中。因此,笔者提出利用在线实时估算法建立物联网实时数据处理系统。

4.1 多元线性回归模型基础上的实施估算法

为了能够解决缺失值估算的问题,所以运用多元线性回归方法的在线算法。运用多元线性回归模型来运算出有关的系数:

式子中:vit代表t时刻区域ri的交通条件;vkt,k={1.2.3…m}代表临近区域中 rk在 t时刻的交通条件;βk代表 vit和vkt的偏相关系数;μ代表随机误差项。

式子中:ˆitv代表 vit的估计;vkt,k={1.2.3…m}代表区域中t时刻的真实值。

再运用式子(2)运算出系数估计值,解决方案的具体算法,见图2。

图2 在交通缺失的情况下的估计算法Fig.2 Estimation algorithm in the absence of traffic

运用 geohash法分割地球表现经纬度,在维度[90-90]、经度[180-180]中不断迭代二分,直至达到需要的精度位置。运用原始二进制来储存与操作,可以把 geohash转化成浮点数,以便根据浮点数自动储存和访问。运用 geohash从二进制的字符串到浮点数的映射设计,因为研究区域被限制在一个城市中,geohash二进制字符串的多位是一样的,出租车GPS数据集中前十位是相同的。把相同部位截断,压缩数据以方便下一步计算。对有效位实施移位操作,得到储存浮点数。以达到简化运算的目的,把地区分成9个矩形(如图3),估算样本参考区就有8个。来自一个估算方向以及速度的两组样本临近两侧的样本区,每组采样组区都会有图3所示的矩形区域。空缺区域值是按照一个估算速度方向中两侧临近样本得到了交通信息来估算。

图3 区域交通网络划分Fig.3 Division of regional traffic network

4.2 原型系统结构构建与验证

实时数据处理系统的运行流程,见图 4。出租车轨迹数据集中的信息按照时间顺序依次排列到消息队列中。在处理过程中,包括了4种业务处理逻辑,一种Spout和三种Bolt。Spout读取数据消息队列;Bolt切分每条原始数据,处理为标准化数据处理结构。完成样本区域中的 geohash划分,最后实施聚合操纵业务。在具体运用中,数据传感速度非常高,若使用传统数据库处理,其效率很低。所以使用内存数据来储存,减少数据处理时延。在实时数据处理过程中,分布了五台台式计算机,并将其组成集群运行环境,将ubuntu server操作系统安装在节点上,通过web页面实现将数据呈现出来,实现用户的交互。

运用上述算法设计以及分布式计算框架,在当前计算机设备环境中也能够满足应用提出的数据处理实时性的要求。在数据交互与访问过程中,计算单元时延保持为毫秒级,能够满足数据实时性要求。

5 结论

随着科学技术的发展,人们的工作和生活对网络的实际需求将不断增加,以云为中心的物联网数据处理与传统的数据处理系统相比,可拓展性更强,数据处理效率和准确性更高,其面向的服务群体更广,提供的服务力有更大的发展潜力。

图4 实时数据处理系统结构Fig.4 The structure of real time data processing system

[1] 丁岩, 杨庆平, 钱煜明. 基于云计算的数据挖掘平台架构及其关键技术研究[J]. 中兴通讯技术, 2013(01).

[2] 张毅, 崔晓燕. 基于云计算平台的物联网数据挖掘研究[J].软件, 2014(01).

[3] 卜范玉, 王鑫, 张清辰. 基于云计算的物联网数据挖掘模型[J]. 电脑与信息技术, 2012(06).

[4] 张春梅. 云计算物联网体系的数据挖掘模式设计[J]. 信息系统工程, 2017(02).

[5] 解姗姗. 一种基于云计算的数据挖掘平台架构设计与实现[J]. 安阳师范学院学报, 2015(05).

[6] 熊敏, 林荣恒, 邹华. 云计算环境下的自适应资源监测模型设计[J]. 新型工业化, 2012(11).

[7] 葛晓玢, 刘杰. 基于云计算的数据挖掘平台架构及其关键技术研究[J]. 德镇学院学报, 2017(03).

[8] 张宏萌. 云计算平台下智能车辆管理系统的研究与设计[J].中小企业管理与科技, 2012(04).

[9] 赵会群, 李会峰, 刘金銮. RFID物联网复杂事件模式聚类算法研究[J]. 计算机应用研究, 2017(03).

[10] 李立, 张玉州, 江克勤. 一种改进的基于云平台的物联网数据挖掘算法[J]. 安庆师范学院学报(自然科学版),2014(06).

Research on Data Mining Model of Internet of Things Based on Cloud Computing

REN Wei
(Nantong science and technology Academy, Nantong, Jiangsu 226007)

With the development of computer and network technology, data mining, cloud computing, Internet of things and other technologies occupy more and more important position in people's life and work. This paper analyzes the networking, information fusion technology and its application method, describes the data processing model of IOT cloud centric, and the city public transportation taxi data set as an example, describes the basic process of data processing, real-time data processing and networking verifies the feasibility and operability.

Cloud computing; Internet of things; Data mining; Model

TP391.8

A

10.3969/j.issn.1003-6970.2017.12.045

本文著录格式:任伟. 基于云计算的物联网数据挖掘模型研究[J]. 软件,2017,38(12):229-232

任伟(1981-),男,讲师,主要研究方向:云计算、物联网技术。

猜你喜欢

数据处理数据挖掘联网
“身联网”等五则
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
抢占物联网
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
可再生能源与物联网
得MCU者得物联网天下
基于GPGPU的离散数据挖掘研究