云计算物联网数据挖掘技术的应用系统分析
2015-07-17李虎群
李虎群
【摘 要】本文提出基于云计算的物联网数据挖掘模型,以云计算作为技术支持平台,在构建面向物联网的分布式时空数据库的基础上,搭建面向物联网海量数据的数据挖掘模型。
【关键词】物联网;云计算;数据挖掘;并行算法
Things cloud computing data mining techniques for Applied Systems Analysis
Li Hu-qun
(Handan Purification Equipment Research Institute Handan Hebei 056107)
【Abstract】In this paper, data mining model based on cloud computing networking to cloud computing as a technical support platform, built on a distributed object-oriented networking on temporal databases, networking massive data structures for data mining models.
【Key words】Things;Cloud computing;Data mining;Parallel algorithms
根据物联网中数据的特点,本文提出一种基于云计算的物联网数据挖掘模型。首先结合海计算技术建立基于云计算存储构架的面向物联网的分布式时空数据库,用以存储物联网中的数据,以此数据库为基础构建保存历史记录的面向主题的数据仓库。在此基础上,构建面向物联网的数据挖掘框架,结合并行数据挖掘算法,完成各项数据挖掘任务,包括数据抽取、分类预测、聚类、关联规则发现等。
1. 物联网数据挖掘的关键问题
1.1 物联网系统中数据的特点。
(1)数据量大。每个物联网系统拥有成千上万甚至更多的传感设备,这些传感设备不断向数据中心传输采集到的数据。数据中心不仅要存储当前接收到的采集数据,同时需要保存历史数据,用以支持对象的状态跟踪、数据统计分析及数据挖掘。因此,物联网系统中数据挖掘任务面临的第一个关键问题是数据量大。
(2)数据类型复杂。物联网系统监控的对象种类繁多,包括交通、生物、森林、建筑等。不同监控对象所采集的信息各不相同,例如交通系统中需要采集视频信息,医学监控系统需要采集诸如脉搏、血压等生理信息以及医学立体影响信息等。可见物联网系统采集的数据类型复杂,包括文本类型、图像类型、视频类型等。
(3)数据具有异构性。物联网系统中包含多种传感终端,如GPS传感终端、RFID传感终端、视频传感终端、无线传感器等。不同的传感终端采集到的数据的格式和语义均不相同。数据的异构性为数据存储与挖掘增加难度。
(4)高度动态性。每个时刻都有不同的传感终端添加到物联网中或者从物联网中移除。随着传感节点的增加,其采集到的数据要插人数据库中。同样当一个传感节点从物联网中移除后,数据库不应再记录该传感节点采集到数据。一个物联网系统含有大量的传感节点,每个传感节点动态变化频繁,因此物联网系统中的数据具有高度动态性。
(5)时空特性。物联网系统的传感终端分布在不同地区,每个传感终端采集到的数据均反应该时刻监控对象的状态及其他信息。感知数据在特定时间和特定空间内才有意义,如果不在这个地点或过了这个时间,数据的意义可能就不大了。因此,复杂的时空特性是物联网系统中数据的一个显著特点。
(6)不完整性。物联网系统的传感终端在无人工监控状态下工作,每个传感终端随时可能受到自然因素或者人为因素的攻击,包括雷电破坏、人工恶意破坏等,导致传感终端数据接收不完整。另一方面,尽管传感终端可以被广泛的部署在不同地理位置,但是依然无法覆盖每一个角落,因此空间数据收集不完整也是物联网系统数据的特点之一。
1.2 物联网对数据挖掘的要求。
(1)实时高效数据挖掘。物联网系统中任何一个控制端均需要对环境进行实时分析并做出正确决策。因此实时、高效是物联网系统对数据挖掘最为关键的要求之一。
(2)分布式数据挖掘。物联网计算设备和数据天然分布,不得不采用分布式并行数据挖掘。
(3)数据质量控制。多源、多模态、多媒体、多格式数据的存储与管理是控制数据质量,获得真实结果的重要保证。
(4)决策控制。挖掘出的模式、规则、特征指标用于预测、决策和控制。
(5)挖掘任务。主要包括数据抽取、分类预测、聚类、关联规则发现等。
图1 基于云计算的物联网数据模型框架
1.3 物联网环境数据挖掘存在的挑战。
(1)数据挖掘算法的选择。选择合适的算法,并采取适当的并行策略,然后才能提高并行效率。因此算法的设计变得非常重要,参数的调节变得必不可少,而且参数的调节直接影响最终的结果。
(2)不确定性。首先数据挖掘任务的描述具有不确定性,数据采集和预处理也是带有很多的不确定性。其次是数据挖掘方法和结果有不确定性。最后由于每个用户所关注的最终的挖掘目标不一样,这就导致了对挖掘结果的评价也有不确定性。不确定性是数据挖掘在物联网系统中面临的最大挑战。
(3)可信性与安全性。在云计算环境下做数据挖掘会导致数据挖掘云服务软件可信性问题。首先是服务的正确性和服务的安全性;其次是服务的质量,服务质量由可用、可靠和商l生能这三个方面来度量。
2. 基于云计算的物联网数据挖掘模型
基于云计算的物联网数据挖掘模型构架分为五层,分别是物联网数据接入层、数据集成层、数据挖掘平台层、业务控制层和交互层,如图1所示。
2.1 结构层次。
(1)物联网数据接入层。 物联网接人层实现数据采集、提取关键数据、将关键数据传输到数据集成层作用。物联网数据接人层包括各种传感终端,如GPS传感终端、RFID传感终端、视频传感终端、无线传感器等。利用这些传感终端监控现实世界对象,采集反应监控对象的状态及其他信息并发送到相应的海计算节点。采集数据包括文本数据、图像数据、视频数据等。海计算节点对传感数据进行预处理,提取 键数据并传输到数据集成层,即面向物联网的分布式时空数据库。
(2)数据集成层。 数据集成层存储物联网系统传感终端采集到的关键数据,为数据挖掘提供数据源。面向物联网的分布式时空数据库存储物联网系统的关键数据,并为数据仓库的构造提供数据源。数据仓库中的数据是按照主题来组织的,存储的数据可以从历史的观点提供信息,面对多数据源,经过清晰和转换后的数据仓库可以为数据挖掘提供面向历史的发现知识的数据环境。
(3)数据挖掘平台层。 数据挖掘平台层是整个构架的核心之一,提供数据挖掘阶段业务需要的各个模块,并具有较细的粒度。如数据预处理,模式评估,数据挖掘等功能模块。这一层的主要任务是实现各种任务过程中算法的并行化,并将挖掘结果返回给业务控制层。
(4)业务控制层。 这一层提供业务逻辑并实现对各种业务流程的控制和调度。根据用户提交的业务请求,任务控制调度模块结合领域知识库指导工作流程控制模块控制和调度数据挖掘层的多个模块来完成挖掘任务,并将挖掘结果返回给交互层。
(5)交互层 这一层主要提供系统和用户之间的接口。通过提供具有良好表现形式的图形界面,使得用户可以登录系统定制各种细粒度的业务,查看或者保存各种输出结果。
2.2 功能模块。
2.2.1 物联网数据接入层模块海计算模块。 海计算模块包含大量海计算节点。主要用以存储传感终端采集的各种数据,并对数据进行预处理,主要包括去除噪声数据和重复数据、处理不完整数据、识别并提取关键数据、统一数据格式。最后将预处理后的关键数据传输给数据集成层。在物联网数据接人层对数据进行预处理有利于节省网络带宽,同时有利于数据集成层的存储和进一步应用。
2.2.2 数据挖掘平台层模块。
(1)并行数据挖掘算法模块:为数据挖掘各种任务提供并行算法。作为数据挖掘引擎,包含一个能够提供各种基于云计算进行并行数据挖掘算法的库,用于完成各种数据挖掘任务。
(2)并行ETL模块:对数据进行预处理。输入的数据来源于面向物联网的分布式时空数据库与数据仓库,为数据挖掘过程进行数据清理,提取,转换和加载。
(3)模式评估模块:对产生的模式进行评估。符合用户要求的结果存人领域知识库,领域知识库可以辅助业务控制逻辑指导数据挖掘过程。
(4)数据提取模块:根据挖掘任务的不同,在面向物联网的时空数据库或数据仓库中提取相关的数据。
2.2.3 业务控制层模块。
(1)任务调度控制模块:响应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务。
(2)工作流程控制模块:对业务状态进行监控、管理。可将具体的信息参数返回给本层的任务调度控制模块。
2.2.4 交互层。
(1)用户管理模块:实现用户身份的识别以及相应权限的设置,同时也包括对用户登录或者注销等常用的管理。
(2)业务模块:实现细粒度的用户业务需求的提交。用户提交的各种业务通过业务模块得到。
(3)结果展示模块:实现用户对业务结果的查看,分析和保存等功能。用来将系统的返回结果交付给用户。
3. 结论
数据挖掘是物联网应用的重要环节,针对物联网数据的特点,本文提出一种基于云计算的物联网数据挖掘模型。其中,数据挖掘平台是整个模型的关键。下一步的工作重点在于设计各种面向物联网的数据挖掘算法的并行化,以完成物联网的各种数据挖掘任务。
参考文献
[1] 王瑞刚.物联网主要特征与基础理论研究[J].计算机科学,2012,39(6A1:201~203.
[2] 李志宁.物联网技术研究进展[J].计算机测量与控制,2012,20(6):1445~1448.
[3] Arnon Rosenthal,Peter Mork.Cloud computing:A new business paradigm for biomedical information sharing[J].Future Generation Computer Systems,2010,26(7):947~970.
[4] Zhikui Chen,Haozhe Wang.A Context-Aware Routing Protocol on Internet of Things Based on Sea computing Model[J].Journal of Computers,2012,7(1):96~105.
[5] Bin Liu,Shu-Gui Cao.Machine Learning and Cybernetics[C].International Conference on Machine Learning and Cybernetics.Guilin,China,2011.40~44.
[6] Hong Yuehua,Xu Shuang,Wu Huajian.Study on distributed data mining model in Wireless Sensor Networks[C].International Conference on IntelligentComputingandIntegratedS-stemsGuilin,China,2010.866~869.
[文章编号]1619-2737(2015)05-22-359