网格数据挖掘在信息服务质量评价中的应用
2009-10-13潘庆超
潘庆超
〔摘 要〕网格的数据挖掘是数据挖掘技术与网格计算的有机结合,文章介绍了网格数据挖掘的概念、特点、网格数据挖掘技术的优点,网格数据挖掘的体系结构,讨论了网格的数据挖掘的基本过程,并从开放网格服务体系结构出发,给出了网格平台下的信息服务质量数据挖掘的功能和执行过程。
〔关键词〕网格;数据挖掘;服务质量;数据库
〔中图分类号〕TP392 〔文献标识码〕B 〔文章编号〕1008-0821(2009)07-0141-03
Application of Grid Data Mining on Information Service QualityPan Qingchao
(College of Physics Science and Technology,Shenyang Normal University,Shenyang 110034,China)
〔Abstract〕Grid data mining is an integration of data mining and grid computing.The paper introduced the concept,characteristics,from the perspective of OGSA,it offered the functions and process of information service quality data mining under the platform of grid.
〔Key words〕grid;data mining;information service quality;database
1 网格数据挖掘概念[1]
网格的数据挖掘建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律。这个网格计算环境提供特殊的数据管理、数据存储、数据复制和安全监控等功能。用户向网格系统提出的数据任务就是一种网格服务。执行运算的处理器和存储空间等视作资源,而与任务相关的数据库或数据仓库、数据挖掘算法等则可以看作是用户拥有的特殊资源。
2 利用网格数据挖掘技术的优点[2]
2.1 提高现有资源的利用率
通过资源的共享与整合,可以方便地彼此“借用”,减小资源的闲置,提高资源的使用效率。
2.2 从大量的数据中发现或“挖掘”有用的知识
网格中含有大量分布在各网格节点中的数据,网格数据挖掘就需要跨多个网格节点实施全局数据挖掘。网格的数据挖掘是数据挖掘技术和网格计算的有机结合,它通过共享解决方案、算法、计算、数据、存储服务来实施可靠和可扩展的数据挖掘任务,能够在动态变化的多个节点间共享资源和协调解决数据挖掘问题。
3 网格数据挖掘的体系结构[3]
3.1 网格的重要特点是分布性和动态性
网格的各种资源不是集中在一起的,而是分布在不同的地理位置,各种资源也是动态变化的。正是网格的这些特点及其分布式环境,使得网格的数据挖掘系统不再局限于传统的集中式数据挖掘系统,而是和网格一样具有分布性、动态性和自适应性。
3.2 网格的数据挖掘系统采用分布式的组件架构和自适应的分布技术,由一系列的组件集成,组件之间可以实现互相通信和数据交换
这种基于分布式组件技术的体系结构允许更大的弹性,包括集成不同的协议、应用程序接口、应用程序、操作系统和硬件,能够提供多级的抽象能力、高可靠性、可扩充性和安全性。其体系结构如图1所示。
4 网格数据挖掘新技术的融合[4]
4.1 Web Service和网格技术融合
Web Service和网格技术融合可解决“无处不在的集成计算和资源共享”的应用技术问题。在HTML、SMTP等Internet标准协议的基础上,使用基于XML的文本消息传送模型进行通信,从而真正实现分布式Web系统间跨平台、跨语言的无缝融合,从而解决传统分布式体系架构无法解决的在Internet环境下的松耦合分布式异构问题。
4.2 网格与数据集成技术的结合
随着网格技术的发展和商务处理的全球化,网格数据集成技术将成为下一代Internet网中的信息融合、信息处理、信息发布等关键技术。Web Service的不断研究和发展给信息集成技术提供了更广阔的发展空间。利用本体描述服务的结构、类型和语义,从而使Web Service语义表示模型化、统一化,从语义层就解决不同数据源或系统的异构问题。所以,网格数据集成技术将是充分利用传统的信息集成。Web Service、本体、网格技术,构造一个虚拟的、实现更加高效、准确服务的具有超级计算能力的、能更好分析数据并获得丰富知识的集成系统。
4.3 本体与Web Service的合成技术
Web Service是网格进行分布式计算的基本元素。分布在网格上的各种各样的数据挖掘Web Service已经成为一类重要的资源。当这些Web Service能够在网格上真正实现自由的互联、互通、协作和联盟的时候,就形成了一种与当前的信息Web类似的软件Web。所以,应使用本体与Web Service合成使这些Web Service能够自主感应并实现它们所处的环境中的需求。而且,在单个Web Service不能实现全部需求的情况下,多个小粒度的Web Service能够自主合成,形成更大粒度的Web Service,最终实现需求。
5 网格数据挖掘的基本过程
5.1 数据的处理
数据的处理阶段主要完成从数据网格环境中收集广域分布的数据和计算资源,并对原始数据进行归档处理,更正校对,过滤清理和数据的转换、合并。最后再对经过处理后的数据进行归档。这阶段由于数据的归档处理,存在相对静止的索引数据,数据的处理功能比较稳定,而且对归档的数据进行周期性的数据再处理。
5.2 数据的分析与挖掘
这阶段主要完成对处理后的数据进行分析、概括和挖掘,生成关联的规则,发现新的数据关系等,并归档概括出来的数据。
5.3 模式的评价
这阶段对处理后的数据和归纳后的数据再次进行分析,得出一些数据模式,并评价数据挖掘结果的有效性和可靠性,提交得出的结论或新的关系和趋势。
6 基于OGSA的信息服务评价数据挖掘
开放网格服务结构(Open Grid Service Architecture OGSA)是一个面向服务的网格体系结构,它建立在网格服务的基础上,将一切都抽象为服务,包括计算资源、存储资源、网络、程序、数据库、仪器设备等。OGSA中以网格服务为核心,通过网格服务提供的接口为网格用户提供各方面的服务。网格服务由服务数据和实现组成,服务数据指的是该网格服务可以提供的资源属性,实现是指对这些服务数据的访问操作。
6.1 服务质量评价的数据挖掘
网格数据挖掘技术在信息服务管理系统中起着重要作用。信息服务机构可以建立服务评价综合管理系统。通过管理系统可以方便地获得大量的服务数据,把所有与服务相关的数据进行整合成面向主题的数据仓库。然后应用数据挖掘工具对这些数据进行挖掘,以获得服务管理决策中所需要的信息和模式。这些信息和模式可以为信息机构的管理决策和服务决策提供有力的依据。目前,网格数据挖掘技术在服务系统中的应用有以下几个方面: