数据挖掘中聚类算法的分析与研究
2017-02-25湖北工业大学马国良
湖北工业大学 马国良
数据挖掘中聚类算法的分析与研究
湖北工业大学 马国良
本文主要系统地归纳了数据挖掘的基本原理、主要的技术方法以及在相关技术的基础之上,对数据挖掘中存在的相关关键技术之一的聚类分析进行了探索性的研究。
数据挖掘;聚类分析
伴随着计算机技术的普及和发展,人们在生活办公中所产生的数据量也在海量地增长,对于我们来说,怎样去最有效地利用海量的原始数据来分析现状以及预测未知的事物,成了当今人类所面临的一项很严峻的挑战,随着计算机技术的迅猛发展,数据挖掘技术应用而生,同时也得到了飞速的发展。
建筑物整体移位技术是一种在保证建筑物结构完整性和功能稳定性的前提下,将被迁移的建筑物由其原址迁移到目标地址的建筑工程技术。该技术最早在19世纪初被应用于建筑工程领域,在我国还是在20世纪80年代末才被引入,其在当代的城市改造工程和道路改扩建工程中具有十分显著的社会效益和经济效益。
数据挖掘(Data Mining),也可以叫做数据库中的知识发现,简单地说,数据挖掘就是从大量的数据中提取或者挖掘知识,数据挖掘是一门比较新的技术,它是以数据库技术作为基础,综合统计学、逻辑学、机器学习、信息检索、模式识别、神经网络等知识、然后再去数据库中寻找有用的信息,数据挖掘技术受到了许多研究人员的普遍关注,并被广泛地应用到商务、科学、政府、教育、运输等各个企事业单位以及国防科研上。
本文主要系统地归纳了数据挖掘的基本原理、主要的技术方法以及在相关技术的基础之上,对数据挖掘中存在的相关关键技术之一的聚类分析进行了探索性的研究,主要包括下面几个方面:
(1)简要地介绍了课题的研究背景以及国内外的研究现状和选题的意义,研究了数据挖掘的基本原理以及相关的基本方法和在各个领域上的应用。
(2)详细地介绍了聚类分析的基本原理、相关步骤以及具体的方法技术,最主要的是介绍了聚类分析的主要应用,分析了聚类分析的常用工具,并且结合了当前的实际应用对聚类算法的性能进行了评价和比较,研究并分析了当前主流的聚类算法,分析了这些主流的聚类算法的优缺点和适用的场景,给人们快速和准确地找到适合自己领域的聚类算法提供了比较好的技术支撑。
(3)最后详细地介绍了聚类分析算法中常用的工具,并进行了仿真分析,通过仿真分析,可以更好地认识到数据挖掘中聚类分析算法的作用以及实用性。
一个典型的数据挖掘系统,主要包含以下主要部分:
(1)数据库、数据仓库或其它信息库。它表示数据挖掘对象是由一个(或组)数据库、数据仓库、数据表单或其它信息数据库组成。通常需要使用数据清洗和数据集成操作,对这些数据对象进行初步的处理。
(2)数据库或数据仓库服务器。这类服务器负责根据用户的数据挖掘请求,读取相关的数据。
(3)知识库。此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。挖掘算法中所使用的用户定义的阈值就是最简单的领域知识。
(4)数据挖掘引擎。这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能。
[1]李嶶,李宛州.基于数据仓库技术的进销存系统的设计与实现.2001(10):93-94.
[2]Jiawei Han.数据挖掘概念与技术.机械工业出版社2001,8.
[3]W.H.Inmon.数据仓库.机械工业出版社2000,5.
2017-09-10)