APP下载

简析数据挖掘技术在水利工程管理中的实施要点

2014-12-17丁云球江西省上饶市万年县水利电力勘察设计室335500

决策与信息 2014年36期
关键词:事务关联数据挖掘

丁云球江西省上饶市万年县水利电力勘察设计室 335500

简析数据挖掘技术在水利工程管理中的实施要点

丁云球
江西省上饶市万年县水利电力勘察设计室 335500

数据挖掘技术是一种能够在大量繁杂的数据中寻找潜在的、有利用价值信息的信息处理技术,在当前信息时代发挥着极其重要的作用。当前,在水利工程管理中,存在着大量的空间数据和非空间数据,要想对这些数据进行有效处理,就必须应用相应的数据处理技术。本文结合数据挖掘技术的相关概念,对其在水利工程管理中的实施要点进行了分析和探讨。

数据挖掘技术;水利工程;管理;实施要点

前言

在社会经济发展的推动下,我国的基础设施建设取得了巨大的成就,水利工程项目的数量也在不断增加,已经逐步形成了一个具有防洪、防涝、灌溉、发电、运输、水产养殖、旅游等功能的水利工程体系,在国民经济发展中起到了极其重要的作用。因此,做好水利工程管理工作,确保水利工程功能的充分发挥,是需要相关部门充分重视的问题。应用数据挖掘技术,可以有效解决水利工程管理中数据信息繁杂带来的相关问题,提升水利工程管理水平。

一、数据挖掘技术概述

数据挖掘,也可以称为资料探勘或者数据采矿,是数据库知识发现的一个步骤。简单来讲,数据挖掘就是从大量的数据中,通过相应的算法,搜索隐藏于其中信息的过程。而学术界比较认可的概念为:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用过程中,提取出潜在的、不为人知的有用信息和知识的过程。数据挖掘技术主要是依据人工智能、计算机、统计学等相关技术,通过统计、在线分析处理、情报探索、专家系统以及模式识别等,对数据进行归纳推理,从中挖掘出潜在的信息,预测未来发展趋势,从而为决策提供相应的数据支持。

数据挖掘是一个多种专家共同合作的过程,同时也是一个高技术、高资金投入的过程,在实际应用中,为了趋近事物的本质和真实,必须进行长期反复的研究和实践,在反复的过程中,对问题进行最优化处理。数据挖掘的过程主要分为以下几个阶段:

(1)确定业务对象:做好业务对象的明确是数据域挖掘的首要步骤,挖掘的最后结构是不可预测的,但是探索的问题必须是有预见的,明确业务对象可以避免数据挖掘的盲目性,从而大大提高成功率。

(2)数据准备:首先,对于业务目标相关的内部和外部数据信息进行查找,从中找出可以用于数据挖掘的信息;其次,要对数据信息的内容进行全面细致分析,确定需要进行挖掘操作的类型;然后,结合相应的挖掘算法,将数据转化称为相应的分析模型,以保证数据挖掘的顺利进行。

(3)数据挖掘:在对数据进行转化后,就可以结合相应的挖掘算法,自动完成相应的数据分析工作。

(4)结果分析:对得到的数据分析结果进行评价,结合数据挖掘操作明确分析方法,一般情况下,会用到可视化技术。

(5)知识同化:对分析得到的数据信息进行整理,统一到业务信息系统的组成结构中。这个步骤不一定能够一次完成,而且其中部分步骤可能需要重复进行。

二、数据挖掘技术在水利工程管理中的实施要点

水利工程在经济和社会发展中是非常重要的基础设施,做好水利工程管理工作,确保其功能的有效发挥,是相关管理人员需要重点考虑的问题。最近几年,随着社会经济的飞速发展,水利工程项目的数量和规模不断扩大,产生的水利科学数据也在不断增加,这些数据虽然繁琐,但是在许多科研生产活动和日常生活中都是不可或缺的。例如,在对洪涝、干旱的预防以及对生态环境问题的处理方面,获取完整的水利科学数据是首要任务。那么,针对日益繁杂的海量水利科学数据,如何对有用的信息知识进行提取呢?数据挖掘技术的应用有效的解决了这个问题,可以从海量的数据信息中,挖掘出潜在的、有利用价值的知识,为相关决策提供必要的支持。

1.强化数据库建设

要想对各类数据进行科学有效的收集和整理,就必须建立合理完善的数据库。对于水利工程而言,应该建立分类数据库,如水文、河道河情、水量调度、防洪、汛情等,确保数据的合理性、全面性和准确性,选择合适的方法,对有用数据进行挖掘。

2.合理选择数据挖掘算法

(1)关联规则挖掘算法:关联规则挖掘问题最早提出于1993年,在当前数据挖掘领域,从事务数据库中发现关联规则,已经成为一个极其重要的研究课题。关联规则挖掘的主要目的,是寻找和挖掘隐藏在各种数据之间的相互关系,通过量化的数据,来描述事务A的出现对于事务B出现可能产生的影响,关联规则挖掘就是给定一组Item以及相应的记录组合,通过对记录组合的分析,推导出Item间存在的相关性。当前对于关联规则的描述,一般是利用支持度和置信度,支出度是指产品集A、B同时出现的概率,置信度则是在事务集A出现的前提下,B出现的概率。通过相应的关联分析,可以得出事务A、B同时出现的简单规则,以及每一条规则的支持度和置信度,支持度高则表明规则被经常使用,置信度高则表明规则相对可靠,通过关联分析,可以明确事务A、B的关联程度,决定两种事务同时出现的情况。

(2)自顶而下频繁项挖掘算法:对于长频繁项,如果采用关联规则挖掘算法,需要进行大量的计算分析,不仅耗时耗力,而且影响计算的精准度,这时,就可以采用自顶而下频繁项挖掘算法,这种算法是一种相对优秀的长频繁项挖掘算法,利用了事务项目关联信息表、项目约简、关键项目以及投影数据库等新概念与投影、约简等新方法,在对候选集进行生成的过程中,应该对重复分支进行及时修剪,提升算法的实际效率,从而有效解决了长频繁项的挖掘问题。结合计算机实验以及算法分析,可以看出,这种方法是相对完善的,同时也是十分有效的。不过需要注意的是,当支持度较大、频繁项相对较短时,利用关联规则挖掘中典型的Apriori方法,可以起到更好的效果。

(3)频繁项双向挖掘算法:这种算法是一种融合了自顶向下以及自底向上的双向挖掘算法,可以较好的解决长频繁项以及段频繁项的挖掘问题,主挖掘方向是利用自顶向下挖掘策略,但是结合自底向上方法生成的非频繁项集,可以对候选集进行及时修剪,提升算法的实际效率。

三、结语

总之,在当前信息时代,应用数据挖掘技术,可以强化水利工程管理的效率和质量,确保水利工程功能的充分发挥,推动社会经济建设的稳步进行。

[1]韩红旗.数据挖掘技术在水利工程管理中的应用研究[J].中国管理信息化,2010,13(4):76-79.

[2]戴元将,祁智,陈爱鑫.数据挖掘技术在水利工程管理中的应用研究[J].经营管理者,2014,(13):308.

猜你喜欢

事务关联数据挖掘
北京市公共机构节能宣传周活动“云”彩纷呈北京市机关事务管理局
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
“一带一路”递进,关联民生更紧
奇趣搭配
针对基于B/S架构软件系统的性能测试研究
一种Web服务组合一致性验证方法研究
软件工程领域中的异常数据挖掘算法
Hibernate框架持久化应用及原理探析