数据挖掘技术的发展趋势
2016-02-22何俊
何俊
(西华大学,四川 成都 610039)
数据挖掘技术的发展趋势
何俊
(西华大学,四川 成都 610039)
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现。
数据挖掘;发展
1 数据挖掘的发展
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。
——何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
2 数据挖掘的功能
数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:
(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因
需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。
3 数据挖掘应用现状
数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:
(1)商场从顾客购买商品中发现一定的关联规则,提供打折、购物券等促销手段,提高销售额。
(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润。
(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量。
(4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。
4 数据挖掘技术未来的研究方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:
(1)形式化描述的语言,即研究专门用于知识发现的数据挖掘语言DMQL,类似SQL语言一样走向形式化和标准化。
(2)可视化的数据挖掘过程,寻求数据挖掘过程中的可视化方法,使知识发现的过程易于被用户理解和操纵,可使数据挖掘过程成为用户业务流程的一部分,也便于在知识发现的过程中进行人机交互;包括数据用户化呈现与交互操纵两部分。
(3)Web网络中数据挖掘的应用,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场。
(4)融合各种异构数据的挖掘技术,加强对各种非结构化数据的开采(Data Mining for Audio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采。
(5)处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
5 总结
不管怎样,需求牵引与市场推动是永恒的,只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。
[1] 刘莹.基于数据挖掘的商品销售预测分析[J].科技通报,2014,(07).
[2] 徐进华.基于灰色系统理论的数据挖掘及其模型研究[D].北京交通大学,2009.
[3] 俞驰.基于网络数据挖掘的客户获取系统研究[D].西安电子科技大学,2009.
[4] 冯军.数据挖掘在自动外呼系统中的应用[D].北京邮电大学,2009.
何俊(1995—),男,汉族,四川西充人,本科,西华大学,软件工程专业。
TP18
A
1671-1602(2016)24-0021-01