计算机数据挖掘概念及应用的探讨
2019-09-10李沂石建东
李沂 石建东
摘 要:数据挖掘是日常生活的一部分,虽然我们常常没有意识到它的存在。但是影响到我们日常生活的各方面,从当地超市供应的商品、网上冲浪看到的广告,到犯罪预防。通过改进服务和提高顾客满意度,以及生活方式,为个人带来许多好处。然而,数据挖掘应用也会严重地威胁到个人隐私权和數据安全。数据挖掘系统和应用的开发是目前研究的难题,本文通过文献综述的方式对数据挖掘进行讨论,其目的是为了引起更多人的关注和更深入的研究。
关键词:计算机;数据挖掘;概念;应用
引言
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。作为一个新兴的研究领域,自从20世纪80年代开始以来,数据挖掘在国外已经取得了显著进展且涵盖了广泛的应用。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。
1、数据挖掘概述
数据挖掘(data mining)其英文名可以翻译为数据采矿,实际上指的是从大量的数据中获取所需要的有用信息,数据挖掘在各个行业都有着广泛的应用。数据挖掘又被称为“数据中的知识发现”(KDD),顾名思义,也就是通过数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等一些列步骤,对数据进行分类、聚类,发现其中的关联关系或者离群点,来发现新的知识[1]。例如金融大数据领域的信贷机构可以通过数据挖掘实现对用户的信用评级、零售行业各地区顾客不同种类商品的需求和购买习惯、电信行业数据分析、生物学领域中的基因数据分析等等。至此,便可以简单的理解清楚数据挖掘的概念。
对数据挖掘有多种文字不同但含义接近的定义,其实顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
2、数据挖掘的特征
2.1基于大量数据
实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。
2.2非平凡性
挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。
2.3隐含性
数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。
2.4新奇性
挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。
2.5价值性
给企业带来直接的或间接的效益。有人说数据挖掘看起来神乎其神,却什么用处也没有。这是一种误解,在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。
3、数据挖掘的应用领域
3.1金融数据分析领域的应用
大部分银行和金融机构都提供丰富多样的银行业务、投资和信贷服务例如交易、抵押、汽车贷款和信用卡等。有些还提供保险服务和股票投资服务。银行和金融机构收集的金融数据通常相对完整、可靠,并具有高质量,这大大方便了系统的数据分析和数据挖掘[2]。例如,为多维数据分析和数据挖掘设计和构造数据仓库,可以进行贷款偿还预测和顾客信用政策分析,针对定向促销的顾客分类与聚类,用于洗黑钱和其他金融犯罪的侦破等。
3.2零售和电信业领域的应用
零售业是非常合适的数据挖掘应用领域,因为它收集了关于销售、顾客购物史、货物运输、消费和服务的大量数据。特别是,由于通过Web或电子商务上进行的商业活动日益方便和流行,收集的数据量继续迅速膨胀。今天,大部分较大的连锁店都有自己的网站,顾客可以方便地联机购买商品。如 Amazon. com(htp:∥/ww. amazon. com),只有联机商店而没有实体(即物理的)商场。零售数据为数据挖掘提供了丰富的资源。零售数据挖掘可以帮助识别顾客购买行为,发现顾客购物模式和趋势,改进服务质量取得更好的顾客保持度和满意度,提高货品消费比,设计更好的货品运输与分销策略,降低企业成本。
3.3科学与工程领域的应用
计算机科学中的数据挖掘可以用来帮助监测系统状态、提高系统性能、隔离软件错误、监测软件剽窃、分析计算机系统缺陷、发现网络入侵和识别系统故障。软件和系统工程的数据挖掘可以在静态或动态(基于流)数据上进行,取决于系统是否为之后的分析提前卸载跟踪,或者是否必须实时反应,处理联机数据。由于大量信息数据注入我们的日常生活[3]。这种通信在万维网和和各种社区网上以多种形式存在,包括新闻、博客、文章、网页、在线讨论、产品评价、叽喳(twitters)、消息、广告和通信。它可以分析用户或读者关于产品、讲演和文章的反馈,以推断社团的一般观点和意见。这种分析可以用来预测趋势、改进工作、帮助决策。因此社会科学和社会研究数据挖掘已经日趋流行。
3.4入侵检测和预防领域的应用
计算机系统和数据安全一直处于危险中。互联网的大规模增长,各种入侵和攻击网络工具和手段的出现,使得入侵检测和预防成为网络系统的关键组成部分。入侵可以定义为威胁网络资源(如用户账号、文件系统、系统内核等)的完整性、机密性或可用性的行为。入侵检测系统和入侵预防系统都监测网络流量和系统运行,以发现恶意活动。数据挖掘技术的应用,可以开发强大的入侵检测和预防系统[4]。
结语
当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。具体应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。
参考文献
[1] Micheling Kamber/Jian Pei.数据挖掘概念与技术[M].机械工业出版社.2012.8.
[2] 韩秋明、李微、李华锋.数据挖掘技术应用实例[M].机械工业出版社.2009.
[3] 邱恩海.计算机数据挖掘技术的开发及其应用研究[J].科技风.2019(17):100.
[4] 刘芬.基于计算机数据挖掘技术的开发及应用分析[J].数字技术与应用.2018(05):220-222.
作者简介:李沂;女;(1987.5.12—):研究生;研究方向:计算机科学与技术。