APP下载

大数据背景下数据挖掘技术的应用

2021-12-18王丽丽

计算机与网络 2021年20期
关键词:数据挖掘信息

王丽丽

本文对大数据时代下数据挖掘技术的应用进行了研究,概述了大数据时代的概念与特点,数据挖掘技术的定义与特点;从聚类分析、分类预测和关联分析3个角度,列举了大数据时代的数据挖掘技术;从互联网、金融、市场营销、医疗和教育等多个角度,列举了数据挖掘技术在大数据时代中的应用。

在信息化社会的高速发展下,大数据、云计算、物联网等技术应运而生,海量的数据资源逐渐在人们的生产生活中高速地产生、积累,带动全社会迈入了大数据时代。这一时代背景下的数据信息,在规模与数量上相较过去都有了显著的扩充,在挖掘、应用上难度较大。因此,运用数据挖掘技术提升数据信息挖掘的便利性与准确性,具有重要的意义。

大数据

大数据的概念

大数据的概念最早由麦肯锡研究院在2011年的《大数据:创新、竞争和生产力的下一个新领域》一文中提出:“数据已经融入了大众的日常生活中,对大数据展开研究与分析,能够为人们的消费、生产水平带来跨越式的提升。”维基百科认为大数据是对一类无法用现有的数据库管理工具处理的,具有海量性、复杂性特点的数据集成的统称,即一类无法运用传统的IT技术以及硬件、软件工具处理的数据集合。

大数据的特点

大数据的特点可被概括为4“V”,如下:

数据挖掘技术

数据挖掘技术

数据挖掘通俗来讲,就是从大量的数据之中挖掘出数据蕴含的潜在规律、提炼出具有价值的知识的过程,数据挖掘技术是对在这一过程中运用的方法与技术的通称。

数据挖掘的特点

首先,数据挖掘是在各领域的数据库中挖掘、处理海量数据信息的过程,而这些数据信息通常已经过了预处理,具有结构化特点;其次,数据挖掘需要借助数学统计学知识,在建立挖掘模型、设计挖掘算法的基础上,揭示潜在数值信息及其内部特点;最后,构建科学的挖掘模型,能够在揭示用户行为的基础上发挥一定的作用。

大数据时代的数据挖掘技术

在大数据时代下,数据挖掘者应结合实际情况,针对目标与需求的特点,科学合理地选择数据挖掘方法。现阶段常用的数据挖掘方法包括以下几种:

聚类分析

聚类分析在所有的分析方法中具有无预期、无监督的特点,是为事物实施集合分组,整合具有一定联系的事物,构建为全新的集合,再展開数据挖掘的一种分析方法。聚类分析的基础就是“物以类聚”,大体来说,现阶段数据挖掘工作中常用的聚类分析方法,主要为3种,即CURE、BIRCH、STING算法。具体如下:

CURE算法:在CURE算法的应用下,每一个数据点被定义为一簇,依据收缩条件对全部的数据点展开收缩。在这种情况下,相距最近的簇会合并在一起,同时一个簇也会呈现为多个代表点的形式,让CURE适应非球形的形状。

STING算法:对STING算法的应用,会划分空间整体为多个不同的矩形单元,这些矩形单元又可根据分辨率的差异再划分为不同的结构,且这些结构具有一定的层次性,高层单元是低层单元经组合、合并后的形态,因此为计算出高一层的统计参数,可从计算低层单元入手。这里的统计参数一般是指数据的最大值、最小值、平均值等参数信息。对STING算法的运用,会将计算、统计和查询等功能相互隔离开来,为使用者带来便捷,利于并行处理和增量更新,且计算效率也十分优秀。

分类预测

分类与预测是在运用数据挖掘技术的过程中所实施的2个不同步骤。其中,分类主要用来估计数据类别中的标号,这些标号通常分布得较为分散,无规律特点;预测指的是运用连续的函数值构建出数据模型,再实施分析的一种方法。在数据挖掘实践中,分类实际上属于一项基础工作,可根据数据的特征,将能够被预测的数据划分为不同的区域,具体的分类方法繁多,例如神经网络、决策树(图1)都属于较为常见的分类方法。预测则是对数据在未来的动态发展方向的把握,例如回归分析法、局势外推法都属于典型的预测方法。

关联分析

在日常生产生活中人们不难发现,许多表面上看来毫无联系的事物,其实具有紧密的内部联系。例如,某事件的发生可能会成为一系列看似毫无关系的事件的前提。关联分析法就是对类似这样事件其中的联系,以及事件发生的概率展开分析的方法,是通过挖掘事件背后蕴藏的规律,在把握规律的基础上预测事件在未来发生几率的方法。例如:在沃尔玛商场中,啤酒与纸尿裤的销量总是呈现出一定的正比例关系,营销人员发现了这个规律,并运用关联分析法,找到了出现这个规律的原因———来商场购买纸尿裤的婴儿父亲会习惯性地带两罐啤酒回家。因此,沃尔玛在之后的销售中,有意将啤酒与纸尿裤的货柜放在靠近的位置,进一步提升了2种商品的销量,这就是一个典型的运用关联分析法发现规律、解决问题、做出决策的例子。

大数据时代下对于数据挖掘技术的应用

在大数据时代下,工作人员通过合理运用数据挖掘技术,能够有效地降低企事业单位实际运行的成本,降低企事业单位在发展过程中的风险系数,提升利润率以及在生产、管理和销售方面的竞争力。现阶段较为典型的企事业单位应用数据挖掘技术的例子如下:

数据挖掘技术在互联网方面的应用

Web信息中含有丰富的文本、图形图像、声音等媒体信息,还包括链接结构信息、使用记录信息等非媒体信息。对 Web的内容、结构、记录等展开挖掘,能够较为快捷地获取多种对于使用者而言具有价值的信息,优化网站组织结构,提升网站使用者的访问效率,让同类用户能够高效地聚集在一起。具体而言,数据挖掘技术在互联网方面的应用,主要表现为以下方面:

(1)网络检索:运用数据挖掘技术,工作人员可提取网站中目标样本的特征,进行分词处理,通过自动分类、聚类文本的方式,从网络信息资源库中发掘用户所需要的信息。

(2)网络入侵监测系统:工作人员可通过时间序列模式的挖掘方法,对网络传输数据包、系统日志展开分析,判断是否存在非授权使用计算机的个体,或计算机系统的合法用户存在非法访问的情况,以完成对网络的入侵监测。

数据挖掘技术在金融领域的应用

在银行与金融机构中,储存着大量的金融数据,例如储蓄、信贷和投资信息等。银行可以在分析客户的还款记录、个人征信、负债率等数据的基础上,对用户的业务实施管理,如管理用户的个人贷款、信用卡申请等。在建立数据挖掘模型后,工作人员也可运用这一模型,对用户的数据展开验证、评价,将市场调查得到的客户数据建立模型,预测哪些客户群体会对新产品具有兴趣等。

数据挖掘技术在医疗领域的应用

医疗领域的数据信息数量、规模都十分庞大,应用数据挖掘技术具有重要意义。但这一行业的数据信息通常是由不同的信息系统管理的,同时在保存格式上,也与其他行业有所不同。在这一行业中应用数据挖掘技术,最重要的是对大量的数据信息展开归纳与整合,最终预测出大致的医疗保健费用。

数据挖掘技术在市场营销领域的应用

在市场营销领域中应用数据挖掘技术,主要为分析消费者的消费心理与消费习惯,再预测出消费者在未来的消费行为,企业可在参考数据分析结果的基础上,调整自己的生产、销售计划,进一步提升产品的销量。此外,在市场营销领域中应用数据挖掘技术还能够帮助企业更加高效地在客户群中挖掘出具有高度购买潜力且忠诚度高的客户,进而针对优质客户展开客户关系维护。

数据挖掘技术在教育领域的应用

数据挖掘技术在教育领域中也有着重要的应用价值。教师可应用这一技术对学生的情况展开分析,把握学生的学习基础、认知水平、个性特点,再以此为参考,对自身的教学设计展开有针对性的调整,提升课堂教学的质量。此外,教师也可应用数据挖掘技术分析学生的学习成绩,了解学生在学习中存在的优势与劣势,进而合理优化配置教学资源,整体提升教学效率与教学质量。

数据挖掘技术在科学研究领域的应用

科学研究领域,特別是生物技术、天文气象研究领域的信息量极为庞大,应用数据挖掘技术,能够更加高效地整合、分析这些数据信息,找到其中蕴含的规律,为后续的决策提供支持。例如对于天文气象研究领域,可在模型中输入某一地区的历史气象数据,运用模型判定这一地区在未来的气象特征,为气象研究以及气象预报提供数据支持。

综上所述,在大数据时代,研究、应用数据挖掘技术,具有重要的理论意义与实践意义。同时,这一技术也具有良好的发展态势与广阔的发展空间。相关工作者应当重视探索、应用这一技术,将这一技术的优势最大化发挥到社会的各个领域之中,紧跟时代的发展形势,为所在行业创造出更多的经济效益与社会效益。

猜你喜欢

数据挖掘信息
数据挖掘技术在内河航道维护管理中的应用研究
订阅信息
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
展会信息
一本面向中高级读者的数据挖掘好书
信息
健康信息
健康信息(九则)