APP下载

基于数据挖掘技术的信息处理分析

2021-04-04韩小龙

信息记录材料 2021年8期
关键词:数据挖掘数据库算法

韩小龙

(宝鸡文理学院 陕西 宝鸡 721000)

1 引言

信息化时代的到来,使得数据信息的重要性越发突出。在现代社会背景下,数据信息既可以是支持现代科学技术发展的载体,也可以是推动行业创新发展的动力,还可以是保障社会和谐发展的基石。若充分发挥数据信息的价值与作用,则需要对数据挖掘技术等先进技术进行合理利用,故而有必要对基于数据挖掘技术的信息处理分析进行研究[1]。

2 数据挖掘技术概述

所谓数据挖掘技术,简单来说就是基于计算机信息技术对大量、随机的实际应用数据中提取有用信息的技术,广泛包含统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等诸多模式,并且可分为统计分析法、神经网络法、遗传算法、决策树法等方法。随着大数据时代的到来,整个社会所面临的信息数据量呈现几何级的增长。一方面,海量数据中难免包含无用信息,需要借助数据挖掘技术对有用信息进行快速、有效挖掘;另一方面,海量数据之间有着各种难以直接发现的规律、关系等,借助数据挖掘技术能够有目的地对这些规律、关系等加以发现和总结,进一步提高数据信息的可利用价值。通过数据准备、数据挖掘以及结果评价和解释,对数据中的有用信息进行有目的、针对性地搜集、整理与处理,并将这些信息转化为更容易被人所理解的形式,真正做到为人所用。

一般而言,数据挖掘包含确定业务对象、数据集成、数据选取、数据预处理、数据挖掘以及评价和解释多个阶段,并能根据数据挖掘结果实现预测、聚类关联分析、异常检测等重要功能。其中预测功能主要是通过对历史数据进行挖掘、处理与分析,找出事物变化的规律,并以此为基础对事物未来变化情况以及相关数据加以预测,目前该功能已经被广泛应用于股票涨跌预测、犯罪率预测、交通运输客流预测等方面。聚类功能简单来说就是将数据划分成簇。该功能的实现需要以数据挖掘技术、人工智能技术、专家系统等先进技术为基础,在不会知道目标数据集存在多少类的情况下,对海量数据进行自动化、智能化处理,并尽可能做到不同簇中数据差异性明显、同簇中数据相似性高。目前聚类功能已经被尝试应用于生物学的物种分类辅助、疾病时间分布模式检测、客户划分等方面,并取得了一定成效。关联分析功能指对数据之间的关联管理进行分析和研究。数据挖掘技术中关联分析功能的实现,主要通过支持度和置信度来确定数据间的关联规则,进而挖掘出数据间的简单关联、时序关联等关系。目前,关联分析功能被广泛应用于零售行业物品摆放位置调整、基因芯片研发、电话卡捆绑销售、保险金额设定等方面。而异常检测功能则是对海量数据中的异常数据加以发现,并进一步对异常原因、结果等进行分析。该功能的实现可以通过统计模型、聚力模型、密度模型、偏离模型等进行数据挖掘和分析,从而针对不同模型发现特定的异常数据。目前异常检测功能被应用于不寻常信用卡的探测、医疗保险欺诈等方面[2-3]。

3 基于数据挖掘技术的信息处理分析实现

基于数据挖掘技术进行信息处理分析,需要对处理对象加以了解和研究,并应用相应的信息系统进行数据处理,实现功能。接下来本文以移动通信企业的用户信息分析为例,就基于数据挖掘技术的信息处理分析实现进行探讨。

3.1 系统分析

要保障信息处理分析的有效实现,需要先对相应的系统进行分析,进而指导系统设计与建设。对移动通信企业的用户信息分析而言,构建相应的系统应当能够实现保留老用户、发展新用户、降低运营成本、提高企业竞争力等目标。其中,从保留老用户的层面看,对用户信息进行全面分析,实现企业内部用户信息共享,协调各部门、岗位,把握用户需求并尽可能加以满足,能够切实提高用户的实际体验,进而增强用户对企业的信赖感,留住老用户。从发展新用户的层面看,对企业内部信息与外部信息进行综合化分析,对潜在用户的基本特征和需求加以分析,进而为企业战略调整、决策制定等提供依据,有效发展新用户。从降低运营成本的层面看,借助系统对企业运行管理情况加以分析,推动企业结构以及资源配置优化,整合企业内部环节,并以市场为导向指导企业业务工作开展,能够在提高工作质量与效率的同时,降低运营成本。从提高市场竞争力层面看,借助用户信息分析系统对用户需求、市场变化等进行分析、预测,能够有效增强市场竞争力,促进企业经济效益提高。

而要确保系统正常运行并发挥作用,则需要对系统架构进行合理设置。用户信息分析系统直接从企业系统数据服务器导入档案数据,同时通过生产或录入的方式生成调查信息、分析相关信息等,共同组成数据信息。通常移动通信企业的用户信息分析系统架构由3个层次构成,分别为基础数据层、业务逻辑层以及应用表现层。基础数据层以数据库为核心,并且直接与业务逻辑层以及应用表现层相连,既可以根据系统需求自动开展相应的业务工作,也可以按照人为需要对数据进行分析处理。业务逻辑层则是连接应用表现层与基础访问层的中间桥梁,其需要基于业务实体以及数据业务实体直接进行数据访问,也需要通过业务实体以及业务逻辑组件支持系统功能和服务的实现。而应用表现层则是进行人机交互的部分,直观地展现系统功能,提供专业服务,是移动通信企业应用系统的核心部分。移动通信企业的用户信息分析系统通常包含系统管理、用户管理、业务管理以及分析管理等四大模块,同时具有分级权限、自动提醒和报警等基础功能,能够满足企业开展用户信息分析工作的实际需求[4]。

3.2 系统总体设计

在对移动通信企业的用户信息分析系统进行设计时,需要先对系统模型进行设计。系统需要先将包括用户信息、用户行为、运营数据以及其他数据等在内的所有数据进行收集、整理,并将数据录入数据库中。根据数据挖掘目标,对数据库中的数据进行选择以及预处理,并通过包含关联分析、序列分析、分类分析、聚类分析以及其他分析法的数据挖掘算法库,执行数据挖掘算法。然后,通过用户行为分析、用户信用分析、用户满意度分析、用户忠诚度分析、用户消费预测等,对数据挖掘结果进行分析,并根据反馈修正结果,再为用户服务、营销策略、管理应用等工作的开展提供重要数据。在此基础上,再对系统功能的实现进行设计。其中系统管理模块应当具备添加、查看、删除、修改等必要的系统功能;用户管理模块应当具备添加业务用户、查看用户信息等基本功能;业务管理模块应当具备添加业务记录、查看业务记录、删除业务记录、留言管理等基本功能;分析管理模块则应当具备用户信息分析、用户满意度管理、用户消费分析和预测、用户分类等必要功能。将整个系统划分为数据层、逻辑层与表现层,对各层的功能和作用加以明确。

3.3 数据库设计

在对数据库进行设计时,一般可选用SQL Server数据库,并建设相应的信息表,主要包括用户基本资料信息表、用户联系人信息表、用户组织结构信息表、系统操作员信息表、业务记录信息表、用户满意度调查表、用户意见反馈表等,不同数据需要按部就班地录入对应信息表。其中,用户基本资料信息表包含用户编号、用户姓名、用户地址、用户邮编、用户联系人、信用度、满意度、用户等级、用户种类、地区、注册时间、注册地址、负责团队、最近联系时间以及备注等基本信息;用户联系人信息表包含联系人编号、客户编号、联系人姓名、联系人电话号码、备注等信息。

3.4 数据预处理

对数据进行预处理,是系统进一步实现各项信息处理分析功能的基础。在实践时,需要根据实际需要,明确调查对象,进而对数据库中的表进行合理筛选,并对这些表中的数据进行预处理。先通过系统直接从数据库中导入需要的数据,并通过消减维度的方式将其中与挖掘目的无关的属性进行消减。然后,再对数据进行观察,并将其中的噪声数据忽视掉,以免无效数据影响信息处理分析结果的准确性。之后,再进行数据变换,对连续型数据进行离散化处理,通常是基于行业领域经验、挖掘需求等进行分层离散。

3.5 数据挖掘算法编程实现

移动通信企业用户信息分析系统的数据挖掘算法,主要包括Apriori算法与FP-Growth算法两种。通过编程手段,对这两种算法功能加以实现。其中,Apriori算法中应用了自连接、剪枝技术以及Hash树求解候选项集的支持数,能够有效预防重复挖掘,也能对一些无用或者不必要的候选项集进行过滤,挖掘速度较快。不过该算法在实际应用时,需要重复扫描数据库和所有事物,会在很大程度上影响挖掘效率。而FPGrowth算法应用了FP树与条件FP树等技术,能够实现对大量数据的压缩存储,也能得到频繁项集,而且只需要扫描数据库两次。

3.6 系统实现

操作人员需要通过账号、密码以及动态验证码登录系统,并获得相应的系统权限。进入系统界面后,操作人员可以根据实际需要,通过不同的系统模块进行用户信息操作和用户信息分析,获得自身需要的信息,并为用户管理提供支持[5]。

4 结语

综上所述,在大数据时代,根据实际需要对数据挖掘技术进行合理应用,并对相应的数据信息进行挖掘、处理与分析,得到需要的信息,支持相关工作开展,是未来数据挖掘技术应用的主要趋势。

猜你喜欢

数据挖掘数据库算法
探讨人工智能与数据挖掘发展趋势
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
一种改进的整周模糊度去相关算法
数据库
数据库