APP下载

数据挖掘与基于多维数据库的在线分析系统OLAP浅析

2016-03-11王晓霞

河北建筑工程学院学报 2016年1期
关键词:聚类预测

梁 旭 王晓霞

(1.张家口市生产力促进中心,河北 张家口 075000;2.中国人民银行张家口市中心支行,河北 张家口 075000)



数据挖掘与基于多维数据库的在线分析系统OLAP浅析

梁旭1王晓霞2

(1.张家口市生产力促进中心,河北 张家口 075000;2.中国人民银行张家口市中心支行,河北 张家口 075000)

摘要:数据挖掘和OLAP都是在商业智能家族中重要的分析技术.对于能够实现的商业智能的最深层次,在商业智能的解决方案中数据挖掘处于较为重要的位置.随着存储器存储容量的增长,收集的数据变得如此之多,以至对于实际利用中存储的数据开始遭到限制.提炼已有数据中的知识,使数据的内在价值获得提高是数据挖掘的主要目的.数据挖掘与OLAP是相辅相成的,并将会获得进一步分析的能力,彼此之间同时也可以在其特征中得到好处.

关键词:数据挖掘分析技术;数据收集;预测;OLAP;聚类

1数据挖掘的商业应用

数据挖掘这项技术几乎可用于所有商业应用,解决各种商业问题.事实上,当今并不缺少可用的软件,只要有使用数据挖掘的动机,并掌握了实际技术,就可以采用数据挖掘技术.下面列举了几种数据挖掘的应用.

1.1异常检测

如何知道数据是正常的还是有问题呢?数据挖掘可以分析数据,并挑选出那些不同与其余项的项.信用卡公司使用具有异常检测功能的数据挖掘驱动来对某个特定的交易的有效性进行确定.当有交易异常被数据挖掘系统指出后,公司将会给客户打电话,以使客户本人是否在使用信用卡得已确认.

1.2客户流失分析

各个行业现如今正面临着的竞争是日趋激烈的,分毫之间,自己的客户就会成为竞争对手的客户.据电信公司统计,发展一个新客户需要广告费用等超过1000元人民币的市场投资,每流失一个老客户公司年损失2000元人民币.各个公司都力所能及的发展和留住客户.通过流失性分析,市场部经理能够了解可能会流失哪些客户以及这些客户流失的原因.同时可以进一步去地完善、改善公司与客户的关系,最后将客户留下来.

1.3风险管理

给某客户的一项贷款应该批准吗?因为次级抵押贷款有风险,所以在银行业中出现这样的问题是很常见的.数据挖掘技术会帮助贷款的提供方,这是为了能确定贷款申请的风险,做出正确的决策去保证每一个贷款申请的有效性和成本.

1.4预测

这个超市下个星期能卖多少瓶可乐?每个月最合理的库存是多少?数据挖掘预测技术能够回答这种与时间相关的问题.

2数据挖掘的任务

很多任务问题都可能被涉及到,特别是对于每一个由数据挖掘系统所提出的问题.有些时侯,只有应用涉及单一任务于其中时,才会有明显的解决措施.然而更多时候为可能获得更完善的解决方案,是需要去研究并整合多个任务的.下面将要介绍几类数据挖掘任务都是实际中经常见到的.

2.1分类

处于数据挖掘任务之一的分类,是最常见的任务.而分类通常会涉及在像广告定位、风险管理和客户流失分析这一类的商业问题之中.

每个事例中自然都会包含有相应的一组属性,在众多事例的属性中有一个叫做类别属性.将按照多个类别区分每个事例,这样的行为称作是分类.贝叶斯算法、神经网络算法和决策树算法是典型的分类算法.

2.2关联

关联也被称作是进行购物篮分析.对销售事物表作分析,并且在一个购物篮中识别出出现的那些商品是一个相当常见的关联问题.在确定常见规则集和物品集的过程中,通常采用关联,将交叉销售的目的实现.

2.3聚类

聚类分析凭借一组属性对事例作出分组,也称作细分.多多少少会有相似的属性值出现于同一个聚类的事例当中.

聚类分析是没有任何属性用于训练过程的指导,是一种无监督状态下的挖掘数据的任务.所以,将平等对待任何的输入属性.通过多次迭代来构建模型是大多数聚类算法的方法,也就是说,算法停止会在模型收敛时发生.换言之,当出现稳定的细分边界时算法将会自动停止.

2.4预测

有一类重要的数据挖掘任务称为预测.这些问题可通过预测帮忙解决:下个季度服装的销售量将是多少?而下周苹果的股票价格又将会多少?采用数列作为输入,表示一系列时间值是预测技术的常用方法,各种能处理数据的噪声分析、趋势分析和周期性分析是要运用计算机去完成的,再对这些序列未来的值作出估算则用统计技术来实现的.

2.5回归

与分类任务类似,但并非是查找描述类的模式称作回归任务.举一个例子——回归中的线性线段拟合技术,输出是可以通过输入的值进行确定的,并且是以一个函数作为结果.逻辑回归和线性回归是回归最流行的使用技术.查找模式以确定数值是它的目的.支持数值输入以及分类输入是回归形式高级表现.

3数据挖掘项目的生命周期

从最初的商业问题形成到具体的部署和维护管理,大多数数据挖掘项目都要经历相同的阶段:商业问题的形成,数据收集,数据转换和清理,模型构建,模型评估等.

3.1商业问题的形成

首先要明白客户提出的重要问题.开始项目之前遇到了什么问题?解决此问题将采用什么方法?是否能知道如何解决问题?这些都是要考虑的内容.如此以来许多商业问题的结果是出人意料的.

通常我们会需要确定一些未知的东西并且这些未知东西是以其具有一定价值作为前提的,数据挖掘解决方案或预言方案正是需要如此工作.一般来讲可以获得140%的投资回报,这需要采用成功的数据挖掘解决方案.如此一来论证工作将会变得更基础,更简单.

3.2数据收集

企业的许多系统往往是商业数据存储的地方.把相关的数据放到一个数据集市或者数据库是第一步,同时在数据集市或数据库中应用数据分析.但是在少数情况下,数据仓库中的现有数据可能会出现数据残缺或匮乏的情况,所以一些额外的数据还需要被补充进入数据仓库.

3.3数据转换和清理

在数据的挖掘项目中,最消耗资源的一步是数据转换和清理.修改数据源是数据转换的目的,使它可用于数据挖掘.除去数据不相关的信息和集中的“噪声”则是数据清理的目的.目前数据转换和清理的技术有聚集、分组、数值转换、删除孤立点和缺失值处理.

3.4模型构建

数据挖掘任务的核心就是进行模型的构建,资源和时间不密集是它与数据转换的差别.接下来会相对容易地选择合适的算法,尤其在是理解和掌握了数据挖掘任务的类型和常见商业问题的状况后.但是在构建模型之前有一点情况不可否认,很多时候我们不知道到底哪一种算法是最合适的.而算法精确度是依靠数据本身的性质作为质量保障的.用一些工具评估来这些模型的精确度,然后构建多个使用不同算法的模型来作比较则是一种正确的方法.优化模型的精确度可以通过参数设置的调整来实现,特别是同一算法构建的模型.

3.5模型评估

模型进行评估阶段时,不仅要确定所发现模式的意义,将所构建模型的精确度进行评估,还必须加以考虑如何将它们融入于业务中并作出分析模型.模型之中会存在没有用的模式,正是由于解决业务问题所需要的最适合的变量并不是模型中的一组变量.为了可以衍生出的变量更有意义,可能会需要反复地执行步骤如数据转换和清理,重新定义问题甚至也会使用到.适合的模型通常要经过多次循环才能找到,而数据挖掘就是这样的一个循环过程.

4基于多维数据库的OLAP

OLAP和数据挖掘都是重要的分析技术,且都会存在于商业智能家族中.数据挖掘与OLAP是相辅相成的,并将会获得进一步分析的能力,彼此之间同时也可以在其特征中得到好处.数据挖掘找出数据集的隐藏模式往往是通过分析属性值之间的相关性来实现的.它将不同类型的数据点分成子组,从而在每个子组中的数据点或多或少是类别相同的.数据挖掘的基本过程之一是分析属性和属性值之间的相关性.统计学家对该问题研究了几个世纪.许多深奥的统计学理论今天仍然在应用.

聚集大量事务数据的OLAP却是根据对维的理解来进行的.OLAP服务器能处理大量的多维数据,同时其本身也属于数据库服务器中的特殊类型.聚集计算是众所周知OLAP的核心技术.OLAP需要处理RDBMS需要解决的大多数任务,包括索引、查询、持久性和数据缓存等.然而,因为OLAP服务器具有多维性,所以它不能在没有进行重要改进的情况下就简单的应用关系技术.

使用OLAP来对预算、金融、销售和各种其他类型应用的聚集信息做分析在决策支持系统中是常见的.立方体是多维的数据库.为快速实现决策支持查询是构建OLAP立方体的目的.典型的立方体包含一组定义明确的维,每个维包含许多成员.查询聚集的值可以在不同级别层次上得以操作.

存储预先计算的聚集于特定的数据结构中,依据不同维的层次作聚集度量是OLAP在线分析系统的主要作用.为获得实时返回决策支持查询得到的结果可以通过这样的帮助如特殊索引或者预聚集,并随时可对聚集的数据进行查询,而在脱机模式和批处理下才能完成这传统的方式.

5总结

在企业中能够把存有的数据转化为知识,并协助企业做出有关业务经营类决策的工具通常被理解的商业智能.企业业务系统的交易账目、库存、订单、供应商和客户等竞争对手和企业本身所处行业的这些数据以及处于外部环境中的企业的一些数据都是这里所谈的数据.且商业智能能对业务的经营决策过程作出帮助,既包括战略层和战术层的决策,也包括操作层面的的决策.联机分析处理(OLAP)工具、数据仓库和数据挖掘等技术是商业智能策略为实现将数据转化为知识而需要的能互相支撑的技术.

Analysis on Data mining and OLAP of Multidimensional database-based Online Analysis System

LIANG Xu1,WANG Xiao-xia2

(1.Zhangjiakou Productivity Promotion Center,Zhangjiakou,Hebei 075000;2.Zhangjiakou Central Sub-branch,The People’s Bank of China,Zhangjiakou,Hebei 075000)

Abstract:Data mining and On-line Analytical Processing (OLAP) are two important analysis technologies in the family of business intelligence.Data mining occupies a more important position in business intelligence solutions.Along with the increasing of storage capacity,the collected data has become so large that the actual use of the data stored is beginning limited.It is the main purpose of data mining to refine knowledge in existing data to improve the intrinsic value of data.Data mining and OLAP are complementary to each other,which can gain the ability to further analysis and benefit from each other’s characteristics.

Key words:analysis technology of data mining;data collection;prediction;On-line Analytical Processing(OLAP);clustering

收稿日期:2015-12-06

作者简介:梁旭(1988-),男,大学本科,助理工程师,从事计算机应用研究.

中图分类号:TP 3

文献标识码:A

猜你喜欢

聚类预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
基于K-means聚类的车-地无线通信场强研究
不必预测未来,只需把握现在
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
局部子空间聚类