APP下载

浅谈金融行业中的数据挖掘

2013-08-15张俊芝

合作经济与科技 2013年15期
关键词:数据仓库数据挖掘预测

□文/张俊芝

(河北大学文科综合实验教学中心 河北·保定)

银行、证券公司、保险公司每天的业务都会产生大量数据,利用目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。

如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?于是,数据挖掘技术就应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。它可以从大量的数据中抽取潜在的有用信息和模式,来帮助我们进行科学的决策。

一、基本概念

1、数据挖掘(DataMining)。数据挖掘又称数据开采、数据发掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。

2、数据仓库(DataWarehouse)。数据仓库是W.H.Inmon 在1993年所写的论著《Building the Data Warehouse》中提出的。W.H.Inmon 给数据仓库下的定义是:“数据仓库是面向主题(Subject-Oriented)的、集成(Integrated)的、稳定(Nonvolatile)的、时变(Time-Variant)的数据集合,用以支持管理决策的制定过程。”数据仓库可以在数据模型的指导下,收集系统内部和系统外部的数据信息,保证数据的一致性、准确性和时效性,真正实现数据共享和分析利用。

二、数据挖掘的主要技术

在应用到金融领域的各种数据挖掘技术中,主要有以下几种方法:

1、基于神经网络的方法。神经网络方法是模拟人脑信息加工过程的一种智能化信息技术。人工神经网络是电脑通过多重输入相似平行处理结构来模拟人类识别模式的功能建造起来的。

神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。神经网络提供了一类准确性令人满意、程度上接近金融模式的工具。

2、基于贝叶斯网络的方法。贝叶斯网络,又叫概率因果网络、信任网络、知识图等,是一种有向无环图。贝叶斯网络用图形来表示变量间连接概率关系。结点表示:领域变量;有向边:结点间的依赖关系;对每一个结点都对应着一个条件概率分布表,该分布表指明了该变量与父结点之间的依赖关系。

3、遗传算法。遗传算法的基本思想是给出一个问题,在特有的人口遗传群体中潜在地含有解决方案或者较好的解决方案。基于遗传和进化原则,遗传算法反复修改人口的人工结构,操作员通过预置、选择、交叉和改变来逐步形成解决方案。

4、基于规则和决策树的工具。决策树方法作为一种数据挖掘实现基于统计理论的非参数识别技术,不仅保持了多元参数,非参数统计的一些优点,而且克服了其不足,主要表现在:自动进行变量选择降低维数,充分利用先验信息处理数据间的非同质的关系,并可有效地用于对数据的分类。

三、数据挖掘的主要步骤

1、定义问题。对目标有一清晰、明确的定义,也就是确定需要解决的问题,这个目标应是可行的、能够操作与评价的。

2、数据收集。大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。

3、数据整理。数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必需的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。

4、数据挖掘。利用人工智能、数理统计等各种数据挖掘方法对数据进行分析,发现有用的知识与模式。这是整个过程的核心步骤。

5、数据挖掘结果的评估。数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。

6、分析决策。数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。

总之,数据挖掘过程需要多次的问题修改、模型调整、重新评估、检验等循环反复,才有可能达到预期的效果。

四、数据挖掘在金融业的应用

数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、账户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件进行分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。然后,利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。

1、客户关系管理。数据挖掘可以进行客户行为分析来发现客户的行为规律,包括整体行为表现和群体行为模式,市场部门可以根据这些规律制定相应的市场战略与策略;也可以利用这些信息找出客户的关注点及消费趋势,从而提高产品的市场占有率及企业的竞争能力。数据挖掘能够帮助企业找出对企业有重要意义的客户,包括能给企业带来丰厚利润的黄金客户和对企业进一步发展至关重要的潜在客户。

2、风险识别与管理。可以建立一个分类模型,对银行贷款的安全或风险进行分类。也可利用数据挖掘技术进行信贷风险的控制。信贷风险管理主要包括:风险识别、风险测量、选择风险管理工具、效果评价。信息的庞杂造成手工评估、管理的难度大大增加。而现有的银行信贷系统一般都是业务运营系统,并非为决策分析应用而建立,其数据的集成性、完整性、可访问性、可分析性都难以满足信贷风险分析的需求。为此,可以建立一套独立于业务系统的数据仓库,专门解决信贷分析和风险管理的问题。

3、市场趋势预测。数据挖掘技术可以进行数据的趋势预测,比如金融市场的价格走势预测、客户需求的变化趋势等。

4、识别金融欺诈、洗钱等经济犯罪。金融犯罪是当今业内面临的棘手问题之一,包括恶意透支、盗卡、伪造信用卡、盗取账户密码以及洗黑钱等。要侦破洗黑钱和其他金融犯罪,重要的是要把多个数据库的信息集成起来,然后采用多种数据挖掘工具寻找异常模式,发现短时间内,少数人员之间的巨额现金的流动,发现可疑线索。

[1]樊重俊,王浣尘.遗传算法的改进与应用[J].上海大学学报,1998.12.

[2]王明进,程乾生.自组织网络在混沌时间序列预测应用[J].系统工程理论与实践,1997.7.

[3]姚洪兴,盛昭瀚,陈洪香.股市预测中的小波神经网法[J].系统工程理论与实践,2002.6.

猜你喜欢

数据仓库数据挖掘预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究