APP下载

数据挖掘技术下的银行客户流失决策树预测算法

2014-06-18石杨岳嘉佳

电脑知识与技术 2014年11期
关键词:关联规则决策树数据挖掘

石杨 岳嘉佳

摘要:在银行客户流失预测系统中经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户数据进行分类规则挖掘。

关键词:决策树,客户流失,关联规则, 数据挖掘

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)10-2533-04

Abstract: In the bank customer churn prediction system often unknown by the customer data to predict customer service information in order to provide the basis for the bank in the future business strategy. In the customer's forecast, they often need to classify certain classification rule mining properties. This paper discusses the use of this common and effective decision tree approach to classification rule mining of customer data.

Key words: decision trees; Churn; association rules; data mining

网络信息化飞速发展的今天,传统的商业模式发生了质的变化。在金融领域里,随着客户对银行推出的产品及其服务的预期要求的不断提高,导致各家银行之间的竞争更加白热化。在此环境下客户的忠诚度成为建立和维持客户关系,各家银行取得竞争优势的重要指标。基于数据挖掘技术和数据仓库技术为基础的客户关系管理系统,成为解决该问题的有效方法。而银行客户流失预测系统作为客户关系管理系统中的一个重要组成部分经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户进行分类规则挖掘。

1 决策树技术概述

决策树是数据挖掘中一种常用的技术,它既可以用来分析数据,同时也可以对数据进行预测。为什么要选择决策树技术来分析银行客户流失情况呢? 因为从银行己有的客户流失情况作为基础数据进行统计,可以分析出一定的规则,从而为判断现有客户的忠诚度提供必要的指导。虽然分析判断客户流失情况的计算量不大,但分析完成后,需要知道每个客户流失的主要原因,而决策树可以清晰的显示出来。所以我们采用决策树技术进行分析,来为银行挽留客户提供必要的参考。

2 构造决策树的贪心算法

决策树贪心算法的构造,选取一个计算出来的预测流失率,该流失率为最能区分数据中不同样本类别的属性,让其作为决策树的树根,接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到所有的叶结点都只包含唯一样本时终止:

1)构造训练集

从数据仓储中提取描述训练集属性的元素和描述结果的元素,以备构造生成决策树使用。

2)决策树的生长

构造好训练集后,使用信息增益度量对每个属性域分裂的好坏做出量化,测试集合中的每个属性,选择具有最高信息增益的属性,让其作为决策树的初始分枝点即根节点。接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到分出所有的叶结点。

3 决策树技术预测银行客户流失

根据银行中现有的客户数据,结合上述提出的决策树贪心算法来预测哪些客户具有流失的特性,为其制定相应的服务和方案,从而最大程度地挽留住该客户。

1)构造训练集

从银行现有的客户数据中分类出客户相关数据,从数据中选取客户相关属性,使的构造训练集中包含如下字段:客户号属性,该属性为客户在该银行中定义的编号;业务量属性,该属性指的是客户在银行办理中间业务的种类数量,比如某客户在银行缴纳养老保险、办理公积金或商贷以及水电煤气费代扣,即该用户的业务量就是3种;客户类型属性,该属性分为个人客户(签约客户)、公共客户(非签约客户)、企业客户(签约客户)三种类型;参加营销业务属性,该属性判断用户是否参加过营销业务如理财产品、信托等;从事业属性,该属性体现客户所处的业范围如IT、金融等;是否忠诚客户属性,该属性体现客户是否会流失。2)银行客户状态决策树算法

2) 计算是否忠诚客户(Ifgood)的期望信息。4)通过步骤3)计算出的信息增益值,比较后选择最高信息增益值对应的属性作为分支结点,分支结点为是否参加银行的某次产品营销活动,选作测试属性,创造一个属性,用BusinessMarket标志,并对于每个属性值,引出一个分支。

5) 重复步骤3)和步骤4)的过程,直到树不再生长。然后把得到的两个分支作为初始分裂点分别计算出各属性的信息增益值,选出作为测试的属性,创建结点继续树的生长3)利用决策树进行未知客户流失预测

利用上述生成的决策树,可以对新的客户数据进行分析,从而对其流失可能性进行预测。 这里,两个客户的忠诚度为未知。我们用上述生成的决策树来判断其忠诚度。

对客户0901200,由于其没参加银行的某次营销活动,我们在如图2的决策树上转移到根节点的右儿子节点。在这个节点上,根据分支条件,再看其客户类型。由于它是企业客户,则转移到该节点的中间儿子节点。然后再根据该企业的业(即IT业)选择右儿子节点,这就到达了一个叶子节点,得到的结论是“NO”,即意味着该客户不是忠诚客户,很可能会流失。

对客户0901201,由于其参加了银行的某次营销活动,我们在如图2的决策树上转移到根节点的左儿子节点。在这个节点上,根据分支条件,再看其客户的业。由于它是金融业,则转移到该节点的左儿子节点。这就到达了一个叶子节点,得到的结论是“YES”,表明该客户是忠诚客户,不在流失的范围内。

4)决策树分析客户特征

根据最终生成的决策树不难看出,进行决策树分支最重要因素是营销业务属性,其次为客户类型、业务量、从事业。分析最终生成的决策树中的训练集数据,可以细分出如下8种群体的模型及特征。

4 总结

本文就银行客户流失预测中有关数据挖掘方法的应用进行了研究分析,将优化改进后的的算法应用到银行客户流失预测中,根据现有客户相关信息提出基于关联规则决策树的银行客户流失的预测算法。能够较准确地筛选出符合流失因素的客户,从而为筛选出的流失客户制定相应的方案和服务,最大程度地挽留他们,对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。

参考文献:

[1] Dunham M H.数据挖掘教程[M].郭崇惠,田凤占,靳晓明,等,译.北京:清华大学出版社,2005:65-104.

[2] 王颖.基于数据挖掘技术的银行客户关系管理[D].贵阳:贵州大学,200:26-34.

[3] 高洪深:决策支持系统(DSS)—理论、方法、案例[M].2版.北京:清华大学出版社,2000.

[4] 苏新宁,杨建林.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.

[5] 莫笛.电子商务营销平台的研究与设计[D].杭州:浙江大学,2008.

[6] 决策树技术在网上书店系统中的应用[EB/OL].[2012-07-03].http://www.studa.net/electronic/090108/08532820.html.endprint

摘要:在银行客户流失预测系统中经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户数据进行分类规则挖掘。

关键词:决策树,客户流失,关联规则, 数据挖掘

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)10-2533-04

Abstract: In the bank customer churn prediction system often unknown by the customer data to predict customer service information in order to provide the basis for the bank in the future business strategy. In the customer's forecast, they often need to classify certain classification rule mining properties. This paper discusses the use of this common and effective decision tree approach to classification rule mining of customer data.

Key words: decision trees; Churn; association rules; data mining

网络信息化飞速发展的今天,传统的商业模式发生了质的变化。在金融领域里,随着客户对银行推出的产品及其服务的预期要求的不断提高,导致各家银行之间的竞争更加白热化。在此环境下客户的忠诚度成为建立和维持客户关系,各家银行取得竞争优势的重要指标。基于数据挖掘技术和数据仓库技术为基础的客户关系管理系统,成为解决该问题的有效方法。而银行客户流失预测系统作为客户关系管理系统中的一个重要组成部分经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户进行分类规则挖掘。

1 决策树技术概述

决策树是数据挖掘中一种常用的技术,它既可以用来分析数据,同时也可以对数据进行预测。为什么要选择决策树技术来分析银行客户流失情况呢? 因为从银行己有的客户流失情况作为基础数据进行统计,可以分析出一定的规则,从而为判断现有客户的忠诚度提供必要的指导。虽然分析判断客户流失情况的计算量不大,但分析完成后,需要知道每个客户流失的主要原因,而决策树可以清晰的显示出来。所以我们采用决策树技术进行分析,来为银行挽留客户提供必要的参考。

2 构造决策树的贪心算法

决策树贪心算法的构造,选取一个计算出来的预测流失率,该流失率为最能区分数据中不同样本类别的属性,让其作为决策树的树根,接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到所有的叶结点都只包含唯一样本时终止:

1)构造训练集

从数据仓储中提取描述训练集属性的元素和描述结果的元素,以备构造生成决策树使用。

2)决策树的生长

构造好训练集后,使用信息增益度量对每个属性域分裂的好坏做出量化,测试集合中的每个属性,选择具有最高信息增益的属性,让其作为决策树的初始分枝点即根节点。接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到分出所有的叶结点。

3 决策树技术预测银行客户流失

根据银行中现有的客户数据,结合上述提出的决策树贪心算法来预测哪些客户具有流失的特性,为其制定相应的服务和方案,从而最大程度地挽留住该客户。

1)构造训练集

从银行现有的客户数据中分类出客户相关数据,从数据中选取客户相关属性,使的构造训练集中包含如下字段:客户号属性,该属性为客户在该银行中定义的编号;业务量属性,该属性指的是客户在银行办理中间业务的种类数量,比如某客户在银行缴纳养老保险、办理公积金或商贷以及水电煤气费代扣,即该用户的业务量就是3种;客户类型属性,该属性分为个人客户(签约客户)、公共客户(非签约客户)、企业客户(签约客户)三种类型;参加营销业务属性,该属性判断用户是否参加过营销业务如理财产品、信托等;从事业属性,该属性体现客户所处的业范围如IT、金融等;是否忠诚客户属性,该属性体现客户是否会流失。2)银行客户状态决策树算法

2) 计算是否忠诚客户(Ifgood)的期望信息。4)通过步骤3)计算出的信息增益值,比较后选择最高信息增益值对应的属性作为分支结点,分支结点为是否参加银行的某次产品营销活动,选作测试属性,创造一个属性,用BusinessMarket标志,并对于每个属性值,引出一个分支。

5) 重复步骤3)和步骤4)的过程,直到树不再生长。然后把得到的两个分支作为初始分裂点分别计算出各属性的信息增益值,选出作为测试的属性,创建结点继续树的生长3)利用决策树进行未知客户流失预测

利用上述生成的决策树,可以对新的客户数据进行分析,从而对其流失可能性进行预测。 这里,两个客户的忠诚度为未知。我们用上述生成的决策树来判断其忠诚度。

对客户0901200,由于其没参加银行的某次营销活动,我们在如图2的决策树上转移到根节点的右儿子节点。在这个节点上,根据分支条件,再看其客户类型。由于它是企业客户,则转移到该节点的中间儿子节点。然后再根据该企业的业(即IT业)选择右儿子节点,这就到达了一个叶子节点,得到的结论是“NO”,即意味着该客户不是忠诚客户,很可能会流失。

对客户0901201,由于其参加了银行的某次营销活动,我们在如图2的决策树上转移到根节点的左儿子节点。在这个节点上,根据分支条件,再看其客户的业。由于它是金融业,则转移到该节点的左儿子节点。这就到达了一个叶子节点,得到的结论是“YES”,表明该客户是忠诚客户,不在流失的范围内。

4)决策树分析客户特征

根据最终生成的决策树不难看出,进行决策树分支最重要因素是营销业务属性,其次为客户类型、业务量、从事业。分析最终生成的决策树中的训练集数据,可以细分出如下8种群体的模型及特征。

4 总结

本文就银行客户流失预测中有关数据挖掘方法的应用进行了研究分析,将优化改进后的的算法应用到银行客户流失预测中,根据现有客户相关信息提出基于关联规则决策树的银行客户流失的预测算法。能够较准确地筛选出符合流失因素的客户,从而为筛选出的流失客户制定相应的方案和服务,最大程度地挽留他们,对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。

参考文献:

[1] Dunham M H.数据挖掘教程[M].郭崇惠,田凤占,靳晓明,等,译.北京:清华大学出版社,2005:65-104.

[2] 王颖.基于数据挖掘技术的银行客户关系管理[D].贵阳:贵州大学,200:26-34.

[3] 高洪深:决策支持系统(DSS)—理论、方法、案例[M].2版.北京:清华大学出版社,2000.

[4] 苏新宁,杨建林.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.

[5] 莫笛.电子商务营销平台的研究与设计[D].杭州:浙江大学,2008.

[6] 决策树技术在网上书店系统中的应用[EB/OL].[2012-07-03].http://www.studa.net/electronic/090108/08532820.html.endprint

摘要:在银行客户流失预测系统中经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户数据进行分类规则挖掘。

关键词:决策树,客户流失,关联规则, 数据挖掘

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)10-2533-04

Abstract: In the bank customer churn prediction system often unknown by the customer data to predict customer service information in order to provide the basis for the bank in the future business strategy. In the customer's forecast, they often need to classify certain classification rule mining properties. This paper discusses the use of this common and effective decision tree approach to classification rule mining of customer data.

Key words: decision trees; Churn; association rules; data mining

网络信息化飞速发展的今天,传统的商业模式发生了质的变化。在金融领域里,随着客户对银行推出的产品及其服务的预期要求的不断提高,导致各家银行之间的竞争更加白热化。在此环境下客户的忠诚度成为建立和维持客户关系,各家银行取得竞争优势的重要指标。基于数据挖掘技术和数据仓库技术为基础的客户关系管理系统,成为解决该问题的有效方法。而银行客户流失预测系统作为客户关系管理系统中的一个重要组成部分经常要通过客户数据对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。在对客户的预测中,经常需要对他们的某种分类属性进行分类规则挖掘。该文主要探讨使用决策树这种常用的有效的方法来对客户进行分类规则挖掘。

1 决策树技术概述

决策树是数据挖掘中一种常用的技术,它既可以用来分析数据,同时也可以对数据进行预测。为什么要选择决策树技术来分析银行客户流失情况呢? 因为从银行己有的客户流失情况作为基础数据进行统计,可以分析出一定的规则,从而为判断现有客户的忠诚度提供必要的指导。虽然分析判断客户流失情况的计算量不大,但分析完成后,需要知道每个客户流失的主要原因,而决策树可以清晰的显示出来。所以我们采用决策树技术进行分析,来为银行挽留客户提供必要的参考。

2 构造决策树的贪心算法

决策树贪心算法的构造,选取一个计算出来的预测流失率,该流失率为最能区分数据中不同样本类别的属性,让其作为决策树的树根,接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到所有的叶结点都只包含唯一样本时终止:

1)构造训练集

从数据仓储中提取描述训练集属性的元素和描述结果的元素,以备构造生成决策树使用。

2)决策树的生长

构造好训练集后,使用信息增益度量对每个属性域分裂的好坏做出量化,测试集合中的每个属性,选择具有最高信息增益的属性,让其作为决策树的初始分枝点即根节点。接下来再依次在每一块样本集中选出区分度最大的属性,作为决策树的下一层结点。自顶向下依此类推,直到分出所有的叶结点。

3 决策树技术预测银行客户流失

根据银行中现有的客户数据,结合上述提出的决策树贪心算法来预测哪些客户具有流失的特性,为其制定相应的服务和方案,从而最大程度地挽留住该客户。

1)构造训练集

从银行现有的客户数据中分类出客户相关数据,从数据中选取客户相关属性,使的构造训练集中包含如下字段:客户号属性,该属性为客户在该银行中定义的编号;业务量属性,该属性指的是客户在银行办理中间业务的种类数量,比如某客户在银行缴纳养老保险、办理公积金或商贷以及水电煤气费代扣,即该用户的业务量就是3种;客户类型属性,该属性分为个人客户(签约客户)、公共客户(非签约客户)、企业客户(签约客户)三种类型;参加营销业务属性,该属性判断用户是否参加过营销业务如理财产品、信托等;从事业属性,该属性体现客户所处的业范围如IT、金融等;是否忠诚客户属性,该属性体现客户是否会流失。2)银行客户状态决策树算法

2) 计算是否忠诚客户(Ifgood)的期望信息。4)通过步骤3)计算出的信息增益值,比较后选择最高信息增益值对应的属性作为分支结点,分支结点为是否参加银行的某次产品营销活动,选作测试属性,创造一个属性,用BusinessMarket标志,并对于每个属性值,引出一个分支。

5) 重复步骤3)和步骤4)的过程,直到树不再生长。然后把得到的两个分支作为初始分裂点分别计算出各属性的信息增益值,选出作为测试的属性,创建结点继续树的生长3)利用决策树进行未知客户流失预测

利用上述生成的决策树,可以对新的客户数据进行分析,从而对其流失可能性进行预测。 这里,两个客户的忠诚度为未知。我们用上述生成的决策树来判断其忠诚度。

对客户0901200,由于其没参加银行的某次营销活动,我们在如图2的决策树上转移到根节点的右儿子节点。在这个节点上,根据分支条件,再看其客户类型。由于它是企业客户,则转移到该节点的中间儿子节点。然后再根据该企业的业(即IT业)选择右儿子节点,这就到达了一个叶子节点,得到的结论是“NO”,即意味着该客户不是忠诚客户,很可能会流失。

对客户0901201,由于其参加了银行的某次营销活动,我们在如图2的决策树上转移到根节点的左儿子节点。在这个节点上,根据分支条件,再看其客户的业。由于它是金融业,则转移到该节点的左儿子节点。这就到达了一个叶子节点,得到的结论是“YES”,表明该客户是忠诚客户,不在流失的范围内。

4)决策树分析客户特征

根据最终生成的决策树不难看出,进行决策树分支最重要因素是营销业务属性,其次为客户类型、业务量、从事业。分析最终生成的决策树中的训练集数据,可以细分出如下8种群体的模型及特征。

4 总结

本文就银行客户流失预测中有关数据挖掘方法的应用进行了研究分析,将优化改进后的的算法应用到银行客户流失预测中,根据现有客户相关信息提出基于关联规则决策树的银行客户流失的预测算法。能够较准确地筛选出符合流失因素的客户,从而为筛选出的流失客户制定相应的方案和服务,最大程度地挽留他们,对未知客户的服务信息进行预测,以对银行今后的经营策略提供依据。

参考文献:

[1] Dunham M H.数据挖掘教程[M].郭崇惠,田凤占,靳晓明,等,译.北京:清华大学出版社,2005:65-104.

[2] 王颖.基于数据挖掘技术的银行客户关系管理[D].贵阳:贵州大学,200:26-34.

[3] 高洪深:决策支持系统(DSS)—理论、方法、案例[M].2版.北京:清华大学出版社,2000.

[4] 苏新宁,杨建林.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.

[5] 莫笛.电子商务营销平台的研究与设计[D].杭州:浙江大学,2008.

[6] 决策树技术在网上书店系统中的应用[EB/OL].[2012-07-03].http://www.studa.net/electronic/090108/08532820.html.endprint

猜你喜欢

关联规则决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究