APP下载

商业银行贷款风险评估数据的审计模型构建

2016-09-03

福建质量管理 2016年13期
关键词:决策树事例数据挖掘

徐 鹏

(中国石油天然气股份有限公司华东化工销售分公司 上海 200122)

商业银行贷款风险评估数据的审计模型构建

徐 鹏

(中国石油天然气股份有限公司华东化工销售分公司 上海 200122)

在对商业银行贷款风险评估数据进行抽象和预处理的基础上,根据审计的业务需求构建了两种不同的审计模型,然后根据不同的审计模型进行结果分析。

预测型决策树;审计模型

在对数据进行预处理之后,数据的格式及类型已经符合软件的要求,这样就可以对数据进行挖掘。在数据挖掘过程中,由于算法的不同可能会导致挖掘效果以及效率的不同。在审计模型方面,本研究决定使用决策树模型,该模型中最常用的算法就是ID3与CLS,需要特别说明的是,利用ID3算法对CLS算法进行相关改进,可以提高算法的效率。

一、预测型决策树

在本文的研究中,主要从两个不同的角度来构建决策树模型。其中一个角度就是预测型决策树,该模型的基本流程就是将所有贷款记录分为两个整体,一个整体是在审计年放出的,并且现在以及到期的正常贷款记录。另外一个整体作为另一部分数据,主要用来构建数据挖掘模型,然后用该模型对五级分类进行预测,当预测结果和现实情况不一致时,注明该记录属于异常贷款记录,在今后的审计中要进行重点审计。按照这个基本流程,首先要将贷款凭证表划分为正常贷款表和预测分析贷款表。在正常贷款表中,凡是属于正常贷款的记录,这些数据都是预测数据集的主要构成;在预测分析贷款表中,凡是不属于正常贷款记录的数据,都是构成数据挖掘模型的主体。

微软公司的AnalysisManager软件是本决策树的主要挖掘工具,Analysis是SQLServer的附属产品,因此它与SQLServer在数据格式上具有高度的统一性。此外,Analysis还具有良好的用户界面,具有向导支持作用。在多维数据的存储和转换方面,具有较高的灵活性,同时可伸缩架构设计可以解决海量数据等多种难题,同时也集成了客户端、数据源以及管理工具等。

在新建一个SQLServer数据库之后,数据中间表的测试连接已经建立好,也就是说预测分析表和正常贷款表已经完成。在本文的研究案例中,考虑到贷款都是采用五级分类,并不是使用聚合级别进行数据挖掘,因此使用关系数据来设置挖掘模型,以此用来查询Analysis服务器所支持的所有数据类型。在事例表的选择上,因为建立数据挖掘模型中所需要的多个列都在事例表中,因此必须使用多个事例表,从而保证信息能够分布式存在多个表中,这样就能保证表与表之间的关系连接。所以,把法人基本信息表和预测分析贷款表作为编辑连接和表创建。在法人基本信息表中,其主键为客户代码,在预测分析贷款表中,其主键为借款凭证编号,两张表通过客户编号进行关。

在预测型决策树中,选择参数是一个非常重要的环节,这影响着决策树的输出,因为数据挖掘引擎就是通过事例列属性进行区分事例的,即通过事例表主键属性区分。从单个事例表的角度来说,对于参数的选择过程相对简单,但是本文研究的案例具有多个事例表特征,所以要根据具体的审计业务来选择相应的参数。首先将贷款作为首要分析的事例,因此贷款凭证编号就是该事例的键列。接下来进行选择输入列操作,在该操作中,至少要选择左侧的可选列表中的一列作为数据挖掘模型的属性,因为数据挖掘模型中信息的输出都是通过输出列完成的。在本研究案例中,主要是利用该模型来预测五级分类的基本情况,所以可预测列就是贷款五级分类。决策树的根就是待预测字段。

如果一笔贷款的属性和五级分类情况相互关联,那么数据挖掘模型在经过分析之后就期望得出一些信息,那么表示这些属性的列就在另一个选项中输入。在决策树中,不同的输入列代表的是每个贷款的五级分类情况,使用ID3算法来发现其关联关系,就必须慎重选择输入列,这个因果关系不可以太明确,否则就失去了数据挖掘的意义。

在选择好参数和输入输出列之后,可以执行数据挖掘模型,从而得到相应的数据挖掘结果。决策树结构背后隐藏的较为简单的逻辑是决策树最重要的一个特点。内容页和架构页是挖掘模型编辑器底部的两个主要选项,其中内容页主要用来显示决策树中各类数据的分布,架构页主要是用来对整个模型的结构进行控制。

在数据文件模型浏览器中,主要有以下几个主要区域:

1. 节点区域。该区域主要是说明该节点内所有事例的规则。

2. 特性区域。该区域主要是以图表的形式显示节点的特性信息。

3. 内容选择区域。该区域可以将整个决策树的完整视图进行显示。

4. 内容详情区域。该区域主要显示决策树中的焦点信息。

在决策树中,不同的颜色代表的意义是不同的,颜色的深浅主要用来区分事例的密集度,颜色越深的表示该节点中所包含的事例数量就越大,颜色越浅的表示该节点中包含的事例数量就越小。在数据挖掘模型浏览器中,右侧的下拉框可以选择以哪种事例来显示。其中251000是全部贷款记录,也就是“全部”节点,颜色为黑色。特性区域中的全部事例数量为129883,所占比例为51.8%,其在五级分类中用“正常”表示,以此类推,其比例分别是51.8%,5.02%,2.31%,10.59%,30.28%。在决策树的不同节点中,都可以查看该决策树的支节点。

在图形方面,其它两个节点的密度要低于“管理特征”为01,02的两个节点。当点击管理特征为01,02的节点时,可以查看其特征区域的信息,就可以发现管理特征为04时,损失贷款的比重高达78.32%,关注贷款与正常贷款的比例分别为8.78%、0.91%,那么该结果就可以为后续的审计工作提供有效借鉴,对于此类贷款有必要进行重点审计。按照此流程进行操作,还可以得到更多类似的信息,这些信息都能给实际工作或决策的制定作为参考。此外,通过分析每个节点的属性以及相关特性,可以发现贷款属性的取值会对五级分类产生一定的影响。需要特别说明的是,算法关系着整个决策树的组织结构,这也是属性在输出中的重要性。在本文的研究案例中,“管理特征”这一属性决定了决策树的第一个级别,这也是影响五级分类的重要因素。除此之外,还有一个方法可以查看每个属性的重要性,那就是对相关网络进行分析。在相关网络分析浏览器中,属性的网络表示的就是数据文件或相关模型,通过对这种模型进行识别,可以分析出数据的预测性与相关性,具体如图4.8所示。

图4.8 相关性网络图

在图4.8中,箭头代表的是相关性,节点与箭头的颜色变化表示的是预测性的方向,并且随着左侧关联性的降低,就能够发现五级分类受到不同属性的影响情况。

二、决策树的改进

在本文的研究中,还有一种决策树的构建思路,可以称之为决策树的改进。使用Analysis确实能够完成基本的功能需求,但是其功能不如Clementine强大,Clementine具有较强的理解能力和可视化能力,并且操作起来相对简单,是目前使用最为广泛的数据挖掘工具。Clementine中集成了标准数据挖掘流程模型,该模型和本文中研究的逻辑思路具有较高的统一性,主要可以划分成商业理解、数据理解、数据准备、建模、模型评估以及结果部署等几个过程。当利用Clementine进行数据挖掘时,用户能够拥有更多的选择。以生成决策树为例,能够对成本进行评估,调整挖掘结果、设计新型变量、组变量以及减枝等。在保持原有数据的前提下,本文采用Clementine,通俗来说,就是根据国家对商业银行贷款的约束,把五级分类划分为两大类,然后再用决策树进行差别比较,这样就可以得到更有效的审计发现。在使用Clementine软件时,同样需要对数据进行预处理以及表的拆分等,但是在该思路中,由于预测型决策树已经对表进行拆分,因此就不需要再对表进行拆分,而是在新的数据挖掘模型中,有选择性的对已拆分的表进行重新整合,在执行SQL语句后可以得到数据的输出结果。

接下来操作“类型”选项,该模块可以对数据的方向以及类型进行调整。完成上一步操作后,接下来就是设计新的变量,在本文研究的案例中,可疑、损失两个等级为一类,次级、关注和正常三个等级为一类,为其设置如下条件:

贷款等级=‘次级’or贷款等级=‘关注’or贷款等级=‘正常’

贷款等级=‘损失’or贷款等级=‘可疑’

通过“类型”操作后可以将123与45设置为两个相同变量的输出值,并将其作为决策树的根,此外还要选择行业分类1,信贷对象,管理素质等等作为决策树的分支因素。然后实施两个不同的决策树,并且将减枝水平值设置的尽量大,以字符作为群体输出方式。

三、审计结果分析

在构建完审计模型与运行模型之后,需要对审计结果进行分析。审计过程中最重要的因素就是企业的管理特征,在利用两种不同的模型进行分组时,都采用了04管理特征作为最低级别的信贷评估等级,这表示审计的风险可能因此升高,这也是进行实质性测试的主要工作。在担保方式的贷款中,信用与保证又是风险级别较高的群组,因此我们可以确定一个不变的数值,从而衡量风险的影响程度。对模型进行上述改进最终就是为了充分使用Clementine的相关功能,从而可以改变原有决策树的相关属性,保证审计效率的提高,同时也能增强审计的安全性。在审计工作人员进行具体分类时,还可以对五级分类的原因进行深层次分析。

使用决策树进行数据挖掘最核心的就是归纳与分类,通过归纳和分类的方法可以提高审计人员对于风险的识别能力。对不同字段的出现概率进行分类,可以把风险较大的因素进行重点标示,这样可以方便审计人员进行审阅,同时还能提供相关的数据支撑。尤其是使用Clementine软件时,能够结合基本模型,有针对性地设计出有意义的变量,从而保证数据挖掘效率与效果的提升。除此之外,还可以为今后的再次挖掘工作奠定基础,只需要在原有模型的基础上行稍微进行调整即可。以决策树为例,此类分析方法和传统的统计分析、趋势分析以及比率分析不同,此类分析方法不用专注于财务信息,只需要对信息进行数字化处理即可,从纯数学的角度去分析与审计,这样使得审计工作更加科学,同时可以对数据的关联进行更好地分析。

徐鹏,男,汉,吉林长春,硕士研究生,中国石油天然气股份有限公司华东化工销售分公司。

猜你喜欢

决策树事例数据挖掘
探讨人工智能与数据挖掘发展趋势
传神写照,意味深长——写人要关注具体事例和细节
作文想好,“事例”不能少
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
中国十大宪法事例(2017)
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用