APP下载

BP 人工神经网络在信用卡评估中的应用

2017-07-12长乐市发展和改革局王燕平

海峡科学 2017年4期
关键词:人工神经网络信用卡神经元

长乐市发展和改革局 王燕平

BP 人工神经网络在信用卡评估中的应用

长乐市发展和改革局 王燕平

随着经济的不断发展,金融业在经济发展中发挥着越来越重要的作用,各商业银行的信用卡业务也在逐渐增加,对银行客户的信用评估是否合理、科学、准确,关系着银行在办理信用卡过程中承担风险的大小。通过有效的信用评估,可以大大降低银行承担的风险。该文介绍了人工神经网络(Artificial Neural Networks,简写为ANNs)、误差反向传递神经网络(简称BP人工神经网络)的网络结构和学习训练算法。并使用BP人工神经网络模型,将来自UCI Machine Learning Repository 网站的三组数据输入到BP人工神经网络,通过创建不同的隐含层、设定不同输入层的神经元数及使用不同的训练方法来得到BP人工神经网络在信用卡评估的准确率及速度。结果发现,BP人工神经网络对信用卡信息的匹配和筛选具有较为理想的效果,对银行客户的信用评估有较好的推荐及参考作用,有利于商业银行在对申请信用卡用户的信用评估,及时减小了在办理信用卡过程中承担的风险,对金融风险的防控也起了重要的作用。

人工神经网络 BP人工神经网络 信用卡

1 人工神经网络概述

1.1 人工神经网络的定义

人工神经网络(Artificial Neural Networks,简称ANNs),是在生物学、心理学、神经学等现代学科基础上研究产生的,是生物神经系统对外界事物处理过程的反映,其基本原理是由大量处理单元模拟人类大脑神经组织通过广泛联系构成的网络体系形成的信息处理系统,计算系统具有非线性、自学性、容错性等特征,算法数学模型对信息进行分布式并行的处理[1]。这种复杂的网络结构系统通过调整大量节点之间相互连接的关系达到处理信息的目的。虽然单个神经元的结构和功能都是简单和有限的,但多个神经元组成的网络系统,其行为却能被表现的丰富多彩[2]。

1.2 神经元

1.2.1 生物神经元

人类大脑是由大量的神经细胞相互连接组合而成的,每个神经元也可称为神经细胞,具体结构如图1所示[3]。神经元的主要接受器是树突,主要用来接受外界信息[4]。轴突是信息传播的起点,主要用来传导信息,然后将信息传到轴突末梢,最后在由轴突末梢与另一个神经元的细胞体或者树突构成一种突触的机构,实现神经元之间的信息传递。兴奋与抑制是神经元的两种常规工作状态,神经细胞进入兴奋状态是在细胞膜电位升高超过阈值时出现的,这是由传入的神经冲动引起的,并由轴突输出;神经细胞进入抑制状态是传入的神经冲动使细胞膜电位下降低于阈值时出现的,没有神经冲动由轴突输出。

1.2.2 人工神经元

人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能[5],具体结构如图2所示。

图1 生物神经元结构

从图1可见,脑神经元由细胞体、树突和轴突三个部分组成。神经元的中心是细胞体,由细胞核、细胞膜等组成。

图2 人工神经元结构

图 2的人工神经元结构是科学家 W.Pitts和心理学家McCulloch在1943年讲解神经元基本特性时提出的,它是现在许多神经网络模型研究的基础。其中,wji代表神经元i与神经元 j之间的连接强度(模拟生物神经元之间突触连接强度),称之为连接权;ui代表神经元i的活跃值,即神经元状态;vi代表神经元j的输出,即是神经元i的一个输入;θi代表神经元的阈值。

函数f表达了神经元的输入输出特性。

f定义为阶跳函数:

人工神经网络由很多个神经元组成, 每个神经元只有一个单一输出,使用并行分布式的数学算法来处理接收的信息。人工神经网络可以连接多个的神经元,从而输出多个连接通路,每一个连接通路都有相对应的一个连接权系数。

人工神经网络具有以下特征:(1)每一个结点有一个状态变量xji;(2)结点i到结点j有一个连接权系数wji;(3)每个结点有一个阈值 θj;(4)每个结点定义一个变换函数最常见的情形为具体算法步骤见本文参考文献[1]。

2 BP神经网络概述

2.1 BP神经网络的定义

BP(Back Propagation)网络由McCelland和Rumelhart在1986年首次提出,是一种按误差逆传播算法训练的多层前馈网络,又称误差反向传递神经网络,是目前应用最广泛的神经网络模型之一,大约有80%的人工神经网络属于BP神经网络[6]。BP神经网络是通过反馈值不断调整节点之间的连接权值而形成的一种神经网络模型。图3是一个典型的3层BP神经网络的结构模型,主要包括输入层、隐含层和输出层三个层次,但在实际的模型中,隐含层可以根据具体的实际情况来决定是一层结构还是由多层结构组成。

图3 3层BP神经网络结构

2.2 BP神经网络的原理

BP网络是由输入层、隐含层和输出层构成的一种多层前馈神经网络结构,隐含层可以根据实际情况决定一层或多层[7]。BP神经网络的层与层之间采取全互连方式连接,其同一层之间不存在相互连接关系。层与层之间通过工作信号和误差信号两种信号在流通,工作信号是输入和权值的函数,是指输入的信号向前传播直到在输出端产生实际的输出信号。误差信号也称为误差,是从输出端开始逐层向后传播,是网络实际输出值与期望输出值之间的差值。因此,前向计算过程和误差反向传播过程两个过程是BP神经网络的两个学习过程。前向计算过程是输入信号传向输出层,每层神经元的状态只影响下一层神经元的状态,输入量从输入层经隐含层逐层计算[8]。误差反向传播过程是由于输出层得不到期望的输出,误差信号沿原来的连接通路返回,直至到达输入层再重复计算,逐次调整BP神经网络每层的阈值和权值。前向计算过程和误差反向传播过程两个过程反复进行,各层的阈值和权值不断被调整,从而得到网络误差最小或达到我们所预想的目标时,学习过程结束。具体原理如下:

设输入层有n个神经元节点,隐含层有q个神经元节点,输出层有m个神经元节点。利用该网络可实现n维输入向量Xn=(X1,…,Xn)T到 m 维输出向量Ym=(Y1,…,Yn)T的非线性映射。输入层和输出层的单元数 n、m 根据具体问题确定,而隐含层单元数 q 的确定尚无成熟的方法,一般可设定不同的q 值,根据训练结果来进行选择。BP神经网络结构(n、q、m)确定后,神经网络还包括的参数有:

wij:输入层第 i单元到隐含层第 i 单元的权重,其中i=1,…,n;j=1,…,q。

Wjk:隐含层第 j单元到输出层第 k单元的权重,其中j=1,…,n;k=1,…,m。

θj:隐含层第 j 单元的激活阈值,j=1,…,q。

θk:输出层第 k 单元的激活阈值,k=1,…,m。

以上阈值和权重的初值是在网络训练之前随机生成。

f(x):激活函数一般采用非线性 Sigmoid 型,即 f(x)=1/ [1+exp(-x)]。具体算法步骤见本文参考文献[9]。

3 BP神经网络用于信用卡的申请

BP神经网络从输入层到输出层可以实现任意的非线性映射,可以解决线性模型不能解决的问题,可以通过对已知的信用数据进行学习,调整模型结构,产生能够预测客户信用数据的模型。

3.1 样本选取

由于商业银行信用卡用户信息属于商业秘密,不易获取,因此本文选取了来自UCI Machine Learning Repository 网站的Credit Approval Data、Iris Data、Tic-Tac-Toe Endgame Data的三组数据作为训练样本①~③。

Credit Approval Data一共包含690组数据,每组数据根据信用卡用户的不同特性包含15个分类;Iris Data一共包含150组数据,4个分类; Tic-Tac-Toe Endgame Data一共包含958组数据,9个分类。

3.2 运行环境

HP lap top, DV9518TX, CPU: Intel Core 2, 2.00 GHz, 4 GB RAM, Windows 7 Ultimate.

3.3 实证分析

为测试 BP人工神经网络学习的速度及准备性,本文主要通过创建不同的隐含层、设定不同输入层的神经元数及使用不同的训练方法(Cross Validation:交叉验证、Data Randomized随机抽取(66%为训练、34%为测试))来得到BP人工神经网络的准确率及速度。

在Credit Approval Dataset 训练中,一共包括12组训练,前4组使用10-fold Cross Validation方法进行训练,后8组通过Data Randomized方法进行训练,输入层的神经元数为15,输出层的神经元数为1,前8组设置一个隐含层,后4组设置 2个隐含层。从表 1看,训练结果最好的一组成功率为65.81%,是使用Data Randomized方法(66%为训练、34%为测试),2个隐含层,第一个隐含层的神经元数为6个,第二个隐含层的神经元数为2个,训练时间大约为2s。

表1 Credit Approval Dataset训练结果

表2 Iris Dataset训练结果

在Iris Dataset训练中,一共包括12组训练,前4组使用10-fold Cross Validation方法进行训练,后8组通过Data Randomized方法进行训练,输入层的神经元数为4,输出层的神经元数为1,前8组设置一个隐含层,后4组设置2个隐含层。从表 2的数据看,训练结果最好的一组成功率为77.33%,使用Data Randomized方法(66%为训练、34%为测试),2个隐含层,第一个隐含层的神经元数为28个,第二个隐含层的神经元数为5个,训练时间大约为16s。

在Tic-Tac-Toe Endgame Dataset训练中,一共包括12组训练,前4组使用10-fold Cross Validation方法进行训练,后8组通过Data Randomized方法进行训练,输入层的神经元数为9,输出层的神经元数为1,前8组设置一个隐含层,后4组设置2个隐含层。从表3的数据看,成功率最高为65.34%,一个隐含层和两个隐含层的训练结果多数相同,然而成功率最低的一组训练为59.17%,使用Cross Validation方法,1个隐含层,第一个隐含层的神经元数为23个,训练时间大约为95s。

表3 Tic-Tac-Toe Endgame Dataset 训练结果

4 结论与展望

综上所述,Data Randomized方法(66%为训练、34%为测试)的成功率多数高于使用Cross Validation方法进行BP人工神经网络的训练,数据库较多的训练较慢于数据库较少的训练,使用Cross Validation方法的训练时间多数大于Data Randomized方法。BP人工神经网络对信用卡信息的匹配和筛选具有较为理想的效果,对银行客户的信用评估有较好的推荐及参考作用,有利于商业银行在对申请信用卡用户的信用评估,及时减小了在办理信用卡过程中承担的风险,对金融风险的防控也起了重要的作用,但仍要与信用客户的其他审核条件相结合,对申请信用卡用户进行全面管理。

同时,本论文仍存在许多不足的地方,一方面是BP人工神经网络对银行客户的信用评估具有一定的复杂性,程序编写较为耗时繁琐,这是复杂性体现的主要原因之一;另一方面,本文仅仅选取了UCI Machine Learning Repository 网站的样本数据进行研究分析,缺乏广泛性。再一方面,受到外界环境和客户的类型等因素的影响,本论文的测试结果存在一定的偏差,只能为商业银行在信用卡信息评估过程中提供一些想法和思路。

在后续研究中,建议从加大数据库的容量,增加隐含层的层数,继续对 BP神经网络的研究,同时增加对循环神经网络(Recurrent Neural Networks,简写为RNNs)和高阶神经网络(Higher Order Neural Networks,简写为HONNs)两者的研究,将三者结合起来,充分利用三者的优点,从而获得更强大的学习能力和解决实际问题能力的神经网络模型。

注释:

①Credit Approval Data Set,见 http://archive.ics.uci.edu/ml/datasets/Statlog+ (Australian+Credit+Approval)

②Iris Data Set,见http://archive.ics.uci.edu/ml/datasets/Iris

③Tic-Tac-Toe Endgame Data Set,见http://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame

[1] 蔡自兴, 刘丽珏, 蔡竞峰, 等. 人工智能及其应用[M]. 北京: 清华大学出版社,2016.

[2] George A. Rovithakis, Athanassios G. Malamos, Theodora Varvarigou, et al. Quality Assurance in Networks[C]. Proceedings of the 37th IEEE Conference on Decision & Control Tampa, Florida USA, 1998: 1599-1604.

[3] Hardier, G. Back-Propagation Neural Networks for Ship-Modeling and Control[C]. Eleventh Ship Control System Symposium. Published by Computational Mechanics Publications, 1997: 39-62.

[4] 雷·库兹韦尔. How to create a mind 人工智能的未来[M]. 杭州:浙江人民出版社,2016.

[5] Knowles A., Lisboa P.G.J., Hussain A., et al. Back-Propagation Neural Networks with Bayesian Confidence Measure for the Prediction of the EUR/USD Exchange Rate[C]. Artificial Neural Networks for Economics and Business, IGI Global, 2011: 48-59.

[6] Chen Y H, Jiang Y L, Xu J X. Dynamic Properties and a New Learning Mechanism in Back Propagation Neural Networks[J]. Neurocomputing, 2013(50): 17-30.

[7] Minati L. Rapid Generation of Biexponential and Diffusional Kurtosis Maps using Back-Propagation Neural Networks: a Preliminary Experience. Short Communication, Magn Reson Mater Phy, 2008: 299–305.

[8] Aitkin M, Foxall R. Statistical Modelling of Artificial Neural Networks using the Back-Propagation[J]. Statistics and Computing, 2009: 227–239.

[9] 韩力群. 人工神经网络理论、设计及应用[M]. 北京: 化学工业出版社, 2002.

猜你喜欢

人工神经网络信用卡神经元
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
跃动的神经元——波兰Brain Embassy联合办公
信用卡资深用户
信用卡诈骗
基于改进人工神经网络的航天器电信号分类方法
模糊人工神经网络在工程建设项目后评价中的运用
ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用
毫米波导引头预定回路改进单神经元控制
“人卡分离”时信用卡恶意透支的刑事责任及思考