基于随机森林的ATM机监测预警方法
2018-02-25刘雅卉滕志霞
刘雅卉 滕志霞
摘要 针对现有ATM机故障识别机制存在的诊断速度慢及多种故障场景下的诊断精确度低的问题,提出了一种基于CART决策树的随机森林方法完成对ATM机的故障诊断。该方法对ATM机交易数据集进行交易特征提取,针对不同故障情景将数据分为正常一异常二分类,通过Bootstrap重抽样,建立多棵CART决策树,形成随机森林模型,实现ATM机故障的快速诊断。且随着故障数据的增加,其自动诊断模型可以自动更新完善。通过ATM机实际故障数据,验证了该方法的有效性。同时,通过对随机森林中的决策树数目的对比分析,得出了该方法模型的最优设计结构。实验结果表明,该方法具有0.991的准确率,并且具有诊断速度快、操作简单、鲁棒性强的优点。
【关键词】集成学习 随机森林 CART决策树交易特征选择 故障诊断
目前,银行业发展的一个重要方向是发展无人银行、提高ATM类设备的应用范围。伴随ATM的种类、数量,业务交易量的急速增长,如何准确快速地识别ATM设备的异常交易状态,保障ATM设备的运行服务状态,已经成为摆在ATM运营部门面前急需解决的难题。
应用于银行业的ATM设备监管系统主要包括两种类型:
第一种类型是ATM设备供应商随机器附送的监控软件,该种系统可针对该种设备进行较为简单的监控状态,需要安排专门的管理人员进行手动监控处理,而且该软件运行在银行主机的UNIX系统上,使用、管理和控制难以实现;第二种类型是设备供应商针对自身定制开发的监控管理软件,这种软件系统较好的考虑自身客户的需求,使用较为简单易用,从设备的底层系统获取需要的管理数据,因此状态监控准确,具有很好的效果。缺点在于该种软件也只支持特定品牌的ATM设备,缺乏通用性。在此基础上,银行需要投入大量资金进行定制开发,才能将符合自身需求的管理流程融入进系统,其他设备也才能接入。
ATM设备在银行业广泛应用后,对ATM设备的故障监控处理提出更高的要求,而目前的ATM设备监控只实现了ATM设备状态的监控。广泛调研、分析可知,银行在ATM设备故障检测监管方面存在以下问题:人工管理ATM设备,效率低下;设备管理方式落后,高故障率影响其运行成本;人工方式维护,难以进行远程控制;银行顾客遇到操作难题和故障问题不能得到及时有效的帮助;ATM的对账功能较为简单;无ATM设备管理系统导致配钞不合理;对ATM服务提供商难以量化考核。
评价ATM设备交易状态是否正常可以简化认识为一个分类的过程。本文在分析现实需求的基础上,采用商业银行的交易数据进行数据挖掘,提取交易状态特征,用决策森林的方法快速准确地对交易状态进行预警分级,在降低银行运行成本和通用性的基础上,提高ATM设备的使用和运行效率。RF在处理数据集上有独特优势,用它分析和评价ATM交易状态可以避免一般数学方法容易陷入过拟合现象的问题。RF还具有良好的抗噪声能力,从而能提高结果的有效性和准确性。
1 RF算法原理
RF算法結合了Bremam提出的思想和Ho阐述的方法。它是一个由多个决策树( DecisionTree,DT)组成的分类器。而这些DT采用随机产生的方法且非关联,即随机决策树( RandomDeclsion Tree.RDT)。待测数据进入RF后就让每一棵DT分类,得到的最终结果为DT中分类结果最多的类。RF输出的类别由个别树输出类别的众数确定。
1.1 RF算法优点
(1)与其他数据集相比,其在算法上有很大的优势;
(2)它能够处理高维度数据且不需要进行特征选择,而且在训练完之后,可以得出“哪些维度比较重要”的结论;
(3)创建随机森林,使用无偏估计;
(4)能检测到维度间的影响;
(5)实现过程简单,且易于使用并行化方法处理。
1.2 随机森林基本原理
当一个新输入的样本进入森林后,森林中的决策树逐一对其进行判断,观察其应该属于哪一类,然后预测这一样本是被选择次数最多的那一类。创建每一棵决策树的过程主要包括采样与完全分裂。首先,RF对输入的数据分别进行有放回的行采样和列采样。输入样本与采样样本个数相等,使得在训练中每一棵树的样本都不会是所有的样本,因此相对不会容易出现过拟合现象。然后,从N个维度中选取n个样本,进行列采样,其中(n
RF本身的算法逻辑使用的是Bagging算法,具体的算法流程如下(表示样本的属性数,满足O
2 随机森林在ATM交易状态特征评价中的应用
2.1 模型设计思路
本文采用随机森林算法对ATM机交易状态进行分析和评价。上节所描述的4个特征参数为RF输入的判别因子,表示为四维输入变量,并以此拟定模型设计思路。首先提取相关数据样本的训练数据和测试数据建立模型,并对数据进行相关处理。然后用训练数据集对RF进行训练。最后利用得到的模型预测相应数据的分类结果。
本文所制定的模型设计思路如图1所示。
2.2 实例分析
2.2.1 数据采集
本文数据集来源于商业银行总行数据中心。商业银行总行数据中心为了实时掌握全行的业务状态,每分钟对各分行的交易数据进行汇总。汇总信息包括交易量、相应时间、成功率三个指标。监控系统通过对每家分行的汇总统计信息做数据分析,来捕捉整个前端和后端整体应用系统运行情况以及时发现故障或异常。本文选取四个常见故障情景作为判别依据
(1)分行测网络传输节点故障,前端交易无法上传请求,导致业务量陡降;
(2)分行测参数数据变更或配置错误,数据中心后端处理失败率增加,影响交易成功率指标;
(3)数据中心后端处理系统异常(如操作系统CPU负荷过大)引起交易处理缓慢,影响交易相应时间指标;
(4)数据中心后端处理系统应用进程异常,导致交易失败或相应缓慢。
2.2.2 交易特征参数提取
针对商业银行四个月的交易量、交易成功率、相应时间的数据进行分析和提取,可得出交易状态特征参数。根据模式分类的方法和思想,本文对ATM机交易状态特征参数进行评价和分类,提取了下列四个主要特征参数作为评判ATM交易状态的依据(表1):
(1)相对差值,即:下一分钟的交易量.上一分钟的交易量。含义是下一分钟交易量变化程度,刻画了交易量的变化幅度,陡降视为不正常。
(2)成功率。描述交易成功率,判断是否发生失败率增加的现象。
(3)单位响应时间。ATM机每个交易量的反应时间。
(4)交易量。除去时间因素影响,是否具有正常交易的能力。
2.3 创建RF分类器
在IBM SPSS Modeler开发环境下使用软件的建模节点自动构建RF模型。
为便于后期预测方法间的比较,将数据随机分为两组:50%数据用于训练构建模型,余下50%数据作为测试数据检验模型。从随机森林输入参数中除了自身训练样本是关键因子外,还有决策树的棵树较为重要。因为随机森林中包含决策树的棵树对其泛化性能有一定的影响。本次仿真测试我们选取决策树棵树为50、100、150、200、500进行检验。
2.4 仿真测试
使用IBM SPSS modeler建立数据流模型。我们将最大树深度定制值设为5,可以防止决策树因分叉过多而导致判别错误率上升而分类目标中的杂质测量方式采用模型构建内容中介绍的计算Gini系数的方式。过度拟合防止集合设为30%。
在中止规则中,选择使用绝对值:父分支中的最小记录数定为100;子分支中的最小记录数定为10。使用绝对值最为中止规则的判定,可以使树的结构不会过于冗杂,使所建立的模型尽量简单。设定最小杂质改变为0.0001,即指定了树中新的分区所需要的最小杂质改變量。若最佳分区引起的杂质改变量低于指定值时,则不会继续分割。
建立得到的流图如图2。
待运行模型之后,在运行成功的RF节点处连接表格和分析两个节点,可直观地观测模型对交易状态统计数据的处理情况。预测变量重要性是以Gini指数为依据计算的,该值越大就越先作为分类属性分裂C&R二叉树的节点,如图3所示。
3 结果分析
3.1 模型输出结果分析
随机森林算法选取500棵树,训练样本和测试样本占比为( 0.5,0.5),节点随机分类特征数量设为4,通过分析,模型输出结果如表2。
从表2中可以看出平均误差是O.l%,说明模型的整体分类效果十分理想。随机森林的错判率随着决策树的棵树的增加不断的减小,最终收敛为一个极小的定值。
通过对交易状态的四个特征参数进行数据分析,预测出ATM交易状态情况,并立即发出预警信息,有效及时地解决ATM机故障问题。本文是基于四种常见的故障场景进行分析,为提高模型的预测性能,在实际应用中,应该尽可能收集ATM机更多的历史故障和正常数据,使得模型尽可能地覆盖所有情况的特征,并且可以定期对模型进行更新,不断提高模型的适用性和鲁棒性。
3.2 算法比较
为体现本文所采用的基于CART树的随机森林算法的优越性,选取几种已有预测分类算法建立故障诊断模型,并与本文方法进行比较。当Ntree大于100棵时,随机森林的准确率趋近于0.991。因此取.0.991作为随机森林的预测准确率。
本文采用ID3、C4.5、CART、GBDT四种算法和RF算法进行算法间的比较,将从模型准确率和运行时间对各类算法进行比较。其中准确率是最常见的指标,指的是被正确分类的样本数占总样本数的比例,准确率越高的模型性能越好;而模型的运行时间则能保证故障识别的及时有效性。如表3所示。
根据测试结果显示,ID3和C4.5的分类效果没有太大差异,分类的准确率处于比较低的水平。其他三种算法,在训练时间上,CART要明显优于其他种,是因为RF和GBDT都运用了集成的思想,训练时间要比训练一棵树久;在准确率方面,RF和GBDT都比CART树好,由此可见用多棵树做判断提高了判断准确率;同样是运用集成思想的RF和GBDT,RF在分类效果上要优于GBDT。因此可以得出结论:在数据集小、属性数目少的情况下,可以优先选用CART树算法;而在数据集大、属性数目多的情况下,应该使用RF分类算法。
4 结束语
本文提出一种基于CART树的随机森林故障预警模型,并将其应用于ATM机故障识别中。与单棵树相比,随机森林算法运用集成学习的方法具有需学习快速、不需要剪枝的优点。同时,随着数据的增多,通过该方法建立的故障诊断模型可以自动的更新完善,准确率也在不断地提升。实践结果证明,该方法可以及时有效的诊断ATM机交易故障,且其决策树棵树为100时,既可以保证诊断准确率,也可以保证诊断效率。鉴于该方法具有较多的优点和较好的应用前景,以后将此方法用于研究和分析更大量、更多故障场景的ATM交易数据,并采用相应的随机森林和神经网络结合的方法能够处理更加复杂的ATM机故障监测预警方面的问题。
参考文献
[1]张海燕,刘岩,马丽萌等,决策树算法的比较与应用研究[J].华北电力技术,2017 (06).
[2]姚旭,王晓丹,张玉玺等.特征选择方法综述[J].控制与决策,2012 (02).
[3]李慧铭.银行ATM软件项目管理及控制的设计与实现[J].成都:电子科技大学,2013.
[4]张治斌.基于SPSS Modeler的数据挖掘过程解析[J].数学技术与应用,2017 (09).
[5]郭健.基于特征值提取与神经网络的抽油井故障诊断[J],电子设计工程,2014(01).
[6]张希翔,赵欢.基于随机森林的语言人格预测方法[J].计算机工程,2017 (06).
[7]陈苏雨,方宇,胡定玉,基于随机森林的地铁车门故障诊断[J].测控技术,2018 (02).
[8]张滨,彭其渊,刘帆洨.基于并行C4.5的铁路零散白货客户流失预测研究[J].计算机应用研究,2018 (02).
[9]张静,廖逸文.ATM机交易状态预警模型的建立[J].电子设计与软件工程,2017 (12).