ATM交易状态特征分析与异常检测
2018-05-14詹秋泉张森
詹秋泉 张森
本文以银行ATM交易状态为研究对象,研究ATM交易状态的特征以及交易异常状态的检测,并且对ATM交易出现异常状态提出预警。
针对问题(1),首先我们选取业务量作为ATM交易状态特征的评价指标。将本文所提供的每日每分钟业务量指标划分为每日总业务量指标和日内每10分钟业务量指标,以此作为判断不同日期的ATM交易状态和不同时间的ATM交易状态。运用聚类分析的方法,对不同日期的ATM交易状态进行聚类分析,提出春节前5天、春节期间7天、工作日(非法定假日)和周末(非法定假日)共4个时期的ATM交易状态;同样运用聚类分析的方法,对不同时间的ATM交易状态进行聚类分析,提出上班高峰业务时间、早间与晚间业务时间以及夜间低谷业务时间共3个时间的ATM交易犹态;
针对问题(2),根据银行数据中心监控系统分析可知,ATM交易系统出现异常或故障主要分为前端交易异常和后端处理异常。具体表现为业务量陡降、交易成功率低下和交易响应时间过长三个特点。根据这些特点,我们可以判断出不同日期和不同时间的ATM交易系统异常状态。由此我们建立了不同日期的ATM交易系统异常检测模型和不同时间的ATM交易系统异常检测模型。
针对问题(3),由问题(2)建立的ATM交易系统异常检测模型可以判断发生异常的概率,但是该模型仅仅是以1月23日至4月23日共91天的数据求解得出的,难以作为日常ATM交易系统异常状态的检测,同时存在较大的偶然性,例如春节期间所带来的特殊性。为此,我们应该采集一年的交易数据,建立不同日期和不同时间的ATM交易系统异常检测模型。同时,采用动态更新的ATM交易系统异常检测模型,作出更准确、及时的判断。
最后采用动态优化的思想,将上述的模型进行动态拟合求解,寻找出更精确、更及时的ATM交易系统异常检测模型,并对模型进行评价和推广。
ATM 特征分析
聚类分析 logit异常检测模型
问题的提出
商业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分钟对各分行的交易信息进行汇总统计。汇总信息包括业务量、交易成功率、交易响应时间三个指标。商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,来捕捉整个前端和后端整体应用系统运行情况以及时发现异常或故障。常见的故障场景包括但不限于如下情形:
1.分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;
2.分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;
3.数据中心后端处理系统异常(如操作系统CPU负荷过大)引起交易处理缓慢,影响交易响应时间指标;
4.数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。
根据某商业银行ATM应用系统某分行的交易统计数据,建立数学模型解决如下问题:
(1)选择、提取和分析ATM交易状态的特征参数;
(2)设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报;
(3)设想可增加采集的数据。基于扩展数据,你能如何提升任务(1)(2)中你达到的目标?
问题的分析
问题(1)需要分析ATM交易状态,我们采取分类的思想,以交易量作为判断指标将ATM交易状态划分为不同的特征状态。首先,我们将本文所提供的每日每分钟业务量指标划分为每日总业务量指标和日内每10分钟业务量指标,以此作为判断不同日期的ATM交易状态和不同时间的ATM交易状态。结合聚类分析的情况,同时考虑到国内春节前后的特殊性,并参考许元红[1](2006)的研究,我们可以初步判断出本文所给的数据受到春节因素的影响。由此,我们提出春节前5天、春节期间7天、工作日(非法定假日)和周末(非法定假日)共4个时期的ATM交易状态;再次运用聚类分析的方法,对不同时间的ATM交易状态进行聚类分析,提出午间高峰期、正常业务时间以及夜间低谷业务时间共3个时间的ATM交易状态。并对不同时期各个时间的ATM交易状态进行分析,得出结论。
问题(2)需要设计一套交易状态异常检测方案,首先我们根据ATM交易系统出现异常的原因和表现特征进行分析,可知ATM交易系统出现异常具体表现为业务量陡降、交易成功率低下和交易响应时间过长三个特点。基于这些特点,可以初步判斷某一时期和某一时间是否存在异常,并建立ATM交易系统状态指标。然后,运用logil回归模型进行分析,选取交易量、平均交易成功率和平均交易响应时间共3个指标作为解释变量,对ATM交易系统状态指标进行回归分析,并对模型进行参数估计。由此建立不同日期的ATM交易系统异常检测模型和不同时间的ATM交易系统异常检测模型。最后,运用移动平均法的思想,选取MA3作为下一时期3个解释变量的预测值,选取MA5作为下一时间3个解释变量的预钡J值,对下一时期和下一时间的交易系统是否异常进行检测,最终得出ATM交易系统出现异常的概率,相应做出预防系统异常工作和系统异常的处理工作。
问题(3),由问题(2)建立的ATM交易系统异常检测模型可以判断发生异常的概率,但是该模型仅仅是以1月23日至4月23日共91天的数据求解得出的,难以作为日常ATM交易系统异常状态的检测,同时存在较大的偶然性,例如春节期间所带来的特殊性。为此,我们应该采集一年的交易数据,建立不同日期和不同时间的ATM交易系统异常检测模型。同时,采用动态更新的ATM交易系统异常检测模型,作出更准确、及时的判断。
模型的假设
假设ATM交易系统异常一定会导致交易未成功,使得交易成功率下降;
假设ATM交易系统异常一定会导致交易响应时间过长;
假设ATM交易系统异常与交易量无关;
假设所收集的ATM交易数据真实、可靠。
注:由于本文模型均建立在较长时间(超过10分钟)的统计汇总指标上,因此,不能判定业务量的骤减,是因为出现系统异常所引起,还是因为该时间内没有发生交易所引起。所以,假定ATM交易系统异常与交易量无关。
模型建立与求解
(1)ATM交易状态特征分析
1.数据预处理
由于本文所提供的数据为每日每分钟业务量统计数据,一共有131013个样本(部分时期的少数时间内为无交易状态),其样本总量过大,不便于整体分析。所以,我们将所给数据划分两类数据,一是为以天为单位的交易数据,将每天所有分钟的数据汇总,称之为不同日期的交易数据;二是以10分钟作为间隔单位的交易数据,将每10分钟所有天数的数据进行汇总,称之为不同时间的交易数据。具体过程采用MATLAB2014a版本软件实现。
在进行数据处理之前,涉及到两种数据处理问题,一是数据结构处理,二是数据类型处理。具体处理如下:
(1)文本合并:将日期、时间文本数据前添加文本”1”,如日期”0123”转化为日期”10123”,时间”0000”转化为”10000”;
(2)数值类型转化:将上述处理好的文本类型数据转化为数值类型数据,直接引用excel中VALiIE(text)函数转化处理即可。
2.ATM交易状态描述性统计分析
根据上述的数据预处理,我们可以得到两种类型的数据,一是不同日期的交易数据;二是不同时间的交易数据。借助MATLAB软件,可以得到这两种类型的交易数据情况,这样就可以推出不同日期的交易特征以及不同时间的交易特征。具体如下:
不同日期的交易特征具体表现为:1月23日~1月27日,处于日交易量高峰时期,平均每天交易量为1566472笔,最高交易量达到1836189笔;1月28日~2月3日,处于日交易量低谷时期,平均每天交易量为541942笔,最低交易量为379700笔;2月4日~4月23日,处于正常交易量时期,平均每天交易量为831076笔,这一时期的日交易量最高可达1001081笔,最低为612968笔,且表现出明显的周期波动,据此可初步判断为工作日与周末因素所产生的影响。
不同时间的交易特征具体表现为:凌晨12点~早上6点,处于凌晨交易量低谷时间,平均每10分钟的交易量为32笔,最低交易量为14笔;早上6点一早上9点,处于早间正常交易量时间,平均交易量为433笔,且随时间呈现出递增的趋势;早上9点~下午6点,处于日间高峰交易量时间,平均交易量为1082笔,其中午间1小时(11点30分-12点30分)呈现小幅下降,其交易量平均为956笔;下午6点~晚间10点,处于晚间正常交易量时间,平均交易量为660笔,且随时间呈现出递减的趋势;晚间10点~凌晨12点,处于夜间交易量低谷时间,平均交易量为139笔,同时随时间呈现出递减的趋势。
3.ATM交易状态聚类分析
根据上述描述性统计的初步分析,我们大致可以将不同日期的交易状态分为3个时期,将不同时间的交易状态分为5个时间段。不同时期和不同时间的交易量呈现出不一样的交易状态特征。为了进一步更精确的分析,我们采用聚类分析的方法,对上述不同日期的交易数据和不同时间的交易数据进行分析。
4.ATM交易状态的聚类结果分析
根据聚类分析结果,综合考虑国内春节前后的特殊性,以及工作日与周末之間的差异,最终将不同时期的ATM交易状态划分为4个时期,具体ATM交易状态特征如表(1)所示;综合考虑日间工作时间以及作息时间,最终将不同时间的ATM交易状态划分为3个时间段,具体ATM交易状态特征如表(1)所示。
(2)ATM交易系统异常检测模型
1 .ATM交易系统发生异常的原因
根据商业银行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,对每家分行的ATM交易系统整体前端和后端整体运行情况进行检测,统计分析可知,常见的故障场景主要分为以下几种情形:
第一,分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降;
第二,分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标;
第三,数据中心后端处理系统异常(如操作系统CPU负荷过大)引起交易处理缓慢,影响交易响应时间指标;
第四,数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢。
2.ATM交易系统异常状态判别
根据上述ATM交易系统发生异常的原因分析,可以提出3个交易系统出现异常的判别标准。分别为:第一,该时间内的业务量陡降;第二,该时间内的交易成功率较低;第三,该时间内的交易响应时间过长。同时,由于本文模型均建立在较长时间(超过10分钟)的统计汇总指标上进行研究,因此,难以判定业务量的骤减,是因为出现系统异常所引起,还是因为该时间内没有发生交易所引起。由此,我们假定ATM交易系统异常与交易量无关,本文是基于该假定进行研究的。所以,本文最终判别ATM交易系统是否出现异常的标准有两个,一是该时间内的交易成功率较低;二是该时间内的交易响应时间过长。
按照上述判别ATM交易状态异常状态的思路,我们可以建立不同时期和不同时间的ATM交易系统状态指标TS,和TSi。由此,我们可以得出不同时期和不同时间的ATM交易系统异常状态情况。
3.ATM交易系统异常检测模型
根据上述分析,可知引起ATM交易系统异常的因素主要为交易成功率指标和交易响应时间指标,同时,依据ATM交易系统异常状态判别分析,我们可以得到ATM交易系统异常状态指标。基于上述分析,最终建立不同日期的ATM交易系统异常检测模型和不同时间的ATM交易系统异常检测模型。模型设定如下:
其中P表示“TS=1”发生的概率,即发生ATM交易系统异常的概率;则1-P表示ATM交易系统未发生异常的概率;模型中参数α是常数项,β1、β2分别为影响ATM交易系统发生异常的系数,ε为干扰项。
根据上述模型设定,本文运用logit回归模型进行分析,选取平均交易成功率和平均交易响应时间共2个指标作为解释变量,对ATM交易系统状态指标进行回归分析,运用STATA软件对模型进行参数估计。
根据logit回归分析结果,我们可以得出不同时期和不同时间的ATM交易系统异常检测模型如下:ln TSt=1895.231-2002.572*successratet+0.2049responsetimetlnTSi=280.9004-303.8507*successratel+0.0909responsetimei
根据上述ATM交易系统异常检测模型,即可判断不同时期和不同时间发生异常的概率,进而能够对该交易系统发生异常情况及时报警。最后运用移动平均法的思想,选取MA3作为下一时期2个解释变量的预测值,选取MA5作为下一时间2个解释变量的预测值,从而能够提早对下一时期和下一时间的交易系统是否异常进行检测,最终得出ATM交易系统发生异常的概率,相应做出预防系统异常工作和系统异常的处理工作。
模型评价及改进
(1)模型评价
1.本文对ATM交易状态特征的分析,采用聚类分析方法,避免了人为主观的臆断,首先通过描述性统计分析的思路,初步得出ATM交易状态的一般特征,进而通过聚类分析的方法,客观地反映出ATM交易状态的具体特征。综合比对初步得出的结论与客观运算求出的结论,可知聚类分析的结果基本与事实相符,且具有更高的精确性。
2.本文对ATM交易系统异常状态的检测,按照原因分析、异常判别以及实证研究的思路,运用logit模型进行拟合求解,得到具体的ATM交易系统异常状态检测模型,且相应的参数估计结果与事实相符,即交易成功率与系统发生异常的概率呈现负相关关系,交易响应时间与系统发生异常的概率呈现正相关关系。该结论具备一定客观性与可靠性。
(2)模型改进
1.本文运用的聚类分析,直接采用k-means聚类的思想,是因为该聚类方法对异常值较为敏感,但是也容易受到异常值的影响,同时需要提前设定类别的个数,不能自主识别最优聚类结果。因此,可通过尝试其他聚类的思想,多次进行聚类分析,寻找最优的聚类结果。
2.本文对ATM交易系统出现异常的判别,是基于ATM交易系统异常检测模型,而想要对下一时期和下一时间的交易系统状态进行异常检测,必须提前对下一时期与下一时间的交易成功率和交易响应时间进行预测,因此,为了更加精确、及时地对ATM交易系统进行异常识别,必须要对交易成功率和交易响应时间指标的预测模型进行改进及优化。
[1]许元红,吴扬扬.基于聚类方法的ATM交易量分析[J].金融科技时代,2006,14(1):56-58.
[2]方开泰等.聚類分析[M].地质出版社,1982.
[3]费宇.多元统计分析[M].中国人民大学出版社,2014.