ATM交易状态特征分析与异常检测
2018-05-14李一蔡礼渊
李一 蔡礼渊
摘要:通过累计图判断ATM交易状态各变量的周期性,计算以工作状态、时段为周期的季节指数,通过直方图和非参数检验判断各变量的分布规律。随后,将交易变量Z标准化,依据主成分分析法提取该组变量的主元,计算每个交易时刻的主元得分,根据常规控制图和离群值判断系统运行异常或故障时刻,判处出主元得分处于异常的时刻,以应用状态为因变量,建立含工作状态、交易时段两个虚拟变量的多元逻辑回归方程。最后,对模型的解释能力、模型显著性、回归系数显著性进行检验。
关键词:相关系数;季节指数;主成分分析;虚拟变量;逻辑回归
中图分类号:U448
文献标志码:A
文章编号:2095-5383(2018)01-0050-08
商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,用以捕捉自动提款机(Automated Teller Machine,ATM)应用系统运行情况以便及时发现异常或故障[1]。随着ATM使用量的增长,设备维护工作量也迅猛增长,对ATM交易系统的异常检测和设备维修难度也越来越大。ATM故障诊断从最初的人工检测及识别,逐步发展为依靠信息化和大数据的智能检测。费吉忠等[2]根据工商银行山东省威海市分行ATM使用情况,总结了9大类、40种ATM系统故障,将故障原因归为5类,从日常维护的具体技术操作层面对ATM故障及故障诊断做了较为详细的阐述。胡定宪等[3]直接用ATM网络测试仪接入被测端,运行流量测试功能,自动定位所有的交易活动并识别有关的虚通道标识符和虚通路标识符,监测出错误信元,监测流量拥塞状况,评估出ATM网络的运行状况。汪成亮[4]采取产品数据管理(Product Data Management, PDM)结合失效模式和影响分析(Failure Mode and Effect Analysis, FMEA)诊断方法,将金融产品构成信息、产品功能信息及维修信息并融合产品设计阶段获取的诊断知识,进行诊断,使产品的设计、诊断与维护形成一个有机整体,提高诊断效率与精度。高泽旭[5]提出基于神经网络的ATM故障诊断专家系统的构想。
鉴于目前多从技术角度研究ATM交易故障的现状,从质量控制视角运用数学模型对ATM交易故障进行诊断、分析和预测的相关文献较少。本文在分析ATM应用系统交易信息的相关性、周期性、描述统计量、分布形态等统计规律的基础上,使用主成分分析法进行多变量统计故障诊断,提取每个交易时刻交易量、成功率、响应时间3个变量的主元得分,根据质量控制理论,以应用状态为因变量,建立含虚拟变量的多元逻辑回归方程。
1 数据来源及处理
1.1 数据来源
本文数据采用2017年“深圳杯”数学建模挑战赛B题:ATM交易状态特征分析与异常检测提供的某商业银行ATM应用系统某分行的交易统计数据。该商业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分钟对各分行的交易信息进行汇总统计,包括业务量、交易成功率、交易响应时间3个指标。
1.2 数据处理
为便于IBM SPSS软件识别和满足分析的需要,将题目所给数据的时间属性、格式转化为统一格式,并保存为新变量,命名为交易时刻。
题目提供了2017年1月23日至4月23日的交易数据,将该时段中我国法定节假日的工作状态设为“休”;其余周一至周五工作状态设为“班”;并保存为新变量,命名为“工作状态”。
1.3 离群值的识别与设定
1.3.1 各变量的描述性统计
使用IBM SPSS软件“描述统计”功能,计算题目提供的未经处理的交易量、成功率、相关响应3个变量的描述性统计量,计算结果如表1所示。
计算结果显示,131 013条样本数据,交易量均值为589.930,标准差为504.061,数据波动较大,可能原因为高峰时段和低谷时段差异较大导致数据较为离散。成功率均值为0.96,数据相对较为集中,成功率标准差0.028,离散趋势相对较弱。数据呈现左偏陡峭形态。响应时间存在极端值,极大值为57 210.64 ms,时间接近1 min,响应时间过长,数据离散程度较大。
1.3.2 离群值的识别
为进一步反映数据形态,使用“探索性分析”功能,计算各变量的百分位数分布情况,绘制各变量的箱形图,如图1~3所示。
框图较为直观地反映出交易数据因设备故障原因,导致数据存在较大的奇异值,为此需要在模型建立前将数据进行清洗和整理。
1.3.3 离群值的设定
1)暂不设定交易量的离群值
因分行侧网络传输节点故障,前端交易无法上送请求,会导致业务量陡降,同时交易量分高峰时段和低谷时段,故不能识别出其交易量波动的具体原因,暂不设定交易量的缺失值。
2)成功率离群值的设定
分行侧参数数据变更或者配置错误,数据中心后端处理的失败率增加,影响交易成功率指标,考虑到交易低谷时段交易量低等其他原因導致的成功率较低,以及成功率框图显示的信息,尽量保留所提供的原始数据,将成功率的缺失值设定为x2<0.5(依据3σ原则该数值为0.95),缺失值占总数的0.014%。
3)响应时间离群值的设定
数据中心后端处理系统异常(如操作系统CPU负荷过大)或应用进程异常,引起交易处理缓慢,影响交易响应时间指标,依据3σ原则,将响应时间的缺失值设定为x3>1 900(实际计算值为1 905),缺失值占总数的0.039%。
为分析ATM交易状态的特征参数和规律,从变量间的相关性、各变量的周期性、各变量的描述性统计、各变量的分布规律4个方面分别进行选择、分析和提取。
2 ATM交易状态特征分析
2.1 交易状态变量间的相关性
使用IBM SPSS软件“相关分析”功能,分别计算交易量、成功率、响应时间3个变量间的两两线性相关系数(Pearson相关系数),非参数相关系数(Spearman秩相关系数、Kendall等级相关系数)。计算结果,如表2所示。
计算结果显示,交易量、成功率、响应时间3个变量间无论是线性相关系数,还是非参数相关系数,均有较强的显著性。特别是交易量和成功率、响应时间两个变量呈现显著负相关。
2.2 各变量的周期性
使用IBM SPSS软件“图形”功能,绘制交易信息相关变量的累积图,从图形形态上初步判断交易数据的趋势和周期性。
2.2.1 交易量的周期性
汇总每日交易量和每分钟交易量,绘制累计交易量柱状图,如图4~5所示。
分析结果显示,交易量呈现较强的周期性。1)每日累计交易量工作日数值明显高于非工作日数值。春节前夕,交易数量激增,明显高于其他时间;春节放假期间数值明显低于其他时段数值;其余时间基本呈现较为规律的周期性变化。2)每分钟累计交易量工作时段明显高于非工作时段。每分钟累计交易量呈现双峰态势,有早、晚两个高峰时段,基本和上班作息时间一致。22:00至6:00交易数值较低。
2.2.2 成功率的周期性
计算每日成功率的平均数和每分钟成功率的平均数,绘制平均成功率柱状图,如图6~7所示。
分析结果显示,成功率未呈现显著的周期性。平均成功率基本稳定在相同数值,亦未呈现显著的长期趋势。
2.2.3 响应时间的周期性
计算每分钟响应时间的平均数和每日响应时间的平均数,绘制平均响应时间柱状图,如图8~9所示。
分析结果显示,平均响应时间除个别日期和时段存在奇异值外,整体基本稳定在相同数值,交易高峰时段响应时间相对于低谷时段时间更短,响应时间有一定的周期性但非显著。可能是交易笔数较大抵消了部分随机因素的影响,响应时间未呈现显著的长期趋势。
2.3 计算以工作状态、时段为周期的季节指数
2.3.1 季节指数的原理
根据时间序列中的数据资料所呈现的季节变动规律性,计算描述该变动的季节变动指数的方法。利用季节指数预测法进行预测时,时间序列的时间单位变动循环周期固定。计算公式如下:
2.3.2 以工作状态为周期的季节指数
将法定节假日调整后的数据,分别计算按工作状态,计算星期一至星期日和不同工作状态下的交易量等变量的季节指数。计算结果,如表3所示。
计算结果显示,交易量有明显的周期性特征,成功率和响应时间的周期性不显著。工作日交易量(季节指数为106.46%)显著高于非工作日交易量(季节指数为87.48%),为此,在故障识别时需要分别判断不同工作状态下的数据特征。
2.3.2 以时段为周期的季节指数
按照交易时段,计算不同时刻的交易量等变量的季节指数,将季节指数低于100%的定义为低峰时段,将季节指数高于100%的定义为高峰时段,再分别计算低峰时段、高峰时段的季节指数。计算结果,如表4所示。
计算结果显示,成功率周期性不显著,交易量和响应时间的周期刚好相反,印证了两变量的显著负相关。交易量高峰时段的季节指数为172.35,显著高于低峰时段的27.26,响应时间高峰时段的季节指数为90.11,显著高于低峰时段的111.25。为此,在故障识别时需要分别判断不同工作状态下的数据特征。
2.4 各变量的分布规律
使用IBM SPSS软件“频率”功能,绘制交易量、成功率、响应时间直方图(缺失值设定1 900 ms)、响应时间直方图(缺失值设定200 ms),如图10~13所示。从图形形态上初步交易数据的分布规律。使用“非参数检验”功能,检验交易数据是否满足经典分布形态。
图形形态显示,三个变量均为双峰,可能原因为交易数据包含的正常状态下随机因素和故障状态下随机因素二者重疊影响所致。
3 基于主成分分析的多变量统计故障识别
故障是指ATM交易系统或设备运行中,由于某些原因偏离正常状况转而处于一种非正常的状态,并且ATM交易系统出现了异常现象。故障诊断主要是指通过利用待诊断系统中大量的测量设备所观测和记录到的数据信息、系统运行时的状态信息等可获取的信息以及过程发生故障时的异常征兆,对系统进行全方面的判断和分析[7]。
常用的多变量统计的故障诊断方法有:主成分分析(PCA)、主元回归(PCR)、偏最小二乘(PLS)等方法。主成分分析又称主成分分析,由Pearson最早提出,经Hotelling改进,在过程监控领域相比其他方法具有较强的适应性、更易实现,还具有降维能力,可以把过程变量空间划分为表示子空间和残差子空间,能够实现子空间识别、故障识别等[3],为此,本文选用主成分分析进行ATM交易状态多变量统计故障诊断。
3.1 主成分分析
主成分分析的思想是利用降维思想,将多个互相关联的数值变量转化成少数几个互不相关的综合指标的统计方法。这些综合指标就是原来多个变量的主成分,每个主成分都是原始变量的线性组合,并且各个主成分之间互不相关。对ATM交易系统应用实施多变量统计过程控制,将反映ATM交易信息的交易量、成功率、响应时间3个变量进行主成分分析,建立反映ATM交易系统应用正常运行的主元模型[4]。
由于主成分分析的结果受数据尺度的影响,因此在进行主成分分析时,需要先将数据进行Z标准化,即将每个变量的均值减掉以后除以它的标准差。然后计算各变量之间的相关矩阵、该矩阵的特征根和特征向量,最后将特征根由大到小排列,分别计算出对应的主成分。
3.2 主元的抽取
使用IBM SPSS软件,提取交易量、成功率、响应时间3个变量的主元。操作步骤如下:
1)使用“描述”功能,将交易量、成功率、响应时间3个变量的z标准化得分另存为新的变量zscore(x1)、zscore(x2)、zscore(x3)。
2)使用 “因子分析”功能,抽取主成分,输出碎石图和特征值,并將因子得分保存为新变量“主元得分”。主成分分析碎石图显示,仅有1个主元特征值>1,因此求得主元模型为:
该主元模型初始特征值为1.683,解释了总方差的56.116,较好地解释了总体的波动。
3.3 故障控制限的确定
ATM交易过程中,交易信息特征值的波动分为正常波动和异常波动。正常波动是偶然性原因不可避免因素造成的,异常波动是由系统原因异常因素造成的,但能够采取措施避免和消除。根据中心极限定理,这些随机误差的总和,即总体质量特性,服从正态分布。根据3σ原则,按照GB/T 4091—2001《常规控制图》要求,当前文提取的“主元得分”在某时刻的平方预测误差,发现以下任一情形时,ATM交易系统应用系统异常或故障[8]:1)一点落在3σ以外;2)连续9个点落在中心线的同一侧;3)连续6点递增或递减;4)连续14点相邻点上下交替出现;5)连续3点中有2点落在中心线同一侧2σ以外;6)连续5点中4点落在中心线同一侧的σ以外;7)连续15点落在中心线两侧的σ内;8)连续8点在中心线两侧但无一在σ内。另外,根据题意及前文分析设定离群值的相应时刻,ATM交易系统应用系统异常或故障:9)成功率<0.5%;10)响应时间>1 900 ms。
3.4 故障识别与标识
将数据导入ACESS数据库,对每一个时刻的交易数据,分别判断主元得分是否发生故障控制限所限定,10条规定中任意一条发生则判定该时刻ATM交易系统应用系统异常或故障,建立新变量,命名为“应用运行状态”,识别出有故障的时刻记为1,识别出无故障的时刻记为0。
3.5 含虚拟变量的多元逻辑回归
逻辑回归(Logistic regression)是指因变量为二分类变量时的回归分析。因变量y,服从二项分布,取值为0或者1。逻辑回归模型为:
3.5.1 含虚拟变量的多元逻辑回归模型的建立
前文分析交易量具有显著的周期性,为表征并剥离出交易量的周期性,新建表征工作状态属性和交易时段属性的虚拟变量。工作状态,取值为0时代表交易日期为周末或法定节假日,取值为1时代表工作日。交易时段,取值为0时代表交易时间处于低峰时段,取值为1时代表交易时间处于高峰时段。根据以上分析,建立自变量含虚拟变量的多元逻辑回归模型:
其中:logit(x)为逻辑回归函数;因变量y,表征应用运行状态属性,取值为0时代表交易系统应用运行未发现异常,取值为1时代表交易系统应用运行异常或故障;x1为交易量,x2为成功率,x3为响应时间;x4为虚拟变量,表征工作状态属性,取值为0时代表交易日期为周末或法定节假日,取值为1时代表工作日;x5为虚拟变量,表征交易时段属性,取值为0时代表交易时间处于低峰时段,取值为1时代表交易时间处于高峰时段。
3.5.2 多元逻辑回归模型的求解
使用IBM SPSS软件“回归分析”功能,将应用运行状态设置为因变量,将交易量、为成功率、为响应时间、工作状态、交易时段、设置为自变量,选用向后步进(似然比)方法,求得逻辑回归方程为:
3.5.3 模型的检验
1)模型显著性检验
对多元逻辑回归模型,进行模型预测效果检验,如表6所示。
从表6可以看出,应用运行状态标识为故障的1128个时刻,944个被正确预测,正确率为83.7,整体正确率为99.8。较好的预测了ATM交易系统运行异常或故障。
对多元逻辑回归模型,进行模型显著性检验,如表7所示。
预测模型的Cox & Snell R 方为0.082,Nagelkerke R 方为0.871,表明模型有较好的解释能力,预测模型显著。
2)回归系数显著性检验
对多元逻辑回归模型,进行回归系数显著性检验,如表8所示。
预测模型各回归系数的渐进显著性均<0.05,拒绝回归系数为零的原假设,回归系数显著。
马术俱乐部进行实地访谈和市场数据分析,以期将此处所提出的马术俱乐部收益模型进行精确的量化分析。
参考文献:
[1]MICHAEL R.Leeders purchasing management and business competitiveness in the coming decade [J].Production Planning & Control,2004, 15(7):710-718.
[2]BOER L D,LABOR E,MORLACCHI P.A review of methods supporting supplier selection[J].European Journal of Purchasing and Supply Management,2001(7):75-89.
[3]VAMPIEW W,KAY J. Encylopedia of british horseracing. london and new york[M].New York:Routledge Taylor&Fracis Group, 2005.
[4]PITTS B. Industry segmentation theory and the sport industry: developing a sport industry segmentation model [J]. Sport Marketing Quarterly,1994,3(1):15-24.
[5]丁鹏.世界赛马产业的发展对中国赛马业影响的探析[J].武汉商业服务学院学报,2010,4(2):23- 27.
[6]李要南,方武,操小龙.中国赛马运动开展现状及特征研究[J].武汉商业服务学院学报,2013,12(6):54- 56.
[7]夏云建.赛马与休闲旅游产业一体化发展可行性研究:以开发武汉市赛马休闲产业为例[J].武汉商业服务学院学报,2010(3):23-25.
[8]夏淑萍.论赛马产业集群的经济学研究:以开发武汉市赛马休闲产业为例[J].武汉商业服务学院学报,2010(4):19-20.
[9]李炜.赛马产业在武汉的发展优势与市场驱动力[J].湖北经济学院学报(人文科学版),2009,23(3):50-51.