基于 SNMP的信用卡数据挖掘研究
2010-01-05曾万里
曾万里
(长沙民政职业技术学院,湖南 长沙 410004)
基于 SNMP的信用卡数据挖掘研究
曾万里
(长沙民政职业技术学院,湖南 长沙 410004)
利用 SNM P网络管理协议进行数据分析和数据挖掘是业界的研究热点。文中分析了 SNM P的应用现状和特点,提出了一种将 SNM P应用于信用卡的数据挖掘结合技术,设计了相应的模型,介绍了其工作过程,实例证明此方法能有效地降低成本,提高效率。
SNM P;数据挖掘;信用卡;Sybase;数据仓库
1.引言
随着货币的电子化和互联网的迅猛发展,信用卡在银行业务中所占的比例越来越大。信用卡业务的开发、应用、服务、管理越来越多地趋向网络化,对信用卡业务数据的分析、挖掘已离不开网络,这使得网络的管理问题日益成为相关部门关注的重点。网络管理系统也日益受到网络提供商的重视。网络管理系统一般包括网络性能管理、网络故障管理、网络安全管理、网络资源管理、网络配置管理等。网络管理通常被分为四类:被管理节点 (或设备)、代理、网络管理工作站、网络管理协议。作为网络管理协议的一种,SNM P在网络管理方面已得到广泛应用,赢得了广大用户和网络厂家的认可和支持。对于一个网络管理系统,全面、及时、准确的数据信息是重中之重,因此,稳定高效的数据采集是有效实现网络管理的基础和前提。而对于网络数据统计和信息采集的最方便的工具莫过于 SNM P网络管理系统。
2.SNM P的工作原理
SNM P(Simp le Network M anagem ent Protoco l)的前身是简单网关监控协议 (SGM P),用来对通信线路进行管理。随后,人们对 SGM P进行了多次修改,特别是加入了符合 Internet定义的 M IB。现在 SNM P已经出到第三个版本的协议,其功能得以加强和改进。
SNM P是一系列协议组和规范,包括管理者 (M anager)、管理代理 (Agent)、管理信息库 (M IB)、SNM P协议,提供了一种从网络上的设备中收集网络管理信息的方法。其管理模型如图 1所示。
图 1 SNM P管理模型
2.1 SNM P应用现状
SNM P网络管理最早开始于 20世纪 70年代,相对于 OSI标准,SNM P简单、易实现、成本低、效率高,对于网络管理非常有效,已得到众多产品供应商的支持和广泛的应用。许多网络通信设备商如 IBM,Cisco等都提供基于 SNM P的实现方法。
2.2 SNM P特点
SNM P管理模型具有典型的 C/S(客户端/服务器)体系结构。网络管理站运行 SNM P管理软件的客户端程序 (通常称为 M anager或 Client,管理站或管理者),而被管理的网络设备运行软件的服务器端程序(通常称为 Agent,代理或代理服务)。网络管理站启动管理器进程,监视并控制被管设备的运行,而被管设备上运行着代理进程,对
管理器进程发出的各种请求作出响应。管理对象的信息存放在被管设备的M IB库中。管理器进程将各种操作维护命令组装成 SNM P报文,发送到代理进程,代理进程通过操作 M IB库响应这些请求,并且把结果送回管理站进程,从而完成管理功能。
每个被管理的 SNM P设备均维护一个包含统计信息及其他数据的数据库,称之为管理信息库或M IB。M IB的每一项包含一种信息:对象类型、语法、访问及状态等。
图 2 基于 SNM P的数据挖掘模型
2.2.1 良好的可扩充性。该协议版本采用基于用户的安全机制,是在原来的基础上进行大量的评议以后进行了更新,并且对协议的逻辑功能模块进行了划分。进而保证良好的可扩充性。
2.2.2 良好的安全性。SNM P要求在发送每一个消息时都附带一条特殊的口令。这样,SNM P代理就可以判断是否有权访问M IB信息。这个口令被称作 SNM P共同体名。SNM P在实现时,允许使用不同安全级别的共同体名,这样可以进一步增加 SNM P操作的安全性。
2.2.3 功能完善。合理的管理信息结构,支持分布式管理,效率高,可以实现大量的数据传输,支持管理器与管理器间的通信。
3.基于 SNM P的信用卡数据挖掘技术
数据挖掘从一开始就表现出明确的目的性,数据仓库都是围绕某一确切的主题而建立的。目前已成功建立的数据挖掘模型有客户细分模型、客户激活模型、客户流失模型、申请记分模型、行为记分模型、欺诈监测模型等。这里,主要应用数据挖掘对客户行为进行分析。
3.1 参考模型
本模型包括系统初始化,信息采集,数据处理,数据挖掘,规则评估等五个部分,如图 2所示。其中系统初始化、信息采集系统与系统配置数据库由 SNM P网络管理系统组成;数据处理部分由数据预处理与统计信息库组成;数据挖掘部分由规则库与多个规则挖掘模块组成;规则评估由规则修订模块组成。
在系统启动时,初始化程序由数据库中及网络设备读取配置信息,根据这些信息 SNM P控制将采集到的数据存储到指定的数据库中。然后数据库中的这些信息由数据处理模块进行处理,生成标准格式的信息,存入统计信息库。数据挖掘模块根据属性相关性挖掘出关联度最高的规则,放入规则库。SNM P根据实时统计信息与规则库标准进行比较,验证规则的可靠性,进行规则评估,并根据实际比对情况对规则进行修订。
3.2 数据采集
数据采集的任务是收集网络数据,主要是与网络设备通信,同时接受上层系统的控制。SNM P系统是实现该功能的主要设备,该系统可以独立出来,上层系统可以通过配置数据库以及使用网络通信来控制信息采集系统。
数据表与数据项的选取:为了获取准确的特征量,经过分析,我们从数据库中找出 7个与分析主题有关,而且可以满足分析需要的数据表:客户基本表,存放所有客户的基本信息;个人客户表,存放个人卡客户的信息;公司客户表,存放公司客户的信息;卡表,存放信用卡的基本信息;卡账户表,存放信用卡的账户信息;余额历史表,存放各卡账户的余额变动历史;卡账户交易日志表,存放各卡账户的历史交易信息。
另外,个人客户表中收入数据项数据严重缺失,我们从代发工资信息中获取部分持卡人的工资收入信息,生成收入数据表,有 2个数据项:身份证号,月工资收入。
获取输入输出数据:统计表明,顾客的消费行为在相当程序上受到顾客本身的个体特征影响,主要包括年龄、性别、职业、收入、信用等级、授信额度等,这里选取了其中的四个特征量年龄、收入、是否学生和信用等级,作为网络的输入。
样本输出数据对客户消费行为分析尤为重要。一般采用两种途径获取:根据卡账户交易日志表获取;根据用卡行为记录获取。本文中主要分析客户最终是否购买了电脑,也就是说网络输出模式包括两种形式:已购买:1;未购买:0。
3.3 数据处理
一般来说,为提高挖掘的正确性、有效性和可伸缩性,需要对样本数据做以下数据清洗和相关性分析等预处理。本研究中主要对样本数据进行了规格化、异常数据清除、缺失数据的处理、错误纠正、重复数据的清除等处理。
3.4 数据挖掘
此处选用某国有商业银行的交易金额大于零的信用卡交易记录数据作为实例数据集。总共有 328位持卡人、21个特约商户的 2019条交易记录,经数据预处理,保留了 210条有效记录。原始数据是从该行的信用卡业务系统的 Sybase数据库中以文本文件的格式导出,共有 7个表 111个字段。具体训练样本如表 1所示 (假设运算次数为 2000,允许的精度为 0.001)。
表 1 训练样本表
训练结果为:
TRA INGDX,Epoch 0/1000,M SE 0.327714/0.001,Gradient0.221671/1e-006
TRA INGDX,Epoch 25/1000,M SE 0.310266/0.001,Gradient0.214608/1e-006
TRA INGDX,Epoch 50/1000,M SE 0.267559/0.001,Gradient0.161483/1e-006
TRA INGDX, Epoch 75/1000,M SE 0.1533/0.001,Gradient0.208459/1e-006
TRA INGDX,Epoch 100/1000,M SE 0.030825/0.001,Gradient0.0359417/1e-006
TRA INGDX,Epoch 125/1000,M SE 0.0101365/0.001,Gradient0.0157687/1e-006
TRA INGDX, Epoch 144/1000, M SE 0.000932271/0.001,Gradient0.00397282/1e-006
TRA INGDX,Perform ance goalm et.
可见经过 144次训练后,网络的目标误差达到要求。
4.总结
数据挖掘应用领域已越来越广泛、深入,传统的数据挖掘技术往往无法满足客户的需求。基于 SNM P进行数据挖掘能及时准确地收集网络统计数据,充分利用网络软硬件资源,有效提高数据挖掘效率和准确度,弥补了传统数据挖掘的不足。本文对这一方法进行了研究和论述,初步的实验结果表明,这种方法是有效的。将该方法应用于更广范围、更多领域、更深层次并系统化,这是下一步工作的方向。
[1]杨海兰,程龙,吴功宜 .基于 SNM P进行数据挖掘的入侵检测系统研究[J].计算机工程 .2004,(2).
[2]W illiam Stallings.SNM P网络管理[M].北京:中国电力出版社,2001.9.
[3]李金宇 .基于 SNM P的网络信息采集系统的研究[D].长春:吉林大学,2008.
[4]雷莉 .基于大唐交换机 SNM P网络管理代理的设计与实现[D].西安:西安电子科技大学,2006.
[5]何小卫,王申康 .网管平台中 SNMP Probe的设计与实现[J].计算机工程,2000,(7).
TP393
B
1671-5136(2010)01-0117-03
2010-02-15
曾万里 (1979-),男,湖南邵阳人,长沙民政职业技术学院软件学院教师、硕士。研究方向:数据挖掘。