基于大数据分析的金融反欺诈建模方法研究
2020-10-20李云雪刘静闫雪梅
李云雪 刘静 闫雪梅
摘要:承认混杂性,追求效率以及探索相关关系是大数据的核心。大数据分析的实质是依据策略划分数据、建立模型然后评估模型并持续优化。文章浅析了互联网大数据的特点和IT架构;以互联网大数据的建模分析方法和模型特征为基础,重点解析了大数据征信模型的反欺诈应用,并给出大数据准备的优化方向。笔者最后依据大数据行业岗位特点,针对高职教育提出了学生的培养路径。
关键词:大数据建模;数据准备;反欺诈模型;数据优化;培养路径
一、引言
21世纪是数字经济时代,数据成为经济资产带动新兴商业模式和投资机会。基于大数据的建模分析和应用无处不在,比如春节客流量分析,客户画像和行为特征分析等。从数据使用角度来看大数据主要采用数据均参与的全量数据建模方法,并非指数据集合的巨大。但当前移动互联网社交软件、电子商务等海量应用已经把数据资产的体量提升到PB(1024TB)级,其数据组合也已呈现非结构和多样化态势。
本文梳理了大数据与普通数据的异同,解析数据的采集与存储使用的行业IT解决方案;在此基础上进一步深入研究基于大数据的模型特征;以互联网金融为主线,在业务策略模型、贷前风险评估和反欺诈评分方面,立足实践深入浅出归纳总结基于神经网络的金融反欺诈模型的优势。
二、大数据特征与IT架构
大数据分析建模的前提是数据准备,互联网金融反欺诈数据关注时间跨度和数据粒度,时间跨度越长得出相关性预测越准确,而数据的粒度和具体业务、数据采集和IT处理有关。互联网金融领域反欺诈数据的准备有以下特点:
1、数据量大,特别是移动互联网产业兴起后的各种应用app产生的海量登录数据,注册信息,位置信息,运动轨迹,页面点击数据和会话聊天等数据。
2、数据类型多,有文本数据,有视频/音频数据,有文件数据,有二进制数据,也有结构化的数据如XML文档等。整体呈现异构化,在某些领域又存在标准的结构化数据。
3、数据维度杂,比如客户维度的社交圈子,通话视频,购买能力,偿还能力和工作稳定度等。也有平台维度的信息和相关浏览点击和行为轨迹,也可从互联网黑名单,客户特征画像等维度分析。
4、数据敏感性和公开性交织,从信息安全和数据敏感角度,又有数据保密、公开使用和授权使用等法律法规要求。
Hadoop是Google公司Apache基金会所开发的分布式系统基础架构,其应用范围非常广泛。例如Yahoo使用4000个节点的Hadoop集群支持广告系统和搜索;百度用Hadoop处理每周200TB的数据;中国移动研究院基于Hadoop开发了“大云”(BigCloud)系统;金融反欺诈方面的应用主要是金融服务或政府机构利用Hadoop来存储客户金融属性数据,包括一些非结构化的数据来发现客户的异常活动,拒绝欺诈行为。
三、大数据建模方法及模型特征
大数据建模首先需要确定业务模型,业务模型指的是针对某个业务场景定义,用于解决问题的规则和流程,核心是场景化的应用。比如电商网站会有销售预测模型、商品关联模型等;媒体和自媒体应用会建立读者关注度模型。互联网大数据分析是在业务模型基础上实现数据建模,主要步骤是1)选择或定义模型;2)训练模型;3)评估模型;4)应用模型;5)优化模型。其中训练和评估模型采用不同的数据集合,以免过度优化参数。
互联网大数据分析的典型模型有回归模型,分类模型,聚类模型,关联模型和归因模型等。模型有符合其业务和数据的特点,如可采用决策树算法来对客户分类,并在关键流失节点上加运营策略来减少流失;关联关系是互联网海量数据的天然应用体现,关联学习通过寻找数据变量之间的规则,对多种数据的关系进行挖掘。典型案例是“啤酒和尿布”的捆绑销售。
聚类是电商运营的重要分析模型,可采用K-means聚类模型快速分群,电商网站可以根据用户的购买行为将客户分为“年轻白领女性”、“家有小孩”、“单身青年”等类型,然后依据不同的用户画像发起营销。
客户转换率和相关数据追踪是互联网APP和会员系统类基本应用,归因的漏斗分析是一套流程式步骤,比如直播用户从激活APP开始到花费,漏斗能够展现出各个阶段的转化率,通过漏斗各环节相关数据的比较,能够直观地发现问题所在并找到优化方向。
四、基于互联网金融的征信反欺诈
美国个人信用评估起源较早,在上世纪50年代形成了为金融零售商提供分析的公司,FICO(FairIsaacCorporation)个人评分如今成为美国放款的重要指标之一。我国个人征信评分起步较晚,目前比较典型的是芝麻信用。
反欺诈业务策略实质就是预测贷前欺诈的概率,互联网大数据征信评分模型中,主要应用的有神经网络,随机深林和logistics回归分析等。
神经网络模型在预测准确率和稳健性方面有自身的优势。征信的神经网络评估模型主要纳入了金融交易数据和社交关系数据,形成以金融数据为中心其他数据为补充的征信评分。目前我国的在线征信和资质审查已快速展开,基于互联网大数据的反欺诈评分,已经成为贷前风控的重要依据,比如在线金融的“秒贷”就利用反欺诈评分来快速完成审批和放款。
五、结语
基于互联网大数据分析的金融征信反欺诈建模是互联网海量大数据建模分析的一个典型应用,其特点是数据维度多,来源广泛且需要底层分布式大数据架构。在上层算法分析模型方面有选择性的构建适合于征信处理的神经网络模型,使得评分可被金融机构采纳并进行高效反欺诈判决。
笔者结合实际工作经验提出数据准备优化的路径。对于区域封闭的行业数据如交通客服数据,交通装备数据,医疗诊断数据,病人回访数据,金融交易数据,金融画像数据等可形成统一数据标准,严格按照国家或行业标准来建设和治理。对开放的互联网数据,要加强采集机构和大型企业的监管,也要打破委办局之间的隔阂,做好大数据业务生态鼓励更多的企业和个人的创新使用。
大数据分析与数据处理岗位一般分为业务条线和IT技术条线,业务人员要求精通业务,能够依据应用构建业务建模和梳理业务策略。IT技术线主要分为数据准备维护类,数据建模实现类IT人员。针对高职学生的主要大数据分析岗位一是在业务线,成为业务能手;二是在开发条线,主要是数据维护类相关工作。针对高职学生的大数据分析建模IT能力主要是建模和数据呈现类工具使用,成为熟练的企业“提数”操作人才。
互联网大数据既要融合共享,又要结合有偿和免费利用;既要做到人人提供数据,又要遵循法律法规对于敏感数据需授权使用。
参考文献:
[1]于曉阳.互联网+大数据模式下的征信—以芝麻信用为例[J].北方金融,2016,(11):73-75.
[2] 吴俊一.基于logistic回归的信用反欺诈预测模型[J].价值工程,2020,(1):206-210.
[3] 仵伟强,后其林.基于机器学习模型的消费金融反欺诈模型与方法[J].现代管理工程,2018,(10):51-53.
[4] 盛杨燕,周涛.大数据时代[M].杭州:浙江人民出版社,2012.
[5] 邓杰.Hadoop大数据挖掘从入门到进阶实战[M].北京:机械工业出版社,2018.
[6] 纪贺元.数据分析实践[M].北京:机械工业出版社,2017.