大数据与智能反欺诈应用建议
2017-05-30田江
田江
银行业一直以来备受各类欺诈交易困扰,仅银行卡欺诈每年造成的损失就逾百亿元,欺诈率高达万分之二。欺诈交易—旦发生,不只扰乱银行的正常经营,也会对银行声誉造成极大影响。
通常银行采用专家规则、黑名单库等方式对欺诈风险进行防范,而传统的专家规则有许多待提升空间。首先,专家经验得出的规则存在局限性,不可能枚举所有业务场景,无法对各类交易进行全面覆盖。其次,欺诈者会针对性地对已有规则进行回避,专家规则处于被动调整的位置,无法跟上欺诈手段的更新换代。最后,规则积累达到共定数量后,误报率较高,会影响实际风险决策的制定。
传统欺诈主要包括申请欺诈和交易欺诈两种类型,近年来电子渠道欺诈和团伙欺诈成为新的关注重点。在实践过程中嘗试深入应用大数据,分别针对申请欺诈和电子渠道欺诈建立智能化模型,在机器学习技术的支持下实现点的突破。建模思路是从数据中提取客户多维度异常模式,探索大数据反欺诈规则,并逐步实现智能、主动、精准、全覆盖的异常识别功能。
智能化反欺的典型技术
通过大数据的积累和应用,综合反欺诈规则和智能模型,建立全面反欺诈体系。模型通常包括监督和无监督两种,对应不同的反欺诈场景。开篇提到过两个模型,第一个是结合社交网络分析和信用评分技术构建的申请反欺诈的量化预测模型。第二个是基于机器学习技术构建的渠道行为反欺诈模型。整体效果都还可以。
社交网络分析技术对风控和反欺诈能够发挥很好的作用,在各个银行都有类似的探索和应用。更多的数据和更强的算法,使得简简单单的信息组合就能帮助银行提升欺诈风险管控能力。更强的算法体现在机器学习、复杂网络、自然语言处理等领域。下面介绍几项典型的Al或大数据分析技术:
(一)聚类分析。这种典型的无监督学习方法,是利用好坏客户人群区分度高的特点,将所有客户分为两个聚类。同一聚类中的客户相似度较高,而不同聚类间的客户相似度较低。选取客户数目少的聚类作为异常客户,每个异常客户到正常客户聚类中心的距离即为客户异常评允评分越高越异常。
(二)自编码网络。一种深度学习中的无监督方法,利用反向传播算法训练中间层,使得目标值尽可能等于输入值。对于总体数量占比较少的异常客户,在训练网络过程中会损失较多信息,比较每个客户损失量的多少给出异常客户的可能性和排名。自编码网络算法能自动生成较多交叉项,提炼出深层次的指标特性。
(三)社交网络分析。此分析融合多学科理论和方法,为理解各种社交关系的形成、行为特点分析,以及信息传播规律提供了一种可计算的分析方法。社交网络分析方法旨在建立一个网络与真实世界中实体与关系映射,在银行中的典型应用实体包括客户、账户、员工等。社交网络分析通常关注静态和动态两个层面的网络特征。静态特征包括提取网络指标、对网络特征进行刻画、识别网络群组等;动态特征主要包括描述网络如何随时间推移进行扩散、如何影响其他节点等。
智能反欺诈应用建设的几个建议
(一)关于外部数据的使用。外部数据对于反欺诈规则、客户网络构建有重要作用。传统银行在引入外部数据的时候—定要慎重,而互联网金融公司因监管压力稍松缓些,可相对灵活地引入。数据引入企业内部后应确保是受控下的使用,使数据管理和数据应用保持一定的平衡。数据安全相关的IT系统建设是必须的,对应管理制度、流程规范也要进行完善。
(二)关于科技与业务人员的主导地位。对于传统IT视角的系统开发流程而言,自然是以业务需求为主导,科技部门建立开发过程管理机制,确保系统建设的工期和质量。系统开发目标中最重要的部分是实现业务流程,也就是实现银行业务开展电子化。只有业务需求方明确具体的流程,IT系统支持业务才能正常开展。
传统IT系统视角和大数据下的DT视角是有很大区别的。之前也讲了数据资产关注传导和增值,在数据挖掘领域,以及最新的智能化领域必须由具备技术和业务综合能力的人来主导需求到部署的全流程。这也是为什么现在顶级的Fintech公司都在向Techfin转化的部分原因。此转化的目标是为实现业务的数字化或智能化,从数据发掘智慧以支持业务优化,并在有条件的情况下输出生产力,为企业带来新的利润增长点。对传统业务人员来说,更重要的是发现能够与大数据结合的业务问题。具备综合能力的数据科学家负责将这个业务问题转换成数据挖掘或人工智能问题。这些DT时代的需求,相比制定业务流程的难度和复杂度要大多了。同时,对业内人员的综合素质要求也较高。
(三)关于知识共享与技术支持。大数据时代的特点就是兼容并包,企业智能化转型的过程中要吸收外部知识,适时补充外部的数据。个人也是如此,技术飞速发展,理念层出不穷,必须不断吸收新的知识强化自己。保持开放的心态,加强内外部合作,才能立于不败之地。
(四)关于大数据时代的数据治理。没有明确的应用需求就开始建设数据湖,大兴土木搞hadoop集群,这样的例子听过不少吧。大数据背景下数据治理需要承担更多的职责,除了传统的数据标准和数据质量要强化外,还应更关心企业层面的数据架构、应用架构。数据治理的第一项主题就是制定和贯彻数据战略,从这个层面对整个数据体系进行管控和指导。
(五)关于数据挖掘的发展策略。依靠机器学习技术实现点的突破,加强业务人员的信心,为更大的智能化项目奠定基础,然后通过数据的持续积累,逐步实现由点到面的发展。此外,还要建设必备的机制流程来保障工作的有效开展,这是智能化模型铺开建设的基础条件。在从点到面发展的过程中,还要培养从用数据到养数据的习惯,数据的闭环对应着发展空间和应用潜力。
(六)关于四大行与BATJ的合作。现状非常热闹,但要冷静思考。如果是业务上的合作,各取所需,自然是好的。可如果标榜的是Fintech合作,那就需要细细品味了。对传统银行来说,建议还是先把小数据用好,把shallow learning玩透。若非要发展Fintech的话,可参考一种曲线模式—一在体制外投资金融科技公司,孵化创新项目再反哺到体制内,这种模式可行性较好,具体操作可借鉴国内外成熟范例。