携程金融大数据风控算法实践
2019-12-09曾凡祥
曾凡祥
模型一定是基于业务的,首先介绍携程的业务情况,即本文所提及模型的实际应用场景。携程金融主营业务有三大模块:消费金融包括消费分期(拿去花)和现金分期(借去花);信用卡;供应链金融。模型亦是基于完善的技术平台的,携程金融数据中台可以抽象为三个层次,底层是基础数据层,中层业务抽象模型层,以及最上层的算法模型层。
携程金融大数据中台的抽象结构
中台这个概念早期是由美军的作战体系演化而来的,技术上所说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。比如电商领域,经过十几年的发展,组织庞大而复杂,业务不断细化拆分,也导致野蛮发展的系统越来越不可维护,开发和改造效率极低,也有很多新业务不得不重复造轮子,因此业界诞生了不少知名中台系统,最著名的是阿里云的数据中台建设。在携程金融内部,大数据中台的目标是为了解决效率问题,同时降低创新成本。
中台的目标,是减少沟通成本,提升协作效率。中台的实现手段:制定标准/规范、提供高可用数据/算法/应用服务、提供统一、标准的数据研发工具。中台的原则:数据资产的集中管控,分布式执行。携程金融的数据中台收集了包括携程OTA整个生态环境数据,框架的最底层是计算与存储资源层,其上是数据准备层,融合多数据源,并对其做了抽取、清洗,能够提供在线与离线的服务,使其能够为用户画像、特征引擎提供基础数据,并应用于模型算法。基础数据、用户画像、特征集市、模型服务这些内容以数据资产的形式来管理。基于这些数据资产,可以为各个业务线——获客、准入、经营、留存的全生命周期提供各种服务。
携程金融大数据中台全景
消费金融的风险大体可分为可控风险及不可控风险,算法能解决的主要是可控风险。可控风险包含欺诈风险、信用风险及作业风险。其中,欺诈风险指的是客户在发起借款请求时即无意还款,按照人数可以分为团伙欺诈和个人欺诈,欺诈者往往通过伪造身份信息、联系方式信息、设备信息、资产信息等方式实施欺诈;信用风险指的是借款人因各种原因未能及时、足额偿还债务或银行贷款而违约的可能性。不可控风险包括市场风险、实质风险及名义风险。
风控模型贯穿获客、准入、经营、逾期的整个客户生命周期,根据用户生命周期的不同阶段,可将风控模型分为贷前信用风险模型、贷中行为风险模型、欺诈检测及贷后催收模型。事实上,抓住信贷审批管理就能控制80%的风险,一旦用户获得授信,后续的管理只能控制20%的风险。除此之外,贷前、贷中、贷后不同场景,可以从不同的观测粒度进行建模与抽象。
拿携程金融的业务来讲,可以从每一笔交易角度来看,也可以从携程生态中用户账户来看,也可以从自然人概念为核心的客户级别来看。一个自然人客户与账号可以是一对多的关系,一个账号与交易也可以是一对多的关系。
携程金融风控模型体系
如今在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户的风险水平有一个准确的判断,并作为风险定价的重要手段。行业内常用的是ABC三张评分卡。A卡、B卡、C卡分别表示:申请评分卡(Application Score Card),行为评分卡(Behavior Score Card),和催收评分卡(Collection Score Card)。
A卡 在获客过程中用到的信用风险模型。从模型的角度来看,它会对用户未来一定周期内的逾期风险作预测,即模型会在用户授权的情况下收集用户多维度的信息,以此来预测逾期概率。预测的逾期概率被用于风控策略或者转换成信用评分,比如国外经典的FICO评分,国内的蚂蚁信用评分、京东小白评分、携程金融的程信分等。A卡评分除了用于决定是否通过用户的信用申请,还用于风险定价,比如额度、利率等。
B卡 行为评分是指,用户拿到信用额度后,模型根据用户的贷中行为数据,进行风险水平的预测。本质上讲,这个模型是一个事件驱动的模型,在互联网金融领域,一般会比A卡的预测时间窗口要短,对用户的行为更为敏感。B卡除了可以用于高风险用户的拦截,也可以作为额度、利率调整的重要参考因素。
C卡 催收评分会判断,例如当用户出现逾期时,机构应该先催谁,或者哪些用户不用催,就自动会把钱还回来。催收模型一定程度节约催收成本,提高回催率。
贷前主要解决用户准入和风险定价问题,即面对一个新申请的进件用户,判断用户是否符合产品的放款条件及相应的放款额度、价格、期限等问题。主要包括三类问题:反欺诈识别:根据用户提交的材料进行身份核实,确保用户不存在欺诈行为;信用评级:与传统银行的信用评分卡原理类似,数据维度更加丰富,综合用户的社交数据、行为数据、收入数据等,判定用户的信用风险等级,评估用户的履约能力;风险定价:根据用户的负债能力和收入稳定性,判断用户可承担的月供金额,确定用户的放款额度、偿还期限等,并根据用户风险等级确定用户的费率。这三个问题往往是互相影响、互为前提的。举个简单的例子,对一个月收入3000元的用户来说,月供在1000元左右,用户可能履约良好,信用等级良好;但如果月供提高到4000元,严重超出了其收入水平,即便不是有意欺诈,也可能出现断供的情况,从而得到比较差的信用等级。
携程金融在(A卡)上的演进和创新
A卡建模目前包括如下几方面:确保策略的一致性,尽量减少人工干预,并利用机器学习的优势提升决策效率;准确反映并量化用户的风险级别,策略人员可以控制和减少风险损失,因此对评分卡等级的排序能力、稳定性要求会比较高。
好坏用户定义,可能是A卡及大部分风控模型的最基础最核心的工作。对样本标签的定义,需要与实际业务场景、策略目标相一致,并综合考虑不同定义下的样本量。比如在现金分期场景中,可以画一下用户回款率(或者滚动率)和逾期天数趋势分布曲线,用户逾期N天以后回款率或者滚动率便已经趋于稳定(梯度平稳),则可以N天以上逾期作为筛选壞样本的依据。在某些场景下,如曾经的Payday Loan,由于整个业务周期只有半月或1个月,为加快模型迭代速度,有时甚至会定义7+甚至1+逾期用户为坏客户。在一些银行场景中,出于坏账计提考虑,可能定义90天以上逾期为坏客户。总之,好坏用户的定义不能单纯靠人工经验,应该以场景的数据为基础,进行数据分析之后确定。
下面介绍关于样本规模与算法演进。携程金融的业务最早开始于2015年,模型进行了多个版本的迭代。业务初期,样本数据量极少,往往根据相关业务经验确定使用的特征和规则;随着数据的慢慢积累,开始采用部分精细特征,使用简单的机器学习算法训练;当样本数据量积累到百万级以上,我们尝试采用神经网络算法进行特征自动提取或者end-to-end的风控模型训练;从2018年上半年开始,我们升级到更加先进的迁移学习体系,未来会持续落地更多的前沿算法。总之,携程金融的风控模型优化的过程,实质是紧随着业务从无到有、从小到大,数据量由少变多,特征由粗到细,模型由简单到复杂,效果由一般到突破的过程。