携程金融大数据风控算法实践

2019-12-09曾凡祥

中国信息化周报 2019年42期

曾凡祥

模型一定是基于业务的，首先介绍携程的业务情况，即本文所提及模型的实际应用场景。携程金融主营业务有三大模块：消费金融包括消费分期（拿去花）和现金分期（借去花）;信用卡;供应链金融。模型亦是基于完善的技术平台的，携程金融数据中台可以抽象为三个层次，底层是基础数据层，中层业务抽象模型层，以及最上层的算法模型层。

携程金融大数据中台的抽象结构

中台这个概念早期是由美军的作战体系演化而来的，技术上所说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。比如电商领域，经过十几年的发展，组织庞大而复杂，业务不断细化拆分，也导致野蛮发展的系统越来越不可维护，开发和改造效率极低，也有很多新业务不得不重复造轮子，因此业界诞生了不少知名中台系统，最著名的是阿里云的数据中台建设。在携程金融内部，大数据中台的目标是为了解决效率问题，同时降低创新成本。

中台的目标，是减少沟通成本，提升协作效率。中台的实现手段：制定标准/规范、提供高可用数据/算法/应用服务、提供统一、标准的数据研发工具。中台的原则：数据资产的集中管控，分布式执行。携程金融的数据中台收集了包括携程OTA整个生态环境数据，框架的最底层是计算与存储资源层，其上是数据准备层，融合多数据源，并对其做了抽取、清洗，能够提供在线与离线的服务，使其能够为用户画像、特征引擎提供基础数据，并应用于模型算法。基础数据、用户画像、特征集市、模型服务这些内容以数据资产的形式来管理。基于这些数据资产，可以为各个业务线——获客、准入、经营、留存的全生命周期提供各种服务。

携程金融大数据中台全景

消费金融的风险大体可分为可控风险及不可控风险，算法能解决的主要是可控风险。可控风险包含欺诈风险、信用风险及作业风险。其中，欺诈风险指的是客户在发起借款请求时即无意还款，按照人数可以分为团伙欺诈和个人欺诈，欺诈者往往通过伪造身份信息、联系方式信息、设备信息、资产信息等方式实施欺诈;信用风险指的是借款人因各种原因未能及时、足额偿还债务或银行贷款而违约的可能性。不可控风险包括市场风险、实质风险及名义风险。

风控模型贯穿获客、准入、经营、逾期的整个客户生命周期，根据用户生命周期的不同阶段，可将风控模型分为贷前信用风险模型、贷中行为风险模型、欺诈检测及贷后催收模型。事实上，抓住信贷审批管理就能控制80%的风险，一旦用户获得授信，后续的管理只能控制20%的风险。除此之外，贷前、贷中、贷后不同场景，可以从不同的观测粒度进行建模与抽象。

拿携程金融的业务来讲，可以从每一笔交易角度来看，也可以从携程生态中用户账户来看，也可以从自然人概念为核心的客户级别来看。一个自然人客户与账号可以是一对多的关系，一个账号与交易也可以是一对多的关系。

携程金融风控模型体系

如今在银行、消费金融公司等各种贷款业务机构，普遍使用信用评分，对客户实行打分制，以期对客户的风险水平有一个准确的判断，并作为风险定价的重要手段。行业内常用的是ABC三张评分卡。A卡、B卡、C卡分别表示：申请评分卡（Application Score Card），行为评分卡（Behavior Score Card），和催收评分卡（Collection Score Card）。

A卡在获客过程中用到的信用风险模型。从模型的角度来看，它会对用户未来一定周期内的逾期风险作预测，即模型会在用户授权的情况下收集用户多维度的信息，以此来预测逾期概率。预测的逾期概率被用于风控策略或者转换成信用评分，比如国外经典的FICO评分，国内的蚂蚁信用评分、京东小白评分、携程金融的程信分等。A卡评分除了用于决定是否通过用户的信用申请，还用于风险定价，比如额度、利率等。

B卡行为评分是指，用户拿到信用额度后，模型根据用户的贷中行为数据，进行风险水平的预测。本质上讲，这个模型是一个事件驱动的模型，在互联网金融领域，一般会比A卡的预测时间窗口要短，对用户的行为更为敏感。B卡除了可以用于高风险用户的拦截，也可以作为额度、利率调整的重要参考因素。

C卡催收评分会判断，例如当用户出现逾期时，机构应该先催谁，或者哪些用户不用催，就自动会把钱还回来。催收模型一定程度节约催收成本，提高回催率。

贷前主要解决用户准入和风险定价问题，即面对一个新申请的进件用户，判断用户是否符合产品的放款条件及相应的放款额度、价格、期限等问题。主要包括三类问题：反欺诈识别：根据用户提交的材料进行身份核实，确保用户不存在欺诈行为;信用评级：与传统银行的信用评分卡原理类似，数据维度更加丰富，综合用户的社交数据、行为数据、收入数据等，判定用户的信用风险等级，评估用户的履约能力;风险定价：根据用户的负债能力和收入稳定性，判断用户可承担的月供金额，确定用户的放款额度、偿还期限等，并根据用户风险等级确定用户的费率。这三个问题往往是互相影响、互为前提的。举个简单的例子，对一个月收入3000元的用户来说，月供在1000元左右，用户可能履约良好，信用等级良好;但如果月供提高到4000元，严重超出了其收入水平，即便不是有意欺诈，也可能出现断供的情况，从而得到比较差的信用等级。

携程金融在（A卡）上的演进和创新

A卡建模目前包括如下几方面：确保策略的一致性，尽量减少人工干预，并利用机器学习的优势提升决策效率;准确反映并量化用户的风险级别，策略人员可以控制和减少风险损失，因此对评分卡等级的排序能力、稳定性要求会比较高。

好坏用户定义，可能是A卡及大部分风控模型的最基础最核心的工作。对样本标签的定义，需要与实际业务场景、策略目标相一致，并综合考虑不同定义下的样本量。比如在现金分期场景中，可以画一下用户回款率（或者滚动率）和逾期天数趋势分布曲线，用户逾期N天以后回款率或者滚动率便已经趋于稳定（梯度平稳），则可以N天以上逾期作为筛选壞样本的依据。在某些场景下，如曾经的Payday Loan，由于整个业务周期只有半月或1个月，为加快模型迭代速度，有时甚至会定义7+甚至1+逾期用户为坏客户。在一些银行场景中，出于坏账计提考虑，可能定义90天以上逾期为坏客户。总之，好坏用户的定义不能单纯靠人工经验，应该以场景的数据为基础，进行数据分析之后确定。

下面介绍关于样本规模与算法演进。携程金融的业务最早开始于2015年，模型进行了多个版本的迭代。业务初期，样本数据量极少，往往根据相关业务经验确定使用的特征和规则;随着数据的慢慢积累，开始采用部分精细特征，使用简单的机器学习算法训练;当样本数据量积累到百万级以上，我们尝试采用神经网络算法进行特征自动提取或者end-to-end的风控模型训练;从2018年上半年开始，我们升级到更加先进的迁移学习体系，未来会持续落地更多的前沿算法。总之，携程金融的风控模型优化的过程，实质是紧随着业务从无到有、从小到大，数据量由少变多，特征由粗到细，模型由简单到复杂，效果由一般到突破的过程。