大数据,大侦探
2016-11-21陆佳裔
陆佳裔
2010年,蒋韬在硅谷出差时刷的一笔信用卡让他记忆犹新。不是因为在硅谷,也不是因为这笔交易的额度特别大,而是他竟然收到国内银行的来电,确认这笔操作是否由他本人完成,随后这笔消费才被通过。要拦截这笔交易,背后一定有个强大的风控团队,当时蒋韬还在刚起步的阿里巴巴风控部工作,除了能帮助企业减小损失,他从普通用户的角度也发现了风控的重要性。
当时为银行服务的多是一些国外的风控机构,它们的数据来源更为广泛,而国内的数据往往集中在金融、电商等少数领域。经常和数据打交道的蒋韬发现,如果只拥有单一领域的数据,判断的维度有所局限,并且大多是在欺诈事件发生后才能列出黑名单。如果能搜集到全行业的数据,就有可能预判出嫌疑人。但国内的机构通常不愿意共享数据,哪怕是互联网巨头,要收集到自身领域之外的数据也并不容易。因为其他行业的巨头也会担心,现在看似毫无关联的公司,在未来很难说不会成为对手。
蒋韬想让数据流动起来。假如有一家机构不做电商、信贷、P2P等,并能在所有机构间承担风险共享风险传递的作用,那么价值会非常大。“这样就可以打破割裂形成的数据孤岛。如果各行业的数据能打通,不诚信、欺诈的行为就没有这么容易了。而要打通这些数据,实现风险的共享,只能够靠第三方的中立机构去完成。”蒋韬告诉《第一财经周刊》。如果能打通全行业的数据做建模,就能建立多个指标和维度,不仅可以发现诸如卡被盗刷的风险,还可以预先发现风险,提前拦截。
想明白了要做全行业的数据生意,2013年,他从阿里巴巴离职后创办了同盾科技。
这个想法让有着多年电商从业经验、明了欺诈给企业带来的困扰的吴海燕动了心。吴海燕明白,电商、互联网金融和O2O领域,是需要反欺诈服务的重点行业。她后来成为了华创资本的管理合伙人。2013年年初,互联网金融才刚兴起,国内还没有第三方风控出现,她判断这个事能做,于是和IDG一起,给了同盾科技千万级的天使投资。
2013年成立之后,这家总部位于杭州的公司在不到3年间,接入了超过5000家客户,完成4轮融资。目前,它主要服务金融领域,同时也涵盖航旅、电商和游戏等多各行业客户。
普通用户可能每天都在使用它的服务,也感知不到这家做风险识别和预判机构的存在。只有接入它们后台大数据的B端企业,才可能从每天变化的数据中去发现拦截建议的效果,继而更好地服务用户。根据不同场景,拦截建议不仅是在事后列出黑名单,更会在欺诈分子行骗之前,就把他们找出来。比如揪出羊毛党、锁定盗你卡的目标对象、挖出总是给你发送垃圾内容的供应商、鉴别电商中的虚假交 易等。
同盾科技总部背景电视上跳动的数字,或许能更清晰地解释这家公司目前在做什么。这块找不到任何开关或按钮,只能由专人登录安全系统来打开的电视上,显示的是一张中国地图。若存在安全风险,在地图上就会跳出红色的小圆点。你能很容易地根据小红点的数量,以及各类指标的跳动,监控当下的欺诈事件,并给出预警。不过蒋韬对这个每5分钟刷新一次的系统并不满意,他希望下一代的更迭能精确到实时。
有数据就能鉴别是谁在使坏,这件听上去很复杂的事情就是同盾科技目前在做的大数据风控—利用跨行业多维度的数据,为企业建立风控模型,然后为它们解决信贷风险和欺诈风险。用更直白的话来说,就是用数据来分析预判你是好人还是坏人,然后告诉企业你安不安全。
目前推出的“智信分”系统可以识别用户有多“好”,比如在申请一笔银行贷款时,背后就有这套模型给出的建议,根据用户行为判定信用等级,判断放贷或是拒绝。“反欺诈并不是将行骗者绳之以法,而是在欺诈行为发生之前就将其制止。”蒋韬说。目前,同盾科技鉴别刷单行为的准确率已经高达90%以上。当然,这些建议仅仅是给最终放贷的机构做参考,最终的决策权在使用同盾科技服务的机构手上。
要做到这些,关键在于数据和建模,而建模的基础是海量数据的收集。可是真正要做到基于公有云的数据收集,同盾科技内部的管理团队,纠结了一年多。
因为同盾创始团队来自阿里巴巴、PayPal等大公司,不少客户看中他们的技术能力,希望同盾科技能为它们做技术外包,也叫作私有云服务。比如开发一套软件连接到客户的数据库中,做后台分析。这些客户带着能帮助早期创业公司活下去的资金找上门,但条件是数据不能共享,因为它们多在金融领域,对数据“共享”极为敏感。同盾科技的目标却是打通数据做公有云平台,因此需要海量数据建立模型来监测欺诈分子的行为,然后鉴别并抓住他们,这才是实现大数据风控的基础。
蒋韬和他的管理团队知道资金对于一个创业公司有多重要。以一个二三十人的团队为例,最初融资到的千万级种子轮,在半年的时间就可以烧完。有了资金,意味着可以招更多更优秀的工程师优化模型,可以有现金流,甚至估值能更高。可私有云的方向和同盾科技想做公有云的方向背道而驰,并且,私有云尽管能挣钱,但是可复制性不高,每做一个项目都要投入大量的人力。
同盾科技的选择是两条腿走路,先把自己养活了,同时兼做数据储备工作。这也意味着它的数据收集之路并不容易。蒋韬和创始团队没有放弃公有云,它和私有云同时开发。
团队最初的订单几乎都来自蒋韬的朋友圈。靠着朋友介绍,同盾科技做了不少私有云软件外包。不过迫于无奈的生存也无意中锻炼出了研发团队的战斗力。最初的几笔订单,从技术产出、上线到客户认可,帮助团队完成了最初商业上的闭环,团队也学会了去和现在依然是主要客户的金融机构打交道。另一方面蒋韬也承认,如果一开始没有私有云,客户很难对同盾科技有信任感。2013年10月成立的同盾科技最初只有不到6人的团队,5个月后这个数据扩大到了近40人。
“免费”和“见效慢”是那时的关键词,只能从测试优化模型,通过时间积累数据,因此出现在蒋韬口中最多的词成了“优化”和“积累”。他把同盾科技的风控分为三大块:名单、异常分析和交叉验证。名单即最初的基础数据,基本只能靠网上公开抓取,比如把法院的公开信息列入数据库。而异常分析则不需要数据,可以自己做技术研发,比如通过浏览器来跟踪鼠标的轨迹和分析键盘的键入偏好等,这相对容易追踪。最难的是交叉验证,雪球需要滚起来才能变大,意味着只有接入数据的机构足够多,效果才能好。
“如果现在的效果是10,早期可能只有1,所以我们都是免费给公司安装试用。”蒋韬说,尽管早期的客户也并不愿意开放数据,不过在熟人+免费的双通道下,还是有公司愿意尝试。
有了数据后,接下来就丢给机器去学习。“你也不知道欺诈分子会干些什么,不知道具体的欺诈模式是怎样的,只能从一大堆用户行为数据中去分析。”蒋韬说。输入各种变量和维度,比如地点、登录的时间、所用的终端、刷卡的金额后,建模人员就能教会机器发现异常。以一个盗卡的模型为例,它的细分变量多达3000个。发现异常后,机器根据建模的维度综合打分,最后判断是否存在风险。数据的增长和团队研发能力的增强,让揪出欺诈分子的概率增加,误判优质客户的概率减少。
直到签下第一家大客户捷信后,同盾科技才第一次有了底气。当时为了说服这家总部在捷克、注册在天津、中国首批持牌机构之一的消费金融公司,蒋韬的团队花了10个月。
“测,只能硬测。”蒋韬回忆,整个过程就是不断测试调整,最后看测试的效果说话。目前,同盾科技和蚂蚁金服一起,是捷信在中国的战略合作伙伴。所谓测试,就是把同盾科技给出的风控结果和捷信自有风控的结果去对比,看预判和误判的成功率。比如判定结果为“拒绝贷款”的客户,在另一套模型中通过了贷款,并且在约定时间内还款正常,就是一个误判的结果。把同盾科技的数据模型和捷信的模型比对,如果预判和误判相减后的数字能够带来更多正向的收益,就是一个好的效果。
“捷信的风控其实已经做得非常好了,但我们的数据模型不是去跑赢它们,而是相互补充,有交集但是绝不交叉。这就是联防和协防的价值。”蒋韬说。
签下大客户,其他客户的拓展就容易多了,更多公司愿意尝试同盾的服务。和之前一样,同盾也是让它们先测试,看效果付费。得益于2015年互联网金融的集中爆发,同盾科技在这一年的销售数据涨了近7倍。蒋韬认为客户选择同盾科技的原因是,风控和反欺诈的服务让和用户贴近的普惠金融变得更便宜,能解决人员成本和征信成本居高不下的难题。
客户和数据的积累也进一步提升了效果的准确度。同类型的公司在不同的业务中,模型的建立也不同。比如汽车金融,买一手车是消费分期,二手车就是抵押贷款,并且每个客户要求的数据审批率都不同。汽车金融公司的审批率原先的自动化率只有约30%,其余都要靠人力审批,在不断修正数据后,现在可以提高到50%。“你首先要摸清这个行业业务的流程,甚至成为专业人士,才能根据反馈去建立模型。”蒋韬说。
作为一名创业者,蒋韬自己感觉到更多的是同盾科技的慢和纠结,他对同盾科技的发展速度并不满意。不过吴海燕认为“同盾发展得非常顺利”。今年4月,同盾科技又获得由尚珹资本领投、元禾重元跟投的3200万B+轮融资,距离上一轮3000万美元的B轮融资还不足一年,并且前期的启明创投、宽带资本、华创资本、IDG资本、线性资本等投资方均再次参与。
今年,蒋韬的目标是在5000家客户的基础上,在未来的3年内每年保持3至5倍的高速增长。在他看来,未来的发展空间还很大。毕竟,金融的核心是风控,把风控降低1至2个点,对于金融机构的获利相差甚大。而风控的核心是数据和建模分析,有了基础数据的积累,同盾科技的产品效果才会更好。