机器人对战网络欺诈
2017-08-16陆佳裔
陆佳裔
欺诈自古有之,到了互联网上,欺诈的行业更为集中,并且形成了一条产业链。上游是黑客,他们通过挖掘平台的漏洞、编写木马入侵客户的终端获得数据,中游是购买数据的欺诈团伙,下游是黑色产业链的各种周边组织,它们洗钱、收卡、贩卖身份等。
猛犸反欺诈在做的,就是在互联网平台上从海量的用户中揪出那些有异常行为的欺诈分子,向商家发出预警。猛犸反欺诈是一家提供SaaS服务,以保护企业互联网及移动业务安全为目标的数据技术公司,通过抓取互联网上用户的行为轨迹,使用这些大数据去分析。
“过去判断好人和坏人,要听其言和观其行,在互联网上,行为数据则提供了大量的信息让人判断对方是不是他声称的那个好人。”猛犸反欺诈的创始人张克告诉《第一财经周刊》。
猛犸把分析的过程交给了机器—你可能并不知道这些数据各自代表了什么,但是机器自动跟踪分析后,根据模型在不同点位的分布,能自动发现异常的情况,并予以预告和提醒。就像给企业的风控安上了一连串烽火台,机器学习成了那些看不见的哨兵。
这些欺诈分子大多出现在游戏、O2O和互联网金融等平台,在张克看来,离钱越近越危险。
张克曾在思科担任SaaS产品总监,后来跳槽到移动网络广告公司 Madhouse成为DSP事业部负责人。为了实现广告的精准投放,张克和他的团队开发了一套Real Time Bidding系统,用于实时预测用户转化概率并出价购买广告机会。简单说来就是分析用戶和点击量之间的关系,找出谁是目标广告客户,并预测他们下一次点击同类广告的概率。比如当一个广告推送后,团队通常会统计200毫秒内点击广告的客户数量,以及这些客户来自什么渠道,然后给这些源自不同渠道的用户数据打上标签,整合到广告公司的平台上。
通过机器建模后的用户行为分析,张克的团队就能帮助公司预测,用户下一次点击同类广告的概率,以此给出一个建议公司购买该广告的金额。
这套技术系统在鉴别好人、预测谁是广告公司目标客户的同时,需要发现广告中的虚假点击和注册,两者的原理和技术相似,后来成了猛犸反欺诈的灵感。它们原理相似,但是目标对象、底层数据以及模型结构都完全不同。广告主要找到目标受众,预测他们购买的几率,而猛犸要找到目标欺诈者,从他们的行为轨迹中嗅到欺诈的痕迹。意识到广告行业远远无法满足这套技术的应用后,2014年11月,张克离职创办了猛犸反欺诈(下简称“猛犸”)。
不过离职创业的最初,这家技术驱动型公司却为应用场景发了愁。如果用在广告上太浪费,那么什么行业才能最大化它的效用呢?张克和团队最初为猛犸找了5个应用方向。比如做数据交换平台,类似现在的贵州大数据交易所,再比如DMP的广告流量分发,或者像友盟、TalkingData等应用分析类的数据平台。然而这些设想一一夭折。数据交换平台目前多由政府主导,自己做容易越界;DMP是典型的广告行业生意,没有数据源寸步难行。至于应用分析类平台—猛犸成立3个月内,张克发现有3个校友在做同样的事,它技术门槛不高,且已经成了红海。
团队最后把猛犸的定位聚焦在了反欺诈上,做“以机器学习驱动的反欺诈产品”。其核心依然是利用技术,对用户行为做预测。
猛犸要打击的就是位于产业链中游的欺诈团伙,这套反欺诈系统主要应用在线上可以产生交易的环节,这里的交易是泛指,包括从最前端的注册开始,再到登录,最后到支付等步骤。欺诈主要分为“薅羊毛”、代充值、刷单和消费金融的恶意套现,主要集中在O2O、游戏和互联网金融领域。
如果说广告行业的欺诈还停留在点击量作假,只是骗取流量,那么到了O2O、游戏等行业,薅羊毛、刷单、代充值等欺诈带来的是切实的损失。以薅羊毛为例,别看“利润微薄”,猛犸的一个客户曾发现一天内损失30余万元,源头就是单价1角的系统漏洞。羊毛党利用漏洞,一天刷单了300万次。
“越接近钱的地方,越危险”,张克说。互联网金融领域的欺诈和薅羊毛的小额高频不同,频率低、金额大,出现一笔欺诈,就意味着至少1000元无法收回。因此风控问题是大部分互联网金融平台存亡的关键所在。根据芝麻信用的一份调查,消费金融、互联网金融公司的坏账损失超过50%来源于欺诈,身份冒用类欺诈占比最高,其次是团伙欺诈,其余的还有账户盗用、恶意违约等。
“更难以监督的是,欺诈产业链并没有按行业划分,而是按钱划分,哪里有钱去哪里。”雷晓川告诉《第一财经周刊》,和张克在广告公司共事两年后,他加入猛犸,成为合伙人之一。他发现,电商的刷单和游戏的刷单薅羊毛,背后极有可能是同一拨人。这些作案团伙分工有序,有些负责刷量,有些负责盗号,还有的就从业务中薅羊毛。根据不同的欺诈行为,有人负责提供技术,有人负责设备,还有人管理外围服务,甚至还有一套专业的“如何造假”系列培训。
张克最初的目标是金融业。在他看来,从广告、游戏、电商到金融,欺诈有个循序渐进的过程,终点就在金融行业。尤其在金融业整体由实体转向虚拟,带火了P2P、消费金融、现金贷等互联网金融的大环境下,传统的风控手段成本越来越高,跟不上欺诈者的新花样,只有依靠技术才能解决这些问题。
不过猛犸最先切入的却是O2O和游戏领域。
2014年年末,当时公司算上张克,只有四五位员工。在没有规模、没有案例的情况下,没有金融公司愿意使用猛犸的产品,哪怕是免费的。张克只能从身边的朋友入手,托熟人送出免费的系统测试。
后来并入滴滴出行的快的公司,是猛犸早期的几家客户之一,也是其中体量最大的一家。羊毛党们为了获得当时几家打车平台因竞争而产生的高额补贴,导致快的沦为了其中刷单的重灾区。猛犸为快的提供了底层的设备识别服务,即通过用户所使用的移动终端产生的数据,来鉴别刷单和虚假注册。
在这套系统中,猛犸所使用的底层规则是通用的。比如说对行车路径的判断,就可以用在外卖、交通、打车、物流等各个领域。决定最终使用情况的,是不同应用场景下的计算模型和参数。比如根据行车路径,注册设备在一个小时内完成了上海和北京的单,或者几分钟内完成了几单,但在行车路径上只移动了几百米,这就是一起典型的快的欺诈。
猛犸的反欺诈风控和目前主流的黑名单式风控不同。黑名单模式是传统线下风控的线上延伸版本,搜集到各个平台的数据后,找出其中的“老鼠屎”,当他们再次行动时就发出警报。在黑名单的基础上加入白名单,经过大数据之间的交叉验证,找到欺诈者。
但这样做的问题是,黑名单的数据需要经过相当长时间的积累。以张克创业的时间点来看,在他之前已有数家公司在做同样的事,再加入显然为时已晚。更何况当时的团队太小,且员工基本都是做技术出身的,积累黑名单需要的核心能力却是商务谈判能力。
除开天然的限制,张克认为黑名单有其自身的缺陷,需要其他的风控策略来补充。搜集到的10个公司的数据都关联了同一用户,其中5家说这个人是女性,还有4家验证是男性,剩余1家没有标注,那么这位用户的标签,交叉验证后,是男是女呢?再比如,如果同一个用户,在互联网金融平台上实施欺诈,但是在游戏行业又特别“忠诚”,这时候黑名单该如何归类?张克认为,这是黑名单和交叉验证的盲区。于是猛犸索性不贴标签,让机器根据用户的行为自动判断。
从一开始,猛犸就没有采用黑名单模式“主动”拦截,而是让机器去搜集用户的“特征”,被动学习。张克为这种技术起了个专业而拗口的名字:“全栈被动式设备指纹识别”。
在传统的线下风控中,这种识别“特征”的方式,我们称之为人工“经验”。它相当于把风险前置了。“特征”识别相当于签证官在申请人与交流时,如果发现对方有移民倾向,给出的拒签,而“黑名单”是事后发现对方在国境内逾期逗留,下一次再拒签。这和黑名单属于两种不同的风控手段。
要让机器识别特征,就要转换成它们听得懂的语言。让机器自动习得人工经验,并提前防控,这就是特征学习,它让转换后的数据能被更好地理解和运算,方便我们从貌似杂乱无章的原始数据中找出那些可疑的异常数据。
官网上目前已经公布的与手游行业客户合作的数据经过了把猛犸产品的实时动态筛查结果与客户现在应用的人工审核结果一一比对。过程验证结果显示,Maxent预警的欺诈事件数量是人工审核的3倍,对欺诈设备和交易的识别准确率高于95%,这一结果有效地防止了9.7%的坏账损失。
和所有创业公司遇到的问题一样,即使有技术护航,猛犸依然遇到了缺钱、缺人的难题。尤其对于技术公司而言,前期的人力成本投入巨大,难度也最大。七八个创始员工在一个十几平方米的联合办公空间待了近一年后,最初的资金快花完了,再继续免费策略,看起来也无法为公司创收。
经朋友推荐,2015年8月张克带着猛犸参加了微软加速器的选拔,从1000多家参赛公司中,留到了最后,成为入围的18家公司之一。他希望能借助比赛,获得业界对其技术的认可。微软加速器给猛犸做了背书,证明这家不到10人的公司不是瞎忽悠,同時也带来了资源。经过加速器的孵化后,猛犸获得了第一个银行客户,浦发银行。半年后,DCM投资副总裁高凯健在整理微软加速器名录时,发现了这家做智能反欺诈的公司,并在后续的A+轮领投5000万元。
此时,猛犸也迎来了第一个付费客户,萨摩耶金服。在服务了30个左右的公司客户,积累了五六千万的数据,且和萨摩耶金服磨合了近半年后,终于有公司愿意付费使用产品了。
“我们挑了块硬骨头在啃。”获得新一轮融资后,张克依然显得很谨慎。虽然不需要买入黑名单,但是机器学习依然需要喂数据做训练。这部分数据通常来自合作伙伴,数据越多,系统越了解大多数人的行为模式。
“硬骨头”指的是数据清洗,这是猛犸要做智能分析绕不开的一个坎。在技术上,数据清洗并不是难点,却是鲜少有人愿意干的脏活累活。它需要人工一个个手动打标签、梳理,比如把来自不同平台的数据的格式统一,变成机器能够识别的语言,这样才能让机器自动学习。从理论上来说,合作客户越多,数据清洗的工作量越大。
从去年下半年开始,猛犸把重心从特征识别,延伸到了关联图谱的制作上。如果“一天在上海打开某App 100次”,可以视为上述所称欺诈者的一种特征,那么关联图谱指的是,找到这个欺诈分子伪造的身份。以地址为例,猛犸曾用关联图谱将地址信息逐渐分段,从省区市县到一条街道的门牌号都在其中。如果某一个团伙伪造了100个身份,那么他在某一区域中的所有地址会被关联在一 起。
“当时客户怀疑我们做错了,因为并没有给到我们任何与交易相关的数据。但是通过行为数据我们把完全不同的信息归纳在同一个人上,一个个打电话验证,发现是同一个人拿着不同的身份多次借款。”张克说。不过他并未提及关联图谱的准确率。
大数据已经成为一片红海,但张克并不担心竞争。相比承认自己经营的是一家大数据公司,他更愿意称猛犸是一家技术公司。张克也不怕听到客户拒绝的理由是“这种技术太新,没有听过”,他只怕卖的是没有任何特点的产品。但到目前为止,据他说,“国内还没有任何一家公司和我们在做同一件事情。”