APP下载

第四范式:AI世界的“先知”

2018-01-15刘佳

科学中国人 2017年11期
关键词:先知范式百度

刘佳

公司介绍:

第四范式是国际领先的人工智能技术与服务提供商。具备国际顶尖的机器学习技术,能够对数据进行精准挖掘与预测,帮助企业实现智能变革、提升运营绩效、创造商业价值。团队已为金融、电信、互联网等100多个企业成功打造人工智能解决方案,是人工智能工业应用的引领者与践行者。创始人戴文渊兼任CEO,联合创始人杨强为首席科学家。

挑战AlphaGo 下无人走过的棋

“要想战胜AlphaGo,必须控制好自己的‘心魔。”

两年间,人工智能系统AlphaGo腾空出世,先以4:1狂虐韩国九段高手李世石,次年又将排名世界第一的中国棋手柯洁直落三局挑落马下,一时间名声大噪。面对人工智能的咄咄逼人,有人赞叹,有人担忧。柯洁甚至在赛后黯然泪下,直言AlphaGo就像神一般的存在,貌似无懈可击。

然而,在人工智能领域已经浸染十余年的戴文渊却并不这么认为。“AlphaGo所基于的人工智能技术,强项不在于推演,而是借鉴过去的棋谱。所以,如果要击败AlphaGo,需要尽可能把局面导向历史上没人下过的棋。”戴文渊所说的“棋谱”,对于人工智能而言,就是“大数据”。正如人类会经历很多的事情,得出一些知识和经验,帮助未来做的更好。人工智能就是从数据中总结出有价值的信息,以预测未来发生的事情。

同时戴文渊还提到了人与人工智能的另一个区别——情绪。人在进退得失之间便会生出各种情绪,或焦虑、或紧张、或自满,而人工智能卻完全不具有人类的情绪弱点。戴文渊曾经在网上撰文表示:“要想战胜AlphaGo,必须控制好自己的‘心魔。”

在A I领域已经是顶尖专家的戴文渊,其实在3年前创建第四范式并担任公司CEO的时候也只有30岁出头。在外人眼中,这不过是一个戴黑边框眼镜,爱钻研算法和编程的标准理工男创业的故事罢了,但是当他坐在记者面前彬彬有礼地讲述人工智能的发展和未来时,你会发现事实上远没那么简单——你完全跟不上戴文渊的思路。这是一个逻辑缜密、判断力强并且不按套路出牌的年轻科学家。

以终为始 一切顺理成章

“先判断趋势,建立目标,然后以终为始,将目标拆解成一层层的任务,逐步实现,所以我觉得一切都是顺理成章的。”

戴文渊曾就读于上海交通大学计算机系的一个实验班。在2005年,他获得了由美国计算机协会(ACM)主办的ACM国际大学生程序设计竞赛世界冠军,这个被誉为“计算机界奥林匹克”的比赛云集了全球智商最高的人,戴文渊是为数不多的华人冠军。

头顶世界冠军头衔的戴文渊,在研究生阶段却毅然选择了当时被世人冷落的人工智能方向。“10多年前,正是人工智能发展的低潮期,几乎没有毕业生主动选择这个方向。如果那时候你跟谁说AI能做起来,一定会被质疑的。”戴文渊回忆起最初选择时的情景,“但根据我的判断,人工智能一定会大有作为。”

戴文渊的不按常理出牌还体现在学术前程将一片光明的他,主动放弃了读博的机会,而是选择去了百度。当时百度还没现在这么火,只是一家发展中的公司,很多人难以理解他的选择。对此,戴文渊解释道:“我在人工智能的研究路上,必须要通过海量的数据不断验证自己的算法是否正确,当时在国内,只有百度能够满足我的需求。”

戴文渊将百度视为一座开放的大实验室,继续着他在人工智能方面的深入钻研。他与当时同在百度,现第四范式联合创始人、首席研究科学家陈雨强一起,成功搭建了世界上首个商用深度学习系统,也就是百度的“凤巢”广告系统——同时,这也是世界上最大的商用深度学习系统。“凤巢”系统的成功验证了在超大规模数据中人工智能确实能给业务带来正向效果,百度的变现能力也一下子4年提升了8倍。这让戴文渊的团队获得了百万美金的“百度最高奖”,同时他也成为了百度历史上最年轻的高级科学家(T10级)。

就当人们在推测戴文渊升入百度更高一级的管理层只是时间问题时,他却再一次出人意料地跳槽去了华为,担任起诺亚方舟实验室的主任科学家。对此,他的解释是:“在百度,我实现了作为一名科学家的梦想,就是看到AI能够在产业界落地。去华为,则是为了验证这种技术能给一家公司创造价值后,能否给更多公司创造价值。”

戴文渊在华为尝试用企业服务的方式做AI,为客户提供AI解决方案,让AI帮助不同企业获得效益和效率的提升。当他在百度和华为都获得成功之后,戴文渊不再满足于让AI服务仅仅局限于为一家或几家企业,他认为AI应该遍地开花,造福全社会,希望找到一家能够服务各行各业的公司。然而,当时创业的风口以及投资的热点都在做O2O上,人工智能的概念还没有被普遍接受,所以戴文渊并没有找到理想中的公司。于是,他决定自己创业,成立“第四范式”,致力于降低AI的应用门槛,让人工智能变得触手可及。

在各大互联网的论坛和群里,戴文渊被年轻的IT学子们称呼为“戴神”,因为戴文渊总能做出令人意料不到,但事后证明非常正确的选择。从十几年前选择了不被看好的人工智能方向,到率先走进AI商业落地实践,再到独立创业、立志要让AI触手可及,他的每一步都走在了时代的前面。

对此,戴文渊很淡然:“我是一个偏目标导向的人,先判断趋势,建立目标,然后以终为始,将目标拆解成一层层的任务,逐步实现,所以我觉得一切都是顺理成章的。”切中核心,明白自己要什么,之后全力以赴,用简单的方法化解复杂的问题,戴文渊深得“重剑无锋,大巧不工”的精髓。

一路以来,戴文渊身边还有一位同样颇具传奇色彩的人物,那就是他的导师——首位华人国际人工智能联合会议(IJCAI)理事会主席,国际人工智能协会(AAAI)唯一的华人Councilor杨强教授。杨强学习天文出身,曾在美国马里兰大学学习天体物理,后来转行进入人工智能领域,很多人无法理解他这么大的转变,认为完全是两个不同的世界。然而在杨强看来,两者却有着相通的地方,那就是都需要建模型,从给宇宙建模,转向给机器建模,“想通过编程的手段实现机器的智能”,这个理想一坚持就是30年。endprint

杨强与戴文渊相识于人工智能式微之时,戴文渊作为访问学者来到香港科技大学,成为杨强教授的门下弟子。那是2006年的秋天,当时人们谈论AI的时候都很小心翼翼,担心被误认为是忽悠人的骗子。在这种背景下,这两个坚信人工智能必将腾飞的人就更加“惺惺相惜”。在没有经费支持的情况下,杨强带着戴文渊投入其中,潜心钻研,做了很多开创性的工作,一直坚持到人工智能的破晓时分,直到今天的天光大亮。

“有时候也会迷茫、会动摇,或者争强好胜,想把步子迈得再大一点。但是身旁有杨老师时刻在指导着、督促着、宽慰着,我就能够冷静下来处理各种困局。”戴文渊坦言,杨强不仅是自己学业上的导师,更是精神上的灯塔,“这一路走来,只要抬头看到那束光,心里就特别踏实。”

有境无界 让“AI for everyone”

“我们的目标就是让一个完全不懂技术的‘小白经过大概2周到1个月的时间,可以成为一名合格的AI应用专家。”

2015年,戴文渊与导师杨强,以及一批志同道合的行业深耕者们创立了一家人工智能技术与服务提供商,取名“第四范式”。这个名字的由来,是取自图灵奖得主、关系数据库的鼻祖Jim Gray生前的最后一次演讲。他将人类科学的发展定义成为四个“范式”,其中“第四范式”是指通过收集大量的数据,让计算机去总结规律,即人工智能阶段。从这个颇为新颖但寓意深远的名字中,也能体现戴文渊和范式创业者们身上追求卓越的极客精神。

两年前,戴文渊将公司从深圳福田的公寓楼搬到了有“中国硅谷”之称的北京上地,员工人数也从最初不到十人壮大到数百人,公司发展态势迅猛,但始终没变的是戴文渊创业的初衷,即要降低AI工业落地的门槛。

2017年7月5日,在“百度AI开发者大会”上,百度宣布将开放60项AI核心能力,为每一位开发者消除障碍,创造共赢机会。对于这个举措,杨强教授表示赞赏,但同时觉得还远远不够:“百度的做法是为程序员降低门槛,而第四范式要做的,是为所有领域的企业降低门槛。”

在戴文渊看来,虽然人工智能已经引燃了全球科技圈,但目前仍是一项应用难度颇高的技术,很多企业都在门外徘徊,因为成本和人才的门槛高昂,很难顺利完成自有AI系统的构建。第四范式希望每个企业都能用上人工智能,拥有自己的人工智能策略,真正实现AI for everyone,并一直在为此努力。2017年12月3日,在举世瞩目的第四届世界互联网大会上,第四范式正式发布了“第四范式·先知”3.0版“企业人工智能核心系统”,助力企业快速构建以AI为中心的组织架构,通过智变赢得AI时代。戴文渊在发布现场谈到,“企业人工智能核心系统”将大大降低人工智能的应用创新门槛。该系统包含数据核心、算法核心和生产核心三大模块,覆盖了机器学习工业落地全流程。数据核心通过对数据规范及标准化,让业务之间的数据在系统内互相受益、互相贡献;算法核心通过封装前沿算法,降低模型建立门槛,快速训练出高维、闭环、实时的AI模型;生产核心简化了AI模型从线下训练到线上生成的流程,将数据价值转变为AI的预判能力。未来,企业可根据业务需要,自主选择相应组件或模块进行配置,依托系统的自动整合能力,灵活设计出AI解决方案。与此同时,随着创新模式的简化升级,企业生产经营重心还将从“跑马圈地的铺量竞争”进入“技术驱动的精细化竞争”,人工智能的策略价值凸显。未来,在“企业人工智能核心系统”中,大多数的一线决策行为会由效率更高的人工智能来完成,企业可以在投入最少人力、财力的成本下,获得强大生产力。

其实,早在一年前,第四范式发布的“第四范式?先知”1.0版,就是当时全球首个面向开发者的商用AI全流程平台,通过自动化机器学习程序,首次历史性地降低了机器学习建模过程中的人工参与程度,解决了怎样让更多开发者参与到AI研发的问题。第四范式凭借“先知”平台,在“第六届吴文俊人工智能科学技术奖”的评选中荣获一等奖。这是中国智能科技领域的最高奖,历年来只授予高校、实验室和科研机构,这次授予企业,实属首例。

“为什么人工智能的问题只有少数专家能解决?就是因为太复杂了,要调各种参数,要做各种设置。我们要做的就是将AI难度最高的部分封装成自动化程序,使其更易用,让更多人迈进门来。”杨强做了一个形象的比喻,“以前玩摄影拍照片,使用的是單反相机,很专业。你需要明白什么叫光圈、快门、ISO,不是内行的人根本拍不出理想的照片。而你看现在,一部智能手机就解决了,你根本不用懂成像原理,参数设置什么的也不用你去管,只需要你把想要的画面收入框内,点一下按键就行了,这就是门槛降低了,‘先知平台要做的就是这个事情。”

“从企业客户的角度看,使用‘企业人工智能核心系统完成企业智能升级仅需三步。第一步,明确业务目标;第二步,收集在完成这个目标过程中的数据;第三步,‘企业人工智能核心系统自动化解决机器学习问题,并推动企业优化业务模式,提高生产运营效率。”戴文渊解释着,第四范式的目标就是要把一个专业级人士才能做到的事情变成一个类似傻瓜相机式的核心系统。

2016年的年底,第四范式内部进行了一场“特殊”的竞赛——全世界首个面向非专业人士的建模大赛。公司里面的AI专家们这次成了观众,参加比赛的都是做销售、公关、行政、人力等非专业出身的AI“小白”。比赛结果令人振奋,这些非专业人士基于“先知”平台,有超过70%的参赛组合AUC成绩跨过0.8大关(AUC是衡量模型效果的专业指标,取值在0到1之间)。要知道,在实际业务中,凡是AUC高于0.8的模型就已经达到工业水准。而在整个行业中,只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的数据“大神们”才能搭建出A U C0.8以上的模型。对于这个比赛结果,戴文渊谈到,“我们的目标就是让一个完全不懂技术的‘小白经过大概2周到1个月的时间,可以成为一名合格的AI应用专家。现在,我们离目标又近了一步。”endprint

商业化阶段,降低了门槛的人工智能技术会渗透到每一个场景、每一种服务中。目前第四范式主要聚焦在金融和互联网领域,帮助这些行业充分挖掘蕴藏在数据背后的潜在价值。“通俗点讲,我们其实在做一件事,让机器看业务数据,然后写业务规则,从而替代原来由业务专家主导的总结规律、写业务规则的过程,比如,让机器看金融欺诈的数据,总结反欺诈的规则;看医疗的数据,总结诊断的规则;看广告转化率的数据,总结广告投放的规则等。最终通过人工智能帮助这个行业的企业提升运营效益。”

以金融领域为例,在与某股份制银行合作反欺诈解决方案中,第四范式就利用超高維AI技术,仅基于一年的交易数据,就帮助该银行写出25亿条反欺诈规则,不仅包含传统专家规则无法覆盖的“非典型区域”的“非典型特征”,而且对于不断更新中的欺诈方式也都一网打尽。最终,第四范式反欺诈系统的实际上线效果较传统专家规则提升数倍,同时大幅降低银行的人力成本和运营成本。

据了解,第四范式的高维度的机器学习技术,已经完整覆盖了精准识别客户贷前、贷中、贷后的需求及风险,提供包括精准获客、个性化推荐、申请评分卡、申请反欺诈、交易反欺诈、逾期/流失预警、流动性管理、智能催收、不良资产处置等一体化整体解决方案。

目前第四范式已与数十家大中型银行展开深度合作,帮助合作伙伴快速构建人工智能的数据智能核心系统,完成从数据到价值的升级转化。在其他领域,第四范式技术还涵盖了更多的行业应用场景,例如医疗、制造、零售等。

戴文渊总结说,这就是“有境无界”,即在适应行业规则的环境下,创造出没有边界的使用价值。

憧憬未来 做一家伟大的公司

“华人一定要发展、创新和引领一些前沿的理论,不能光跟着别人走。我们要做别人跟着我们走的东西,比如迁移学习就是。”

毋容置疑,人工智能技术的影响程度将是一次跨时代的科技革命,甚至未来整个社会形态都会发生根本性变革。但就在人工智能的高光时刻,戴文渊和杨强却保持着足够的冷静,他们深知目前的人工智能并不是无所不能,其中最大的弱点之一就是缺少迁移学习的能力。

迁移学习是人类智慧的一种特质,我们可以利用一个环境中学到的知识,举一反三、触类旁通地来完成新环境中的学习任务,这对人类来说是非常自然的,但是人工智能还做不到。

AlphaGo在战胜李世石的3个月后,它的幕后主脑Deepmind的创始人在接受采访时称,他们已经在开始探寻一种更新更强的技术,这种技术能让强化学习系统把基础建立在已习得的知识上,而不用每一次都从头学起。他们说的便是“迁移学习”(transfer learning)。

这一次,第四范式又一次成为AI前沿领域的先行者。戴文渊和杨强早在10年前,就把关注的目光投向了迁移学习。杨强早就指出:“深度学习是过去,强化学习是现在,而迁移学习是未来!”

戴文渊介绍,迁移学习可以解决目前机器学习中必须要依赖海量数据的困局。虽然互联网和移动互联网催生数据爆炸式增长,但在很多传统企业和非互联网领域仍然存在数据量小的问题,小数据上如何能够实现人工智能,这就需要迁移学习。医疗领域就是一个典型,有一些发病率较低的疾病样本数量很少,但会存在与它相关联的疾病和治疗方法,我们就可以通过已有的模型进行迁移,从而对疑难杂症进行数据分析从而得出有效的诊疗方案。

“华人一定要发展、创新和引领一些前沿的理论,不能光跟着别人走。别人做深度学习,我们也做深度学习。别人做强化学习,我也跟着做强化学习。我们要做别人跟着我们走的东西,比如迁移学习就是。”杨强如是说。

如今,在迁移学习领域,戴文渊凭借10年前发表的一篇论文(Boosting for Transfer Learning),单篇论文引用至今排名世界第三。排在第一的,正是他的导师杨强。同时,第四范式已经在金融领域成功验证了迁移学习的工业可行性与积极作用。为了解决银行大额贷款业务数据量不足,无法满足人工智能应用的难题,第四范式利用基于迁移学习技术的“先知”平台,将小额贷款的模型迁移到上亿级的大额贷款业务中,准确预判出了客户的办理需求,最终实现客户营销响应率提升200%。

第四范式已经走在了人工智能的国际前列,作为掌门人的戴文渊考虑的问题也越来越多。尽管人工智能现在“热得发烫”,但在戴文渊眼中,现在的AI距离多领域、多场景的广泛爆发和便捷的商业化落地还有一段漫长的路要走。“再好的技术,如果不能形成产业化,不能为国民服务,也只是一个看上去很漂亮的泡泡而已。”戴文渊从不否认这个行业里存在着泡沫。AI也是江湖,里面有实打实的顶尖高手,也不乏浑水摸鱼的投机者。势必要经过一场华山论剑之后,依然能够屹立不倒的方显英雄本色。

当记者追问第四范式能否在AI领域“笑傲江湖”的时候,戴文渊答道:“人工智能这个市场足够大,大到能够出现下一个IBM和BAT的市场,但我只想不忘初心,不忘我们的理想,去做一家伟大的公司。”endprint

猜你喜欢

先知范式百度
基于SCP范式的贵州省食用菌产业分析
谨言慎行
从教师视角谈“读思达”课堂范式——以“百分数的认识”为例
工商银行与第四范式正式签约共建银行AI核心系统
百度年度热搜榜
最好的财富
不懂就百度
我不是什么先知
卧佛
百度年度人气萌娃