APP下载

进击者“第四范式”:AI终将For Everyone

2017-04-17姜姝姝

机器人产业 2017年2期
关键词:先知范式百度

□文/姜姝姝

姜姝姝

本刊副总编辑

进击者“第四范式”:AI终将For Everyone

□文/姜姝姝

姜姝姝

本刊副总编辑

很多时候,落后与先知的差距,不是购买一些机器或者引进一些技术就能弥补的,落后的最可怕之处在于思维方式的落后。

A I(Artificial Intelligence,人工智能),从某种意义上来说,代表着一种因数据驱动的新思维方式——用不确定性看待世界,再用信息消除不确定性,将智能型的问题转化为信息处理的问题。思维方式的改变意味着,现有的产业采用了新技术后,将会全面升级,成为全新产业,带来无限机会。这正是AI创业公司的先行者——第四范式所坚定的未来,AI是思维方式、是生产工具、是方法论,AI终将For Everyone。

图1 :第四范式CEO戴文渊(左)第四范式首席科学家杨强(右)

他们选择了AI 或是AI选择了他们

“在最好的时光做最重要的事情。”在大多数人还在面对努力和选择的两难时,对自己有着肯定把握的人早就在变与不变之中,规划好了一切。

第四范式联合创始人、首席研究科学家陈雨强就是这样的少数派,他在上海交通大学读本科的时候就选择了跟随大神——当时的师兄、ACM国际大学生程序设计竞赛世界冠军戴文渊钻研理论,在香港科技大学求学期间,师从被授予国际人工智能学会FELLOW的杨强教授,深入当时堪称冷门的“迁移学习”;也因为对“最重要的事情”的坚持,在毕业之后,他没有去Facebook,而是选择了百度,在百度他才能以刚毕业的学生身份参与到核心的技术工作中,在核心领域接触最尖端的研究;更因为对技术的初心,“人工智能这种技术能产生的价值不只是在互联网、不只是少数的公司”,他选择了AI领域的创业,与师兄也是第四范式的CEO戴文渊等共同为人工智能在工业界的应用和普及“播种”。

选择正确的背后并非是一切都顺利,这其中发生过很多故事。陈雨强2012年进入百度的搜索广告部门,团队的技术负责人正是戴文渊,百度也是戴文渊、陈雨强毕业后的第一份工作,他们团队负责的产品正是后来鼎鼎有名的凤巢系统。

图2 :第四范式联合创始人、首席研究科学家陈雨强

百度搜索广告系统“凤巢”一直承担着给百度商业变现的重要角色,通过使用机器学习技术,从2009年上线起就开始不断快速提升。然而,到了2012年,传统技术红利慢慢消退,“凤巢”的机器学习方向一度面对增长乏力的问题。在这个时候,戴文渊单独安排了几个先锋队员开始新的技术方向的探索,陈雨强就是其中之一,开始深度学习在搜索广告这个问题上应用的研究。

“这个阶段面对的是解决一个公司的一个问题,即‘如何提升搜索广告的点击率’这个问题。当时我做的事情比较偏纯技术,就是怎么让深度学习应用到大规模的机器学习中。有上千亿个特征,怎样设计一个模型应用深度学习。我们当时上线了世界上第一个使用深度学习的商用系统。”

在全球工业界,尚没有深度学习在大规模商业基础上的应用,百度提前做到了,在取得了突破性进展后,整个“凤巢”系统的团队都开始了向深度学习的转向,最终使得百度变现能力提升8倍。而这件事情还发生在深度学习在方方面面改变整个世界之前,早于谷歌一年在搜索管应用了这个技术,不仅有效地提高了广告的相关性与点击率,更是在商业中取得了成功。

当戴文渊离开百度到华为,任华为诺亚方舟实验室主任科学家时,陈雨强仍在继续努力提升广告点击率,带领着自己的团队,改善用户体验,直到有一天,今日头条进入了他的视野。

“从百度离职之后我去了今日头条。在头条时面对的产品线更多了,除了主信息流推荐以外,小频道推荐、视频推荐,包括信息流广告、评论排序等等,有非常非常多的应用方向。所以在今日头条,我面对的是一个公司内很多很多的业务与问题。”从一个问题——广告的点击率到多个问题,陈雨强发现人工智能在工业应用上的优化与研究更加深入了。

“对当时的今日头条来说,时效性是非常重要的。除了在技术上设计一个追求极致的时效性以及极致的性能与规模的机器学习系统之外,我还做了一件很重要的事情,是设计了很多机制,让这些人工智能技术能用在今日头条的各个产品线之中。”陈雨强举了个例子,人工智能或者机器学习的算法其实是一个发动机引擎,机制是传动的齿轮,怎样把引擎的动力以最有效的方式传动到各个部件,这是机制所做的事情。所以除了需要关心技术之外,还要关心产品与机制创新。

“第四范式”是什么?

从今日头条离开后进入创业模式,陈雨强面对的不再是一个领域的多个问题,而是更多的业务、更多的行业、更多的问题——金融、电信、互联网等各行各业,包含营销、获客、风控、推荐、排序等各种各样的问题。

至此,AI的工业化之路越来越酷了。从大公司到创业,最大的决定因素在于戴文渊、陈雨强,他们都坚信自己的专业——机器学习,是人工智能领域中一个需要更加长期、持续投入的细分领域。“我当时出来创业最大的一点决心,是找到了一个不能不去做的事情。”陈雨强说。

在人工智能、机器学习领域成为风口之前,在风未起时就进入,现在看来是一个非常对的选择。2014年,这对于人工智能领域来说,是变化来临之年,谷歌宣布收购了DeepMind,曾有意收购DeepMind的Facebook也紧随谷歌、百度,搭建起人工智能实验室。

戴文渊迅速组织起团队,由一群技术理想主义者着手打造“第四范式”。对于陈雨强来说,工作虽有变化,但挖掘深度学习在工业界中的应用潜力,做深做大“最重要的事”,这样的方向从来没有改变过。

不少人在听说“第四范式”时都难免好奇,为什么是第四范式,而不是第三或者第五呢?一家公司的名字,就像一个家庭的孩子一样,起名往往都能透露出愿景和期待。

“第四范式”,得名于图灵奖得主、关系数据库的鼻祖Jim Gray生前的最后一次演讲。他将人类科学的发展定义成为四个范式:第一范式,以记录和描述自然现象为主的实验科学,比如钻木取火;第二范式,利用模型归纳总结过去记录的现象,比如牛顿三定律和麦克斯韦方程等为代表的理论科学;第三范式,科学计算机的出现,诞生了模拟复杂现象的计算科学;第四范式则是,通过收集大量的数据,让计算机去总结规律的数据密集型科学。

创业初期,其实除了少数大的互联网企业和学院派人士,很少有人了解机器学习或者人工智能为企业服务之类,但是大家都对“大数据”略知一二。“人工智能=大数据+机器学习,如果说大数据是原材料、是米;机器学习是工具、是电饭煲;那么人工智能就是白米饭。”陈雨强深知数据和人工智能的关系,大数据挖掘的需求加速了机器智能的技术成熟,第四范式最初都是和客户介绍如何进行数据挖掘、如何通过技术精准匹配。

2015年初,第四范式获得了来自某全国性股份制商业银行的第一笔订单,一个信用卡交易分期项目。利用数千万的信用卡交易分期营销数据,他们用AI更精准确定哪些客户有更大几率去做分期付款,最终帮助客户提升了60%。现在,客户已经把多个业务都通过AI技术来升级。

可以说,大数据与机器智能相伴而生,这是一个计算无处不在,软件定义一切、数据驱动发展的新时代。但是,直到AlphaGo打败李世石这个科技界的“黑天鹅”事件出现以后,人工智能成为了街头巷尾议论的话题,第四范式才真正被“理解”。这时,在人工智能领域有近十年研究经验的陈雨强对AI的成功也有了更深的理解。

如果一个 AI 要成功的话总结起来有三点,要关注技术、要关注业务、要关注人。一方面是技术,有计算资源和大数据方面的支持;一方面是业务,边界要清晰,业务有反馈;另一方面是人,包括科学家,包括应用到场景需要和人打交道。

机器学习、强化学习与迁移学习

与其他人工智能相关的创业公司相比,第四范式似乎光环更多,有杨强教授为之指导,有红杉资本的沈南鹏和创新工场的李开复为其投资,还有一群来自百度、华为、今日头条等巨头公司的顶尖技术人才。

第四范式首席科学家杨强教授曾说,深度学习是过去,强化学习是现在,而迁移学习是未来。杨强教授本人也致力于R TL(R einforcement Transfer Learning)的研究,这是一个将深度学习、强化学习和迁移学习有机结合的机器学习体系。从某种意义上来说,杨强教授是第四范式的精神领袖,2000年着手研究机器学习,5年后就开始深入迁移学习领域的他,在这一领域的贡献已成为华人榜样——在迁移学习领域,单篇论文引用数排名世界第一。而戴文渊,凭借9年前师从杨强教授,发表的论文Boosting for Transfer Learning单篇论文引用排名世界第三。

谈到深度学习,大多数人并不算陌生。要解释深度学习之前,我们需要了解什么是机器学习。机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。

2006年,加拿大多伦多大学教授、机器学习领域泰斗——Geoffrey Hinton和他的学生R uslan Salakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的信息:

1. 很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;

2. 深度神经网络在训练上的难度,可以通过“逐层初始化”(Layer-wisePre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。

为此,谷歌、百度、微软等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。

但是深度学习并不是完美模型,深度学习的局限来自于几个方面:

1.表达能力的限制。因为一个模型毕竟是一种现实的反映,等于是现实的镜像,它能够描述现实的能力越强就越准确,而机器学习都是用变量来描述世界的,它的变量数是有限的,深度学习的深度也是有限的。另外它对数据的需求量随着模型的增大而增大,但现实中有那么多高质量数据的情况还不多。所以一方面是数据量,一方面是数据里面的变量、数据的复杂度,深度学习来描述数据的复杂度还不够复杂。

2. 缺乏反馈机制。目前深度学习对图像识别、语音识别等问题来说是最好的,但是对其他的问题并不是最好的,特别是有延迟反馈的问题,例如机器人的行动,AlphaGo下围棋也不是深度学习包下所有的,它还有强化学习的一部分,反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。

强化学习为什么是现在,AlphaGo下围棋背后的DeepMind 方法其实就是深度学习和强化学习混合体,被称为“深度强化学习(deep reinforcement learning)”。简单来说,在这之中,深度学习是主体,强化学习解决了延时反馈的问题。

强化学习的应用其实很广,下棋就是一个重要的场景,另外,在机器人的路径规划和任务完成上也应用了强化学习。除了这些之外,强化学习的应用面特别广,可以用在很多反馈上,但这个反馈并不一定是马上可以得到的,比如医疗领域,对药品和医疗方案的反馈,就是一个很好的例子。

迁移学习为什么是未来?迁移学习主要是解决模型在适应其他领域或需求时的“冷启动”(新领域的经验或数据不足)问题,即“举一反三”。

举个例子来看,陈雨强表示,迁移学习的意义就像是人类语言学习,如果让一个零基础的人学习法语自然很难,但如果让一个学过英语的人再去学法语就会相对容易很多。它可以利用一个环境中学到的知识,来帮助新环境中的学习任务。简单来说,迁移学习主要解决了目前机器学习中存在的两个问题:小数据的问题和个性化的问题。

科学技术的先知降临

犹太教的先知是摩西,基督教的先知是耶稣,伊斯兰教的先知是穆罕默德。对于技术信仰者第四范式来说,先知是AI终将For Everyone,先知更是他们的产品——人工智能应用者开发平台。陈雨强看来,“先知提供的是更通用的平台和技术,是人工智能领域的iOS。”

2016年7月,第四范式发布了这款“先知”平台,也是AI领域首个面向应用者的开发平台。用陈雨强的话说,就是一个完全不懂技术的小白,大概经历2周的时间,就可以成为一个AI专家。为此,第四范式利用“先知”平台在公司内部做了一个叫做“一颗赛艇”的非专业选手人工智能建模大赛。这场比赛拒绝公司内人工智能方向科班人士参加,让普通人利用“先知”能做出什么可靠模型呢?

结果大出所料,在没有经过任何专业培训的情况下,在由销售、市场、公关等非人工智能专业人士组成的队伍中,有超过70%的参赛队伍AUC成绩(AUC是衡量模型效果的专业指标,取值在0到1之间)跨过0.8大关。在实际业务中,一般AUC高于0.8的模型就已经达到工业水准;而过去,在整个行业中,只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的专家们才能搭建出AUC0.8以上的模型。“但先知这个平台,在我们心中还不完美,还有很长的路要走。”还有30%的人经过培训没有做到专业水平,这对技术牛人来说还难以接受。

“先知已经供不应求了,”陈雨强说,过去一段时间,第四范式把较多精力都放在了人工智能的算法研究上,“先知”出场后,虽然需要优化,但更重要的是如何将数据与平台实现无缝对接。

从行业应用来说,互联网的接受程度比较高,其次则是金融等行业,第四范式的愿景是努力通过降门槛、降成本,让每个人都能用的起AI,让每个公司都可以实现自己的AI策略。“AI过去是只能服务一家,现在可以服务几百家,以后可以服务每一家”。这是戴文渊、陈雨强以及杨强教授一致的信仰——让每个人用上人工智能,AI是真的可以for everyone的。

手机扫码阅读

猜你喜欢

先知范式百度
法治范式的沟通主义进路
——简评《中国法治的范式研究:沟通主义法范式及其实现》(郭金平)
以写促读:构建群文阅读教学范式
春江水暖鸭先知
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换
百度年度热搜榜
最好的财富
不懂就百度
我不是什么先知
春天来了