APP下载

戴文渊 造问题的人

2019-02-13金钟

人物 2019年10期
关键词:百度人工智能

文|金钟

编辑|刘斌

摄影|高远

他一直在挑战更本质的问题,更大的问题,那些没被解决、还不知道怎么去解决的问题。

当你知道,鸟要往哪里飞

2018年的中国,平均每分钟有28名婴儿出生,在每天要发生的41000多次分娩中,每位女性都要面临一个重要问题,是顺产还是剖腹产?这不仅关系到她们要遭受的疼痛,甚至也关系到生命存续。而它也是一件往往在最后关头才被决定之事,是这个医学昌明时代,为数不多主要依靠医生经验来判断的事。

今年春天,长春一位妇产科医生找到了新方法,也许可以为缓解这种痛苦提供一种工具——医生在网上偶然看到一个人工智能平台,想试试看,能不能更精确地预测新生儿体重,来指导医生做判断。这个机器并不难操作,他把过往自己收集的所有孕妇体检的指标数据,以表格形式输入到机器里,很快得到答案——不用选择公式,没有复杂操作,机器自己完成了一切。

这种看不到过程的运算,可信吗?结果出来医生也觉得意外——所有案例的误差都精确在0.2公斤以内。这比起目前临床医学已达到的精确度,还要高。这个结果被写成一篇论文,最终在顶级医学会议上发表。

以上这一切,提供人工智能机器的公司第四范式,事先都不知情。医生通过他们官网上的试用入口,试用了这个名为AutoML的机器,完成了运算。

公司创始人戴文渊先生得知此事后的兴奋程度,甚至超过他们拿下银行的大订单。他还讲起了另一个相似的故事。某天朋友跟他讲起,偶然间看到别人使用他们的产品。那是一个“候鸟迁徙”的项目,机器被用来预测候鸟的飞行路径。当你知道,鸟要往哪里飞,又知道它们即将经过的地带会有污染或雾霾时,可以做一些干预措施,让它们尽量在安全地带飞行。

在这些故事里,戴文渊最看重的是这一个个具体的、活生生的人,他们没有太多AI基础,不会写代码,可能只会操作Excel表格,但可以通过基本的学习,用他们的工具来使用AI。“我认为这个代表我们真的改变了世界。”

人们坐在一个陌生的人工智能新工具面前,困惑、尝试,最终为自己所用,这与许多年前我们刚开始接触电脑时的过程,并无二致。

1991年,在苏州古城区读小学二年级的戴文渊,考了三次数学全班第一后,获得了加入计算机兴趣小组的资格。一周一次的上机时间极为宝贵,全部用来写程序,不能忍受一丝浪费。他打了个比喻:“比如你花了那么多钱去跟巴菲特吃一顿午餐,你一定会抓住所有时间向他请教问题,绝对不可能浪费时间跟他闲聊。”

10岁,他已经开始在机房电脑上写logo语言,家里书架上也有了C语言的书。在那之前,他父母让他去学特长,总是半途而废,书法坚持了1年,国际象棋也只坚持了1年,中国象棋最久,但他编着理由翘课,“混”了6年。只有计算机是他自己选的,迄今为止已经坚持了28年。

像是终于找到了某个人生的入口,年少时的自我发现与确认,此后不再改变。高一时他凭借竞赛获得保送大学资格,抱定心思只读计算机系,因此放弃了不能选专业的清华。后来在上海交大,他拿到了ACM国际大学生程序设计竞赛的世界冠军。

另一个关键节点是在香港科技大学的实验室里,他第一次知道什么是人工智能,并把它作为一生的追求。一开始是在论文上追逐它;后来离开学校到百度,在广告推荐系统上实践;再到华为诺亚方舟实验室,看看能在非互联网领域做到什么程度;再后来他发现,做一家公司可能是最好的方法,于是有了现在的第四范式。

“最重要的是,我在这件事情上得到内心的愉悦。我感兴趣,并且目标坚定,我没有想过其他的事。”

拍摄现场

戴文渊身后的墙上,有无数0和1在循环闪动。这就是他从小学二年级起就熟悉并至今投入的世界。它的构成要件如此简单,对人类社会的改变又如此之深。

一份为队友准备可乐的工作

戴文渊平均每天睡5个小时。采访进行前,凌晨1点多,戴文渊还在办公,早上5点又回复了微信。

我们好奇他怎么安排一天的工作——之前《人物》采访过一位女演员,她说会把最不想做的事情安排在早上,这样她每天都是越来越开心,都拥有一个愉悦的晚上。但戴文渊的回答是,“我已经不太记得自己喜欢做什么了。”一切都从逻辑出发,逻辑推出来该做什么就做什么,如机器运转,严丝合缝。

“逻辑”,合伙人陈雨强评价他时,也一直提到这个词。戴文渊曾是陈雨强大学的小导师,也是他在百度实习时的leader,他认为逻辑是自己从戴文渊那儿学到的最重要的东西。“比如形成一段描述,或者一个算法。他关心这里面本质的逻辑是什么;第二点就是,你怎么做,别人能听懂,别人能理解。”

这种极度理智,与戴文渊在ACM竞赛中受到的训练密不可分。

大学前他的性格截然相反,是紧张的、情绪化的。高二时他的计算机水平已经是江苏省顶尖,代表全省参加全国信息学竞赛。10年的准备,到了现场,第一试就开始紧张,第二试好一些,但一综合,排到了全国第23名。当时第18到22名都是同分并列,前20名进国家集训队,他失之交臂。

进国家队,代表中国参加世界信息学竞赛,是他中学时代的理想。他认为自己也具备这种实力。从10岁开始,他的世界里只有计算机和题目,花了大量时间做编程训练。比赛完,从北京回到家,他形容当时的心情:“就像奥运会,非常有实力竞争体操冠军的人,结果从平衡木上摔下来了。”

当时高中正好有一个保送清华的名额,但不能选专业,他不能接受不学计算机。刚好同一时间,上海交大的教授俞勇,寄了一张填了他名字的保送推荐表到戴文渊的学校。俞勇说,这张表不能给别人,如果戴文渊不要,那就自动作废。戴文渊接受了上交的邀请。

高中毕业前的5月,正是每年举办ACM竞赛的时间。戴文渊不需要高考,就在家通宵看比赛。那时的网络无法做视频直播,只有文字,只能打开一个网页,不停地刷新。那是上海交大第一次获得世界冠军。选手林晨曦,后来成了戴文渊的教练,再之后创办了现在知名的人工智能公司依图科技。

戴文渊的ACM之旅,开局并不算顺利。大一大二两次参赛,都没拿到好名次。大三备战时他开始琢磨,“怎么去做一个最正确的决定,怎么去非常理性地思考”——“你根本没有必要证明你比队友强。我前一年那支队,三个人都很强,都在努力证明我是这个队里最强的人,但我发现这个事儿其实一点意义都没有。只有这个队强才行,至于你比队友强还是弱,都不重要。”

那是一个关键答案。如果说之前他认为自己是最优秀的,那时候他开始接受,自己可能没那么厉害,“到了那个层面,全世界最好的几个人(在比),你会发现从个人能力上单拼是拼不过的。在最好的情况下,我依然会输给Peter和楼天城(这二者都是ACM界的天才选手),是没有胜算的。但是团队不是,还要想办法去赢。”

之后的事情就变得简单了。他和队友们住到一起,肩负起让一个“喝了可乐就能写出好代码”的队员随时能喝到可乐的工作,并和另一个队员一起看他根本不感兴趣的动漫,只为了与他们训练默契度,达成相互理解。他的目的不再是解出一道题,而是在这个比赛里夺冠。

灰色西装外套,灰色西裤,白色衬衫/均为 J.LINDEBERG

那年的决赛,刚好在上海,开场第一个小时,他们已经被对手甩开。当时戴文渊跟队友说,“这后面4个小时,是我们最后的4个小时。比完了我们就退役了。我们不用想之前一个小时做了什么,只要把握最后4个小时,发挥我们这些年的全部积累,不留遗憾。”到第2个小时、第3个小时、第4个小时,他又重复了这番话。那时候三个人的心态已经非常平静。

比赛结束前一个小时,按照惯例封榜,不再实时更新成绩。他们当时是第四名。但在倒数第8分钟,他们又用看起来不可能的“暴力枚举”方法,解出了一道新题,成为全场解题最多的队伍,获得冠军。

结束后,三人筋疲力尽,瘫倒在房间里。戴文渊用这枚代表世界最高水平的奖杯,告别了三年的ACM竞赛史。

800%

2009年,戴文渊已在顶尖期刊发了论文,却发现只有真正应用,AI才能真正发展。他放弃博士学位,入职百度,4年里使百度的广告系统效果提升800%。这个数字公布的瞬间,是他在百度最风光的时刻,也是他决定离职的一刻,因为他意识到“这个技术的力量太大了,不应该局限在一家公司”。不久后他创业,做了一家能服务更多人的人工智能公司。

更本质的问题

那时已是大三,同龄人都开始寻找人生方向。选择冷清还是火热,戴文渊也站在了小径分叉的路口。

他面临的第一个选择是确定研究方向。在他的描述里,AI当时是个“一点都不火”的专业,大家热捧的是图形学,做CG渲染,能去好莱坞。那AI是什么?一个被选剩下的专业。他只能跟人解释,有部科幻片叫《AI》。上海交大也没有人工智能领域的老师,戴文渊被送到了港科大,师从杨强教授。

港科大建在山上,实验室没有窗,手机也没信号,他关在里面,过得根本不知白天黑夜,又将信将疑,觉得在做一个所有人都做不出来的东西。

但教授杨强是坚信并热爱人工智能的“狂人”。学生们总开玩笑,说他们是《西游记》里的师徒,除了师父,其他人都心怀鬼胎,根本不想去西天取经,只觉得:“我靠,西天那么远,要不我回高老庄吧。”每次学生们蔫儿了,就被杨强“K一顿”,被“K”得多了,就会受到感染。“我发现这个人为什么几十年如一日坚持这样做事,这个事儿这么遥远,为什么你还……?这个目标怎么回事?你都不动摇。”时间一长,他们也就跟着信了。

戴文渊很快做出成绩,就算是隔了10年,打开他的谷歌学术页面,成绩单还是闪闪发亮——2007到2008的两年时间里,他一共发表了11篇论文,不少都是顶会,论文被引数位居全球第三。师弟陈雨强记得,当时这个成绩,不止在交大,在中国都很罕见。那时AI没有那么火,一年只接收100篇左右的文章,中国人当时也还不在AI圈子里。而戴文渊觉得,他的成绩得益于ACM竞赛的底子,那种做事的方式,和那种目标导向。

他获得了学术共同体的承认,但很快发现事情不太对。“我知道怎么去发顶会的论文,甚至知道怎么发让很多人引用的论文,但我发现一个问题——在这个领域里,没有东西是能用的。”AI是基于数据、再加上算法,才能得到结果,但当时大家只关注算法。“不是说算法没用,但如果你是在一个破烂的数据上比哪个算法更好,那算法就没有商业应用价值。所以我们才被人家耻笑说,你居然还是做AI的。”

黑色西装外套,墨绿色衬衫/均为 J.LINDEBERG

要解决这个问题,只有一个方法,就是去工业界。他在心里做斗争:“那时候从学术界去工业界,是一件很丢脸的事。当时有个词儿叫‘去工业界’。什么叫‘去工业界’?就是你在学术界混不下去了,就去写代码。”但百度对他的诱惑在于,它是当时数据质量最好的公司之一,而且一定会落地,因为有商业化的需求。于是不再犹豫,他放弃博士学位,入职百度,成为最年轻的T10科学家,扎进火热的现实之中。

他在百度四年的工作,用一个词总结就是“点击率提升系统”。这个系统的目的是提升百度搜索的商业变现。点击率的提升,首先让商家满意,因为广告被点击了更多次;用户收到的也不再是不感兴趣的东西;百度就更满意了,因为百度按照点击率收费。这其中的关键在于机器学习技术,它把效率提升了8倍,带来的收入占到了当时百度收入的95%。

技术得到验证,戴文渊认为AI应该有更大的用武之地。他争取过很多次,愿意调到其他部门,去做推荐系统,去做视频、问答,甚至是做围棋。当然,马上被驳回了——百度是上市公司,每季度都有收入预期,而他就是那个扛预期的人,“一般每季度最后那个月,我就是全公司最忙的人之一。根本没时间思考别的,先把财报完成。”不久后,他决定从百度离开。

因为希望促进整个AI行业发展,所以离开,这个理由听起来太理想主义,显得遥远和隔膜。但实际上一切都有迹可循——2012年冬天,戴文渊还在百度任职,有人在微博上讨论Google和Facebook的区别,提到Facebook有一位科学家离职了,因为“他觉得自己的技能全用来算计广告点击率这事,太悲催了”。一位朋友艾特了戴文渊,他留下了一个“大哭”的表情,说“面壁去”。

陈雨强对戴文渊的理解是,他一直是一个“造问题的人”。他一直在挑战更本质的问题,更大的问题,那些没被解决、还不知道怎么去解决的问题。陈雨强记得一个细节,离开百度时戴文渊在琢磨,机器人的操作系统是什么,那是一个还没被定义过的问题,是超前的。不是因为他喜欢尝鲜,而是因为那是新的价值、重要的价值。

他们一起从学生时代走到创业,戴文渊想做的事,全都没人做过。“不是已经有了一个问题,谁提出了A算法,他再提出一个B算法。他不是,他会提出一个新问题。这也是比较痛苦的一点,我们没有谁可以抄,只有别人抄我们。”

时间对你来说意味着什么?它是一种力量吗?

我更喜欢把时间看成一个日积月累的过程。随着AI的发展,每一秒钟能发生的事情会越来越多,时间会变得非常非常漫长,当AI发展到极致的时候,时间就停止了。

闭着眼睛往下跳

2015年,过去百度团队的伙伴都已离散。一天陈雨强突然接到戴文渊的消息,邀请他创业。陈雨强当时在今日头条负责搭建最关键的推荐系统,听说他要走,张一鸣每天找他聊到深夜。

但陈雨强看重两点,一是戴文渊是个值得追随的leader,二是他要做的是一家纯粹的人工智能公司,心一横,“闭着眼睛往下跳”。另一位联合创始人胡时伟也是那时候加入的。他们当时互相调侃:“You jump, I jump.”

戴文渊决定创业的原因很简单——他看到了人工智能广阔的市场,以及最终明白他想做的事情,会在大公司受到多少限制。

离开百度后,他到了华为,想看看华为怎么服务企业。一次他为华为竞标,为招商银行搭建大数据平台。他发现就算这个平台建好了,数据都放在平台上了,它也并不能创造价值。他给招行做了几个应用,把小贷的营销效率提升了25倍,最后招行买了华为的大数据平台。而他做的人工智能应用,本质上只是一块“敲门砖”,他自嘲为“演员”。

客户当时也说,他们想买这个人工智能系统。戴文渊受到鼓励,回公司沟通,公司的结论是:这不是我们的产品,如果买大数据平台,我可以把这个系统送给你。这件事让他认清现状——在这家方向极其清晰的公司,主航道是“端、管、云”,跟AI都没有关系。他想做的事情在主航道之外,且无力改变。

就这样,一群怀有人工智能理想的年轻人,在深圳福田口岸的民租房里开始了第一步。开始为第一个客户服务时,他们只有两个正式员工,两个实习生。服务结束半年了,对方催发票,他们发现公司里没有熟悉开票流程的人。

创业第二年,刚站稳脚跟,戴文渊提出要做AutoML技术。这项技术的核心在于,在里面封装极其强大的算法,让机器可以自动建模。“这听上去有点天方夜谭,但是可以实现的。训练机器就像训练小狗那么简单,客户定义好目标,给机器设定好行为和反馈,收集数据,然后抽离出规律和算法。”他曾在接受采访时说。

这样一来,原来很多需要人工完成的工作,比如选模型、调整参数、处理原始数据,现在都不用了。人们只需要组织好数据,就可以交给AutoML。这大大降低了普通公司的门槛和成本。用戴文渊的话说,能熟练使用Excel的人,经过两个小时的培训,都可以使用AutoML。

这个门槛最低可以降到什么程度?就像我们提到的妇产科医生和候鸟迁徙一样,他们还服务过一对夫妻开的摄影工作室,帮他们做了一个AI客服。

AutoML做到今天,也并非一个顺理成章的故事。第四范式决定做AutoML时,它的发展速度不算快,有点儿像2005年,戴文渊在香港科大的实验室里边做边怀疑自己。但到2019年的今天,已经是陈雨强说的“黎明”了——AutoML已经是人工智能领域最炙手可热的技术之一。第四范式也已经是唯一一家被五大行联合投资的创投企业。去年底它的估值超过10亿美元,进入“独角兽”的行列。

在聊到理想的明天时,戴文渊回到了过去。他想起,在微软做出ExceL、Powerpoint、Word等办公软件之前,打字也是一个非常专业的工作,课堂展示用的还是胶片。在苏州读小学时,老师就在机房里让他们用一种更古老版本的WPS把文章打上去。那时世界上也只有很少人能完成这件事。他想做的事情,就像微软做的那样——怎么能让每篇文章的作者,都可以自己打字。“如果纵向对比,做AutoML要难得多,但如果放在历史上来看的话,当年做出Word,不也很难吗?”

他最近常常在想,如果有一天公司什么事都不用他来负责了,他就回去做科学家,专心研究AutoML。

他不是那种严格遵循规则的人,喜欢“玩出花儿”——编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序,当然,它们的风险系数也特别高,别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,开始敲击键盘,那是他一天中最自如的时光。

今天,距离他埋头在香港研究人工智能、两年发表11篇论文的时候,已经过去10年了。这些年他进入工业界,之后又创业,论文的产量不高。今年算是一个高峰,他已经发表了3篇论文,Wenyuan Dai这个名字又重新出现在谷歌学术里,这些文章,都和他最关心的AutoML有关。

最重要的是,我在这件事情上得到内心的愉悦。我感兴趣,并且目标坚定,我没有想过其他的事。

──戴文渊

猜你喜欢

百度人工智能
我校新增“人工智能”本科专业
Robust adaptive UKF based on SVR for inertial based integrated navigation
2019:人工智能
人工智能与就业
百度年度热搜榜
不懂就百度
数读人工智能
下一幕,人工智能!
下一幕,人工智能!
做一个“百度”不知道的老师