王坚 创新最难的是常识
2018-10-16王坚杨璐
王坚 杨璐
2008年,就在我决定加入阿里巴巴,但还没有来上班的那段时间,马云写了一封很轰动的邮件《冬天的使命》,大概是说互联网冬天要来了,后来确实就经济危机了。当时阿里巴巴面临很多挑战,所以,不是说我预见到阿里会发展成今天这个样子,或者我带着明确的云计算设想来实现抱负,而是偶然因素大于必然因素。
因为我是杭州人,从前是杭州大学心理系系主任,后来我去了刚刚成立的微软亚洲研究院。在北京待了大概9年快10年,那时微软亚洲研究院已经算得上信息技术领域里中国最好的研究院,我想回杭州了,我来到了阿里巴巴。
真实的创新并不像事后写总结,有计划,一个步骤接着一个步骤。我来的时候,没有说好要做什么。非得说对未来有一点方向,那就是我和阿里巴巴对数据有共鸣。我在微软最大的收获就是理解了数据跟计算。我认为,在互联网时代数据成为一种资源,但它不能自己发挥作用,必须得在线,通过数据处理才能创造出巨大的价值。说得通俗一点,谷歌利用每个人都可以获取的网络数据,依靠处理能力,做成世界上最大的生意。而后来我做的云计算,其实就是让数据资源发挥巨大价值的工具。
阿里当时制定了一个关于数据的“奔月计划”,项目已经认真讨论过了,可具体内容一个字都没有。我蛮敬佩他们这种直觉的,虽然对数据没有清晰的认识,但知道它是一个很重要的东西。有个故事很有意思,奔月计划英语很难翻译,我就随口说了一句登月计划。马云很敏感,他问我,奔月和登月有什么差别。这个问题有点像脑筋急转弯,我就编出了一点理由说,嫦娥奔月是一去不复返,登月是把人送上去还得弄回来,去了以后不回来跟去了又回来,技术难度是不一样的。这搞得马云很郁闷,他本来定了一个奔月计划,就觉得是技术难度最大的一件事了,现在又来了一个登月计划。过了一两个星期,他还在想这件事,就跟我讲,还是得把奔月计划和登月计划区分开,我们应该有一个登月计划。从这件事,马云对技术的追求给我留下深刻的印象。
真正如何做云计算的念头是工作中形成的。我入职后的首要工作是审预算,阿里巴巴随着业务的增长,每年在IT硬件和软件上投入得太多。我觉得没有技术进步,这样下去一定会影响长远的发展。另外一个事情是结束阿里依赖雅虎技术的局面。从前是阿里出钱,在雅虎招了一个团队,专门支持阿里。马云很清楚这不是长久之计,没有技术会要命的。两件事情碰到一起,就是必须自己发展。
跟国外比较,阿里巴巴做云计算也算起步早的。在我们之前,只有亚马逊2006年推出了AWS,也就是Amazon Web Services的缩写。它做得也很艰苦,大家理解不了这个创新,最早那批人只能从美国跑到南非分公司去研发。它也不是主流的技术,现在流行的开源的东西都是不存在的。而“云计算”这个词是谷歌发明并流行起来的。我觉得云计算不是很贴切,其实我开始是想叫通用计算,强调公共服务的性质。
之所以分辨這些名字,因为它涉及对这种技术以及如何应用和发展的理解。云计算技术通俗地讲,你发出指令,不是通过本地服务器完成处理,而是传输到数据中心,那里有成千上万的计算机进行处理,然后再把结果传回给你。这个技术跟普通人有什么关系呢?现实生活里,人们发微博、微信、打游戏,搜索引擎能够实现,都是计算在起作用,而随着生活与互联网的关系越来越紧密,人们对计算的需求,特别是对数据处理的需求会持续增长。问题是没有一台计算机可以单独提供所有的计算能力,也不可能把几万台服务器搬回家。云计算就是解决这些问题的技术,所以它应该是一种基础设施,类似于国家电网,因为计算规模化才能解决成本问题。
尽管方向很清楚,阿里云也得摸着石头过河。我很久以后才知道网上也有议论我的帖子,所以对互联网新闻感兴趣的人可能知道,我们做得蛮辛苦。我觉得这跟创新的发展阶段和人们的认识相关。创新,我把它总结成三个阶段,最开始是把常识普及给所有人,中间是一个混沌期,最后才是技术。第一个阶段,所有人都听得懂的东西是最难的,技术可以聚焦的地方还不是最难的。云计算引起争议和波折多的原因在于,它既有常识的难度,也有技术的难度。当时的中国互联网界对云计算还没有概念,我们2008年下半年就开始了“飞天”平台的整体设计,那时阿里云公司还没成立,到了2010年深圳IT峰会的时候,李彦宏和马化腾并不看好云计算。李彦宏说,云计算是新瓶装旧酒。马化腾说,这个要过几百年、一千年后,到“阿凡达”那时确实有可能,现在还是过于早了。
有一句被传得挺广的话是我说,亚马逊和谷歌加起来是阿里云一个半的老师。这句话其实就是讲给对阿里云表示怀疑的人听的。当时不这样讲是说不清楚云计算的。大部分人以为我在吹牛,也不知道我在说什么,也不会记下来。
除了常识层面上反复地解释,阿里云一方面要找到市场和客户,一方面要解决阿里巴巴的计算需求。那个时候国内最流行的云概念应用是搞图片存储和网盘,好多人很认真地跟我讲,阿里云得做这个,真的很挣钱。我放弃了这个方向,专注服务中小企业。到今天我都觉得对数据和计算的理解对我帮助很大,云计算是公共服务,云本质上是一个数据分享的平台,没有这些清晰的脉络是经不起风雨的。像国家电网一样,云计算本身是没有用的,造出电冰箱、电视机,也就是有了中小企业客户才有价值。
从这个角度想,阿里云能做起来,走了两个很重要的狗屎运,一个是收购了万网,一个是通过phpwind找到中小网站的站长。万网当时是国内最大的域名服务公司,给企业网站备案的。phpwind是淘宝收购的,被我给要来。它是国内最受欢迎的通用型论坛程序之一,使用它的都是中小网站的站长。这些网站用服务器的成本太高,最容易接受云计算。所以,第一次阿里云开发者大会就是跟phpwind合办的,把这些站长都找来,让他们用阿里云,当时除了他们,没人会用我们。
阿里巴巴内部一个很大的技术变革是“去IOE”,就是用云计算替换掉IT基础设施中的IBM小型机、Oracle数据库和EMC存储。今天为止,大家也不愿意多说这件事的细节,太伤感情。IOE当时是公司的基石,在阿里巴巴拿高薪的人,很多在这个领域。中国有10个Oracle ACE,就是这个领域最高的专家,7个在阿里巴巴。这种状况之下的变革,是在动一个根基的东西,但这是在用新的互联网技术和架构取代传统的IT技术和架构。这件事最先看到的变化是企业成本的降低,但根本原因是我审预算时就意识到的,互联网时代,不仅仅是阿里巴巴,绝大部分企业对计算的需求难以通过IOE来满足了。所以,真的感谢同事们把“去IOE”当事情做下去了。这只是其中一件,中间还发生许多事情,来来回回走了很多人,我现在回想起这件事都觉得很复杂。如果当初有人告诉我,一路是这样的,我可能不会做阿里云了。
后来的局面就是必须得做下去,停还是走就都不是你能决定的了。这时候又出了一件很紧急的事情,我们有一个服务器集群在做淘宝的数据处理,淘宝的快速发展让数据增长的速度大大加快,大家都知道60天以后数据就存不下了,也不知道要存到哪里去。那封邮件的标题大概就是“要撞墙了”。如果说阿里云从前那些困难不是在刀尖上的困难,那这件事就在刀尖上了。淘宝能每天开张,全靠它能处理完呀。
要不要在“飞天”上搞,这是一个很困难的抉择。阿里云那几年受到的争议很大,如果说只有一件事决定阿里云成不成,这是唯一的事情。但在“飞天”上搞,出了事一点挽回余地都没有,这不是我滚蛋就能解决的问题,可能阿里巴巴就破产了,团队也不是那么有信心。我在想要不要去找马云说,但是我又没办法去说,他该给我的支持都给我了,我不能让他去做这个决定。该有的困难也不是说他讲一句话就没有的。这种境遇是整件事里,最让我难受的地方。
那是一个倒计时的事情,没时间让我内心煎熬。我最后还是决定“飞天”一定要搞好,数据要保住。为了给“飞天5K”争取时间,我有一段时间真的是一个硬盘、一个硬盘地数,摸底几个硬盘是需要的,然后删掉没有用的文件,能多争取一天时间算一天。有一个同事跑来找我,说他那边有几千台的服务器集群要拆掉,我当时正在到处找救命稻草,听到这件事简直想杀了他。他一点不知道利害关系,还是按照日常工作在做,这个集群晚一些拆,又能多一些时间。
“飞天5K”是一个5000台计算机的集群,中国当时还没有一家公司做过这样的规模,尽管我们早有规划,可远不止60天。技术上的难度不说,5000台机器要先买来就是一个大工程,当时已经来不及走正常的采购程序了,是我担的保。买来之后,还得找到地方放,在杭州马上找到有能供5000台机器同时运转的用电指标的地方,不是那么容易的。我为什么会对云栖小镇感情很深,因为那么危急的时刻,5000台机器放到这里来了,它有工业园的基础,又萧条,用电指标足够。
云栖小镇里能看到一句话“坚持你相信的,相信你坚持的”,就是我那个时候写的,很少有人能理解我当时的心情,真的很难扛得住。不过现在回头看,没有这件危急的事情,“飞天”不会这么快出来,我也没有一个机会做这么大的决定。
“飞天5K”上线之后,阿里云的争议才逐渐平息,被人接受。我后来意识到这对阿里巴巴也是里程碑,我们终于开始处理这样大规模的数据了。后面的发展速度超过所有人的想象。
手记
现在,每年的天猫“双11”不但是购物盛宴,还制造数字奇观。那一晚,同時有几亿人民群众躺在床上操控手机下单,这些指令要连接着支付系统、店家的库存和物流。几秒钟走完流程,可以想象后台要经过多么复杂和庞大的计算,更难的是天猫的交易额和增长速度经常刷新人们对消费的认识,计算能力必然也得随着增长。这就是以阿里云作为技术支撑的。
王坚是这个超级运算技术的创始人,阿里巴巴集团技术委员会主席。我一共见过他三次,发现他有一个口头禅,“我不知道说清楚了吗”,每问一次,都给我很大的心理压力。他思维前瞻又跳跃,对这个领域不十分熟悉的话,不容易懂。后来看材料,即便是阿里巴巴高层开会,也只有马云和曾鸣懂他,再把想法解释给其他同事听。
云计算大概是至今为止,王坚做的最令人费解、解释过最多遍的事情。2010年深圳IT峰会上,李彦宏和马化腾都公开表示了对云计算的不看好。阿里巴巴内部对他的争议也不是秘密,若干次传出马云要解散阿里云的消息。这次采访,我向王坚求证,他当件荒诞的事情来讲:一个员工要转去其他部门,他的顶头上司去挽留,说到动情,员工跟上司说,我劝你也早点找出路吧,我得到消息,阿里云马上就要解散了。王坚从来没有收到过解散的讨论,但那些年,传言就在公司里存在。
阿里云起步的时候,亚马逊和谷歌的云计算也都还没做得风生水起,跟中国许多互联网创新不一样,没有可参考的成功经验。在10年前的中国,云计算只能拓荒。外人没法感同身受这其中的压力与五味杂陈,回头看,王坚总结创新分为三个阶段:第一阶段是常识,让人们认可这个创新是应该的,有道理的;第二阶段是探索和研发的混沌期;第三阶段是技术聚焦。阿里云既有常识的难度,又有技术的难度,所以,王坚要不停地解释说明,让人们接受云计算这个概念,又得面对技术不成熟所受到的诘问和嘲讽。
歧路彷徨,王坚自己也并不笃定阿里云一定能做出来,他两次在我的采访中表示了对今天这个结果的意外和运气之感。这其实是创新最真实的状况,面前是一片荒原,从来就没有路,也不知道能不能蹚出路,更不知道这条路是否通向正确的方向。能支撑王坚走下去的,是他对于数据和计算的理解,数据未来是竞争的核心资源,但必须要有强大的计算能力开发出价值。所以,他在口述里说,没有清晰的脉络是经不住风雨的。
基于对云计算的时代价值的认识,王坚并没有把它想象成只是解决人们越买越多越频繁而产生的数据难题和降低阿里巴巴建机房的成本。他要做的是公共服务,像电力一样提供基础设施。2012年8月,“苏拉”“海葵”等强台风登陆中国,福建和江苏的台风信息系统因为访问量上升而瘫痪,浙江水利厅系统支撑了全国的访问,从平常的每日5万,增加到350万。它能平稳度过的原因,就是从传统的服务器,转而使用了云计算。在云栖小镇上,利用云计算技术解决难题和技术创新的企业越来越多,像提高政府采购效益和效率的平台,为无人工厂设计机器人组合和软件系统的公司等。
值得一提的是阿里云的“飞天”系统,是真正的国产自研产品,放在今天国际竞争和贸易冲突的背景下,这个创新意义重大。阿里云打开局面,也带动了中国其他公司在云计算和大数据技术上的投入。王坚说,这不是一个商业竞争的问题,这是国家发展的轨道上的事情。
今年是阿里云创立10周年,它占据了中国45.5%的市场份额。王坚大力推动的云栖大会也从工地上开会变成阿里巴巴以及大数据行业每年下半年的重要聚会,新技术和行业动态都会在会上交流和发布。今年5月份,王坚又倡导发起了“2050”,愿景是让年轻人因为科技而团聚,用年轻的方式创新。我参加过一次筹备会,看到王坚又像当年创立阿里云一样,不厌其烦地解释他的初衷和“2050”的未来,同样是一件前瞻和跳跃的事情。只不过这一次,他身边聚集了一大批对他崇敬又笃信的年轻人,愿意一起蹚一遭。