查礼:坚持走“接地气”的科研之路
2016-11-30张林仿
张林仿
对于从事“云计算”和大数据产业的人来说,一年一度的中国大数据技术大会堪称不容错过的盛会。迄今为止,原名Hadoop in China的中国大数据技术大会(Big Data Technology Conference,BDTC)已成功举办9届,发展成为涵盖各类大数据技术和应用的探讨、分享业界商业项目合作洽谈和资源对接的综合平台,是亚太地区举办最早、规模最大、影响力最大、对技术和行业探讨最专业和深入的大数据行业峰会。
而对于Hadoop in China的发起人——中国科学院计算技术研究所副研究员查礼来说,最初组织大会的宗旨只是“想把最先进的大数据开源技术带到国内,带到工程师的面前,同时建立起一个交流平台,让大家得以互通有无”。
从“网格”到“云计算”
伟人的一句话,往往标志着一个时代的开始。三十几年前,邓小平同志曾经说:“计算机普及要从娃娃抓起。”这句话改变了许多人的一生,查礼,也算是其中之一。
上个世纪八九十年代,为了加快计算机的普及,许多中学开设计算机课。由于不是高考所选科目,大多数人对这门课并没有多少兴趣,但这不包括查礼。“我当时对计算机编程充满了好奇,觉得很有趣。”查礼认为,“做科学研究必须要有好奇心,没有好奇心就没有科学研究的原动力。”基于对计算机的浓厚兴趣,他选择在北京理工大学就读计算机专业,并于2003年获北京理工大学计算机科学与技术系工学博士学位。
博士期间,为了提高学术水平,查礼来到中国科学院计算技术研究所,跟随徐志伟研究员从事分布式系统方向的前沿研究工作。“当时所里有一个‘国家网格的项目,从‘九五就开始做了,我也全程参与。”查礼所说的“国家网格”是国家“863”项目,“网格”思想的初衷是希望通过软件把十余个国家级高性能计算中心互联起来,做到资源共享。“这种思想在当时十分先进,其实和后来‘云计算的理念基本上是一样的。只不过‘网格的概念是由学术界先提出来的,而‘云计算是工业界先提出来的,导致两者后续的发展道路完全不一样。”
虽然“云计算”与“网格”的理念相同,但它是由工业界率先提出的,这就注定了其与“网格”有很大区别。“‘网格更多地偏向学术研究层面,而‘云计算的外延则要广得多。且与学术界对‘网格研究的零星火花不同,工业界对于‘云计算的参与度很深,直接带动了学术界的研究兴趣,所以技术进步就快得多,也实用得多。”对于查礼来说,科研的最终目的是要实用,而工业界的成果转化要比学术界快得多。查礼评价自己:“我的科研之路从这里开始就比较‘接地气了,比起单纯的论文导向的研究工作,我更愿意解决工业界出现的实际问题。”从草根大会到领域峰会
这个机会很快到来了。2008年,查礼领导研究小组与Apache Hadoop开源社区合作,发起并组织Hadoop in China大会。这一年,Hadoop in China成功举办第一届草根大会。就是在这第一届鲜为人知的草根大会上,查礼确定了一个研究方向,并向Apache Hive开源项目贡献了“行列混合式存储结构”一RCFile技术和实现代码,该技术现已被Facebook、Yahoo!、阿里巴巴等公司广泛采用。
“第一次大会上,我们请到了Yahoo!、百度、Facebook的人。当时Facebook的工程师提到Hadoop和Hive在Facebook的应用遇到了一些问题——他们用600台机器专门处理数据,但数据太多,存储空间已接近饱和,而新的数据中心尚未交付。”查礼说:“为了解决他们的问题,我们合作研究出了一种新的半结构化数据存储格式:‘行列混合式存储结构-RcFile技术和实现代码。行列的组合存储比原先节约了百分之二十的空间,为Facebook切换到新数据中心争取到了一段时间,解决了他们的燃眉之急。”为此,查礼团队中的一名博士生直接被Facebook录用,以帮助他们将生产系统的数据全面转换为新的存储格式。当时,在大数据领域,做出这样的成果,让国外的大公司如此大规模地应用,实属凤毛麟角。
中国的大数据时代已呼啸而至,数据技术与数据经济的发展是持续实现大数据价值的支撑,深度应用正将传统“IT”从“后端”推向“前台”。这种情况下,短短几年,Hadoop in China大会的规模不断扩大,从草根大会向领域峰会迈进。
对于查礼来说,最让他开心的不是Hadoop in China大会规模的不断扩大,而是可以借助这个平台接触到工业界,了解他们所遇到的问题,并研究出解决方法。
从工业界的角度来看,除了Facebook从中获益之外,华为的变化也很大。“华为此前从不开源,现在已经能在Hadoop等开源社区里做贡献,从侧面反映了开源理念在中国慢慢得到认可了。”
对于查礼在开源社区方面所做的工作,计算所领导一贯是支持的。查礼说:“现在我的同事做出成果,也有很多直接就开源,毕竟开放源码是展示成果的最好途径。”
从专利技术到“数据魔方”
2011年,查礼开始与淘宝公司合作,帮助他们优化“数据魔方”系统。“数据魔方”是淘宝官方出品的一款数据产品,主要提供行业数据分析、店铺数据分析等。其中包含了品牌、店铺、产品的排行榜,购买人群的特征分析(年龄、性别、购买时段、地域等)。“马云最早说淘宝转型为数据公司,就是凭这个产品才有的底气。”
“要想做到这些分析,最大的技术挑战就是数据量太大,对上百亿的记录做实时查询,传统的数据库是完全做不到的。还有一个问题就是时间范围的限制,他们希望可以尽可能地扩大查询操作的时间范围。”计算所对于查礼去企业解决实际问题的行为非常支持,于是查礼带着2名学生在杭州的淘宝总部花了3个月来攻克这项技术难关。
“这个项目中我们遇到了很多困难,因为淘宝的技术人员的能力已经很高,他们解决不了的问题其实已经很难了。他们已经在一条路上走到了极致,如果我继续沿着这个思路走下去的话,是没有出路的。”查礼坦言道:“所幸我们在这方面曾经做出过创新,有自己发明的专利技术,再做一些适配,才得以解决这个问题。“查礼将”互补式聚簇索引技术“-CCIndex专利发明应用到淘宝网的“数据魔方”产品中,用以支持实时多维区间查询,最终啃下了这块硬骨头。
查礼的成果绝大多数都体现在实际应用中,这也是他与其他高校和科研院所的研究人员最大的不同。他认为,把科研论文写出来之后,并不是终点。他更倾向于再往前一步,将论文应用到实际中。甚至在论文选题的时候,他就做好规划,只选可以解决实际问题并能够最终落地的项目。“我有很多项目的来源是在我去和一线开发人员交流的时候产生的——我的问题是来自实际的,那么我的研究成果就可以直接解决现实问题。”
不管是科研还是教学,查礼都不愿意跟随别人的既定模式去走。他自己探索培养学生的方式,认为指导学生最重要的是要培养他们的科学素养。“当他们对自己研究的科学问题有了一些新的想法,对科研有了兴趣,才算真正入了门。”
“云计算”是新一代信息技术的重要发展方向,是我国新一代信息技术产业实现创新突破、跨越式发展的战略机遇。查礼承担过多项国家“863”重大专项、“863”国际合作、发改委专项和欧盟第六框架(FP6)国际合作课题,以及“863”计划“中国云”一期和二期中与大数据系统相关的课题,曾获2007年度和2012年度国家科技进步奖二等奖。
对于这些成果的取得,查礼认为,每个人都应该找寻属于自己的道路。而最适合他的,就是这样一条与工业界联系密切,“接地气”的科研之路。他选择了这条科研之路,在这条路上走了十余年,并将一直走下去。