杨仝:探索科技前沿 编译精妙算法
2019-06-05刘婉茹
□ 刘婉茹
当今,人类社会正在经历着信息革命和数字化浪潮,这是继农业革命、工业革命之后的又一次历史性巨变。谁能更好地认识和把握信息化大势,谁就能赢得新的全方位综合国力竞争。习近平总书记曾强调:“我们不断推进理论创新和实践创新,不仅走出一条中国特色治网之道,而且提出一系列新思想新观点新论断,形成了网络强国战略思想。”尤其是随着网络规模的不断扩大,网络流量成了最高速的数据流,称为网络大数据。如何感知、测量、利用这些网络大数据就成为众多行业面临的难题,成为学者们探索科技前沿的研究热点。
北京大学(以下简称“北大”)就有一位80后学者,他年纪不大却已在网络大数据研究领域颇有建树:他在计算机网络排名第一的国际会议SIGCOMM 2014上发表了一篇路由表查找论文,该论文是当时“近10年来大陆科研机构作为第一完成单位在该顶级会议上唯一发表的学术论文”。他在计算机网络排名第一的会议SIGCOMM、数据库方向排名第一的会议SIGMOD、大数据方向排名第一的会议SIGKDD这3个会议发表第一作者或通信作者论文共5篇。大陆单位尚没有其他研究人员同时在SIGCOMM和SIGMOD这两个会议上同时发表论文……他就是杨仝,北大信息科学技术学院网络与信息系统研究所副教授。
助力实现网络强国
顾名思义,网络大数据即是指“人、机、物”三者在网络空间中通过交互产生的,能够通过网络技术进行查询和进一步使用的大量数据。IDC报告发布,据近年来大数据增长形式来看,到2020年,网络大数据集合规模将实现35ZB。
飞速发展的网络大数据好似一柄双刃剑,既为人们深度挖掘
大数据功能和价值带来了机遇,也对现有的网络框架及处理方式带来了新的挑战,尤其是体现在网络大数据的核心问题上,即实时转发和网络测量。其一实时转发问题不难理解。如同大量车流会引发交通堵塞一样,网络流速度太快时,也易导致网络拥塞、中断,继而使互联网应用譬如微信、网页等出现掉线、卡顿的现象。其二是测量统计。为了维护网络质量,需要及时准确地了解整个网络的运行状况,如是否存在拥塞、受到攻击等现象。但网络流量太快就给准确测量带来巨大挑战。
杨仝(左)参加国际会议
明知山有虎,偏向虎山行。不断挑战、敢于突破正是科技取得进步的先决条件。作为该领域的探索学者之一,进入北大信息科学技术学院网络与信息系统研究所后,杨仝就向网络大数据的这两个核心问题吹响了冲锋号。他向记者解释道:“大数据应用对现有存储系统在性能、容量、可扩展性和可靠性等方面提出了重大技术挑战。新型非易失性存储器件(Non-Volatile Memory,NVM),如3D-Xpoint、忆阻器RRAM等,具有高性能、大容量和非易失等特性,弥补了现有存储体系架构中内外存特性差异。基于NVM构建大数据存储软硬件系统,可以较好地满足大数据存储对容量、性能与功耗等方面的需求。”
2016年以来,他先后主持了两项国家重点研发计划的子课题研究,即“新型大数据存储技术与平台”的子课题与“高时效、可扩展的大数据计算模型、优化技术与系统”的子课题。能够肩负这样的重任,对于高校老师来说是一个挑战更是一种鼓励,是落实网络强国战略的光荣使命。
对于基于新型存储器件研制自主可控的大数据存储软硬件系统,杨仝详细地介绍道:“将重点围绕基于新型存储器件的大数据存储体系结构、大数据异构融合存储的高效系统软件、大数据存储可靠性理论与方法,以及大数据存储评估理论与方法4个关键问题方面开展研究与实现,并研制出包括自主知识产权的新型存储器件NVM的控制器芯片等在内的大数据软硬件存储系统。”
而在大数据存储体系结构方面,杨仝将重点研究基于新型存储器件的高性能和高可扩展性的存储体系结构,研究新型NVM的控制访问方法和协议,设计实现基于ARM64架构的NVM控制器芯片和基于x86 slave的NVM控制器等问题,以便实现支持系统的可扩展性。
实践应用是对科研成果的最好检验。如今,杨仝的部分科研成果已取得了可喜成果。2018年,其发表于ACM SIGKDD 2018论文的Heavy Guardian算法在“今日头条”数据中心得到应用,预计可节省软硬件资源成本达1000万元人民币以上,具有良好的经济效益。
锐意创新逐步成长
“不积跬步,无以至千里”,对于杨仝来说,成功申请国家重点研发计划项目、屡获行业重要荣誉,这些都是有根可循的。早在博士3年期间,杨仝已经在这一领域显示出自己的天赋,发表了多篇论文,获得了国家奖学金、综合一等奖学金、光华一等奖学金等。而他本人也被评为清华大学计算机系优秀毕业生。
在多年的科研历程中,这份优秀一直跟随着杨仝,并让他一次又一次斩获重要成果。在中国科学院计算技术研究所谢高岗课题组进行客座访问期间,杨仝对路由器最核心的技术——路由查找发起挑战。他和团队其他成员在Intel x86 CPU等主流软硬件平台上实现了基于二维划分思想的路由表查找框架,即SAIL算法。该算法框架的片内存储空间最大只需要4MB。测试结果表明,该算法的查找速度比常用路由表查找算法提高了7~60倍。该算法后来部署到了华为公司的某项网络产品中,华为的应用证明显示:部署后,查找速度提高了一个数量级。
在计算机网络领域最高水平的学术会议——ACM SIGCOMM 2014上,基于上述研究成果,杨仝发表了题为“Guarantee IP Lookup Performance with FIB Explosion(针对路由表爆炸增长,确保路由表查找性能)”的学术论文,成为“近10年来大陆科研机构作为第一完成单位在该顶级会议上唯一发表的学术论文”的第一作者,轰动业界。SIGCOMM对论文的质量和数量要求极高,质量方面要求具有基础性贡献、领导性影响和坚实系统背景,每年只录用30篇左右的正式会议论文,录取率只有百分之十几。由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM年会上发表论文是所有通信、网络研究者的无上荣誉。这一荣誉的获得是对杨仝科研成绩的肯定,也成为他科研进程中一座重要的里程碑。
“传帮带”促进学科发展
春种一粒粟,秋收万颗子。多年来,一直在网络大数据领域默默耕耘的杨仝,如今也迎来了丰收的喜悦:成为中国大陆地区以第一身份单位发表ACM SIGCOMM论文最多(2篇)的作者,获得了2018年度ACM SIGCOMM China新星奖,全国仅3人获此殊荣。“是北大宽松的科研氛围,研究所李晓明、代亚非、崔斌老师的大力支持,才使我有机会做出成绩。”杨仝满怀感激地说。初到北大时的那些往事,在他心中记忆犹新……
万事开头难。刚进北大时,杨仝没有项目,也没有学生,但办公室、实验室都需要缴纳费用,李老师和代老师就主动帮他承担了这笔费用,免去了他的后顾之忧。
与此同时,北大宽松的学术氛围也让他能够在自己最感兴趣的领域心无旁骛地搞研究。进入北大的这几年中,杨仝90%的晚上、80%的周末都是在学校度过,写代码、做实验几乎成为他生活的全部。一分付出一分收获,多篇顶级学术论文的发表就是杨仝对自己、对网络所的最好回报。
兴趣是最好的老师。热爱学生的杨仝一直从学生的角度思考,希望能够真正激发出学生们的兴趣,从而取得更好的教学效果。“学生们都很聪明,我常常和学生们一起讨论,如果有分歧,就用实验来证明谁的想法更好,这种头脑风暴更能激发学生思考。尤其是当你发现你的算法比以往的都要好特别多的时候,那简直比发表论文还开心。”出色的科研能力、对学生们的悉心教导,不仅使杨仝连续两年在北大信息科学技术学院年终考核中被评为优秀,而且他指导的两名本科生毕业设计论文也被评为了“信科十佳本科毕设论文”。
“科技兴则民族兴,科技强则国家强”。在国家对科技创新高度重视的大背景下,在信息科学技术学院所有老师的共同努力下,如今北大计算机科学与信息系统学科已在2019 QS世界大学学科排名中跻身前20,在中国大陆高校中名列前茅。未来,杨仝还将奋力求索,用科研创新助力网络强国的崛起。