沐露晨曦之博大“芯”怀所望
2021-02-10郑小龙
1 智能化不断催生智慧的芯
移动互联网及云计算技术的迅猛发展,使得算力对人们生活的方方面面产生深远的影响,并且与人均GDP 具有高度相关性,因此,算力基础设施在“新基建”中发挥着举足轻重的作用,而算力提供者也成为不断推动数字经济向前发展的核心引擎。可提供强大算力的是性能卓越的高端处理器,所面向的是越来越复杂的边缘计算。根据Gartner分析,过去5年来,全球边缘计算复合增长率达到87.4%,2020年市场规模超过424亿美元。然而,高端处理器芯片由少数国际厂商垄断的格局在行业内由来已久,不过这个坚冰正在融化,燧原科技AI云端芯片引发星火燎原[1],在通用高端处理器方面又将有谁带来曙光?在上海张江的腾飞科技楼,通过与沐曦集成电路有限公司创始人、CEO陈维良交流,我看到了打造全球一流国产GPU芯片的希望所在。
如图1所示,着眼于信息技术产业链的结构,可以看到所需的基础是芯片层,计算芯片对算力起着决定性作用,其中包括两种类型,即中央处理器CPU和图形处理器GPU。CPU作为计算机时代的核心引擎独领风骚数十年,始终是算力的主要承担者,然而,后来至上的GPU以其强大并行计算能力,将计算性能和效率提到更高的水平,并对各种新算法具有很强的适应性。GPU所具有的独特优势可以同时满足传统高性能计算和新型AI计算的需求,因而成为最重要的算力来源。
主流高端GPU分為针对通用算力的通用GPU(即General Purpose GPU,GPGPU)和针对游戏显示的传统GPU。如图2所示,当前全球高性能GPU市场被少数几家国外公司垄断,使得中国互联网和物联网的大数据基础设施受控于人,凸显出国家安全及国计民生存在巨大不可控风险,因此,核心算力芯片国产替代势在必行。高性能GPU的研发技术门槛非常高,具有长期GPU核心技术积累的全建制人才队伍才有可能胜任。为此,作为新崛起的集成电路新生力量,沐曦肩负起重任,致力于以中国人智慧创造出满足中国智能化社会需要的先进GPU芯片,而解决困扰我国高性能GPU供应链安全的问题,为算力经济提供强有力的支撑。
2 异构化成就超酷的芯
作为行业资深的高端处理器设计专家,陈维良谈到,要改变以往以CPU作为算力核心的手段,就是要采用“异构”体系,就是CPU加上比其能效更高的计算单元。异构计算的兴起标志着“摩尔定律”对于高性能计算芯片已不再完全适用,一方面,CPU处理器性能再无法按照“摩尔定律”增长;另一方面,数据增长对计算性能要求超过了按“摩尔定律”增长的速度,所以只能由异构计算提升算力,以此满足日益增长的海量数据计算需求。其主要原因在于以数据计算为驱动力的同构CPU难以适应以高清视频和影像、复杂多相流模型、海量平行数据计算、实时数据处理,以及其他新兴高复杂度算法的需要,而GPU的突出优势显而易见。
着眼于图3所示的处理器内部架构,各类CPU遵循的都是冯诺依曼架构,按照存储程序顺序执行,更擅长于逻辑控制,而在大规模并行计算能力上受到极大限制。GPU则采用数量众多的并行计算单元,非常适合处理大量数据计算,不仅可以在图形、图像处理领域大显身手,还被用于科学计算、密码破解、数值分析及海量数据处理、金融分析等需要大规模并行计算的领域。GPU的优化机理不再局限于延迟性能,而是基于吞吐能力,通过指令集从物理底层直接支持软件可编程。
当今世界最先进的超级计算机(HPC)多数已经转向基于GPU的异构体系,如2019年排名第一的HPC(Summit),95%算力由GPU提供。根据算法的不同,GPU的计算速度可以比CPU快10倍到100倍以上。将来的数据中心和大数据处理也越来越依赖基于GPU的异构算力来支撑。
3 新时代召唤博大的芯
对于国产化GPU在解决AI算力方面业已取得的巨大进展陈维良颇为振奋,他表示,这些进展包括两个方面,其一主要侧重于支持训练或推理类的AI加速;其二是沐曦正在开发的GPU芯片,专注于需要更通用的强大算力的科学计算,既支持AI处理,还支持包括“计算物理”、“计算化学”等与计算紧密结合的学科,使计算成为常规手段,同时满足与工业相关的算力需求,涵盖各种设计和仿真等。当今AI属于大框架下深度学习的神经网络,相关算子可以预见,即便层数增加,网络架构变复杂,仍基于卷积运算方式。通用计算则种类极其繁杂,所需的算子各有千秋,因此通用异构GPU的概念将从图形处理器(Graphics Processing Unit)超越而成为宏大处理器(Grand Processing Unit)。
GPU所追求的就是超高性能,在运算指标上往往采用FLOPS单位,即每秒浮点运算次数,其“单指令多数据(SIMD)”类型指令集利用数据级并行方式,执行一个指令即可进行多个同时发生的计算。其单位已经从GFLOPS的十亿级别上升到TFLOPS的万亿级别,业界目前最高水平超过300多个TFLOPS,而下一代将翻倍,这就成为国际和国产GPU竞相期待达到的目标。
超高性能必然使功耗成为一个焦点问题,目前最高端GPU可达到(300~500)W,在芯片及应用中对信号传输带宽和物理架构设计都要通盘考虑。存储器配合无疑是影响GPU性能的最重要单元,内部可以有多级的上百兆SRAM,而外部需要配规模巨大的高速DRAM。曾经作为图形处理器的GPU有专用高速显存GDDR支持,并已发展到GDDR6。针对更高端的通用GPU,一种名为HBM(High Bandwidth Memory)的技术将显存由平面扩展转为向上延伸,以实现所占面积相同前提下存储容量及位宽的数倍提升。这种堆叠封装方法采用设计和工艺紧密结合的手段,显存颗粒与GPU核心通过硅片中介层(Silicon Interposer)进行连接,从而获得更低的工作电压和功耗。HBM1.0/HBM2.0属于2.5D技术,现阶段已可以大批量生产,未来会实现3D垂直封装。
在全球AI产业高速变化的大环境下,广泛的行业分布为其应用拓展提供了广阔前景,快速迭代算法推动AI技术商用带来了无限商机,算法实现的算力基础就是通用GPU的不断升级换代。打造行业一流的GPU公司,从而抢占AI产业发展的制高点,需要在设计理念和创新架构上持续超越。新一代通用GPU芯片将具有更高度的并行处理能力、更低内存延迟,并实现计算单元和内存间的灵活而丰富的连接,而且在功效和能效管理水平上有更大的提高。
沐浴着AI新时代曙光,晨曦正在展开算力提供者的视野,以敏锐眼光展望以AI为代表的未来新潮流。国产新型通用GPU基础架构的建立必将是一个艰辛的过程,走产学研结合之路,跟进产业成熟之旅,抓住未来通用计算的算力需求,才能实现高性能处理器的落地。GPU对于通用平台生态系统的建立至关重要,需要完善的IDE支持,具备软件兼容性,能够衔接和复用针对众多智能算法和机器学习软件的存量应用。面向未来布局,强强联合有利于达到合力的效果,成为我国应对严峻高端技术挑战,紧跟全球AI日新月异算力增长需求,促进芯片设计和制造工艺能力突破的新兴力量。期待来年宏大通用处理器GPU脱颖而出。
参考文献:
[1] 郑小龙.决胜AI云端:芯火燎原看燧原[J].电子产品世界, 2020(10):11-12.