云端算力芯片为什么是“科技石油”?
2023-07-21刘浩然
刘浩然
导语
在追逐智能化的道路上,云端算力芯片扮演着不可或缺的角色。其强大的计算能力和无限的潜力,推动着科技的创新和进步。随着技术的不断发展,我们有理由相信云端算力芯片将继续引领人工智能的未来,为我们带来更加智能、高效的世界。
自人类开采第一口油井开始,石油就深深融入了人类生活的方方面面。小到锅碗瓢盆芯片,大到飞机火箭航母,没有哪个环节离得开石油的参与。如果说石油是工业的血液,电力与网络是信息时代社会的骨架,那么算力就是AI 时代构建万物的基础。
21 世纪前后,人类逐渐从工业时代步入信息时代,当下AI 时代的大门又再度缓缓开启。2023 年以来,以ChatGPT 为首的生成式AI 逐渐渗透各行各业,有人说,这或许又是一个IPhone 时刻。“ AI 起舞,算力搭台”,算力或者说是算力芯片就是AI 时代的石油、电力与网络。
算力从哪来? 如何理解算力? 国产云端算力芯片如今怎么样了。本文多位企业专家进
行了对AI 时代下云端算力芯片发展的挑战和机遇的探讨。
AI 时代,算力有多重要?
所谓算力,其本质就是计算能力,它可以反映芯片对信息数据的收集、处理与输出能力。计算本质上是一种抽象概念,加减乘除是计算,三角运算是计算,积分与微分也是计算。在如今的计算机时代,每一种复杂的计算都可以拆分成多个简单的计算,现在通常用每秒钟计算的浮点运算次数作为评价算力的指标。每秒计算1 次就是1 FLOPS。不过,算力这个概念并不是芯片独有的,人类的大脑也无时无刻不在进行着计算,从买菜购物到数学考试,从鸡兔同笼到多元微分,计算贯穿了人类的一生。
放眼人类的发展历史,人类对计算的渴求就一直在进步。石器时代人类就开始结绳计数,后来各类算筹、算盘等辅助计算技术诞生,让人类拥有了更大规模的计算能力。如果这时算力能被计算出具体数值,那么一根系满绳结的绳子的算力会低于1 FLOPS。1946 年, 世界上第一台计算机“ 埃尼阿克(ENIAC)”出现,使人类的计算得到进一步提升,计算速度也进一步提升,其计算速度达到了300 FLOPS,也就是每秒钟可以进行300 次浮点运算,远超当时任何人类与机械计算器的计算速度。
紧接着人类便进入到集成电路大发展时代。
1978 年,英特尔推出了跨时代的8086 芯片,它包含29 000个晶体管,主频达到4.77 MHz,其算力也达到了700 000 FLOPS 以上。此后,集成电路产业飞速发展,至今已经形成英特尔、AMD、英伟达3 家争霸,还有TI,ST 和瑞萨等MCU 大厂紧随其后,不同厂商不同种类的芯片用途五花八门,但其证明芯片性能的关键参数仍是“算力”。
不过,算力一词使用频率最高的领域仍旧是GPU。GPU 起初是用来专门处理图像的硬件,相比CPU,GPU 具有更多计算核心,也更擅长进行并行计算。如今,世界上单芯片算力顶峰是英伟达的Thor 芯片, 其算力已经达到200 TOPS。TOPS 即teraoperations per second,1 TOPS 代表该芯片可以每秒计算1×1 012 次运算。
在AI 时代,算力已经不仅是一项描述芯片计算能力的参数,它更像是一种资源,和石油与电力一样,成为信息时代不可或缺的重要一環。而算力之所以如此重要,在于它对于AI 来说的必要性。
AI 模型,本质上是算力与算法的结合。模型的“大”与“小”,其实就是算法规模量的区别,模型输出的精度也与训练AI 的数据量呈正相关,然而计算机处理越大的数据量,它所需要的算力也呈指数上升。
其原因是AI 算法可以理解为超大规模的矩阵运算,矩阵的维度就是数据特征数量,即数据的参数量。矩阵维度越多,参数越多,模型越复杂,它输出的数据准确度就越高,但所需的算力也就越大。AI 时代,算力已经不仅是一项描述芯片计算能力的参数,它更像是一种资源,和石油与电力一样,成为信息时代不可或缺的重要一环。AI 时代,也可以说是算力时代。
算力芯片也可以分为云端与终端2 种。云端算力芯片通常负责训练和推理2 种场景,可在不要求延时与高网络带宽下运行几乎全流程的AI 算法。终端算力芯片通常用于自动驾驶、智能家居、智慧城市等AIOT 场景中。通常来说,云算力芯片的难度更高,成本也更高,还需要用户负担额外的网络通信费用,那是不是云端就不重要了?
若没有云计算,则企业在需要算力场景的时候就要搭建私有云,也就是自己的服务器。而为了应对更加复杂的应用,以及支撑更加稳定的计算环境,企业就必须不停地升级采购新设备,如服务器、存储、带宽等,还需要组建完整的运维团队来保证这些设备的正常运行。综合计算下来,布置企业自身的算力中心花销巨大。这对于中小微企业来说更是一笔难以承受的支出。
而云计算可以一劳永逸地解决上述问题,相当于多个企业共享硬件设施,只有当企业需要算力的时候才会购买,并不需要一直持有大量空闲算力。简单来说,云计算就相当于家庭用电,只有打开电灯,电表才会计数。
总体而言,“云端+边端”能够满足AI 时代下所有应用场景的要求。如今,AI 大模型不断涌现,同时满足训练与推理,还具有性价比优势的云算力芯片已经成为AI“大乱斗”背景下的必争之地。但在高需求刺激下,极速涌入云端算力芯片的资本还面临着更加严峻的问题———高门槛。
挑战与变局
过去,云端算力芯片仅受到部分企业关注。普通人对它的理解往往仅限于大型服务器、云计算、神威太湖之光等名词上。自2023 年以来,ChatGPT 的横空出世让普通人对AI 的了解更进一步。AI 大模型爆火后,给全球AI 芯片市场带来了哪些影响?
摩尔线程专家认为,大模型的火热对芯片市场的影响,最直接的就是对算力基础设施的需求猛增,GPU 作为大模型背后的关键算力基础设施,尤其受到追捧。与此同时,大模型全新的算法方式对传统的芯片架构提出了挑战。
那么,挑战是什么?
随着OpenAI 的一声炮响,全世界都被轰开了AI世界的大门。不过,大规模计算所需要的高算力芯片挑战颇多。摩尔线程专家认为挑战主要来自芯片的通用性、功耗墙与显存墙上。
奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东认为,目前云端算力芯片还面对着5 大挑战,即架构、系统、场景、互联以及快速迭代。
从架构上来说,运算算力芯片对算力提升的需求与日俱增,但目前传统SoC 提升单芯片面积已经达到瓶颈,摩尔定律极限在时刻限制芯片发展,内存墙的限制也使得传统架构芯片难以提升,更让芯片在散热、功耗等方面处处掣肘。因此,需要异构计算架构来寻求芯片新的突破,其中就包括绕开摩尔定律的more than more———异构计算。
从系统角度来看,随着大模型的广泛应用,模型参数与规模都呈现指数级增长,因此需要更大规模的整合计算系统来应对大模型训练和计算的需求。换言之,尽管芯片算力不断增长,但仍旧需要软件端配合才能更好地发挥硬件性能。毕竟兵器是否趁手得看使用者的功力高低。
从应用场景来看,随着ChatGPT 爆火,AICG 赛道上涌现了越来越多的玩家,未来AI 领域还将出现更多应用场景,这也意味着还会有新赛道出现。因此,作为“AI 起舞的舞台”,运算算力芯片需要具备一定的通用性,也要有能力应对当今乃至未来日益多元化的专用计算场景。
从互联来看,云端算力芯片需要高带宽配合传输数据。未来大模型大算力应用涌现,云与端之间的快速交互,也将对带宽和延时提出更高要求。
最后,AICG 与算力芯片市场还处于快速变化阶段,竞争者不断入行,蓝海可能一夜之间就变成红海。因此,企业必须快速迭代产品,尤其在云端算力芯片上,需要不断调整产品策略来迎合未来产品的新需求,同时要缩短TTM 乃至量产时间。
总体而言,云端算力芯片目前挑战颇多,无论是从技术角度还是市场角度,国内涌现的诸多AICG 与算力芯片玩家都需要更多的突破。更重要的一点是,目前全球算力芯片绝大部分市场都在英伟达手中,国产算力芯片在市场上仍旧处于弱势。但在新兴市场中,有着强力GPU 先发优势的英伟达面对的问题是什么呢?
除了AICG 之外,目前自动驾驶技术同样发展迅速,这也激发出了全新的算力芯片需求。在自动驾驶中,受限于延时与传输,对于雷达与摄像头信号处理属于边或终端计算。但云计算对自动驾驶算法与系统的支持仍旧重要,云与端的结合成为更多汽车厂商的选择,譥?鵢m曌_新的挑战也如期而至。英伟达技术专家在自动驾驶上的云端结合的挑战上指出,云在用于自动驾驶汽车的人工智能软件的开发中发挥着重要作用。
数据被收集、整理、摄取、标记并用于训练深度神经网络,从计算角度来看是一项艰巨的任务。这是一个增强人工智能模型的迭代过程。创建模型后,将使用模拟在云中对其进行测试和验证。
英伟达的专家表示,自动驾驶汽车运行时,不需要连接到云,但这是一个额外的好处,可以从交通、基础设施和天气等各种来源获取信息,以实现安全驾驶 操作。但自动驾驶汽车必须完全保持自主性,因此驾驶决策必须在车上做出,而不是在云端做出。连接到云的软件定义汽车还为汽车制造商提供了新的商业模式和订阅服务机会,同时为消费者带来价值。过去,汽车在购买时处于最佳状态,但随后就会贬值。对于软件定义的汽车来说,它处于最基本的销售水平,随着时间的推移,通过基于云,也就是云端算力芯片支持下的软件更新,它会变得更好、更安全。
在挑战中育新机,于变局中开新局
在AI“躁动”的这几年,也让下游应用场景百花齐放,其中AI 与国产电动汽车全面崛起,让AI 驾驶(也就是自动驾驶技术)成为资本的宠儿。
针对自动驾驶领域的云端算力芯片机遇,祝俊东认为,受自动驾驶技术的快速发展驱动,大算力AI 芯片正在汽车领域迎来广阔的机遇和前景。通过高效的计算和深度学习算法,大算力AI 芯片可以提供更精准和可靠的驾驶决策,从而提升行车安全性和驾驶体验。而在云和端的结合中,最大的难点在于自动驾驶技术对实时性和低延迟要求非常高,将算力分布在云端和边缘端之间会面临数据传输和处理的挑战。
大量的传感器数据和图像到云端进行处理可能会导致较高的网络延迟和消耗大量的带宽。
他认为,异构芯片可以将AI 算力和逻辑算力集成在一起,在不同的计算场景中发挥不同的作用。这种集成能夠提供更高的计算性能和效率,满足自动驾驶技术对算力的需求。同时,异构集成高带宽、低延时的互联特性,也能有效帮助自动驾驶进行云与端的交互,且有效地提升了自动驾驶系统的性能和效率。
跳出应用,回头看云端算力芯片本身。GPU 或GPGPU 是云端算力芯片或AI 芯片的主流形态。不过,也有人认为目前的AI 芯片是过渡形态,未来所有AI 芯片还会向ASIC 方向靠拢。针对这一观点,摩尔线程专家认为,目前AI 算法还在快速迭代和变化,在这个过程没有放缓或停止之前,GPU 仍具有特别强的优势。对于云端算力芯片未来的看法,摩尔线程专家认为,云端基础设施需要具备对未来技术的兼容性,GPU 仍是首选。未来的变化,在摩尔线程看来主要包括几个方面:工艺制程向前推进,算力、带宽不断上升;通过chiplet 方案,进一步提高芯片级别的计算密度和系统集成度3、云端AI 芯片将不断融合新算法所需的功能和加速模块。
祝俊东认为,在AI 芯片领域,作为通用芯片和专用芯片的代表,GPU 和ASIC 各有优势。但是专用芯片与通用芯片永远都不是互相替代的关系,二者必须协同工作才能发挥出最大的价值。通过异构计算架构,可以把如GPU 为代表的通用芯片与ASIC 等专用芯片集合起来,兼顾通用性和专用性的双重优势,提供更全面和高效的解决方案。异构计算也有助于客户根据AI 任务的实际需求,调整通用芯片和专用芯片的比重,以满足不断变化的AI 应用领域的需求。
写在最后
云端算力芯片为AI 时代的创新和应用注入了无限活力,它已经成为当之无愧的“AI 石油”。面临挑战与机遇,云端算力芯片未来还会不断突破创新,驱动着智能化世界的前行。
在追逐智能化的道路上,云端算力芯片扮演着不可或缺的角色。以其强大的计算能力和无限的潜力,推动着科技的创新和进步。随着技术的不断发展,我们有理由相信云端算力芯片将继续引领人工智能的未来,为我们带来更加智能、高效的世界。