APP下载

基于电信运营商视角的智算中心规划建设关键要点分析及建议

2024-04-14殷凯凯

现代信息科技 2024年1期
关键词:算力数据中心人工智能

DOI:10.19850/j.cnki.2096-4706.2024.01.005

收稿日期:2023-08-14

摘  要:以大模型为代表的人工智能快速发展,为信息通信行业带来新的机遇和挑战。电信运营商作为数字信息基础设施建设的主力军,也迎来智算发展的新机遇。文章详细分析了智算中心的相关概念、主要作用和发展趋势,并在智算中心整体技术架构基础上提出了规划建设中需要重点考虑算力规模、算力能耗和智算网络三方面关键要素并进行分析,最后提出相关建议。

关键词:人工智能;数据中心;智算中心;算力

中图分类号:TP18  文献标识码:A  文章编号:2096-4706(2024)01-0022-06

Analysis and Suggestions of Key Points for Planning and Construction of Artificial Intelligence Computing Center Based on Telecom Operators' Perspectives

YIN Kaikai

(Beijing Branch of China Telecom Co., Ltd., Beijing  100032, China)

Abstract: The rapid development of Artificial Intelligence represented by big models has brought new opportunities and challenges to the information and communication industry. Telecom operators, as the main force in the construction of digital information infrastructure, also usher in new opportunities for the development of AI computing power. This paper analyzes in detail the relevant concepts, main roles and development trends of AI computing center, and puts forward and analyzes three key elements that need to be considered in the planning and construction of AI computing center, namely, the scale of computing power, computing power energy consumption, and AI computing network, on the basis of the overall technical architecture of AI computing center, and finally puts forward relevant recommendations.

Keywords: AI; data center; AI computing center; computing power

0  引  言

2022年11月30日美國OpenAI人工智能公司发布全新对话式AI模型ChatGPT,引发大模型和人工智能热潮。根据2023年5月发布的《中国人工智能大模型地图研究报告》显示中国10亿参数规模以上的大模型已发布79个。推动以大模型为基础的生成式AI快速发展的三要素是数据、算力和算法,其中算力是承载人工智能应用发展的基础。智能算力中心(或称智能数据中心(AIDC)、人工智能计算中心,简称智算中心)又是融合计算、存储和网络能力,承载算力资源,对外提供高性能算力服务的关键新型基础设施。

电信运营商作为数字信息基础设施建设的主力军,也迎来智算发展的新机遇。本文详细分析了智算中心的相关概念、主要作用和发展趋势,并提出了布局建设中需要重点考虑算力规模、算力能耗和智算网络三方面关键要素并进行分析,最后提出相关建议。

1  研究背景

1.1  智能算力和智算中心概念界定

算力,通俗理解即计算能力。中国电信李正茂等学者认为算力包含通用算力、智能算力、超算算力及前沿算力(如量子计算、光子计算)[1]。中国信通院将算力分为通用算力、智能算力、超算算力和边缘算力[2]。通用算力以CPU芯片输出的计算能力为主,超算算力主要是以超级计算机输出的计算能力为主。智能算力则以GPU、FPGA和AI芯片等输出的人工智能计算能力为主,具备渲染、推理和模拟能力,可面向智能驾驶、人脸识别、大模型等人工智能应用提供智算服务的一种算力服务形态[3]。

智能算力以智算中心为承载体。智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施[4]。

1.2  智算中心主要作用及服务内容

智算中心作为新型人工智能算力基础设施,作用主要体现推进AI产业化、赋能产业AI化、助力治理智能化和提升产业集群化四个方面[4]。同时能带来显著成效和经济价值,经研究测算“十四五”期间,对智算中心的投资可带动人工智能核心产业增长约2.9~3.4倍,带动相关产业增长约36~42倍[4]。

随着人工智能产业不断发展,智算中心服务对象和内容日益多元化,其主要服务提供方式分为:数据服务、算力服务、算法服务和生态服务。

图1描述了智算中心数据、算力和算法的服务过程,其中:1)表示客户购买智算中心算力服务进行训练,训练完成后在自有数据中心部署推理服务的过程。2)表示客户购买智算中心数据服务,生成训练用的算据。3)表示客户购买智算中心的算法服务进行训练。4)表示客户购买智算中心的推理算力,对最终用户提供推理服务。

1.3  智算中心与其他数据中心的区别

智算中心从概念上可简化理解为以数据中心为基础的人工智能的基础设施[5],与数据中心和超算中心既有相似之处又有典型区别,具体如表1所示。

2  智算中心发展现状与趋势

2.1  智算算力发展情况

当前全球算力规模呈现快速增长趋势,各国均在推动CPU、GPU等异构算力发展。随着人工智能应用加快向纵深发展,智能算力的需求和规模势必将在未来几年迎来爆发式增长。数据显示预计2021—2026年期间中国智能算力规模年复合增长率达52.3%,2026年中国智能算力规模将达到1 271.4EFLOPS(FP16)[7]。

2.2  智算中心政策支持情况

我国高度重视人工智能产业发展和算力基础设施建设,从中央、国家到部分经济发达城市,近几年密集出台了一系列支持政策,内容涉及人工智能基础设施、标准体系、应用场景等多个方面,初步形成较为完整的政策体系,为加快推动算力基础设施规划建设指明方向。表2梳理了近期出台的部分与智算中心发展相关政策。

2.3  我国智算中心建设情况

从2020年开始,各地方政府、企业掀起智算中心建设热潮。据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国有超过30个城市正在建设或提出建设智算中心。根据投资建设主体划分,目前主要分为三类,分别为政府主导、互联网公司/云商主导、电信运营商主导。

电信运营商作为新型云、网、算力等信息基础设施服务运营者,自身拥有优质网络、算力和云服务能力和产业链优势[8]。目前运营商在持续推进算力资源建设,优化算力网络布局,加快建设企业级智算中心,大力发展智能算力,提升算力规模。根据相关数据中国移动预计2023年算力投入分别为452亿元,同比增长35%;中国电信预计2023年算力投入分别为195亿元,同比增长40%。

2.4  智算中心发展趋势

智算中心作为人工智能时代承载算力的关键基础设施,在政策、市场的双重驱动下,应用前景及赋能潜力逐步凸显。当下,智算中心的发展呈现出以下发展趋势,即算力多元化、产业协同化、服务一体化、能耗低碳化、价格普惠化、部署超前化、技术可信化。以此为基础,智算中心在打造新型算力基础设施基础上,正逐步向搭建集公共算力服务、数据开放共享、智能生态建设和产业创新聚集四大功能于一体的综合平台方向转变,有助于汇聚行业和产业力量,营造智能算力良好发展生态。

3  智算中心规划建设关键要点分析

3.1  智算中心整体技术架构

智算中心整体技术架构如图2所示,主要包括4层,支撑保障层、基础设施层、智能作业层和应用服务层。支撑保障层主要包括标准规划、运维管理、安全保障、容灾备份等体系。基础设施层主要包括机房环境、网络环境、存储设备、以GPU芯片和服务器为代表的计算设备等,可实现将异构算力、数据、存储、算力网络等转化为有效的算力与服务资源。智能作业层基于基础设施层提供的算力,利用人工智能算法和智能算力调度进行通用或者行业大模型的训练和推理。应用服务层,基于多类综合平台能力提供数据、算力和算法服务。

图2  智算中心技术架构

3.2  智算中心规划建设关键要点

智算中心规划建设工作是一项系统工程,需要综合考虑计算、存储、网络、平台、基础设施、设备等多种因素。同时既需要满足国家、行业有关数据中心的标准规范,也要满足智能算力发展需求。根据行业实践经验,本文重点分析影响智算中心规划建设的算力能力、算力能耗和智算网络三方面因素。

3.2.1  算力能力分析

智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。如图3所示,现在自然语言处理和多模态大模型参数已经达到了千亿级別,而且还在增加。AI大模型在上线前需要在智算中心完成预训练和微调,大模型参数增加给智算中心算力能力和规模提出了更高要求。

大模型训练和推理所需算力不同。训练过程需要部署高性能GPU服务器搭建多机多卡训练集群,GPU卡间高速互联,满足大模型训练等高算力需求。推理过程对算力的要求不高,数据中心或者边缘DC部署的GPU服务器即可满足要求。为评估承载大模型的智算中心算力规模,需测算大模型完成训练需要多少算力,本文以参数量1750亿的GPT-3为例测算。2021年Narayanan D等学者发表论文,给出GPT-3模型算力需求的计算方法并得出GPT-3一次迭代的计算量为4.5 EFLOPS,完成全部训练计算量为430 ZFLOPS[9]。以上只是理论上数据。

以NVIDIA A100芯片的FP16计算能力按照50%计算效率计算,可得出表4关系。即可理解为如有1万张A100 GPU完成GPT-3模型训练,需要3.19天;如有1张A100完成训练,约需要87年。由此可见大模型训练需要智算中心提供巨大算力支持。

大模型训练是计算密集型处理,需要高性能AI集群提供算力支持,智算中心内的AI芯片、AI服务器和AI集群是算力来源和生产单元。AI集群一般采用模块化方式构建,可以实现大规模的算力扩展,AI集群的基本单元是AI服务器。数十台AI服务器可以组成单个POD计算模组,POD内部通过多块支持RDMA技术的高速网卡连接。在此基础上以POD计算模组为单位实现横向扩展,规模可多达数千节点以上,从而实现更高性能的AI集群。AI集群的构建还需依赖三方面因素发挥作用,分别是低延迟、高带宽的网络互连;高性能、高扩展、多层级的智能存储;多机多卡、超大规模集群以及异构算力的纳管、加速、统一调度的智算平台。

3.2.2  算力能耗分析

智算中心属于高密、高算力的信息基础设施,算力业务需求持续推升服务器和芯片性能和功率,导致整个智算中心呈现高能耗、高成本特点。智算中心能耗主要取决于大模型训练和推理阶段的算力消耗。本文尝试估算智算中心能耗情况。

能耗估算的结论。英伟达服务器DGX A100 单台最大额定功率6.5 kW,含8卡GPU,智算中心PUE按照1.2测算。以GPT-3大模型的训练阶段为例,1万张A100卡,1次训练所需时长为3.19天,共需消耗74.6万度电(单日23.29万度)。

通过上述测算可知,智算中心能耗需求约746 MW,远高于现有单栋数据中心的能耗(单栋功耗100 MW),对大型/超大型智算中心的选址、建设和运营影响较大。在“双碳”宏观形势下,政府部门对数据中心PUE(电能利用效率)监管要求不断提高,比如明确要求国家算力东、西部枢纽节点数据中心PUE分别控制在1.25和1.2以下。在此背景下,液冷技术逐步成为一种新型制冷解决方案。液冷技术通过冷却液体替代传统空气散热,液体与服务器高效热交换,提高效率,降低PUE。数据中心近年已开始普遍使用液冷方案。其大致可以分为两种技术路径:冷板式(Cold Plate)与浸没式(Immersion),前者是通过冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体,后者则直接将发热器件以及电路板整体直接置于液体中。相比较而言冷板式液冷应用更为成熟和广泛。

3.2.3  算力网络分析

高质量算力网络是智算中心提供算力服务的基础要素,也是影响客户感知的重要因素。智算中心的典型业务流程对南北向的流量要求极小(低频上传数据场景除外),网络应该重点关注智算中心内高速无损网络。

智算中心内网络。为满足大规模训练集群高效的分布式计算,大模型训练流程中通常会包含数据并行、流水线并行及张量并行等多种并行计算模式,不同并行模式下均需要多个计算设备间进行集合通信操作[10]。另外,训练过程中通常采用同步模式,需多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算,因此智算网络需要满足高带宽、低时延、零丢包、超高稳定性和网络自动化部署等要求。目前业界一般采用InfiniBand或RoCE组网,提供超低时延无损算力网络,确保集群内训练POD间及计算、存储的高速互联。两种组网方式对比如表6所示。

南北向网络。一般表现为突发性大带宽(低频)和多线接入,可以在数据中心内部预留多线接入间,满足客户远端操作,传输、下载训练数据等需求。

智算中心间网络如图4所示。智算集群对网络时延需求为微秒级,因此均为单节点运行,智算中心间对双活、低时延和大带宽等高质量网络无特别需求。在后续区域算力交易、算力调度等业务,保证智算中心间网络可达即可。

4  运营商布局建设智算中心建议

以大模型和智算中心为代表的智算基础设施是电信运营商立足大模型时代乃至智能时代的根本。电信运营商在现有的连接和算力资源基础上,建设智算基础设施,满足未来大模型训练和推理需求,打造继云业务之后的第二增长曲线尤为重要,因此加快布局建设智算中心布局是大势所趋。电信运营商建设智算中心定位与对内自用和对外提供服务使用,从布局及选址评估角度,应综合考虑大模型应用场景、能耗及建设成本、网络资源等影响因素,实现智算中心效率及成本最优。

从布局选址方面,优先在“东数西算”八大枢纽节点,尤其是国家西部、北区枢纽节点布局集中化、大规模、低成本大型智算中心,至少具备上千PFLOPS算力规模。其次是聚焦北京、上海、广州、深圳、成都等大模型产业活跃城市,积极联合地方政府、上下游合作伙伴,优先采用合作建设、合作运营、部分自建等方式,加快智能算力中心布局建设,具备至少几百到几千PFLOPS算力规模。

从建设运营方面,面对智算中心的高密度、高能耗、高成本,传统机房条件、制冷方式很难满足,应加快液冷等节能新技术应用落地,提升智算中心能效。同时大型训练资源池需要部署高性能服务器,应考虑大规模高功率机架需求和机房空间合理利用原则,提前进行机柜改造。目前典型配置英伟达8卡A100服务器额定功耗达到6.5 kW,采用H800芯片服務器的全风冷机柜功率达到10 kW,采用H800芯片服务器的全液冷机构功率已到40 kW。因此参考业界典型智算一体化交付方案,原则单机柜功率应达到10~40 kW才能满足需要,并提前进行高功率机柜和液冷机柜改造。

从训练和推理算力部署方面,首先是训练算力池,建议电信运营商集团层面应统筹考虑智算中心的建设布局,在低成本园区统一建设几个算力规模几千P的大型公共训练池,满足为超级客户提供大规模低成本智算训练或自用大模型训练需求。省公司层面,尤其是经济热点一线城市需积极布局算力中心,规模总体达到几百到几千P。更重要的是关注行业客户的业务需求,按需布局建设和扩容。其次是推理算力池,可在现有的云资源池中增加GPU算力池,具体部署位置可以按省份规划。

从投资回报方面,当前由于需求激增,英伟达和部分国产GPU、服务器的交付周期普遍较长,同时溢价较高。在综合考虑整体投资回报率以及业务发展的可持续性,充分评估项目战略意义,按照“规划+订单”双驱动方式适度超前建设智算中心。

5  结  论

以大模型为代表的人工智能快速发展,为信息与通信行业带来新的机遇和挑战。一方面,电信运营商企业作为建设网络强国和新型数字信息基础设施的主力军应该积极拥抱机遇,适度超前进行算力基础设施建设,形成布局合理,梯次分步的智算资源格局。同时积极开展智算技术研究,创新数据中心发展模式,加快向智算中心演进升级。另一方面,智算中心“规、建、营、维、服”是一项系统工程,需要与众多产业链合作伙伴一起,推动智算中心相关的标准、技术、规范等成熟与落地,引导产业良性发展,从而在新一轮的人工智能技术革命浪潮中把握先机。

参考文献:

[1] 李正茂,王桂荣.论算力时代的三定律 [J].电信科学,2022,38(6):13-17.

[2] 中國算力大会.中国算力白皮书(2022) [R/OL].(2022-08-17).https://www.odcc.org.cn/news/p-1559872438149832705.html.

[3] 郭亮.数据中心发展综述 [J].信息通信技术与政策,2023,49(5):2-8.

[4] 丁宜.国家信息中心联合浪潮信息发布《智能计算中心创新发展指南》 [N].机电商报. 2023-02-13.

[5] 杨明川,刘倩,赵继壮.人工智能数据中心研究 [J].信息通信技术与政策,2021,47(4):1-7.

[6] 张嗣宏,张健.以ChatGPT为代表的生成式AI对通信行业的影响和应对思考 [J].电信科学,2023,39(5):67-75.

[7] 浪潮信息.2022-2023中国人工智能计算力发展评估报告 [R/OL].[2023-01-24]. https://www.inspur.com/lcjtww/resource/cms/article/2448319/2734787/2022122601.pdf.

[8] 刘亮,张琛,杨学燕.生成式人工智能技术对通信行业的影响研究 [J].邮电设计技术,2023(7):1-7.

[9] NARAYANAN D,SHOEYBI M,CASPER J,et al. Efficient Large-Scale Language Model Training on GPU Clusters [J/OL].arXiv:2104.04473 [cs.CL].(2021-04-09).DOI:10.48550/arXiv.2104.04473.

[10] 中国移动通信研究院.面向AI大模型的智算中心网络演进白皮书 [R/OL].(2023-05-28).https://www.douban.com/note/849553536/?_i=38359589EIJstn.

作者简介:殷凯凯(1986.11—),男,汉族,山东东营人,工程师,硕士研究生,研究方向:数据中心、智算中心等算力基础设施规划、建设、运营管理。

猜你喜欢

算力数据中心人工智能
多方求解智能时代算力挑战
这个第二不一般
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
酒泉云计算大数据中心
2019:人工智能
人工智能与就业
民航绿色云数据中心PUE控制
数读人工智能
下一幕,人工智能!