夯实底座 上海算力生态持续进阶
2023-12-11杨洁
杨洁
工信部等六部门日前印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力、应用赋能等多方面提出算力基础设施高质量发展目标。作为在用算力规模排名全国第一的城市,上海近年来在算力基础设施布局及产业发展方面有哪些优势,面临哪些机遇和挑战?中国证券报记者跟随工信部新闻宣传中心组织的“算力中国行”大型调研活动,走进我国算力网络重要枢纽节点城市上海,采访算力产业上下游企业及主管单位了解到,随着上海大力提升智能算力占比,智算产业生态日渐完善。同时,在异构算力资源调度和交易方面,上海正开展新的探索。
供给更智能
记者来到位于上海临港(10.890, 0.05, 0.46%)新片区的商汤科技人工智能计算中心(简称“商汤AIDC”)。这座外观设计形如芯片的大型建筑,是目前全亚洲规模最大的人工智能计算中心之一。
从2022年初投运到现在,商汤AIDC汇集超过30000张GPU对外提供算力服务,总算力规模达到6000Pflops,可支持20多个千亿参数大模型同时训练。
当前,国内人工智能大模型层出不穷,打响“百模大战”。
作为较早布局智算能力云服务的厂商,商汤对此感受尤其明显。“我们的算力一直都是排满的,客户需要排队。”商汤科技大装置事业群生态总监刘远辉告诉记者。
上海市在用和在建算力总规模超过14Eflops。据中国信通院今年8月发布的《中国综合算力指数2023年》,上海算力综合指数全国排名第三,在用算力规模全国排名第一,运力单项指数全国排名第一。
即便作为优等生的上海,同样面临智算供给不足。据上海市通信管理局调研排查,未来三年新增基础算力需求与新增智算需求比例将达到约1:9。现阶段上海的基础算力规模与智能算力规模比例约为6:4。
上海市通信管理局信息通信发展处副处长魏征向记者介绍,截至2022年底,共有超过52家持有互联网数据中心经营许可的企业在上海建设并运营数据中心。在用数据中心标准机架达41.5万个,在用算力总规模估算约8995Pflops,其中智算规模约5675Pflops;在建标准机架约20.5万个,按照现有芯片算力水平估算,在建算力总规模约为5500Pflops,其中智算规模约5000Pflops。
上海市今年6月发布的《新型数据中心“算力浦江”行动计划2023年重点任务》提出,到2024年上海市数据中心算力供给将实现以超算算力与智算算力等高性能算力为主的多元算力协同,总算力将超过15Eflops,高性能算力占比达到35%。
在智算方面,魏征介绍,临港商汤、松江腾讯、金山阿里、超算中心、临港有孚等在建的五大智算中心正逐步投产,总智算规模将超过10Eflops,建成并接入新型互联网中心后,将形成“一平台、五中心”的智算中心赋能应用格局。
魏征表示,上海市通信管理局将在持续推进“算力浦江”行动计划各项重点任务的基础上,通过推动制定算力基础设施统筹推进机制等,适度加大以智算为主的算力基础设施供给,打造基于算力调度的服务能力,为满足上海现代化产业体系对算力的高能级需求打下坚实基础。
记者注意到,算力基础设施服务商联合上游国内GPU厂商共同完善算力生态。上海电信相关负责人表示,会拿出部分机架提供给国内GPU厂商,并进行专业的测评服务,推动国内GPU的商业化和产业化。
按照工信部等六部门近日印发的《算力基础设施高质量发展行动计划》提出的目标,到2025年,我国算力规模超过300Eflops,智能算力占比达到35%。中国信通院数据显示,截至2023年6月底,我国算力规模达到197Eflops,其中智能算力规模占比达25%,智能算力規模同比增长60%。
运行更绿色
记者来到中国移动(102.600,-0.82,-0.79%)长三角(上海)临港数据中心,这里共规划建设3万个机架,其中已投产1.5万个,并为国内某大型互联网公司定制打造了微模块机房。每个微模块单元方方正正,就像一个“大盒子”,门口有显示屏,实时显示各项运行数据。记者看到一模块单元的实时PUE值为1.1。
据上海移动工作人员介绍,相较于传统机房,智能高效的微模块可以一体化部署管控各基础设施,具有更高的运行可靠性和效率,能够精准控制空间冷量,降低数据中心PUE。
数据中心能耗巨大,被称为“不冒烟的工厂”。根据Gartner测算,在一个典型的数据中心TCO(总成本)构成中,电力能耗占据成本的20%,而电力成本的41%在于散热的消耗。
在上海这样的一线城市,降低能耗、提高能效的需求更为迫切。上海移动有关负责人表示,公司会依据机房PUE现状,制定整体节能改造措施,积极应用AI智能控制、CFD气流组织优化、永磁电机冷却塔等新技术,预计到2023年底,PUE降至1.5以下的机架数量会达到70%以上。同时,实施老旧机房节能焕新计划,预计可实现年节电量5100万度。
在算力供给端加强绿色节能技术应用的同时,算力应用端也在想方设法通过软件架构和算法层面的改进来提高算力使用效率,“绿色计算”概念由此应运而生。
蚂蚁集团高级技术专家宋顺向记者解释,在服务器层面,部分算力可能处于闲置状态。比如,国内服务器CPU利用率一般在20%左右,国际领先的厂商可以做到40%-50%。蚂蚁通过分时调度技术、AI弹性预测技术、在离线混合部署技术等,逐渐实现计算资源的优化高效利用,服务器CPU利用率从2017年不足10%提高到2022年的33%。2022年度“双11”期间,蚂蚁集团通过“绿色计算”相关技术节省153.8万度电,减排947吨二氧化碳当量。
魏征介绍,上海探索了“试点+改造”的绿色算力模式。一方面,推动液冷、间接蒸发自然冷却等节能技术的应用,并在嘉定、青浦等地区的算力中心开展试点;推动DPU芯片在基础电信企业算力网络中应用,经初步测试在数据传送方面可降低35%以上能耗;推动数据中心企业启动氢燃料电池等绿电在数据中心的试点应用。另一方面,梳理上海10个“小散老旧”数据中心(约4000个标准机架),预计将于年底前全部完成数据中心改造任务。
《算力基础设施高质量发展行动计划》提出了促进绿色低碳算力发展的重点任务,鼓励企业加强绿色设计,加快高能效、低碳排的算网存设备部署,推动软硬件协同联动节能。
值得注意的是,相比通用算力,智算功耗要大得多,为满足未来智算供给建设需求,需要统筹考虑能耗管理要求。业内人士建议,能耗指标政策适度向智算中心倾斜,同时优化绿色能源能耗管理方式,对于数据中心所用的绿色能源,不再纳入能耗总量和强度控制,用能管理逐渐从能耗“双控”向碳排放“双控”转变。
调度更灵活
让算力像水一样流动、易用,是算力行业从业人士的共同愿景,这离不开高效协同的算力网络调度体系。
在此前举行的2023年中国算力大会上,中国工程院院士高文坦言,目前算力供应呈现多元异构的局面,云算力、智能算力、超算算力、混合算力等系统、接口、计费方式等各不相同,给算力的统一协同应用调度带来挑战,国内尚未形成有效的跨区域算力调度机制,算力交易结算及收益分配机制还在起步阶段,需要加强跨主体算力资源对接以及标准制定等工作。
在算力资源调度方面,上海有自己的探索和尝试。《上海市推进算力资源统一调度指导意见》明确,上海全市将开展算力基础设施及算力资源输出能力摸排,形成算力清单;基于算力资源底数,构建一体化算力调度服务体系和平台基础框架,实现算力资源统一编排。
记者来到国家(上海)新型互联网交换中心。该中心总经理张茜演示了今年7月上线的算力调度交易平台使用流程。
张茜介绍,今年7月,中心推出全国首个基于交换中心的算力调度交易平台,能够为用户提供算力调度、算力托管业务服务,缓解当前算力结构不均衡、算力供需不匹配以及算网协同性不强等问题,目前已建成算网节点14个,吸纳入驻企业40家,归拢算力资源超过156Pflops。张茜表示,算力调度交易平台的底层包括多元异构算力交互平台,能够将不同主体的算力网络和平台打通,提高数据交互效率,实现算力资源的充分利用和协同共享。
在北上广深等城市运营16座大型数据中心的有孚,是该算力调度交易平台首批入驻的算力供给方。“本质上这是一个算力资源撮合交易平台。我们在这里放置算力资源,暂时闲置的零散算力放在平台上对外提供服务;当我们自身算力资源不足时,或自身算力的规格型号不匹配,可以作为需求方,在交易平台上寻找合适的算力资源。”有孚CIO兼华东区总经理郑力告诉记者。
上海铁塔有关负责人表示,目前铁塔在上海全市拥有近3万个站址资源,这些是天然的边缘计算节点。未来铁塔将着力打造场景化的边缘算力業务及解决方案,加快推进“通信塔”变成“数字塔”,“通信机房”升级为“数据机房”,国家(上海)新型互联网交换中心所提供的算力调度交易平台可以成为公司边缘算力对外提供服务的一个渠道。
魏征表示,上海市通信管理局将基于国家(上海)新型互联网交换中心已经完成头部云服务企业接入的实际,结合国家重要信息通信基础设施试点和算力调度业务的合规优势,持续推动上海其他算力资源全面接入算力交易平台,实现本市算力资源一体化调度和集中交易,提升算力资源利用率,形成“一点接入、全市调度”的新型算力供给服务模式。此外,支持交换中心开展基于区块链的算力交易平台建设,探索国际互联网交换中心可行性方案,为上海国际数据港(20.000,-0.52,-2.53%)建设和跨境数据流动提供支撑。