以云计算技术创新推动数字信息基础设施高水平发展
2022-08-01陆钢
陆 钢
中国电信研究院 广州 510630
引言
数字信息基础设施已经成为社会运行的压舱石,在经济社会发展中发挥着重要作用。算力是数字信息基础设施的核心要素,算力就是生产力,算力每投入1元可带动3~4元GDP经济增长,其战略性、基础性、先导性地位日益凸显[1]。政府、企业和公众已普遍接受云计算概念,云计算成为算力时代最重要的算力资源,成为数字信息基础设施的核心组成部分[2]。
国家高度重视数字信息基础设施建设,建设数字信息基础设施成为国家发展战略的重要组成部分,云计算技术创新成为关系我国发展全局的重大问题。国家要求加快构建以国内大循环作为主题,形成国内国际双循环,相互促进的新发展格局。新发展格局对数字信息基础设施提出了更高水平发展的要求,必须大力提升自主创新能力,尽快突破关键核心技术。云计算技术创新是数字信息基础设施向更高水平发展的关键,也是形成以国内大循环为主体的核心基础[3]。
1 云计算发展需要考虑的三大关系
从算力的基本构成来看,云计算的发展始终要考虑的三大关系,分别是软件和硬件的关系、服务器和终端的关系、算力和网络的关系,每个关系的两端在生态上是互相促进、互相影响的,在技术上是互相协同、互相融合的,在市场上是互相补充、互相竞争的。
第一是软件和硬件的关系,两者互相协同、互相促进、互相补充。计算机软件和数据存储在存储器中,转换成可以理解执行的指令送到硬件固化的CPU执行,软件可编程提供了更大的灵活性。现阶段通用计算架构在效率上无法满足各行各业多种专业化需求,因此FPGA、ASIC等多种专业硬件出现,将部分软件完成的功能通过硬件来实现,目前还出现多类型融合芯片,将原本通用CPU上运行的部分软件功能卸载到专用芯片上。软件的灵活性、通用性和硬件的高效性如何平衡,是云计算发展过程中始终存在的一个问题。
第二是服务器和终端的关系,两者互相协同、互相促进、互相竞争。服务器和终端都是算力的提供者,两者间的算力博弈一直存在。云计算的出现改变了服务器生态,服务器和终端的博弈演变成云计算和终端的算力博弈。从2021年半导体市场的出货金额来看,智能手机占比25.3%,个人电脑占比11.3%,数据中心占比13%,边缘占比增长最快,终端算力的占比最高[4]。云计算希望承载更多的算力并将终端变成瘦终端,终端希望承载更多的智能算力以进一步提升用户体验,边缘计算实际上是云计算和终端算力竞争下出现的一种阶段性产物。服务器和终端的算力之争本质上是围绕客户体验,如何提供最经济高效的算力,如何保证算力在云服务和终端之间无缝流动的问题。
第三是算力和网络的关系,两者互相协同、互相融合、互相促进。一方面网随云动、网随算动,云和算力在哪里网络就要到哪里,云和算力要求有云间互联,终端算力在用户侧要求有数据接入网,算力需要一个最简洁的高效、安全、实时性强的网络;另一方面云网逐步走向一体,网络需要利用算力提供一个最高效的运行环境,网络上云已成为业界趋势。算力和网络永远是在找一个满足当前各自需求最经济安全高效的方案。
2 云计算技术创新现状
从全球云计算技术发展历程来看,经历了三个阶段:1.0是云计算培育期,以资源虚拟化和集中管理为核心技术特点;2.0是云计算成熟期,以云原生和资源编排为核心技术特点,大数据和人工智能成为热点;3.0是云计算发展深化期,进入算力时代,政府和企业应用加速上云,应用领域触及到政府和中大型企业核心系统,以云网融合、云边端协同为核心技术特点。
全球范围内,以亚马逊、微软、谷歌为代表的云计算头部企业占据全球市场一半以上份额,云计算资源节点遍布世界各地,产品和技术成熟度高。美国在云计算科技创新上引领全球发展,美国企业在云计算主流开源社区贡献上排名第一,掌握了云计算关键软硬件核心技术,在云计算产业中处于全球领先位置。
近年来我国云计算产业蓬勃发展,在全球开源软件发展和全球供应链推动下,我国云计算技术创新和全球发展基本同步,1.0阶段处于跟随状态,2.0阶段以互联网企业为主的我国头部企业已经缩小差距,在主流开源软件社区进入第二阵营,3.0阶段我国加速追赶,提出云网融合、绿色低碳、安全可控等先进理念,开始走出差异化发展的创新之路,在部分领域有可能实现超越。同时我国在云计算上游关键芯片、基础软件等领域开始布局,培育国产自主可控的云计算产业。但是也必须承认,虽然我国云计算技术创新取得了长足进步,但是距离全球领先国家仍存在差距。
3 云计算高水平发展需要解决的四大问题
围绕云计算发展三大关系,结合我国云计算技术发展现状,现阶段要推动我国云计算更高水平发展还需要解决以下四方面的问题。
1)基础软硬件技术掌控不足的问题。现阶段在云服务器领域采用X86、ARM指令集的芯片占比超9成[5],自主指令集芯片占比低且与主流芯片存在较大代际差;操作系统国产化市场接受度不高,指令集和操作系统技术掌控不够是关系云计算产业供应链安全的根本问题。
2)软硬件协同的问题。现阶段随着数据中心规模的不断扩大,对处理性能、效率、节能的要求不断提升,摩尔定律失效,通用CPU和软件架构已经无法满足这一要求,如何在软硬件架构协同上实现突破,成为云计算发展必须解决的重要问题,其本质是如何处理硬件和软件的关系[6]。
3)云边端资源调度的问题。现阶段终端和边缘算力占比大,边缘和终端的算力没有和云端算力充分协同,云、边缘和终端算力运行环境不一致,如何充分利用边缘和终端的算力资源,和云计算进行统一资源调度就成为一个新的发展问题,其本质上是如何处理云计算和终端的关系[7]。
4)网络云化的问题。现阶段网络调度不灵活、运行效率低、建设成本高,需要采用最先进的计算技术来升级,如何采用云化技术改造现有网络成为当前运营商面对的一个主要问题,其本质是处理计算和网络的关系。
4 云计算技术创新总体目标和重点研发方向
云计算技术创新总体目标是实现我国在云计算产业全面国产自主掌控,在以下关键技术领域实现高水平突破,达到国际领先水平,支撑数字信息基础高水平发展。
如图1所示,云计算高水平发展要以问题为导向,结合三大关系围绕四大问题,展开关键领域的研发攻关工作。
图1 云计算技术创新关键领域示意图
1)围绕基础软硬件技术掌控不足的问题,需要打造基于RISC-V的新一代指令集,开发定制操作系统,围绕云计算应用场景进行系列基础软硬件技术攻关,从根本源头上解决云计算供应链安全问题,逐步形成国产可控的计算指令集和操作系统生态。
2)围绕软硬件协同的问题,需要研究软硬件融合技术,重点研究异构计算技术,围绕定制服务器和新型终端的需求,实现通用CPU的软件功能在专用芯片上的卸载,通过多种形式的芯片集成和封装技术实现软硬一体,建设云计算异构计算产业生态[8]。
3)围绕云边端资源调度的问题,需要突破边缘和终端侧的轻量级虚拟化技术,提供云边端一致的运行环境,实现云端算力在边缘、终端侧的卸载;突破云边端资源编排器技术,现阶段聚焦Kubernetes生态在边缘侧的技术创新,提供算力在云边端的运行调度能力;突破云网应用运行环境技术,为开发者提供类操作系统的应用开发、运行环境。
4)围绕网络云化的问题,要借助5G规模应用的发展窗口,研究网元云原生化技术,重点研究5GC云原生化技术,推动5GC云原生化改造后上云,并解决运营体制、安全机制等系列保障问题。
另外,存内计算、量子计算是未来计算架构,创新空间大,从研究到应用还有较长周期;能力组件如大数据、人工智能是目前算力需求下增长最快的领域,是云计算重要应用场景和研发方向;云网安全属于云计算发展的根本保障,也是技术创新需要攻关的重点领域。受限于篇幅和作者前期研究重点,本文中对这几个领域的具体技术创新不做深入分析。
在下个章节中,重点围绕现阶段解决四大问题的热点关键领域,以满足新一代指令集应用能力提升、软硬件协同提升性能、云边端运行环境一致和网络云化智能敏捷调度的需求为导向,聚焦RISC-V指令集应用技术、异构计算融合芯片技术、轻量级虚拟化技术、面向网络的云原生技术,对其应用场景、技术路线和研发路径等方面进行分析展望。
5 云计算技术创新关键技术分析展望
5.1 RISC-V指令集应用技术
RISC-V 指令集是基于精简指令集计算RISC原理建立的开放指令集架构,项目2010年始于加州大学伯克利分校,其诞生初期就备受关注,被认为是最有希望挑战X86、AMR的指令集技术,目前RISC-V基金会(原名为RISC-V Foundation)推动该指令集的研发工作和生态建设[9],从目前的运作规则、产业生态和基金会成员构成来看RISC-V极有可能成为我国自主可控且发展潜力最大的指令集。
RISC-V指令集架构可以应用到通用微控制器、物联网芯片、家用电器控制器、网络通信芯片和高性能服务器芯片等[10]。RISC-V和ARM一样都属于精简指令集,设计的芯片具备译码器简单、运作时脉高、耗电量低等特点,同时也存在运行程序大、存储占用较多等问题[11]。两者成长路径也会较为类似,RISC-V指令集初期会在终端侧进行推广,然后向专用领域、边缘领域逐步扩展到通用计算领域,目前物联网设备、机顶盒的嵌入式处理器开始采用基于RISC-V指令集的处理芯片,预计2~3年后将在专用领域高性能计算场景下商用,5~8年后有可能在云计算通用计算处理器上应用。
国家需要更大力度推动相关企业和研究机构深入RISC-V指令集研究和应用,特别是芯片的下游云计算企业也要提前布局,从需求源头引领RISC-V技术的发展,推动RISC-V指令集技术真正应用到云计算产业链中。未来2~3年在服务器领域,云计算企业需要积极融入RISC-V产业生态,参与相关技术、标准的研究和制定,寻找具有一定规模的专用领域场景切入,从设计之初就瞄准极致性能、功耗和成本,满足服务器差异化需求[12],借助目前日益壮大的RISC-V产业生态,通过模块化、可扩展的特性实现专用处理器的设计,通过极简架构降低专用处理器硬件成本和功耗,并和主处理器集成融合形成定制芯片,从而提供定制服务器产品,打造自主可控、绿色低碳的云计算服务,加速RISC-V在云计算领域的产业化进展。
5.2 异构计算融合芯片技术
异构计算的核心理念是将通用计算芯片运行的特定软件能力卸载,采用专用芯片承载,并和通用计算芯片进行集成融合[13],从而延续摩尔定律,突破芯片性能瓶颈,是当前云商研发和定制计算芯片的主要赛道。异构计算可以应用在云网融合、边缘增强、高性能计算等场景下,从计算加速、算力增强、算力汇聚与动态调度等方面,打造高性能、多算力、低功耗的异构计算平台。融合芯片异构计算平台的一种应用形态,可以进一步突破现有软硬件架构限制,提升云计算性能和效率。
目前在云计算服务器领域异构计算主要包括两条技术路线。一是传统板级集成融合方式,在服务器层面将CPU和xPU通过外部总线进行连接,实现异构计算,但存在IO路径较长、输入输出资源损耗等问题,此类技术现阶段已经应用较为广泛。二是融合芯片方式,其中包括芯片集成融合和芯片封装融合,集成融合是在单DIE片上融合各种计算核,多数采用CPU融合NPU等计算加速核,配合先进NOC技术和新型总线技术,提升异构计算单元的数据协同效率,缓解传统板级异构的IO问题,应用范围较广;封装融合是通过先进封装工艺与互联标准,把各种计算核封装在一起,构建超异构平台,从根本上解决传统板级异构的IO问题,实现计算最优化[14]。
在未来3年内,传统板级集成和芯片集成融合方式依旧是重点抓手,在通用计算芯片CPU上融合NPU等计算加速核,并通过新型总线技术提升CPU与GPU、DPU等数据协同效率,打造高效异构计算平台,云计算企业需要研究专用计算加速核、新型NOC技术和总线技术,并结合特定场景需求,定制专用芯片和服务器,进一步提升云计算性能和效率。服务器领域芯片封装融合方式还处于起步阶段,初步判断2024年以后这一技术才会真正在市场应用,云计算企业有必要从现在起跟踪先进封装工艺和芯片互联标准协议进展,在专用领域中寻找通用需求场景,通过积极布局提前参与该领域的研发工作,为后续发展抢得先机。
5.3 轻量级虚拟化技术
轻量级虚拟化技术可以应用在边缘和泛智能终端上,解决云边端协同场景下边缘和终端侧资源和性能有限的问题。在一些算力协同调度场景下,如视频识别场景下,可以将智能识别的算力从中心到边缘到终端进行卸载,如图像渲染场景下,可以将算力从终端迁移到边缘或者云端上。通过轻量级虚拟化技术实现一致的运行环境,配合云边端资源调度技术,保证算力自由流动提升云边端算力的整体使用效率。
虚拟化技术本质上是一种资源隔离技术,现阶段轻量级虚拟化有三条技术路线,一是针对传统虚拟化的裁剪和硬件卸载方案,适用于公有云场景,解决公有云高虚拟化损耗、网络和存储性能瓶颈等问题;二是轻量化容器技术,针对容器虚拟化进行裁剪,可以解决云边端协同场景下边缘和终端侧部署容器引擎占用资源过高的问题,前期研究测试表明,基于Containerd裁剪和结构优化后的轻量级容器引擎部署在树莓派开发板上进行测试,可使flash使用量减少80%,内存平均占用减少45%,可解决容器运行在边缘或终端上的储存空间和内存空间的不足问题;三是WASM(WebAssembly)技术,是一种新型代码运行隔离技术,基于web引擎运行C/C++、Java等多语言程序,具有性能好、占用资源少、多语言兼容的特点,可解决边缘和终端场景下资源隔离性能和效率问题[15],近期CNCF社区也出现基于WebAssembly标准的开源项目,可以基于云原生生态和工具,在容器环境下实现WASM技术和Kubernetes的集成,经过对比测试,资源占用量减少一个数量级,其性能对比传统容器技术有较大提升,执行效率提升20%,冷启动时间大幅缩短[16]。以上三条技术路线不是替代的关系,而是场景有侧重、技术补充和协同的关系。
目前轻量级虚拟化还面临着场景不够丰富、适配性不强、产业生态不完善等问题,预计真正规模应用还需要2~3年时间,后续需要云计算产业界一起丰富场景,制定标准和完善产品,推动产业生态建设促进技术落地应用。
5.4 面向网络的云原生技术
作为云计算的最新技术成果,云原生技术可以为通信运营商网络提供更加经济、便捷的部署和运营方法[17],随着运营商云网融合工作推进,云原生成为运营商网络云化的核心技术和关键抓手。
基于云原生技术实现云网融合成为业界共识,现阶段云网融合最迫切的问题就是网络上云,目前正处于5G网络规模部署和5G专网大力发展阶段,网络云原生当前的抓手就是5GC的云原生化[18]。需要深入研究5GC系统架构、组网、高可靠、转发加速等CT属性,研究云原生承载5GC的技术要求,为各专业网元云原生化改造提供技术指引及范例。进一步结合技术要求,聚焦网元微服务化、高性能多网络平面、承载网络感知、资源编排等关键技术进行重点攻关,提供满足网络云化需求的云原生底座[19]。后续依托云原生底座,实现5GC上公有云,为公有云全面解耦承接各专业网络上云打造良好开端。
目前中国电信依托自研高性能虚拟化平台,已经完成全面的5GC异厂家三层解耦测试并正在开展现网实验,即将在全网有序开展全云化5GC商用部署,并且正在积极推进5GC云原生化改造和轻量级5GC上天翼云的工作。云原生技术从本质上来说是软件技术,网络运营商一定要用IT软件的视角来看待未来的网络研发、建设和运维,积极拥抱这一变化,才可能在未来国家新基建领域中承担主力军的角色。
6 结束语
技术创新永远都是产业发展最重要的原动力,自主研发在新的形势下成为国家战略发展的根本性保障需要,对云计算技术创新提出了更高要求。云计算发展已经进入“下半场”,其市场格局和产业逻辑都在发生根本性的转变。在下半场开局时期,科研机构必须找准研发突破点,抢占技术创新战略高地,将关键问题分解为近中远期目标攻坚克难;企业需要把握计算产业发展的规律和节奏,以需求和场景为导向,积极培育产业链引导技术创新;国家需要加强战略研究,完善资源布局,坚持深化改革和开放,做好人才培养,加强市场培育和资金扶持,为自主创新做好支撑保障。只有在国家战略引导下,立足国内,放眼世界,产学研用一起发力,才能够加速云计算技术创新,进而推进数字信息基础设施更高水平发展。