算网融合定义未来*
2022-07-12赵先明
赵先明
(1.北京红山信息科技研究院,北京 100176;2.哈尔滨工业大学,黑龙江 哈尔滨 150001)
0 引言
从部落社会的结绳计算到农业社会的算盘计算,再到工业时代的计算机计算,人类文明的发展离不开算力的进步。从狭义上看,算力是设备通过处理数据,实现特定结果输出的计算能力。2018年诺贝尔经济学奖获得者William D.Nordhaus在TheProgress of Computing[1]一文中提出:算力是设备根据内部状态的改变,每秒可处理的信息数据量。从广义上看,算力是数字经济时代的新生产力,是支撑数字经济发展的坚实基础。数字经济时代的关键资源是数据、算力和算法,其中数据是新生产资料,算力是新生产力,算法是新生产关系,它们共同构成数字经济时代最基本的生产基石。
1 算力改变世界
纵观近20年的算力发展历史,可以发现算力的发展已经重新定义了生产力和生产关系。从作为生产力基础工具的终端、网络、平台,到代表新型生产关系的移动互联网创新商业模式、行业数字化社会化协同模式,都是依托算力发展演进衍生的。
1.1 算力改变终端
从大型计算机到个人PC机,从智能手机到可穿戴设备,算力日益改变终端发展形态。
最初的基本逻辑元器件采用的是电子管,体积大、耗电量大、结构脆弱。1946年2月,世界上第一台通用电子数字计算机埃尼阿克(ENIAC)研制成功,它使用17 840只电子管,重达28吨,加法运算速度每秒5 000次。1947年,贝尔实验室研制出了第一个半导体三极管,即晶体管,其体积很小、成本低、寿命长。因此,晶体管一问世,立即得到迅速发展,取代了电子管,将运算速度提高到每秒几十万次,逻辑运算功能大幅提高。2020年苹果发布A14仿生处理器,这是全世界首款批量生产的5 nm处理器,集成了118亿个晶体管。算力的发展推动终端能力不断增强,最终实现终端产品全面升级。更广泛的连接能力和具备更强大的算力能力促使终端设备更加智能。
智能终端作为第一落点,推动数智生产力孕育发展:构建更大连接范围,由十亿级的人与人的连接扩展到百亿级的人、机、物的连接;传递更多维度信息,由视频、语音、图像等多媒体信息跃升为视觉、听觉、触觉等多维度信息;提供更深层次服务,由以连接为主的通信服务变革为以算力为中心的算力服务。
1.2 算力改变网络
网络是万物互联的基石,是移动互联网近二十年技术创新的基础。移动互联网最基层的网络已经被算力重新定义多轮,包括设备级的重构,如软件定义无线电(Software Defined Radio,SDR),以及网络级的重构,如软件定义网络(Software Defined Network,SDN)、网络功能虚拟化(Network Functions Virtualization,NFV),甚至5G中提升性能最为关键的大规模多输入多输出(Massive Multi-Input Multi-Output,Massive MIMO)技术,其实质也是以算力换无线空口性能。
1.2.1 算力重构网元节点
随着移动通信的发展,在20世纪90年代初,多种数字无线通信标准共存,如全球移动通信系统(Global System for Mobile Communications,GSM)、码分多址(Code Division Multiple Access,CDMA),使得不同制式下的手机无法互联互通。为了解决这个问题,催生了软件无线电技术,利用现代化软件来操纵和控制传统的“纯硬件电路”的无线通信设备,打破了通信功能只能依赖硬件的发展格局。软件无线电技术的出现是通信领域继固定通信到移动通信、模拟通信到数字通信之后的第三次革命。
1.2.2 算力重构网络
SDN[2]是由美国斯坦福大学提出的一种新型网络创新架构,是网络虚拟化的一种实现方式。其核心技术OpenFlow通过将网络设备的控制面与数据面分离,实现了网络流量的灵活控制,为网络及应用的创新提供了良好的平台。
如图1所示,NFV利用虚拟化技术,将网络节点的功能分割成几个以软件方式实现的功能区块,不再局限于硬件架构。NFV的核心是以软件的方式实现了原来只能用硬件实现的网络功能,例如路由器、用户驻地设备(Customer premises equipment,CPE)、移动核心网、IP多媒体系统(IP Multimedia Subsystem,IMS)、内容分发网络(Content Delivery Network,CDN)、防火墙等。
图1 网络功能虚拟化
NFV采用通用x86 CPU保证通用性,而丧失了专用性,即不擅长处理特定任务,比如处理编解码转换、报文转发、加解密等并行处理任务。
NFV在特定任务处理上的性能或成本方面的不足,使得x86处理器配备现场可编程门阵列(Field Programmable Gate Array,FPGA)、图形处理器(Graphics Processing Unit,GPU)等协处理器(加速卡)的方案重新出现在NFV架构中。电信网络经历了从专用硬件到通用硬件,再到通用硬件+专用加速卡的螺旋式发展历程。
SDN实现了以算力换灵活度,NFV实现了以算力换功能,SDN与NFV的深度融合,真正实现了以算力换网络的智能化发展。
1.2.3 以算力换性能
无线网络中带宽一直是最重要的指标。受限于香农定理,5G频谱效率提升过程中,调制解调方面的提升不大,而Massive MIMO则成为提升吞吐量的关键。如图2所示,Massive MIMO技术利用多用户空间的独立性,在空间上对不同用户形成独立的窄波束覆盖,并应用空间隔离系统同时传输不同用户的数据,从而数十倍地提升系统吞吐量。理论分析表明,当Massive MIMO的天线数趋于无穷时,各用户信道之间趋于正交,因此系统容量只与用户数量相关。实际商用网性能表明,即使用有限64T64R天线数的Massive MIMO,也可提升近10倍的单用户链路性能和4~8倍的系统容量。
图2 Massive MIMO
1.3 算力正在改变行业
数字经济正在爆发式发展,数字化进程正处于由消费领域向生产领域、由虚拟经济向实体经济延伸的过程中,“5G+工业互联网”引领着技术变革、深度赋能数字化转型和产业升级,利用以5G为代表的新一代信息通信技术,构建与工业经济深度融合的新型基础设施、应用模式和工业生态。通过5G技术将人、机、物、系统等全面连接,构建覆盖全产业链、全价值链的全新制造和服务体系,为工业乃至产业数字化、网络化、智能化发展提供新的实现途径,助力企业实现降本、提质、增效、绿色、安全发展。工业互联网的发展,将工业系统与传感、网络互联网、科学计算、智能分析等深度融合起来。在这个过程中,算力是支撑大规模数据采集、网络化协同、工业大数据、工业智能的基石。
随着数字经济进入新发展阶段,算力已成为核心资源之一。在未来的十年,特别是在未来的一两年间,算力产业将以超出人们想象的速度推动技术创新和行业变革。
2 算力发展面临的问题及解决思路
人类社会正在经历从信息化时代到智能化时代、从物理现实到虚拟现实的转化阶段,且这一转化过程还在以前所未有的速度不断加快,但数字技术需求与供给之间的差距仍然较大,“算力墙”“存储墙”“带宽墙”和“能耗墙”等现象,从多个方面制约着数字技术创新和应用的进一步发展。
2.1 “算力墙”
CPU与GPU的构造上的不同如图3所示。CPU采用冯·诺依曼架构[3],将计算分为取指令、译码、发射、执行、写回等几个阶段,通过软件调度,可以完成计算。当前CPU的架构已经相当复杂,真正的有效计算在其整体功耗占比不到10%,所以CPU适合控制复杂而计算密度不高的应用场景。
图3 CPU与GPU的构造
GPU采用的是单指令多数据流(Single Instruction Multiple Data,SIMD)或单指令多线程(Single Instruction Multiple Threads,SIMT)架构,虽然本质上还是冯·诺依曼架构,但减少了取值、译码开销,所以GPU对于特定的计算任务,可以达到比CPU更高的计算速度,GPU在浮点运算吞吐量上远超CPU。
FPGA为现场可编程门阵列,可认为是细粒度可重构芯片。FPGA非常适合数据流驱动的计算架构,具有高空间并发和低时延的特点,但FPGA开发周期比较长,对开发人员的专业技能要求比较高,影响了FPGA的广泛应用。
ASIC是为某种特定的需求而专门定制的芯片。ASIC与通用芯片相比,体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低;但缺点也很明显,只能针对特定的某个或某几个应用场景,一旦算法和流程变化可能会导致无法满足原有需求。
通用图形处理器(General-Purpose computing on Graphics Processing Units,GPGPU),是专门处理计算任务的图形处理器,其特点是并行处理能力强、计算能效高、存储带宽大。GPGPU在处理大数据流时效率会很高,可应用在人工智能(机器学习)模型训练与推理、高性能计算等领域。
因此,GPGPU成为打破算力墙的热点计算技术,目前广泛应用于高性能计算、行业人工智能应用、安防与政府项目、互联网及云数据中心等。其主要应用在人工智能模型训练与推理和高性能计算这两个场景中。
2.2 “存储墙”与“功耗墙”
现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。
于是业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构,其核心思想是将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,让存储单元具有计算能力。这种极度近邻的方式很大程度上降低了数据移动的延迟和功耗,解决了“存储墙”问题。最具有代表性的两种技术是近存储计算和存内计算。
近存储计算指的是计算操作由位于存储芯片外部的独立计算芯片完成。通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度。近存储计算本质上来说还没有做到真正的存算“一”体。它从一开始设计计算芯片和存储芯片的时候,就设计好了连接两方的通路,将数据运输距离极致缩短。
存内计算指的是通过在存储器颗粒上嵌入算法,使得存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有独立的计算单元。在这种方式下,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储与计算融合。同时,由于计算完全依赖于存储,因此可以开发更细粒度的并行性,获得更高的性能和能效。存算一体对于符合的应用会带来较高的性能收益和能效收益,这种方式尤其适用于人工智能应用。
2.3 “带宽墙”和“综合能效”
近存计算、存内计算解决算力节点“存储墙”和单节点的“功耗墙”后,用户与算力节点、算力节点与算力节点之间的“通信墙”,以及综合能效的矛盾变得尤为突出。随着智慧城市、智慧工厂、全息通信、增强现实、虚拟现实等大带宽、低时延业务的出现,数据交互时延成为业务体验的区分标志,不同应用的时延指标要求如图4所示。数据的传输加计算的总成本和综合能效,也将成为数据中心组网的重要指标。数据中心组网要在兼顾数据交互频次、数据交互成本(传送成本+能耗成本)的同时,特别关注数据交互时延,只有这样组网才能达到既能满足业务时延的需求,又能降低成本、绿色节能的目的。
图4 不同应用的时延指标要求
新型绿色高性能算力中心模式采用“计算+超算+智算”协同,整合不同架构的CPU、GPU、张量处理单元(Tensor Processing Unit,TPU)以及其他类型异构高性能算力设备,实现联合运算,按需调度,最大限度地满足各种应用场景对数据中心极大规模、极端性能的动态需求,形成多架构、跨行业、跨层级的算力资源,为用户提供个性化、定制化的精准算力服务。
3 算网融合定义未来
“算力墙”“存储墙”“带宽墙”和“能耗墙”是数字化过程中必须解决的问题。随着行业数字化的深入和升级,需要算力和网络进一步融合,并且需要网络能够感知业务算力需求,为数据到算力提供最优路由和可信服务,边缘网络节点更是成为算力的边缘载体,实现算力+网络综合能效的最佳匹配,满足未来发展需求。
3.1 人工智能驱动未来算力发展
近年来,在数字经济不断推进的大背景下,人工智能发展迅速,并与多种应用场景深度融合。数据的爆发式增长为人工智能提供了充分的“养料”,深度学习算法在语音和视觉识别上实现突破,加快了人工智能产业落地和商业化高速发展。人工智能的水平建立在机器学习的基础上,除了先进的算法和硬件运算能力,大数据是机器学习的关键。一方面,通过更大量的数据学习,机器判断处理能力才能不断上升,智能水平才会不断提高。另一方面,随着人工智能的应用场景不断扩充,尤其是近期元宇宙的发展,图像、视频、三维空间等领域的数据呈现爆发性增长,这对算力提出了更高的要求。
随着中国逐渐进入智能社会,面临算力升级、数字化转型等问题,企业为了降本增效,适应飞速发展的数字化智能社会,需要从底层算力方面解决问题。GPGPU涉及政府、企业、科研(医学、能源、勘探、气象、航空航天)等众多应用领域,不仅未来在我国需求量大,而且对国民经济发展至关重要。
3.2 算网融合重新定义算力
算网融合不是某一个单点的技术,而是一种未来网络的架构,描述了连接海量数据和高效算力,向千行百业提供智能服务的网络架构。架构中包含了算力的服务化,以及数据和算力之间的高效调度。算网融合成为信息通信技术演进发展的重要方向。进入5G时代以来,从海量数据处理到爆发式应用创新,智能计算被广泛应用于工业制造、零售医疗、电信服务等行业领域,带来了呈几何级数增长的算力需求,也给信息技术行业提出了一系列的严峻挑战。
作为“计算+网络”协同发展的重要锚点,算网融合强调了借助信息通信网络协同异构算力资源,实现了计算能力的统一调度和编排,全面重构了网络服务方式和计算模式。从B5G、6G到新型基础设施,算网融合能够助力构建计算基础设施,不仅能够驱动新一轮的内生性经济增长,为宏观经济形势注入投资新动能,而且可以助力关键技术实现突破,培育产业发展链条,赋能地方经济实现全面转型,因此得到了业界的高度认可。
传统的云架构之下,所有的智能都在云端,网络所需要考虑的就是信号覆盖、网络质量的问题。但随着端系统数据处理能力需求的爆炸性增长,很多应用场景开始倾向于将应用处理放在边缘,体现出一种“哪里生产,哪里消费”的架构思路。这种方式给网络的边缘赋予了足够的“智能”,或者说处理能力。“端”变成了辅助“大脑”工作的“智能神经网络”。
这样一来,一方面,边缘服务在终端设备上运行,反馈更迅速,解决了时延问题,使得一些工业用户场景成为可能;另一方面,边缘计算[4]将内容与计算能力下沉,提供智能化的流量调度。业务实现了本地化,内容尤其是热门内容实现了本地缓存,解决方案的效率得到了显著的提升。
传统的物联网,智在数据中心,不在边缘设备。尽管所有设备都在同一地区甚至同一建筑内,都必须与远在千里外的数据中心通信,才能实现所需功能,这样不仅会造成延迟,而且有可能因为网络或其他原因降低整个系统的可用性。
智能边缘计算提出了一种新模式:大规模部署、安全配置和管理边缘设备,并根据边缘设备类型和场景需求进行算力智能分配,让物联网的每个边缘设备都具备数据采集、分析计算、通信,以及最重要的智能功能,实现智能在云和边缘设备间的流动,形成边缘智能。
通过这种模式,可以用边缘设备自身的运算和处理能力直接就近处理绝大部分物联网任务,不仅可以降低数据中心工作负担,还可以更及时准确地对边缘设备的不同状态做出响应。这样,即使脱离云计算的支撑,边缘智能也能够实现应用场景的大部分智能。当边缘计算成为边缘智能,局域、边缘的物联网系统将具备自治自律的行为能力。
3.3 从基层节点开始重新定义未来
当数据从传感器流出时,边缘设备通过加速AI计算的性能,将使得智能医疗保健、智能制造、智能运输和智慧城市等一切任务皆有可能实现。在这一进程中,需要强大的边缘计算能力处理海量数据,从而快速制定人工智能增强型决策以驱动业务发展。
将来所有的超级计算都是分布式的,全世界变成一张网,其边缘底层就在社区、街道、小区、产业园区,那里有所有的大数据,并且随时可以开展超算和大的数据处理,所以将来是一个新的世界,全世界都可以连着一张网,所有的信息都可以促成人工智能、数字孪生。
3.3.1 场景1:边缘超算提效科研仿真
在科研项目的推进过程中,往往会面对复杂的数据密集型计算任务,例如仿真、数据建模、渲染等大量运算场景。而智能边缘计算的出现,通过将多个单元的计算能力进行整合,打破了算力性能的局限,让科学家随时可以调用超级计算机级别的算力,让其日夜不停地处理数据,构建模型,最终成为科研攻坚时不可或缺的利器。
3.3.2 场景2:边缘超算助力创新型企业数智化发展
数字化是未来时代的发展趋势,数字技术的每一次革新和进步都会对个人、组织和社会的发展带来深刻影响,甚至是颠覆。移动互联网将普通信息的传播能力提升至毫秒级,但当一切商业行为在线化,后台需要更强大的算力来进行高密度信息快速处理。
算力作为未来基础设施的核心组成部分,是衡量数据处理能力强弱的标尺,也是支撑数字化转型和数字经济发展的基石。依靠强大的算力可利于企业产品和服务的创新,创建新型的商业模式,为用户带来更好的体验,使企业工作流程更加敏捷高效。
边缘智能时代,任何一个智能设备都可能是一个“数据中心”,很可能在一个芯片上实现连接、传感、存储和计算的功能。对于海量的数据,传统的数据处理方式已不能满足企业业务需求,新型的大数据技术不仅能实时处理海量数据来完成敏捷式商业辅助决策,还能通过多源复杂数据融合创新来帮助企业完成跨业务环节的流程优化和经营改进,从而提升企业的运营效率。
3.3.3 场景3:边缘超算开启元宇宙入口,打造虚拟平行世界
“元宇宙”作为2021年最火爆的新概念异军突起,当下形形色色的元宇宙层出不穷,元宇宙将激发数字经济更大的活力。对于元宇宙,普遍认知是虚拟跟现实世界的融合,基于AR/VR、虚拟空间、区块链等技术所构建的一个虚拟的现实世界,但其实针对元宇宙目前还没有清晰的概念界定。元宇宙也被很多人寄予厚望,认为是互联网3.0的终极形态。伴随着元宇宙的不断发展有望带动新一轮创新周期开启,催生第三次互联网革命。元宇宙对网络传输提出了更大带宽、更低时延、更广覆盖的要求,相较云计算而言,更需要借助边缘计算技术,以保障所有用户获得同样流畅的体验。
计算能力是元宇宙一切行为的“燃料”,无论是物理计算、渲染、数据协调和同步、人工智能、投影、动作捕捉和翻译等多样化功能,计算都是必不可少的。比如将触觉传感器的信号转化成人物元宇宙相应的动作,其中复杂的转换就需要计算能力的参与。更重要的是元宇宙将拥有人类历史上最大的持续计算需求,元宇宙作为一个“镜像世界”,它每时每刻都在运转,因此它需要的就是长足的持续计算能力。此外,计算能力的大小将决定元宇宙规模的上限,因为计算能力不足的话,几万人同时在线的元宇宙只可能是天方夜谭。
元宇宙的发展与普及,一方面有赖于VR/AR等软硬件产业生态的成熟发展,另一方面元宇宙的“沉浸感”“低延时”“随地”特性也有赖于高度发达的边缘计算等数字基础设施的支撑与支持。
边缘超算能很好地解决中心流量拥堵和智能终端爆发式增长带来的计算资源匮乏等问题,是解决未来数字化难题的重要路径。
3.3.4 场景4:边缘超算打造数字社区,重新定义社区生活模式
数字社区是数字城市的重要组成单元,也是全面提升社区服务和治理能力的重要载体。数字社区总体功能及效果应满足社区居民的幸福感、获得感与安全感需求;能对社区的相应数据进行动态采集、反馈、分析和预测,并进行标准化管理;能实现统一用户管理、权限授权管理、信息推送、应用管理等。
社区智能化过程中,越来越多的智能设备布置在社区中,采集了大量的数据资源,可受限于算力和算法的短板,这些数据没有被智能化分析处理。数字社区中的计算场景以视频、图像类的处理为主,擅长并行计算的GPU成了最常见的算力需求,但GPU高昂的硬件成本是有了数据采集、却缺少数据处理的直接诱因。而边缘超算能够满足视觉、语音和自然语言处理在内的多种计算场景。大幅度降低社区智能运算的成本,提升社区智能水平。
4 结语
随着信息通信技术的不断发展,算网融合将不断完善,未来必将成为数字化信息社会的重要服务基石。算力发展需要网络域、计算域协同创新,是一系列新技术的集成融合和创新应用。算力网络目前已被纳入6G和下一代互联网关键技术之一,是网络与计算融合发展的终极目标。需要业界联合打造算力产业技术体系,实现网络无所不达、算力无处不在、智能无所不及,推动千行百业数智化转型。本文描述了以算力换功能、以算力换性能、以算力换服务的发展历史,研究了算力提升的主要路径,为算力与网络融合,以及更好地服务未来行业业务创新开辟道路。