算网融合和通信信息基础设施
2022-12-13蒋林涛中国信息通信研究院科技委主任
蒋林涛 中国信息通信研究院科技委主任
1 算网融合
算网融合是目前的热门话题,大家都在谈“算网融合”,“算网融合”观点一致了吗?“算网融合”有共识了吗?从目前的情况来看都不是,“算网融合”融合没有取得共识,大家谈的“算网融合”往往不是同一件事。要推进“算网融合”的发展,必须首先要有共识。要做到这一点,首先要将各自的观点发表出来,作广泛和深度的研讨,在广泛研讨的基础之上才可形成共识。
共识首先要从定义出发来讨论和研究。那么什么是“算网融合”呢?算网融合涉及的范围很广,但下述三方面是一定要研究的。
什么是“算”?从文字意义来说,“算”就是算力、计算能力,当然这是很窄义的定义,是一种对直接算力的定义。在这个定义下,首要的难题是,算力怎么度量?对直接算力度量是很难的,目前可以度量的算力只有CPU,对CPU算力的度量明确分为两种:一种是运算能力,通常可以用MIPS(即每秒百万次指令计算)来度量;另一种是交易能力,以一笔标准的交易为单位,通常可以用MTOPS(即每秒百万次交易)来度量。GPU目前也可以度量,一般用MFLOPS(每秒百万次浮点计算)来度量;另外还有一种度量方法,就是芯片中的CPU数和核数,这是对物理资源粗放的度量。除此以外还有吗?没有了,其他算力都很难度量。如TPU如何度量算力,DPU如何度量算力,XPU如何度量算力,ASIC如何来度量算力,专用的FPGA如何来度量算力,目前都没有说法。算力度量是“算网融合”中基础的基础,度量偏偏又是“难题”,目前尚无解决办法。另外,算力不能只考虑直接算力,还要考虑间接算力,间接算力如何度量也是问题。第二个难题是,算力如何标识,到目前为止算力标识是没有共识的,算力标识是算力应用的必要条件,没有标识,用户如何能用上算力,目前的基本概念是:算力标识由两部份组成,算力地址+算力属性,但没有共识。第三个难题是算力要成为基础设施,首先要解决算力池化和算力按需配置的问题,算力如何池化,算力如何分配和管理。由于第三个难题的基础是前两个问题,前两个问题不解决,第三个问题是无法深入研究的。第四个难题是算力如何能够按需、保质地到达用户。提供方能够供出的算力和使用方能够使用到的算力是不同的,算力提供方是要经过网络来向使用方提供的,网络如果“不听话”或“不给力”,算力也很难按需供出。这个问题是目前最大的问题,目前可以进行端到端传输的网络只有IP网,偏偏IP网是“不听话”“不可管控”的,如何将IP网作为基础来支持算力递送,是一个极大的难题。第五个难题是算力的提供形态,向用户提供算力,算力到底是以直接算力的形态来提供,还是以间接算力来提供。以直接算力的形态来提供,碰到的难点是算力难以度量,用户无法精准地提出算力需求,再有就是使用直接算力,对网络提出极高的要求;以间接算力的形态来提供算力(对普通用户),可能是未来算力提供的主模态,即用户使用平台或软件,平台和软件使用直接算力,这样用户是间接算力的使用方,如何提供统一的算力度量机制和统一的算力标识是极大的难题。窄义算力是指直接计算能力,但太窄义了,用户是很难使用的。实际上用户可以用的算力是广义算力,广义算力包括直接算力+间接算力。从广义上讲,算力=直接算力(窄义算力)+间接算力,间接算力包括:算、数、智,平台、软件,这样广义算力就是信息技术(IT)资源的全部了。
什么是“网络”?很显然它不是指移动通信网,也不是指固定通信网,它是指作为基础设施的通信网整体,是指连通算力供给方和算力使用方的连接。核心要求是连通能力,还必须包括提供能够满足用户体验的网络性能。“算网融合”的网络是端到端连接的数据网,它包含移动接入和固定接入,包含支持数据网网元间的点到点连接的传送网,这里的网络是通信技术(CT)整体的集合。目前用于算力融合的数据网是IP网,但是目前的IP网能力太弱了,除了提供“尽力而为”的传输能力外,一切能力依靠外挂。50年来的努力,外挂技术已经不少,但认真研究后,发现它们全部是局部技术,局部有效、全局无效。IP网的全局技术已经50年不变了,远远落后需要。数据网技术的变革是迟早的事。“算网融合”是两个基础设施的融合,一个是通信技术(CT)基础设施,另一个是信息技术(IT)基础设施。IP网在互联网的发展中起到极为关键的作用,是互联网已有的唯一基础设施,即通信技术(CT)基础设施。在算网融合中,目前通信技术(CT)基础设施还是IP网,而信息技术(IT)也将成为基础设施,目前IT还是以资源孤岛形态存在,IT孤岛资源要成为IT基础设施,需要通信技术(CT)的支持,什么样的通信网络技术能够支持目前是不确定的,IP网很难承担此重任。
什么是“融合”?这是最没有共识的部分。融合是什么,是“你中有我,我中有你”,两个完全不同的实体融合在一起,物理上难以区分了,它是一个物理融合过程,并不产生第三实体,融合后,在实体层面难以区分了,在虚拟层面上仍是可分的。“融合”是物理过程,就像青铜,青铜是融合的产物,青铜是纯铜(红铜)中加入锡或铅的合金(融合),在青铜中铜还是铜、锡或铅,只是它们的形态变了。化合就完全不一样了,化合过程会使原来的实体没有了,变成第三者(或第四者)新的实体。这一点认识很重要,“融合”是“你中有我,我中有你”“你还是你,我还是我”,质没有变、形变了;“化合”则是你没有了,我也没有了,产生第三种(或更多)实体,如盐酸和氢氧化钠“化合”后产生氯化钠和水。对于“融合”的看法,是否大家都认可它是一个物理过程,而不是一个化学过程,这一点是存疑的,但很重要,因为它决定了研究的技术路线。
NFV提出后,网络中的网元已经不再全部是实体网元,网络中的网元可以是实体网元也可以是虚拟网元。实体网元的硬件和软件是一体的,是不可分离的;虚拟网元的硬件和软件是分离的,虚拟网元的IT资源(计算、存储、I/O等)是从云化数据中心中获取,软件是通过适当的渠道,加载到虚拟网元的IT资源上,只要虚拟网元的IT资源和实体网元中的硬件能力相同,它就可以成为与相应实体网元相同的虚拟网元,并可替代实体网元,在网络中运行,起到实体网元相同的作用。在这种场合,实体网元在形态上从有形成为无形的了,通信技术(CT)和信息技术(IT)在物理系统层面融合了,但从虚拟的层面,两者还是泾渭分明的,通信网还是独立存在,通信网体系没有变化,通信网能力也没有变,并不因为虚拟网元的存在而改变。因此,“融合”在物理层面是“你中有我,我中有你”,两个完全不同的实体融合在一起,物理上难以区分了;在虚拟层面,“你还是你,我还是我”,质没有变、形态变了。这一点认识非常重要,涉及到研究的技术路线、采用的技术方案和相关的网元(或ICT信元)的引入。因为对这一点的认识是有深刻教训的,CCSA TC1 在研究FDN(未来数据网)时,由于NFV技术的引入,对编排器、SDN控制器和网管的功能分配用了1年多时间的讨论还是定不下来(实际上这个问题至今还没有解决),其关键还是对融合的定义的认识,如果认同融合是物理过程,这个问题就不难解决。编排器可以编排IT资源(特别是云化数据中心中的云资源,也可以编排云中的虚拟连接资源(云CT)),但没有能力来编排广域的通信技术(CT资源),SDN控制器和网管的功能分配是混淆和不清晰的,结果是导致融合过程进展缓慢。实际上,目前的融合能力,连创建一个数据网物理创新平台的能力都不具备。算网融合是很有挑战性的,目前技术缺口还很大。但最主要还是认识问题,如果认可融合是物理过程,那么算和网的融合是物理层面的形态改变,虚拟(或逻辑)层面还是独立的,那么算力体系的设计和网络技术的设计是相对独立的。算力体系和网络体系独立设计,并使其最优化,再建立算力体系和网络体系的联系。
2 数字经济和算网融合(通信信息技术(ICT)基础设施)
互联网技术的发展,极大地促进数字经济的发展,已经成为数字经济的基础设施。支持互联网的基础设施是什么?这个问题很少有人讨论,或者连想都没有想过。这个问题实际上是很重要的,是要很好地进行研究和讨论。互联网发展的前期,它的基础设施就是通信技术(CT)基础设施,确切的说就是IP网,IP网是支持互联网发展的核心,是其唯一的基础设施。所以互联网的发展是以IP网的覆盖率来衡量的。“想要富,先修路”,同样“要发展互联网,先建设IP网”,早期的互联网就是这样发展起来的。传统互联网设计理念中的业务网和承载网(IP网)的彻底分离,互联网业务全部是OTT形态的业务,只要有IP网,业务就“千姿百态”地发展起来,数字经济随着互联网的发展迅速发展了。由于互联网的业务发展太快了,特别是音视频业务,音视频业务对网络的资源提出了很高的要求,IP网,特别是IP核心网和会聚网资源有限,难以承担巨量的音视频业务信息数据的传送。内容分发网络(CDN)就是在这种场景下发展起来(“应运而生”)了,内容分发网络(CDN)是由多层级的存储器(含计算和存储能力)、在内容路由的基础上发展起来的。目前内容分发网络(CDN)已经成为互联网中不可或缺的组成部分,它和IP网共同成为通信技术(CT)基础设施。在内容分发网络(CDN)中多层级的存储器(含计算和存储能力)是属于信息技术(IT)资源,因此在内容分发网络(CDN)中实现了IT和CT的融合。NFV的提出和应用,网络中的网元已经不再是实体网元一种形态了,在网络中可以有功能和性能和实体网元相同的虚拟网元。虚拟网元实现了软件和硬件分离,虚拟网元的硬件(IT)资源取自云化数据中心(云计算),一般来说是以虚机或容器形态来提供,软件通过镜像的形态加载到虚拟网元的硬件(IT)上,虚拟网元资源和镜像形态的软件结合构成了一个完整的虚拟网元。认真研究发现,在这种场合下,网络技术并没有发生变化,IPV4中的所有网元都可以以虚拟网元的形态来提供服务,同样IPV6中的所有网元都可以以虚拟网元的形态来提供服务,IP网变了吗?没有变,IPV4网仍然是IPV4网,IPV6网仍然是IPV6网,只要虚拟网元的IT资源与实体网元的资源相同,网络能力和性能也不会发生变化,变化的只是它的呈现形态,实体网元不见了,虚拟网元取代了它,在这种场合IT和CT融合了。融合的结果使它改变了网络的形态,但没有改变网络的实质,网络只是发生物理的变化。在互联网的业务网层面,也在发生变化。互联网的业务网通常由控制面、管理面、网站和终端等组成。早期的互联网中,它们通常以实体形态存在,业务网的全部网元都是实体网元,网站也都是实体形态,终端也是一体机,软件和硬件是不分离的。互联网的发展,业务网中应用也发生很大的变化,以终端实现实时翻译为例,早期一般是在终端安装一个翻译软件,软件和硬件是在一个终端中,翻译工作都在终端中完成,由于终端资源(IT资源:计算和存储资源)有限,翻译的质量一般都不会高,现在的翻译软件一般都有“在线翻译”的选项,什么是“在线翻译”,实际上就是把翻译所需要的IT资源从终端分离出去,目前的IT资源通常都是放在云化数据中心(云计算)中,由于云化数据中心有强大的IT资源,它可以完成终端难以完成的(计算、存储等)任务,终端的工作需要有外部IT资源的支持。目前正在研究“云手机”,原因是手机的硬件资源(IT资源),尤其是中低端手机的硬件资源,不足以支持高端App对IT资源的要求而无法运行,这里的资源主要是计算和存储等资源不足,如果能得到外部IT资源的支持,中低端手机也能支持高端App,这就是“云手机”的设计理念。对于下一步工业互联网中的制造用智能设备,由于成本上的原因,设备的配置往往不会很高,通常能满足基本要求,当进行高端制造时,设备配置的IT资源往往不足,需要外部的IT资源来支持;另外,改造已有的智能设备同样会有这样的问题,一般地说,未来的发展趋势是:设备的硬件和软件分离,这时候IT资源将必须成为基础设施才能满足需要。终端是如此,主机更是如此,原来互联网中的主机都是以独立形态存在的,现在还有吗?即使有,也很少。大量的主机已经没有自己的独立设备,它所需要的IT资源(计算、存储、I/O等)都可以从云化数据中心(各类别的云计算)获取。IT资源以孤岛形态存在已经越来越不能满足要求,IT技术资源的基础设施化已是必然。将IT资源孤岛变成IT技术资源基础设施,核心是数据网(端到端通信)技术的能力是否能满足要求,目前IP网从核心技术来说已经50年没有发生变化了,50年来IP网增加的补丁技术没有一项是涉及全局技术的,它们都是局部技术,在局部是有效的,但不能推广到全网。典型的例子是MPLS,MPLS是面向连接的、提供点到点连接的隧道技术,存在N平方问题,局部可用,全局不可用。互联网的前期,IP网是它唯一的基础设施(CT基础设施),目前信息技术(IT)资源也要基础设施化(IT基础设施),这将是互联网发展的两大支柱。
让我们从数字经济和ICT基础设施的角度再来看一下算网融合。算网融合的“算”定义很重要。“算”如果只是指窄义的直接算力,范围太窄不好用。比较合理的定义是:“算”=直接算力+间接算力。间接算力包括:算、数、智、软件、平台等,如这个定义成立,算网融合等同于建设ICT基础设施,ICT基础设施=IT基础设施+CT基础设施。IT基础设施就是“算”的部分,CT基础设施就是“网”的部分,ICT基础设施就是“算”“网”融合的信息通信基础设施,是支持数字经济运行的基础设施。
“算网融合”中的“网”是指由数据网(IP网)、传输网(网元间连接)和接入网(无线接入和固定接入)。传输网和接入网发展总体上是顺利的,技术上能满足信息通信发展的要求,问题最大的是数据网,目前唯一可用的数据网是IP网,但是目前的IP网能力上严重缺位无法担起此重任,需要有技术上和设计理念上有重大创新和突破的新型数据网。算网融合是建设ICT基础设施的第一步,目前的关键是理念上的共识,有共识才能有效的发展和推进算网融合,推进ICT基础设施的建设。