掀起图形和企业级计算市场的新一轮革命 再谈英特尔2021年架构日
2021-11-13徐昌宇
徐昌宇
在上一期文章中,我们介绍了有关英特尔2021年架构日发布的产品中两款全新的处理器微架构、Alder Lake以及有关线程调度器的内容。除此之外,英特尔还带来了新的GPU产品、AMX以及Sapphire Rapids等产品和技术。接下来,我们就针对这部分内容继续进行深度解读。
抢占图形市场至高地位英特尔Xe-HPG架构预览
在英特尔Xe架构中,面向中高端GPU市场的产品一直犹抱琵琶半遮面。本次架构日发布会上,英特尔终于给出面向消费者市场的Xe-HPG架构的部分信息。
从第9代核芯显卡到第11代核芯显卡,再到新的Xe-LP核芯显卡,在保持功耗不变的情况下,英特尔使得这三代产品的性能逐代翻倍。接下来,英特尔将进一步把Xe架构使用在更高端的产品上,比如今天的主角:Xe-HPG。
英特尔在2021年8月17日就已经宣布其GPU产品的英文名、中文名以及架构代号。英特尔的GPU产品正式名称是英特尔锐炫,英文名称是Intel ARC。第一代GPU的架构代号为Alchemist也就是“炼金术师”,后三代产品的架构代号分别是“Battlemage”(战斗法师)“Celestial”(天人)和“Druid”(德鲁伊),全部采用魔幻故事中存在的人物或者职业名称。
英特尔认为目前GPU的研发工作需要“软件优先”,要面对几十亿、上百亿晶体管的协同工作并能够适应各种场合、应用的需求,软件成为整个开发的核心,软件对应的就是需求,这是硬件需要满足的内容。在这种情况下,英特尔进行了重大的代码重构,全面优化了独立显卡产品的本地内存使用率,針对图形编译器、内存管理、DDI线程、命令解码、提交以及GPU配置文件等都进行了优化和更新。其变化包括将游戏加载时间缩短最多25%,将CPU密集型游戏的吞吐量提高多达18%等,这些改善意味着英特尔在编译器操作上更为聪明,比如消除冗余编译以及线程调度方面进行优化等。在API方面,新GPU支持包括DirectX 12、Vulkan这类最先进的API(没有提到OpenGL),另外还支持包括UE系列、Unity系列在内的主流游戏引擎。用户体验方面,英特尔希望带给用户的体验包括平滑流畅的游戏、实时的游戏串流、更为现代化的用户界面以及可调节的|生能(超频体验)等。
XeSS:英特GPU产品的性能倍增器
在GPU产品发布之前,英特尔首先宣布了一个重大创新,那就是全新的XeSS,全称是Xe Super Sampling,也就是Xe超级采样。英特尔将其看作一种在较少的性能损耗下就能实现4K级别乃至更高分辨率高质量画质输出的重要技术。英特尔在发布会上演示了多个DEMO,并且宣布在8月底就可以提交初版的XeSS给游戏开发商进行游戏植入和优化。
英特尔用了一张图来描述XeSS的工作过程。一般来说,类似的技术比如英伟达的DLSS或者AMD FSR都是根据较低分辨率渲染的画面(比如1080p)的信息,进行放大、优化后,将其扩大为较高的分辨率然后进行输出。这个过程中,各厂商在具体如何放大和优化画面的技术上存在一些差异。比如英伟达的第一代DLSS在放大画面后可以主动寻找边缘并进行一定程度的锐化,而第二代DLSS采用像素对比或者前后帧对比进行更精细、准确的优化。
XeSS和第二代DLSS接近,也是利用空间数据和时间数据来进行组合并形成神经网络从而提升游戏分辨率。空间数据就是相邻像素之间的差异,时间数据则是指前一帧画面和后一帧画面之间的差异。通过这些差异,神经网络可以确定放大后的画面哪些地方需要进一步加强,最终合成一个比较合理的放大画面。英特尔展示了XeSS的部分运行画面,实际效果还是不错的。当然,这只是一些演示DEMO,在真正的游戏环境中,面对干差万别的游戏场景,XeSS可能会出现一些问题,比如模糊、闪烁、重叠或者错误的加强等,这还需要英特尔花费更多的精力进行优化。
由于XeSS的计算涉及到神经网络,所以会调用XMX矩阵数学单元进行处理。这个单元也是本次发布会中首次出现的Xe-HPG中存在的重要模块。显然,英特尔正在将更多矩阵数学的相关硬件单元加入CPU或者GPU中,尤其是后者能够使得XeSS这类技术迅速完成处理,从而带来极小的帧时间开销。不仅如此,英特尔还在进一步努力,希望开发一种不需要矩阵数学硬件的XeSS版本,也就是XeSS DP4a。XeSS DP4a使用4元素矢量点积进行处理,其计算规模和难度都小了很多,几乎所有的GPU都支持DP4a类型的计算,包括英伟达和AMD的产品,但计算精度或者计算速度相比专门的矩阵数学存在一定差距。
英特尔在XeSS上的策略类似AMD和英伟达的结合,比如AMD的开放策略可能类似XeSS DP4a的部分,也就是所有产品包括竞争对手的产品都可以使用。而更好效果(或者更少性能损失)的部分则属于XMX专属(类似于英伟达的DLSS),也就是英特尔Xe-HPG GPU专属的。在理想的状态下,英特尔在XeSS上的“DP4a+XMX”策略具备更好的兼容性,大幅节约了游戏人员的开发工作,可以更广泛地吸引游戏人员选择。英特尔还宣布,未来将对XeSS彻底开源,如果英特尔最终提供了一个效果和性能兼具的XeSS完成版本并将其开源的话,这对英伟达和AMD来说是一个非常不好的消息。
从现场展示的DEMO来看,XeSS具备了将画面从1080p分辨率升级至4K的能力,4K画面和真4K画面非常接近,1080p分辨率下模糊的一些纹理细节都得以呈现。一种可能是,英特尔XeSS并非只是简单放大画面,而是采用了类似LOD技术之类的手段来处理一些敏感的纹理部位以获取更好的图像质量,这显示XeSS已经相当成熟了。然而,英特尔在这里没有给出任何帧数方面的对比以及更多复杂场景的对比,比如树林、斜面纹理、运动场景、复杂阴影等。
实际上英特尔这么着急开发XeSS这样的技术有2个重要的原因:一方面是类似DLSS、FSR、XeSS这样的技术的确是性能倍增器,可以在画质损失很小(或者没有损失)的前提下提供大幅度的性能提升,尤其是在4K显示器显著增长的今天,这项技术能够带给用户最实际也是真正可用的4K游戏体验,这将极大提高对应GPU产品的市场号召力。另一方面则是目前GPU的性能严重不足,尤其是在光线追踪时代来临后,几乎无限的计算需求面临有限的计算资源,使得人们不得不采用这种手段来绕开性能瓶颈。所以,之前一段时间有部分玩家甚至媒体人员宣称的所谓GPU性能过剩论是完全错误的,包括所谓CPU性能过剩论,其实在现代计算尤其是人们需要的更高精度、更智能的计算面前都非常荒谬。所谓过剩,只是当前设备无法达到下一个阶段的计算需求从而表现出来的无力感。