Arm打造无束缚、互联、沉浸式人机交互体验

2018-04-18

单片机与嵌入式系统应用 2018年8期

近日，一年一度的arm tech day在北京如期举行。据Arm市场营销资深总监Ian Smythe介绍，在过去一年里Arm发布了新的IP，公司希望在移动产业不断创新的同时，能够带动其他行业的发展，而且随着人工智能时代的到来，人机交互方式将会发生极大转变。从宏观角度来看，未来的人机交互体验一定是无束缚、互联、沉浸式的，要把虚拟世界带入到现实世界中来。基于这样的愿景，近期Arm发布了Cortex-A76、Mali-G76和Mali-V76。

Cortex-A76：改变智能移动计算格局

Arm计算产品事业部高级技术副总裁及研究员Peter Greenhalgh介绍，Cortex-A76是DynamIQ技术的CPU，虽然延用了与上一代产品相同的v8.2架构，但是其采用了全新的微处理器架构。Cortex-A76从设计一开始就希望能达到极致性能与省电于一体的目的。与上一代产品Cortex-A75相比，Cortex-A76的性能提升30%，功耗降低40%，机器学习性能提高4倍。

Cortex-A76在微架构上有几方面的关键改进：

① 解耦合分支预测(Decoupled branch prediction)与指令预取(instruction fetch)：设计在高带宽下隐藏延迟，Cortex-A76前端顺序取指组件每个周期能预取4～8个指令，并使用多层式分支目标快取缓存以及混合式间接预测器来维持最高的处理量。

② 译码宽度更大：Cortex-A76是Arm首款采用4译码宽度核心，每周期处理指令的最大数量进一步增加，每周期高达8个处理作业可分派到乱序执行核心，支持更宽的空间与功耗优化指令窗口。

③ 更高的整数与向量执行处理量：四指令管线整数处理单元内建于核心中，包含3个简单ALU以及1个多周期整数处理组件，此外，Cortex-A76支持双指令管线原生式16B向量与浮点运算单元，其处理量是所有先前世代Arm CPU的两倍。

④ 强化内存系统：整个缓存架构除了针对延迟与宽带进行协同优化，还配备精密的第四代预取器以及深度内存并行处理功能。

Peter表示，Cortex-A76在性能上取得如此巨大的突破，希望生态系统的合作伙伴可以get到其关键创新点，通过实际产品的应用来充分发挥出新架构的优势。就目前分析来看，Cortex-A76可能会在VR头戴设备上有所突破。

Arm资深产品经理Espen介绍，Mali-G76是Arm推出的最新旗舰GPU，其采用Bifrost绘图架构，大大提升了GPU的性能。与上一代产品相比，Mali-G76提升了30%的性能密度以及30%的能源效率，在机器学习能力方面是Mali-G72的2.7倍。

Mali-G76支持int8 dot，这对于机器学习的性能具有非常大的帮助，而且它还配备了双材质贴图对映器(texture mapper)，增加了数据吞吐量，处理量是Mali-G72的2倍，效率得到大幅提升。同时，为了改进性能密度与耗电，Arm还着手优化缓存器，使用数量减半但容量较大的缓存器库区，以此来改进空间与功耗效率。

取样地址的可变预载一直是GPU的一个难题，因为可变式插值运算通常是在像素中心执行，但一旦启用取样频率着色功能，可变插值运算就能在取样地址执行。编译程序必须在指令内对插值运算地址进行编码，也必须输出两个不同的着色器变量，避免对是否能使用样本-频率着色产生混淆。在Cortex-G76中，这个问题得到了解决，其中配置了区块深度缓冲区空间，以便进行执行深度预载。有了这一步骤，深度预载就能在算出法向片元之前完成，因此就能避免相依延迟的状况，进而提高了GPU在处理复杂内容时的性能。

Arm中国区域市场经理王田介绍，近期推出的高端视频处理器Mali-V76能够为高端智能手机、数字电视以及其他设备提供包括8K在内的下一代视觉体验。4K还未成为标配，Arm已经锁定了8K市场，因为Arm作为IP供应商，必须提前两年甚至更早来应对未来的需求。

8K60规格串流需要的带宽是4K60格式的4倍，为此Arm加入了额外的AXI总线，使得处理量增加了一倍，另外还把整个视频流水线的行缓冲区从4096个像素增加到8192个。行缓冲区用来存放一整行像素的数据，因此一条8K画面的行，其长度会是4K画面的行的2倍，从而带来额外的效能提升。

受益于Arm具有固件和硬件无缝整合的优势，随着Arm不断更新固件，Mali-V76的编码质量比Mali-V61跃升了25%。对于眨眼会造成画面不连贯的情况，Cortex-V76也能解决，通过在其内部建立一个连接通路，来消除许多微不足道的视觉瑕疵，提升视觉质量，所有精彩瞬间都可以捕捉到！