ARM看上的不止是物联网，还有人工智能

2017-04-17薛士然

单片机与嵌入式系统应用 2017年8期

关键词：预付内核指令

本刊记者薛士然

ARM看上的不止是物联网，还有人工智能

本刊记者薛士然

目前，业界所用的MCU绝大部分都是基于ARM Cortex内核的，所以ARM的技术走向会影响整个处理器行业的发展。近日，ARM Tech Day 2017在北京举行，来自ARM的市场和技术专家介绍了ARM未来的发展规划和技术走向。

DesignStart项目升级，Cortex-M0和Cortex-M3免预付授权费

事实上，从2010年起，ARM DesignStart就给用户提供了快速获得ARM IP的途径。2015年，ARM又通过DesignStart项目开放了Cortex-M0内核，免除预付授权费或者评估费用，通过一个简单的可下载授权就可进行即时免费下载，用于评估和原型合法，而版税只有在实现商业化量产之后才收取，这样就有更多的嵌入式设计工程师、初创企业以及OEM厂商成为ARM生态系统的新成员。

如今，ARM再次对DesignStart项目进行升级，将Cortex-M3也加入免预付授权费的行列。据ARM计算产品事业部高级产品营销经理Phil Burr介绍，Cortex-M0和Cortex-M3是Cortex-M系列中出货量最大的产品，每半小时就有25万出货，ARM选择这两个内核加入DesignStart项目，就是希望此项目能够惠及更多的嵌入式开发者，帮助创新者以更小的风险将产品推向市场，将创意变为现实。

同时，Phil Burr也表示，Cortex-M0和Cortex-M3免除了预付授权费，肯定是会影响公司的营收，但是这样的决策是非常正确的，因为可以助力于使用两个内核实现更广泛的嵌入式智能设计，加速实现一万亿芯片互联。除了免除Cortex-M0/M3的预付授权费之外，大量已经可用于基于ARM平台的软件和中间件也可以使用，这也是非常多的工程师喜欢使用ARM内核做开发的原因。

ARM有名的big.LITTLE技术演进为DynamIQ技术

2017年3月，ARM推出了全新的DynamIQ技术，其作为未来ARM Cortex-A系列处理器的基础，将为多核处理器的技术发展做出贡献。ARM计算产品事业部高级营销总监Ian Smythe对此进行了深入解读。

据Ian Smythe介绍，DynamIQ技术是ARM big.LITTLE技术的重要演进，其将通过“根据不同的任务选择最合适的处理器”的方式来推动多核处理器的智能计算，允许对单一计算集群上的大小核进行配置，而这在big.LITTLE中是不可能实现的。可以认为DynamIQ是针对未来移动计算的技术，随着人工智能和机器学习时代的到来，单纯追求线性核性能的提升已经不能满足需求，只有根据处理器核的计算能力来分配相匹配的任务，才能智能化地发挥每个处理器的作用，比如，计算量大的任务交给大核，一些持久的小计算任务就交给小核来完成。

因为DynamIQ技术采用全新的处理器指令集，采用此技术后，Cortex-A75系列处理器可实现比基于Cortex-A73的设备高50倍的人工智能性能，并最多可提升10倍CPU和SoC上指定硬件加速器之间的反应速度；SoC设计者可以在单个集群中最多部署8个核，并且每个核可以有各自不同的性能特性；通过对每一个处理器进行独立的频率控制，可以高效地在不同任务间切换最合适的处理器。

因为DynamIQ使用的是专有指令，所以可以采用此技术的只有Cortex-A75、Cortex-A55和Mali-G72三款处理器。

Cortex-A75是DynamIQ技术中的大核

Cortex-A75是首款基于DynamIQ技术的高性能CPU，在相同频率下，比Cortex-A73性能提升20%。Ian Smythe介绍到，Cortex-A75中微架构主要做了以下改进：有超标量处理器核心，与上一代产品相比能够解码、发出以及执行更多的指令，支援完全乱序处理、无阻塞高吞吐量一级高速缓存以及高级指令和数据预取；有位于处理核心附近的专用二级高速缓存，这些专用二级高速缓存的容量可以配置，缩短了内存的存取延迟，让任务能够更接近核心，实现更快的处理和更低的功耗；DynamIQ共享单元(DSU)中的统一共享三级高速缓存可被集群内的所有处理器共享。

Cortex-A75可广泛应用与多个领域，其不仅适用于移动和消费性领域，还可以用于高要求的联网和服务器等场合。ARM合作伙伴既可以单独使用Cortex-A75处理器，也可以使用多个(最多4颗)处理器组成多核处理器，还可以与Cortex-A55处理器构成big.LITTLE组合(一共最多8颗处理器)，其中Cortex-A75扮演大核的角色。

Cortex-A55是DynamIQ技术中的小核

伴随着物联网、人工智能、机器学习热潮的到来，ARM一直在研究能够实现从端到云的高效能处理器，因此Cortex-A55应运而生。其微架构比上一代产品有如下改进：对分支预测程序进行了全面修改，在其算法中融入了神经网络元素来改进预测，而且新增了零周期分支预测程序以便进一步减少流水线中的泡沫，这样可以使指令之间的空闲时间越来越短；Cortex-A55中的二级缓存对每一颗CPU而言都是专用缓存，这样一来与Cortex-A55相比，二级高速缓存的存取时间缩短了50%以上，而且二级高速缓存的工作频率与CPU相同，通过降低延迟大幅提升CPU在各类基准测试工具中的性能；推出了三级高速缓存，可供集群内的所有Cortex-A55 CPU共享，让DynamIQ集群能够得益于CPU附近增多的内存容量，从而提升性能、降低系统功率；Cortex-A55 NEON流水线中增添了新的架构指令，使其能够在每个周期执行16次8位整数运算，这些新的指令还使Cortex-A55能够在每个周期执行8次16位浮点运算、对两条MAC指令进行舍入操作，有利于色彩空间转换。这些改进使得Cortex-A55在保持与Cortex-A53相同功耗的基础上，性能得到大幅提升。

Cortex-A55与Cortex-A75可以组成在DynamIQ技术上的大小核，Cortex-A55扮演小核的角色。

Mali-G72挑起高端GPU的大梁

ARM多媒体处理部高级产品经理Espen Oybo介绍

了Mali-G72的未来应用。移动端的复杂游戏、下一代VR技术在移动端的实现、设备端的机器学习，这些都可以借助Mali-G72实现。

与上一代产品相比，ARM在Mali-G72上做了如下改进：增加了区块缓冲存储器，让GPU在每个运行区块支持更多的存储空间，这就提升了轻负载情况下的数据吞吐量；重新平衡了执行引擎的数据路径，以移除某些很少使用的指令，并以简单的指令顺序取而代之，降低使用面积与耗电；针对复杂运算进行优化，以支持更高的图形复杂性；为了进一步降低带宽，增加了一级缓存与写回缓存的大小，同时也改变了指令缓存逻辑，减少了对复杂内容产生的缓存遗漏情况。