AMD的新武器

2012-04-29水滴

电脑迷 2012年22期

水滴

AMD的CPU发展之路近些年来一直不是很顺利，旗下处理器产品仍然在计算性能上处于落后局面。不过AMD也在积极努力改善情况，在“推土机”之后，AMD又进行研发改进，推出了全新的“打桩机”处理器，这一次，AMD的表现又该如何呢？

“推土机”架构的问题

AMD的“推土机”架构发布后，高功耗、高频率和达不到预期的性能令AMD高端CPU产品线上显得颇为尴尬。虽然从架构来说，“推土机”的确是一款革命性的产品，模块化设计、单模块双物理核心、灵活多变的浮点计算单元方案等都是创新技术。奈何功力不够，“推土机”架构的实际产品性能表现还是差了一些火候。从宏观来看，如果“推土机”架构解决了工艺问题以及缓存延迟、数据命中率等诸多核心问题，再在架构上做出一定优化，CPU的性能得到大幅度提升也不是不可能。但AMD并没有这么多时间，一方面英特尔按部就班的推出自己的新产品，“推土机”发展的一代时间中，英特尔已经从Sandy Bridge进步到了Ivy Bridge，工艺也从32nm进步到了22nm的3D晶体管，而英特尔下一代的Haswell也将在2013年初登场，AMD没有也不可能有太多时间来大幅度改进CPU设计，因此只能在“推土机”的基础上进行小改动，先把最急需解决的问题解决，让新的“打桩机”相比“推土机”性能有一定提升，扭转目前竞争不利的态势再说。

这就是“打桩机”架构出现的背景。总的来看，“打桩机”架构在“推土机”架构的基础上，做了一些小修小补的必要改进，一些重要部分“打桩机”架构和“推土机”架构基本上是完全相同的，包括内部的模块化设计、每个模块两个整数核心以及一个共享的256bit浮点核心都没有什么改变。AMD在“打桩机”架构上的主要任务是提升IPC（每周期指令）性能，让CPU内部处理效率更高，同时AMD还需要改进32nm工艺，让“打桩机”架构的实际产品能够运行在更高频率上，用更高频率换取CPU的更好性能，赢得更多的竞争空间。

频率提升很重要

AMD在资源有限的情况下，尽可能的对“推土机”架构做出了调整，以获取更高的性能。在所有的技术改进中，目前AMD能使用的最有效、最直接的就是提升频率。AMD采用了三种方法来提升“打桩机”架构实际产品的频率表现。第一种方法就是改进现有的32nm SOI工艺。AMD在制造工艺上落后英特尔整整一代，因此只能使用比较老旧的32nm抗衡英特尔的22nm 3D晶体管。不过这并不代表AMD的CPU频率无法提高。AMD经过改进后的32nm SOI工艺漏电率更低，发热也随之降低，CPU运行频率能提升得更高。第二种方法是采用了名为“Resonant Clock Mesh”谐振时钟网络的技术来辅助频率提升。这项技术能够使CPU频率提升10%，或者在同频率下降低10%的功耗，特别是时钟分派功耗降低24%。谐振时钟网络技术的目的在于新建一个高性能的片内电感器，并利用这个新的电感器建立振荡回路，从而更为精确的控制时钟功耗，并节约一部分电能。第三个则是全新的Turbo Core 3.0技术。一般来说，CPU所有的部件并不是在任何时候都处于满载状态，这就为频率控制技术留下了一定的空间。频率控制技术可以将非工作状态的CPU内部部件的TDP“让渡”给那些满载工作状态的部件，令其提升频率并尽可能快的完成工作任务，从而达到提升效能的目的。为了达到这个目的，AMD在打桩机的每个模块中都加入了自己独立的功率检测器，所有的功率检测器将实时动态监测CPU各个部分的功率，将所有的功耗数据和TDP相比较，并反馈给P-state Manager进行管理，当P-state Manager发现CPU的实际功耗小于TDP时，则自动提升频率，让工作任务更块完成。在实际操作中，Turbo Core 3.0完全无需人工干预，它会根据产品类型和使用环境，对单模块、双模块、多模块进行动态调整。Turbo Core 3.0能够提升APU性能大约5%，在某些特定环境下有可能更高。

指令效率要更高

AMD的“推土机”架构的问题在于指令效率比较低，因此在“打桩机”架构中AMD也从这方面做出了改进。AMD首先改进的是“打桩机”架构的分支预测系统，“打桩机”架构以分段的方式增加了整体分支预测的成功率。此外，“打桩机”架构还可以将之前的分支预测数据暂存在寄存器中，借此提高分支预测的能力。总的来看“打桩机”在架构指令预测方面命中率更高。为了进一步提升指令性能，AMD还为打桩机架构增加了指令窗口的大小，这可以让CPU处理更大的指令组。最终结果是，“打桩机”架构的指令解码宽度为4路，在单核心和单模组模式下，可以最多同时处理4条指令，在双模组时最多可以处理8条。另外，AMD还加入了新的指令集来提高执行效率。新加入用于乘加计算的FMA3指令、用于16bit的浮点转换的F16C指令以及之前就支持的FMA4，“打桩机”架构堪称得到了目前最齐全的架构指令支持。

内存延迟也要降低

缓存延迟和内存延迟是“推土机”架构相当明显的软肋，“打桩机”架构虽然无法做到彻底更改，但还是做出了很多重要改进。有关这一点AMD没有给出具体资料，只是宣称自己在缓存读取延迟和存储预取功能等部分做出了有益的改进，让“打桩机”架构实际产品的性能表现更好。其余的改进还包括“打桩机”架构的读取/存储单元的延迟，比如改进存储-读取的排队序列，这样可以降低预测编译部分的工作请求，并降低负载和压力。L1缓存的转移指令缓冲区（Translation Lookaside Buffer，简称为TLB）通道增加到64个，是上代产品Llano的2倍。

一些测试表明，“打桩机”架构的延迟比“推土机”架构明显要小，但是小得很有限，不过这也能带来比较明显的性能提升。看来AMD在无法彻底更改CPU架构的情况下，是很难做到大幅度、革命性的性能改进了。“打桩机”架构始终只是“推土机”架构的小幅度性能改进版本。

打桩机架构的具体产品

说了这么多打桩机架构本身的信息，接下来一起看看实际产品的情况。“打桩机”架构的实际产品采用32nm SOI工艺制造，总共拥有12亿晶体管，核心面积315平方毫米，每模块二级缓存为2MB，三级缓存为共享的8MB。这些规格参数和“推土机”架构的产品都基本相同。目前AMD推出的采用“打桩机”架构的具体产品有FX-8350、FX-8320、FX-6300和FX-4300四款，其余还有诸如FX-8300、FX-6350等暂时没有零售产品出现。所有的采用“打桩机”架构的处理器都支持双通道DDR3 1866内存，采用AM3+接口。内置四核模块到双模块不等，核心数量也从八个到四个不等。

从实际产品来看，AMD认为“打桩机”架构依旧不能和英特尔高端产品抗衡，因此在价格和竞争产品上表现得很谨慎。比如FX-8350竞争对手为Core i5-3570K，FX-4300的竞争对手为Core i3 2120。AMD依旧试图用高频率、多核心来对抗英特尔的相关产品，力求在同样价格上以更高的性能和更多可玩性（比如开放超频）来吸引用户。总的来看，AMD还需要在CPU研发上投入更多精力，并且在工艺制造方面不要被英特尔拉下太远，像目前这样无论是CPU架构还是工艺都落后太多的情况实在是不容乐观。“打桩机”只是AMD在激烈竞争中的一个权宜之计，只能暂时缓解紧迫的竞争形势，真正能让AMD喘口气翻身的产品还没有出现，目前只有拭目以待下一代“压路机”架构的表现能否足够给力了。