APP下载

游戏玩家的梦想之芯NVIDIAGTX1080如何延续强者之路

2016-07-18

电脑爱好者 2016年12期
关键词:核芯纹理架构

在GTC2016(GPU技术大会)上,NVIDIA Pascal(帕斯卡)架构首款GPU:Tesla P100惊艳全场。可惜,P100不是针对游戏玩家和台式机推出的,而是用于科学计算等专业领域。随着GTX1080的问世,Pascal才算与游戏玩家有了亲密接触的机会。那么,GTX1080是如何延续强者之路的?

Tesla P100的惊鸿一瞥

作为最早亮相的Pascal GPU,Tesla P100是由该架构中的顶级核芯“GP100”简化而来,拥有超过150亿个晶体管,内建3584个CUDA单元和224个纹理单元(标准的GP100核芯应该有3840个CUDA单元和240个纹理单元),在HBM2显存的加持下带宽可达到惊人的720GB/s。可惜,Tesla P100并不面向民用市场(图1)。如果你有兴趣染指的话,则需购买129000美元的DGX-1盒(图2),并忍受其3200W的功率……很不靠谱对吗?

还好,NVIDIA针对民用市场还准备了Pascal架构的中端核芯“GP104”,并将其“塞进”了全新一代显卡GTX1080的身上。对所有发烧级游戏玩家而言,NVIDIA GTX1080无疑是现阶段的梦想之芯。接下来,我们就一起看看GTX1080的进化之路。

先从16nm制程工艺谈起

对于CPU和GPU这种芯片来说,增加晶体管数量就是提升性能的最有效手段。但是,NVIDIA在过去4年中一直在沿用28nm FinFET制程工艺,GeForce 900系列早已将该工艺的潜力挖掘到了头,很难再有突破。换句话说,28nm工艺已经无法满足NVIDIA新一代Pascal GPU的设计需求了。

很难理解?那我们就不妨回顾一下手机领域的高通上代旗舰骁龙810处理器,这颗CPU就是因为采用了和其架构不匹配的20nm制程工艺而出现了包括发热异常、频繁降频在内的各种问题,最终成为高通史上最失败的CPU之一。痛定思痛之后,高通为新一代骁龙820找来了三星14nm LPP工艺助阵,重新找回来作为一线处理器的尊严。

NVIDIA也是如此。为了解决新一代Pascal GPU的后顾之忧,NVIDIA选择了台积电的16nm FinFET Plus(又称“16FF+”)与其搭配。我们熟悉的苹果A9、麒麟950/955、麒麟650等手机处理器也都是16nm FinFET Plus的“客户”。按照台积电的说法,16nm FinFET Plus工艺相比28nm HPM可提升65%的性能或减少70%的能耗。

言归正传。作为NVIDIA GTX1080的核芯(图3),“GP104”在16nm FinFET Plus工艺的帮助下,硬是在比GTX980还要小的封装面积(芯片表面积)里塞进了接近TITAN X和GTX980 Ti的晶体管数量(表1)。

与此同时,GTX1080的核心频率也有了大幅提升,加速频率较GTX980提高了40%以上。最令人惊喜的是,GTX1080在晶体管数量翻番且核心频率猛增之后,它的TDP功耗竟然只比GTX980高了15W,远远低于TITAN X和GTX980 Ti的250W,这意味着GTX1080只需外接一个8pin的电源线即可稳定运行(图4)。

以上种种改进,就是16nm FinFET Plus工艺带来的增益“BUFF”。至此,你还敢小看工艺对芯片性能的影响吗?

由内之外的进化之路

细心的用户可能发现了,和NVIDIA TITAN X/ GTX980 Ti相比,GTX1080的CUDA、纹理单元和光栅单元的数量上都不占优势。那么,它在性能上又能击败看似更强悍的TITAN X/ GTX980 Ti吗?在谈及性能之前,我们还是应该先了解一下GTX1080在工艺之外的改进之处。

核芯架构层面的优化

我们可以将“GP104”理解为上代“GM204”的优化版。它们都是由4组“GPC”(图形处理簇)和显存控制器组成,但差别却体现在:

1.“GM204”的每组GPC包含4个“SMM”(计算单元组),每个SMM集成了128个CUDA单元和8个纹理单元(图5);

2.“GP104”取消了SMM概念,并将其改名为“TPC”(图6),它包含Polymorph 4.0(几何引擎)和SM(CUDA单元簇)等。同时,“GP104”的每组GPC包含5个TPC,每个TPC同样集成128个CUDA单元和8个纹理单元(图7);

3.“GP104”的显存控制器从“GM204”时期的4个位宽为64bit的显存控制器改为了8个位宽为32bit的显存控制器,每个显存控制器配备了8个光栅单元,与显存接口一一对应。这项细化赋予了GP104更灵活的存储资源调度能力,并与其显存效能的提升息息相关。

因此,一个完整的“GP104”核芯就包含了2560个CUDA单元(4×5×128)、160个纹理单元(4×5×8)、64个光栅单元(8×8)以及256bit显存位宽(8×32)。

根据木桶原理,GPU核心频率是由无数设计电路中速度最慢的那一路径决定的。NVIDIA此次钻了“牛角尖”,找到并攻克了那条速度最慢的设计电路,因此将GP104的核心频率提升到了惊人的1733MHz,将上代显卡远远抛在身后,确保每一瓦电力都能发挥其最大性能。NVIDIA还曾表示,GP104结合全新的GPU Boost 3.0技术,其超频幅度可达1800MHz甚至更高,如此一来就大大降低了日后超频版GTX1080的设计门槛。

GDDR5X弥补HBM 2显存遗憾

GTX1080最令人遗憾之处就是没能加入对HBM 2显存的支持。作为弥补,NVIDIA引入了全新的“GDDR5X”显存的概念(图8),并改善了GPU和显存芯片之间的信号通路。作为GDDR5的改良版,GDDR5X的运行速率从7Gbps提升到了10Gbps,总体带宽可达320GB/s,较GTX 980显卡的224GB/s提升43%,甚至足以媲美384bit位宽的TITAN X和GTX980 Ti了。

与此同时,GTX1080的无损显存压缩技术也得以升级,改进了2∶1压缩效率,新增了4∶1和8∶1压缩算法,进一步提升了显存性能。

新技术和新特性的改良

NVIDIA对GTX1080还是很用心的,不仅想尽一切办法提升性能,还对其进行了诸多新技术和新特性的改良。

更进一步的VR体验

毫无疑问,GTX1080绝对是未来高端VR PC的首选显卡,而它在VR方面的改进也没有让我们失望。比如,GTX1080支持同步多投影引擎(SMP,Simultaneous Multi-Projection)技术,在三联屏输出的过程中,SMP技术可根据屏幕两侧的倾斜角度将正确视觉逻辑中的物体和形变投射进来(图9),让用户余光看到的是犹如真实世界中的窗口。

SMP在时下新兴的VR体验上的作用更加明显:VR所传递的图像是类似鱼眼效果的矩形画面(只有中央位置的图像实际有效),SMP可以进一步省略掉画面边缘不必要的渲染内容以节省资源提升帧数(图10)。同时,SMP还可以通过新的算法生成左右眼睛所看到的图像,省略掉其中大量的重复运算,理论上具有双倍于Maxwell显卡的效能。

值得一提的是,GTX1080支持全新的VR音频及VR物理加速,前者可以模拟声音在虚拟场景内的互动映射,实现类似现实中声音碰到障碍物反射时的真实音效;后者则可以在游戏中加速布料、流体、火焰、发毛等物理运动特效,展示更为真实的效果。

此外,GTX1080还对异步运算进行了改良,可快速高效地并行处理多任务,做到动态负载平衡,以及像素级别的任务“抢占”,执行效率大幅提升。而我们常用的GPU物理加速、音频处理、渲染帧的后期处理,以及VR异步时间扭曲算法都能因异步运算获益。

走进游戏世界的Ansel功能

如今限制VR发展的最大瓶颈之一就是内容匮乏,那么作为普通用户,我们是否能够简单轻松地创建VR内容?GTX1080的答案是,OK!

NVIDIA针对GTX1080开发出了Ansel截图功能,不要被“截图”两个字蒙蔽,这个功能可以颠覆传统意义的画面抓取!简单来说,玩家在游戏中可以使用Ansel截图功能定格“游戏世界”,然后可以随意切换方位和角度抓取游戏世界内的画面(图11)。通过它,我们甚至可以截取VR全景照片(图12),然后借助一些手机VR设备就能欣赏沉浸式的VR游戏场景了。

需要注意的是,Ansel截图需要具体游戏的支持,游戏开发商需要将Ansel集成到游戏程序当中去才能实现犹如“上帝视角”的截图功能。

GTX1080还有一些细节功能上的改进,比如避免显示撕裂情况发生的Fast SYNC技术、更高性能的SLI连接桥设计(图13)、GPU Boost 3.0技术等等。接下来,我们就要揭开GTX1080的性能之谜,看看它与上代旗舰之间的较量。

令人欣喜的性能表现

虽然GTX1080的CUDA、光栅、纹理单元数量和显存位宽不如TITAN X和GTX980 Ti,虽然GTX1080的TDP功耗只比GTX980增加了15W,但这些都阻挡不住其出色的性能表现:在所有的测试项目中(表2),都将TITAN X和GTX980 Ti甩到了后面,甚至已经看不到GTX980的影子了。

作为Pascal GPU家族中首款上市的产品,GTX1080的性能表现只能用惊艳来形容(图15)。无论是看似较低的TDP、看着薄弱的8pin供电、少于GM200的CUDA单元数量,都没能成为它大幅领先于上代旗舰显卡的瓶颈所在,Pascal GP104的动力着实让人热血澎湃。

可惜,GTX1080公版价格高达5399元,在缺乏竞争对手的大环境下,短期内我们也无法指望它的价格能降下来。所以对绝大多数非发烧级游戏玩家而言,不妨将目光投向NVIDIA Pascal GPU家族中的“次子”,GTX1070身上。据悉,GTX1070的价格可能只有GTX1080的一半,但性能却足以媲美甚至超越GTX TITAN X!

感受到Pascal GPU的强悍,我们更期待它能尽快入驻笔记本身上,让移动显卡的性能可以更进一步,至少要让笔记本也能拥有足够驾驭未来VR体验的性能吧?

猜你喜欢

核芯纹理架构
基于FPGA的RNN硬件加速架构
功能架构在电子电气架构开发中的应用和实践
核芯互联发布高性能ADC模数转换器
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
LSN DCI EVPN VxLAN组网架构研究及实现
消除凹凸纹理有妙招!
一种基于FPGA+ARM架构的μPMU实现
以粗孔微球硅胶为核芯的交联酶聚体的制备