首页 > 显卡 >

volta显卡从GTX过渡到RTX NVIDIA GPU架构的历史

电脑杂谈　发布时间：2020-10-24 00:02:19　来源：网络整理

volta显卡_volta显卡_英伟达volta显卡

GTX 680图形卡使用开普勒家族的GK104内核，但是GK104反映的架构设计思想已反映在GF100至GF104、GF114架构中，这是为了减少SM单元的数量（ NVIDA代的正式名称是SMX单元），以增加每个SM单元中CUDA内核的数量。在GF100时代，每个SM单元仍然具有32个CUDA内核，而GF104 / GF114每个SM单元具有48个CUDA内核。在开普勒时代，每个SM单元中的CUDA核心数量一次增加到192个，纹理单元也增加到16个组，前端渲染单元也增加到4个组。同时，SFU和LD / ST单元也在增加，增加到32组，纹理单元再次翻倍，8套SMX单元总计1536个流处理器，128个纹理单元和32个ROP单元。

从GTX到RTX NVIDIA GPU架构的变迁史

GF110 SM单元（左），GF114 SM单元（中）和GK104 SMX单元（右）的比较

除了SM单元的重大更改外，NVIDIA还对Kepler架构进行了重要更改。从开普勒开始，NVIDIA过去一直坚持的Core：Shader = 1：2分割的重组（这一代称为SMM部门）。从Kpler时代的每个SM单元192个CUDA内核到每组128个，但是每个SMM单元将具有更多的逻辑控制电路以促进精确控制，这使得GM107内核的每个内核性能提高了35％，并且每单位功耗瓦特增加了一倍。

从GTX到RTX NVIDIA GPU架构的变迁史

这种新的SM架构可以大大提高能源效率，并且在着色器有限的工作场所中，每个CUDA内核的性能可以提高35％。实现这些进步需要对体系结构进行许多重大更改。 NVIDIA重写了SM调度程序的体系结构和算法，以使其更智能，避免不必要的暂停并进一步降低了调度每条指令所需的能耗。

当然，SMM单元也有许多改进。例如，L2缓存容量从以前的256KB大大增加到了2MB，H.264和NVENC编码/解码功能也得到了改善，指令周期性能也得到了改善。

从GTX到RTX NVIDIA GPU架构的变迁史

volta显卡_英伟达volta显卡_volta显卡

反映在图形卡上，GTX 750 Ti和GTX 750图形卡具有出色的能效比。这款游戏的功耗比同期的HD 777 0、GTX 660甚至GTX 650Ti低很多，而且温度和噪音也非常低。低，这款显卡可以说是近年来的经典。

从GTX到RTX NVIDIA GPU架构的变迁史

继GM107内核的麦克斯韦一代架构之后，NVIDIA在2014年9月推出了GTX 980/970图形卡。它们使用GM204内核，也称为麦克斯韦2.0架构。整个GM204核心可分为4组GPC单元，每组GPC包含4个SMM单元，每个SMM单元包含128个CUDA核心，8个纹理单元和一个多边形引擎单元（PolyMorph Engine 3.0），A总共2048个CUDA核心和128个纹理单元。

从GTX到RTX NVIDIA GPU架构的变迁史

在命名台式机显卡方面，NVIDIA这次跳过了GTX 800系列（OEM和移动GPU上有GTX 800系列），而直接转到了GTX 900系列。 GTX 980使用GM204-400内核。 4GB GDDR5显存，但其性能已超过具有GK110核心的GTX 780 Ti显卡，TDP从250W降至165W。整个机器的功耗测试还证实了功耗的显着降低。可以说，能效优势非常明显，无论是用于AMD的显卡还是其上一代显卡，能效简直就是粉碎性的存在。

从GTX到RTX NVIDIA GPU架构的变迁史

在GM107、GM204、GM206内核之后，NVIDIA在Titan X图形卡上使用了GM200内核，它是GM200-400内核的完整版本。该卡已于2015年3月18日发布。使用的GM200内核有6组GPC单元，24组SMM单元，每组有128个CUDA内核，总共3072个CUDA内核。内存控制器也从之前的4组64位GDDR5更改为6组，位宽为384bit。

从GTX到RTX NVIDIA GPU架构的变迁史

但是，在6月1日，NVIDIA再次使用GM200内核发布了GTX 980 Ti图形卡，但是GM200-310内核的cast割版的CUDA内核数为2816。GTX 980 Ti的详细规格显卡如下：

从GTX到RTX NVIDIA GPU架构的变迁史

2016 NVIDIA Pascal架构：16纳米制程奖励，计算游戏核心再次分离

时间很快到了2016年。在4月初的GTC会议上，NVIDIA使用GP100内核发布了Tesla Pass P100加速卡，该内核是Pascal架构的核心。该处理技术已升级到16nm，并且此处理是高性能技术，因此Pascal图形卡上的GPU频率已大大提高，开始时达到1.6GHz，并且加速频率通常达到2GHz

从GTX到RTX NVIDIA GPU架构的变迁史

在Pascal显卡上，最大的特点是先进技术带来的工艺优势。但是，此时，GPU架构再次将游戏和计算分开。 GP10 0、GP102有两个主要内核，并且架构和视频存储器的使用都不同。其中，GP100是纯计算核心，不仅具有3584个单精度CUDA核心，还具有1,792个双精度核心，返回比例为1：2。

从GTX到RTX NVIDIA GPU架构的变迁史

此外，用于计算的GP100内核使用HBM 2视频存储器，其等效位宽为4096bit，带宽为720GB / s。尽管无法实现HBM2视频存储器的1TB / s全速带宽，但该带宽已经高于当时的GDDR5。显存已大大增加，但是HBM2显存太昂贵了，更不用说2016年了，直到2019年，它还远未普及。

2016年7月，NVIDIA推出了Titan X Pascal显卡。它还使用16nm Pascal架构，但核心是GP102。规格齐全的GP102内核确实可以称为目前最强大的微体系结构：与Tesla P10 HBM 2内存和NVLink的妥协相比，拥有120亿个晶体管，3584 A流处理器，12GB GDDR5X视频内存，384位宽，带宽为480GB / s，电源为8 + 6Pin，显示接口提供显示端口[k28]4、HDMI2.0b和双链路DVI，最大支持7680 * 4320 @ 60Hz输出，性能高达11TFLOPS。

英伟达volta显卡_volta显卡_volta显卡

从GTX到RTX NVIDIA GPU架构的变迁史

除了Titan X Pascal，台式机GTX 1080 Ti显卡也是GP102核心。除了存储器容量和位宽的变化之外，GP102内核的SM单元架构也不同于GP100内核。后者的目标是追求更高的性能。在计算性能方面，每个SM单元中的CUDA内核数量减少到64个，但是集成了更多的SM单元，多达56个组。尽管GP102内核共有3584个CUDA内核，但只有28个组。该数字已返回到麦克斯韦的128，因此这一代游戏和计算又被分开了。本质上，GP100是真正的Pascal内核，GP102内核是16nm增强型Maxwell架构。

从GTX到RTX NVIDIA GPU架构的变迁史