光刻机|GeForce RTX 3090 Ti天梯榜首发评测:撕碎一切的终极性能神话( 三 )


但是GeForce RTX 3090 Ti与RTX A6000各有长处 , RTX A6000的典型特点是可以配备最高达48GB的显存容量 , 但是GeForce RTX 3090 Ti的特点是配备了比RTX A6000更快的显存——GDDR6X 。 相对来说 , 设计与可视化生产流程更加偏重于需求大容量 , 而游戏需要低延迟 , 所以对显存速度也有要求 , 越快越好 , 当然 , 游戏的分辨率以及贴图质量也影响着显存容量的需求 。
所以这里我们可以看到一个GeForce RTX 3090 Ti一个无出其右的点——那就是它的显存特点综合了GDDR6X的“快”、24GB的“大”容量以及支持ECC纠错码的“稳” , 可以说是一个没有短板的多面手 。
驱动的控制面板中有显存的ECC开关 , 默认是关闭的 , 对于创作软件来说开ECC会增加稳定性 , 而对于游戏用户来说 , 就不用打开了 , 由于多了一步纠错码计算 , 会稍微影响性能 , 默认不动就好 。
频率提升巨大上面说显存支持ECC纠错码是笔者个人认为GeForce RTX 3090 Ti相比GeForce RTX 3090区别最大的两个地方之一 , 而第二个地方并不是更多的流处理器 , 而是频率 。
对于GeForce RTX 3090的GA102-300和GeForce RTX 3090 Ti的GA102-350这样的大核心来说 , 同时拥有高频是比较难的 , 因为即使可以高频 , 它也会面临功耗和发热的难题 , 毕竟随着频率的提升 , 功耗与发热是以超越线性的比例提升的 , 这也是为什么我们看到每一代的旗舰卡往往频率并不是同架构中最高的 。
而这次的GeForce RTX 3090 Ti确实令人惊讶 , 它的Boost频率达到了1860MHz , 相比GeForce RTX 3090的1695MHz提高了大约10% , 相比较而言 , 流处理器单元只不过提高了不到3%而已 。
显存带宽终于越过1 TB/s大关
在GeForce RTX 3090身上 , 显存带宽已经来到了936 GB/s , 距离1 TB/s大关只差临门一脚了 , 这最后一脚由谁来实现呢?当然是NVIDIA自己 , 于是这一次于猛兽尽头更进一步的GeForce RTX 3090 Ti终于实现了超越1 TB/s的显存带宽 , 达到了1008 GB/s , 这是GeForce显卡历史上第一次跨过1 TB/s的带宽 。
而且除了这个第一 , GeForce RTX 3090 Ti也是第一款采用新型PCIe 5.0外接供电接口的显卡 。
同样的 , 基于新一代Ampere架构的GeForce RTX 3090 Ti显卡也具有这一代Ampere显卡的一些通用特性 , 并且相比上一代Turing架构有很大的进步 。
NVIDIA Ampere架构简介GeForce RTX 30系显卡上的SM单元相比GeForce RTX 20系的 , 最大变化是加倍了针对传统计算的FP32单元、引入第二代RT Core以及第三代Tensor Core 。

大家都知道在Turing架构中 , NVIDIA整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算 。 不过现代游戏应用中最为常见的还是FP32 , 因此为了提高计算效率NVIDIA在NVIDIA Ampere 架构上引入了可同时支持INT32或FP32两种数据类型的新ALU 。 也就是说 , 现在有两条不同的数据路径 , 一条能够同时处理整数或者单精度浮点 , 另一条则单纯处理处理单精度浮点计算 。

负责进行实时光线追踪运算的专用硬件单元RT Core在NVIDIA Ampere 架构上也更新到了第二代 , 最主要是增加了动态模糊的加速运算支持 。 NVIDIA在其中新加入的插值算法可以在保证动态模糊精确性的同时提高了实时光线追踪效率 , 官方表示最高可达8倍于上代的速度 。 另外在基础的BVH计算上 , 第二代RT Core也可以比第一代快2倍 。

Tensor Core这个负责运行AI计算的硬件单元在NVIDIA Ampere 架构上也升级到了第三代 。 其实之前发布的A100计算卡上已经用上了新的第三代Tensor Core , 它能够提供比第二代Tensor Core高出4倍的效能 , 不过游戏卡上面的Tensor Core进行了一定的精简 , 其FP16 FMA计算的吞吐量只有GA100核心中的Tensor Core的一半 。