GPU|剑指8K游戏创作,消费级GPU新天花板亮相!iGame GeForce RTX 3090 Ti Neptune OC全面测试( 二 )



完整版GA102 , RTX 3090 Ti成消费级GPU新天花板在欣赏iGame GeForce RTX 3090 Ti Neptune OC之前 , 先来看看NVIDIA此次发布的RTX 3090 Ti的参数规格情况 。 当然 , 作为RTX 30系一脉继承而来的NVIDIA Ampere核心架构自然是必不可少 , 而且这次RTX 3090 Ti更是以完整版GA102的姿态强势降临消费级市场 。

▲完整的GA102拥有84组SM , 每组SM包含128个CUDA核心(其中64个为FP32/INT32混合核心)、4个第三代Tensor Core张量核心、一个第二代RT Core光追核心和4个纹理单元 , 共有10752个CUDA核心 。
当然 , 关于NVIDIA Ampere核心架构的技术细节 , 相信经过了从RTX 3080到RTX 3050的市场价沉淀之后 , 相信消费者对其应该已经非常熟悉 , 我们在这里只简单总结NVIDIA Ampere核心架构的特点与技术核心 , 而会先将重点放在RTX 3090 Ti这颗GPU本身上 。
全新的SM模块 , CUDA翻倍
SM(Streaming Multi-processer , 流式多处理器模块)模块一直是NVIDIA GPU的计算核心 , 在新的GA102核心的安培架构上 , 由于计算任务的变化 , GA102的SM模块也有了巨大的变化 。 和RTX 3090、RTX 3080等完全一致 , RTX 3090 Ti的SM的计算单元内部 , 依旧配置了1个warp调度单元和1个派遣单元、16384×32bit寄存器和后端LD/ST、SFU单元 , 但是在计算的部分却包含了1组16个可自由执行FP32和INT32计算的双功能计算单元(ALU)——它们既可以完成FP32计算 , 又可以完成INT32计算 , 另外还包含了1组16个FP32计算单元和1个新的第三代张量核心 。 这样 , 同为4个SM计算单元组成的SM模块 , GA10X安培架构拥有等效128个CUDA核心(极致情况下) , 相当于图灵核心的两倍 。 我们知道 , 图形和计算操作和算法、现代着色器工作负载通常混合使用FP32算术指令 。 FP32加速也有助于光线追踪降噪着色器 。 光线追踪渲染工作负载越大 , 相对于上一代产品的性能提升越大 。
第二代RT Core光追核心
图灵架构为游戏引入实时光线追踪 , 轰动一时 , 为游戏带来了逼真的光照、图像质量、游戏玩法和沉浸感、阴影和特效 , 并带来超出想象的游戏画质表现 。 Ampere架构的第二代RT Core的性能提升一倍 , 带来2倍于Turing第一代RT Core的吞吐量 , 同时支持光线追踪和着色 , 使光线追踪性能达到全新高度 。 换而言之 , 光线追踪使用率越高 , 速度提升越大!同时第二代RT Core还引入了动态模糊等重要特性 。 NVIDIA Ampere架构的RT Core将光线交汇处理速度提高一倍 , 同时支持光线追踪与着色 。 光线三角形吞吐量增加一倍 , Ampere架构的RT Core可达39.7 RT TFLOPS , Turing架构为23.8 RT TFLOPS , 提升巨大 。
第三代Tensor Core张量核心
面向图形的安培架构也加入了第三代张量计算核心 , 专门为稀疏矩阵优化 。 RTX 3090 Ti所配置的Tensor Core可加速用于深度神经网络处理功能的线性代数 , 这是现代AI的基础 。 全新第三代Tensor Core加速AI功能 , 例如用于AI超分辨率的NVIDIA DLSS和用于AI增强的声画处理技术NVIDIA Broadcast应用 。
从本质上讲 , Tensor Core让DLSS能够加快游戏速度 , 同时带来高画质图像 , 甚至更细致的图像 。 借助第三代Tensor Cores的性能 , NVIDIA Ampere架构GPU上的DLSS性能得到进一步增强 。 当前的NVIDIA DLSS已经进化到了2.1版本 , 支持最高9X的游戏帧速率加速 , 这对于防止在高分辨率下开启光追效果后的游戏帧率下跌有着非常重要的意义 。
支持HDMI 2.1与AV1解码
支持HDMI 2.1将总带宽从18Gigabits/秒提高到48Gigabits/秒 , 并增加对高动态范围(HDR)的支持 , 支持更高对比度的明亮图像和更鲜艳的色彩 , 以及更好的阴影和高光 。 而AV1解码与现有的H.264、HEVC和VP9等编解码器相比 , 它能提供更好的压缩和质量 , 比H.264节省50~55%的容量;RTX IO , 在DirectStorage加持下 , 下一代游戏将能够在降低CPU负载的同时 , 充分利用RTX IO硬件 , 缩短加载时间 , 打造更宽阔的开放世界 。