英伟达新核弹GPU:4nm制程800亿晶体管,新Hopper架构太炸了
丰色萧箫发自凹非寺
量子位|公众号QbitAI
他来了他来了 , 老黄带着英伟达的最新一代GPU来了 。
文章图片
之前大家猜的5nm错了 , 一手大惊喜 , 老黄直接上了台积电4nm工艺 。
新卡取名H100 , 采用全新Hopper架构 , 直接集成了800亿个晶体管 , 比上一代A100足足多了260亿个 。
文章图片
【英伟达新核弹GPU:4nm制程800亿晶体管,新Hopper架构太炸了】内核数量则飙到了前所未有的16896个 , 达到上一代A100卡的2.5倍 。
浮点计算和张量核心运算能力也随之翻了至少3倍 , 比如FP32就达到了达到60万亿次/秒 。
特别注意的是 , H100面向AI计算 , 针对Transformer搭载了优化引擎 , 让大模型训练速度直接×6 。
(可算知道5300亿参数的威震天-图灵背后的秘诀了 。 )
作为一款性能爆炸的全新GPU , 不出意外 , H100将与前辈V100、A100一样成为AI从业者心心念念的大宝贝 。
文章图片
不过不得不提 , 它的功耗也爆炸了 , 达到了史无前例的700W , 重回核弹级别 。
关于自研的GraceCPU , 这次大会也公布了更多细节 。
没想到 , 老黄从库克那里学来一手1+1=2 , 两块CPU“粘”在一起组成了CPU超级芯片——GraceCPUSuperchip 。
GraceCPU采用最新Armv9架构 , 两块总共拥有144个核心 , 拥有1TB/s的内存带宽 , 比苹果最新M1Ultra的800GB/s还高出一截 。
文章图片
基于全新CPU、GPU基础硬件 , 这次发布会也带来了下一代企业级AI基础设施DXGH100、全球最快AI超算Eos 。
当然 , 英伟达作为真正的元宇宙先驱 , 也少不了Omniverse上的新进展 。
下面具体来看看 。
首款Hopper架构GPU , 性能暴增
作为上一代GPU架构A100(安培架构)的继承者 , 搭载了全新Hopper架构的H100有多突飞猛进?
文章图片
话不多说 , 先上参数:
老黄可谓下血本 , 先是直接采用了台积电4nm工艺 , 晶体管一口气集成了800亿个 。
要知道 , 上一代A100还只是7nm架构 , 这次发布会出来前 , 外界不少声音猜测老黄会用5nm制程 , 结果一发布就给大家来了个大惊喜 。
最恐怖的是CUDA核心直接飙升到了16896个 , 直接达到了A100的近2.5倍 。 (要知道从V100到A100的时候 , 核心也不过增加那么一丝丝)
这次可不能感慨老黄刀法精准了 。
再看浮点运算和INT8/FP16/TF32/FP64的张量运算 , 性能基本全部提升3倍不止 , 相比来看 , 前两代的架构升级也显得小打小闹 。
这也使得H100的热功耗(TDP)直接达到了前所未有的700w , 英伟达“核弹工厂”名副其实(手动狗头) 。
文章图片
话又说回来 , 这次H100也是首款支持PCle5.0和HBM3的GPU , 数据处理速度进一步飞升——内存带宽达到了3TB/s 。
这是什么概念?
老黄在发布会上神秘一笑:只需要20个H100在手 , 全球互联网流量我有 。
整体参数细节究竟如何 , 与前代A100和V100对比一下就知道了:
文章图片
△图源@anandtech
值得一提的是 , Hopper架构的新GPU和英伟达CPUGrace名字组在一起 , 就成了著名女性计算机科学家GraceHopper的名字 , 这也被英伟达用于命名他们的超级芯片 。
- 显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
- 英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
- 墨芯发布32倍稀疏AI计算卡,性能对标英伟达 | 甲子首发
- GPU|深藏不露,该出手就“出售”,英伟达推出7款全新RTX GPU
- 巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量
- AMD|英伟达下一代显卡岌岌可危!暴露功耗失控,性能不如AMD
- 1.8万核心核弹!NVIDIA第一款5nm GPU H100真身首曝
- 英伟达|等等党们终于可以下手了 英伟达GPU成本价将下调8~12%
- NVIDIA|1.8万核心核弹!NVIDIA第一款5nm GPU H100真身首曝
- 英伟达|公司竞相在元宇宙中构建“数字孪生”