显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量( 二 )


显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

△图源@anandtech
值得一提的是,Hopper架构的新GPU和英伟达CPU Grace名字组在一起,就成了著名女性计算机科学家Grace Hopper的名字,这也被英伟达用于命名他们的超级芯片 。
Grace Hopper发明了世界上第一个编译器和COBOL语言,有“计算机软件工程第一夫人”之称 。
训练3950亿参数大模型仅1天
当然,Hopper的新特性远不止体现在参数上 。
这次,老黄特意在发布会上着重提到了Hopper首次配备的Transformer引擎 。
嗯,专为Transformer打造,让这类模型在训练时保持精度不变、性能提升6倍,意味着训练时间从几周缩短至几天 。
怎么表现?
现在,无论是训练1750亿参数的GPT-3 (19小时),还是3950亿参数的Transformer大模型(21小时),H100都能将训练时间从一周缩短到1天之内,速度提升高达9倍 。
推理性能也是大幅提升,像英伟达推出的5300亿 Megatron模型,在H100上推理时的吞吐量比A100直接高出30倍,响应延迟降低到1秒,可以说是完美hold住了 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

不得不说,英伟达这波确实突入了Transformer阵营 。
在此之前,英伟达一系列GPU优化设计基本都是针对卷积架构进行的,接近要把“I love 卷积”这几个字印在脑门上 。
要怪只怪Transformer最近实在太受欢迎 。(手动狗头)
当然,H100的亮点不止如此,伴随着它以及英伟达一系列芯片,随后都会引入NVIDIA NVLink第四代互连技术 。
也就是说,芯片堆堆乐的效率更高了,I/O带宽更是扩展至900GB/s 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

这次,老黄还着重提到了GPU的安全性,包括实例之间具有隔离保护、新GPU具有机密计算功能等 。
当然,数学计算能力也提升了 。
这次H100上新的DPX指令可以加速动态规划,在运算路径优化和基因组学在内的一系列动态规划算法时速度提升了7倍 。
据老黄介绍,H100会在今年第三季度开始供货,网友调侃“估计也便宜不了” 。
目前,H100有两个版本可选:
一个就是功率高达700W的SXM,用于高性能服务器;另一个是适用于更主流的服务器PCIe,功耗也比上一代A100的300W多了50W 。
4608块H100,打造全球最快AI超算
H100都发布了,老黄自然不会放过任何一个搭建超级计算机的机会 。
基于H100推出的最新DGX H100计算系统,与上一代“烤箱”一样,同样也是配备8块GPU 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

不同的是,DGX H100系统在FP8精度下达到了32 Petaflop的AI性能,比上一代DGX A100系统整整高了6倍 。
各GPU之间的连接速度也变得更快,900GB/s的速度接近上一代的1.5倍 。
最关键的是,这次英伟达还在DGX H100基础上,搭建了一台Eos超级计算机,一举成为AI超算界的性能TOP 1——
光就18.4 Exaflops的AI计算性能,就比日本的“富岳”(Fugaku)超级计算机快了4倍 。
这台超算配备了576个DGX H100系统,直接用了4608块H100 。
即使是传统科学计算,算力也能达到275 Petaflops (富岳是442 Petaflops),跻身前5的超算是没什么问题 。