NVIDIA霸榜权威AI基准测试,3年半内将性能提高23倍

NVIDIA霸榜权威AI基准测试,3年半内将性能提高23倍
文章图片
智东西(公众号:zhidxcom)
作者|ZeR0
编辑|漠影
智东西6月30日消息 , 今日 , 国际AI行业基准测试平台MLPerf公布了最新的基准测试结果 。
其中 , NVIDIA及其合作伙伴占了所有参赛生态伙伴的90% , 并且继续提供了最佳的整体AI训练性能和提交了最多的测试项 。
共有16家NVIDIA合作伙伴使用NVIDIAAI平台提交了本轮结果 , 包括华硕、百度、中国科学院自动化研究所、戴尔科技、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅和超微 。
NVIDIAAI平台覆盖了MLPerf训练2.0版本中的所有8项基准测试 , 相比之下 , 其他加速器均没有运行过所有基准测试 。
一、参与全部8项基准测试 , 6项测试速度最快这已经是NVIDIA连续第四次提交MLPerf训练结果了 。 从各个提交者平台在每个网络的“最快训练时间”对比 , 可以看到基于NVIDIAAmpere架构的NVIDIAA100TensorCoreGPU是唯一一个参与了所有8项基准测试的AI加速器 。
NVIDIA霸榜权威AI基准测试,3年半内将性能提高23倍
文章图片
Selene是NVIDIA内部的一台AI超级计算机 , 基于模块化的NVIDIADGXSuperPOD , 并由NVIDIAA100GPU、软件堆栈和NVIDIAInfiniBand网络驱动 , 在8项大规模工作负载测试的4项中获得“最快训练时间” 。
NVIDIA霸榜权威AI基准测试,3年半内将性能提高23倍
文章图片
为了计算单芯片性能 , 该图表将每份提交结果归一化到每个提交者最常见的尺度 , 检测分数归一化到速度最快的竞争者 。 而NVIDIAA100在8项测试中的6项测试中呈现了最快的速度 , 在单芯片性能方面领导地位稳固 。
二、3年半内将性能提高23倍自首次基于A100提交MLPerf基准测试以来的两年时间里 , 在NVIDIA软件堆栈持续优化的推动下 , NVIDIA平台的性能已提高了6倍 。
自MLPerf问世以来 , NVIDIAAI平台在3年半时间里 , 在基准测试中实现了23倍的性能提升 。
NVIDIA霸榜权威AI基准测试,3年半内将性能提高23倍】此外 , NVIDIA在今年3月发布的NVIDIAHopper架构 , 有望在后续的MLPerf基准测评中展现出更强的性能表现 。
NVIDIA的AI性能提升 , 归功于跨GPU、软件和大规模改进的全栈式创新 。
在软件创新方面 , NVIDIA在提交结果中大量使用的CUDAGraphs , 能最大限度减少跨多个加速器上运行作业的启动开销 。 NVIDIA不同库的内核优化 , 解锁了额外的加速 。
NVIDIA还实现了跨硬件、软件和网络的全栈改进 , 如NVIDIAMagnumIO和SHARP , 将部分AI功能卸载到网络中 , 以获得更好的性能 。
NVIDIA所使用的所有软件 , 均可从MLPerf资源库中获取 。 NVIDIA不断地将这些优化集成到NVIDIA的GPU应用软件中心——NGC上提供的容器中 , 并通过NVIDIAAIEnterprise提供完全由NVIDIA支持 , 并经过优化的软件 。
NVIDIA平台适用于任何规模的模型和框架 , 并具有可替代性以处理AI工作负载的每个部分 , 能够在所有云端和主要的服务器制造商上使用 。
三、提升单位成本的整体AI生产力对于客户而言 , 数据科学和工程团队是最宝贵的资源 , 其生产力决定了AI基础设施的投资回报 。
数据科学团队的成本通常在部署AI的总成本中占比很重 , 而部署AI基础设施本身的成本相对较少 , 这是客户必须考虑的开销 。
AI研究人员的生产力取决于能否快速测试新的想法 , 而要能够训练不同类型的模型 , 以及进行大规模训练 , 对通用性和性能有很高要求 。 由此来看 , 企业往往非常关注单位成本的整体生产力 。