芯片|从re: Invent 2022看云计算趋势:以自研芯片为代表的底层创新( 二 )


通过专用硬件卸载网络和存储等工作负载 , Nitro大大减少了开发Amazon EC2实例的工作量 , 实现了灵活设计并快速交付 EC2实例类型 。

第二 , 更高的安全性
【芯片|从re: Invent 2022看云计算趋势:以自研芯片为代表的底层创新】Nitro打造了硬件级别的安全机制 。 以最新发布的Nitro V5为例 , 除了拥有自身安全芯片和专用的安全芯片TPM , 硬件环境Enclaves还可以实现网络和存储之间的隔离 。
第三 , 更高的云服务性价比
底层芯片性能升级带给云计算客户最大的收益就是提升了云服务的性价比 。 相比前代 , Nitro V5数据包转发能力提升了60% , 延迟减少了30% , 每瓦特的性能提升了40% 。
采用 Amazon Nitro v5的Amazon EC2 C7gn 实例 , 与当前一代网络优化型实例相比 , 为每个 CPU 提供了多达2倍的网络带宽 , 同时将每秒数据包转发性能提升50% , 为网络密集型工作负载提供了超高性能和性价比 。

Graviton芯片 , 在高性能计算领域不断突破Graviton系列芯片自2018年发布以来 , 经历了三代迭代 。 最新发布的Graviton3E在高性能计算领域进一步突破 。 与现有的Graviton3相比 , Graviton3E提供高达2倍的向量计算性能 , 可以广泛应用于向量计算、浮点计算、AI/ML、HPC等应用场景 。
采用Graviton3E 芯片的Amazon EC2 Hpc7g 实例 , 可以为高性能计算工作负载提供超高性价比 。 与当前一代C6gn 实例相比 , Hpc7g 实例浮点性能提高了2倍;与当前一代Hpc6a 实例相比 , 性能提高了20% 。

Graviton不只是一个底层芯片 , 亚马逊云科技还在不断完善Graviton生态 , 打造了众多基于Graviton的托管云服务 , 包括Amazon EMR、Amazon Aurora、Amazon DocumentDB等等 。
自Graviton系列芯片推出以来 , 已经有大量客户将工作负载从传统的x86架构迁移到Graviton 。 亚马逊云科技支持客户在一两周甚至几天时间内完成从x86到Graviton的切换 , 在无需改动上层程序的情况下 , 轻松实现将云服务的性价比提升40% 。
Trainium和Inferentia , 机器学习训练与推理专用芯片过去数年 , 机器学习芯片每几年就会有一倍或数倍的提升 , 这个速度相比于通用计算硬件来说已经很快 , 但仍然不足以应对AI训练模型复杂度的挑战 。
为此 , 亚马逊云科技提出了分布式训练技术 , 把一个模型通过多个节点 , 通过一个网络协同计算、协同训练的方式来解决 。 这也是亚马逊云科技在机器学习方面的技术路线 , 不仅仅是单个AI芯片性能的提升 , 还需要算力与存储、网络性能的整体突破 。
采用推理芯片 Inferentia2的Amazon EC2 Inf2 实例 , 是专门为运行多达1750亿个参数的大型深度学习模型而构建的 , 与当前一代 Amazon EC2 Inf1 实例相比 , 可提供高达4倍的吞吐量 , 降低多达10倍的延迟 , 且成本更优 , 延迟更低 。
Trn1实例可以为机器学习训练提供高性价比 , 以具备万亿级参数的大模型GPT3两周的训练量为例 , 如果用基于GPU服务器的P3dn实例需要600个实例 , 用最新一代GPU实例P4d需要128个实例 , 但Trn1只需要用96个 。
写在最后从亚马逊云科技自研芯片的最新进展可以看出 , 经过十几年的发展 , 云计算已经走到了硬件创新成为行业主要驱动力之一的阶段 。 那些率先体验到专用芯片优势的企业将带动更多企业加速尝试 , 扩大规模化效应 。
“成本节约和性能优势将带来更多的实验、创新以及采用 , 并最终为其他特定工作负载提供更多的定制芯片 , 这是一个良性循环 。 ”亚马逊 CTO Werner Vogels表示 。
END
本文为「智能进化论」原创作品 。