USB|AWS重塑未来:芯片进化加速底层技术创新( 三 )


机器学习包括两个主要方向:一个是训练 , 也就是创建模型并训练迭代;一个是推理 , 是使用训练后的模型来进行预测推理判断 。 针对这两个方面 , 亚马逊云科技推出了自研芯片的第三条产品线:机器学习芯片 , 包括用于训练的Trainium和用于推理的Inferentia 。

亚马逊云科技选择推出机器学习芯片 , 主要是为了满足人工智能技术飞速发展 , 对大规模训练和预测模型的需求 。 传统的机器学习芯片性能提升 , 已经无法跟上模型复杂度的提升幅度 , 只能通过分布式多处理器方式 , 将一个模型通过网络协同计算来处理 , 这对网络性能和存储性能提出来更高的要求 。

亚马逊云科技在2022年10月份推出了Trn1实例 , 最多可以搭载16颗Trainium1芯片 , 提供512GB的高带宽内存和800Gbps的网络带宽 , 其在训练具备万亿级参数的大模型GPT3时可以降低1/4的资源消耗 。 而基于自研推理芯片Inferentia1的Inf1实例 , 和GPU实例相比每次推理成本可以降低70% 。

在2022 re:Invent全球大会上推出了Inferentia2芯片和Inf2实例 。 Inf2实例专门针对大型transformer模型的分布式推理 , 和Inf1实例相比每瓦性能提升45% , 吞吐量提升4倍 , 延时只有1/10 , 支持GPT-3、Mask R-CNN、VIT等超大型复杂模型 。
三、芯片支撑实例性能全面提升
(一)C7gn实例
配备了新一代Nitro V5和Graviton 3E的Amazon EC2 C7gn实例 , 具有高网络带宽和数据包处理性能 , 而且功耗更低 。 与当前一代网络优化型实例相比 , C7gn实例可以提供200Gbps的网络带宽 , 提高50%的数据包处理性能 , 最适合网络密集型工作负载 , 如网络虚拟化设备(包括防火墙、虚拟路由器和负载均衡器等)和数据加密业务等 。

(二)Hpc7g实例
Amazon EC2 Hpc7g实例采用了Amazon Graviton3E芯片 , 与前一代Amazon EC2 C6gn实例相比 , 浮点性能提高了2倍;与前一代Amazon EC2 Hpc6a实例相比 , 性能提高了20% 。
(三)Inf2实例
Amazon EC2 Inf2实例面向大型Transformer模型分布式推理建立的实例 , 可以运行多达1750亿个参数的大型深度学习模型 。 与前一代的Inf1实例相比 , 可提供4倍的吞吐量 , 降低10倍延迟;与基于GPU的实例相比 , 每瓦性能提升高达45% 。 Inf2实例支持GPT-3、Mask-RCNN、ViT等大型复杂模型 , 且成本更优 , 延迟更低 。

写在最后
在数字化时代 , 云计算是社会数字化转型的核心基础设施 , 而硬件芯片则是云计算基础设施的基石 。 包括亚马逊、谷歌、微软、阿里、华为在内 , 目前主要的云服务商基本上都已经结合自身的业务特点 , 推出了定制化的自研芯片 。 当云计算的业务规模足以支撑芯片迭代后 , 自研芯片就成为了云计算持续创新的核心引擎 , 不断加速云计算服务的迭代 。 根据业务明确需求 , 根据需求定制开发 , 再用更聚焦的特性支撑业务 , 自研芯片正在逐步完善云计算基础设施的基石 。
更高的可控性、更高的安全性、更高的灵活性、更高的性价比 , 对于持续引领云计算产业发展的亚马逊云科技来说 , 经过十年努力构建的完整自研芯片体系 , 成为其加速云计算底层技术创新的重要动力来源 。