亚马逊|云计算风向标:自研芯片重构云上算力

亚马逊|云计算风向标:自研芯片重构云上算力

文章图片

亚马逊|云计算风向标:自研芯片重构云上算力

文章图片

亚马逊|云计算风向标:自研芯片重构云上算力

文章图片


预言未来最好的方法 , 就是去实现它 。
2017 年 , 网易游戏《荒野行动》出海日本 。 2018 年 , 这款游戏在日本手游年度收入榜排名第四 , 为网易带来约 25 亿元收入 。
这个游戏出海成功案例的背后 , 是稳定、响应快、能快速扩展的计算基础设施 。 在国内 , 网易往往自己建设计算基础设施;而在海外 , 则采用混合云 。 通过亚马逊云科技提供的基础服务 , 网易搭建了一个可以快速扩展的云基础架构 , 满足了海外游戏业务快速增长的要求 。
同年 , 亚马逊云科技推出第三代自研的 Nitro 系统 , 可支持最多 8 个弹性网卡 , 将网络负载均衡分布到 8 个 CPU 内核上 , 计算资源的总利用率提升了一倍 。 使《荒野行动》云计算成本降低了四成;而通过使用 Amazon EC2 A1 实例 , 音频语音服务和网络转发服务的云计算成本节省了一半 。 降低成本 , 提升效率 , 这是云计算的意义所在 , 而这还只是开始 。


01 再次突破云技术边界


在 2018 年 , 亚马逊云科技发布了 Arm 架构的 Amazon Graviton 处理器 。 这是亚马逊云科技自研、为云计算而设计开发的芯片 。 2020 年 Graviton2 发布 , 性能比第一代提升了 7 倍;2021 年推出了第三代 , 性能比二代提升四分之一 , 浮点计算性能提高了两倍 。
Epic Games 的高级工程总监 Mark Imbriaco 说:「基于 Amazon Graviton3 的 EC2 C7g 实例适用于最苛刻的延迟敏感型工作负载 , 同时能提供显著的性价比优势 , 并扩展了《堡垒之夜》内的可能性和任何虚幻引擎营造的体验 。 」F1 赛车管理公司发现 , C7g 实例比 Graviton2 C6gn 实例快 40%;Twitter 认为基于 C7g 实例的性能比基于 Graviton2 的 C6g 实例高出 20-80% , 同时还将尾延迟减少了 35% 。
今年 , 正在拉斯维加斯召开的 re:Invent 2022 大会上 , 亚马逊云科技发布了 Graviton3E 。 这是针对高性能计算优化的版本 , 面向机器学习浮点和矢量数学计算做了优化 , 在 HPL 基线测试中 , 工作负载的性能提高 35% 。 基于 Graviton3E 芯片 , 亚马逊云科技推出了面向高性能计算的 HPC7g , 适用于天气预报、生命科学、工程计算等高性能计算场景 , 最多可以提供 64 个 vCPU 和 128GiB 内存 。


Graviton 并不是亚马逊云科技设计的第一块芯片 。 2013 年 , 亚马逊云科技就推出了首颗自研的 Nitro 芯片 , 意在通过定制硬件 , 降低虚拟化的消耗 , 将更多服务器资源提供给用户 。 这是长期探索后的必然之举 。 2006 年 , 亚马逊开始尝试提供云服务 , 起初使用基于 Xen 架构的虚拟化系统 , 但很快发现这种方式大概只能将七成服务器资源提供给用户 , 而且无法满足用户的稳定性和性能要求 。
Nitro 系统的引入 , 提升了计算实例的安全、性能以及创新速度 。 亚马逊云科技在 2017 年推出了第三代 Nitro 芯片 , 2020 年开始使用第四代 Nitro 芯片作为所有计算实例的基础 。 经过迭代 , Nitro 系统提供输入/输出资源和管理功能 , 包括网络、块存储、安全与虚拟机管理等 。
在今年的 re:Invent 2022 大会上 , 亚马逊云科技高级副总裁 Peter DeSantis 发布了第五代 Nitro 系统 , 相比于前一代产品 , 晶体管数量比前一代增加了一倍 , 提供更高的计算性能 , 同时 DRAM 内存性能提升了一半 , PCle 带宽提升两倍 , 降低约三成延迟 , 每瓦性能提高四成 , 网络转发性能提高六成 。 配备 Graviton3E 和新一代 Amazon Nitro v5 的 C7gn 实例 , 比 C7g 网络带宽提升了一倍 , 每秒数据包转发性能提升 50% , 为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比 。