联想|去繁就简:如何看待这场正在兴起的云原生超级计算风暴

联想|去繁就简:如何看待这场正在兴起的云原生超级计算风暴

文章图片


算力竞争宛如一场无休止的军备竞赛 , 始于1993年 , 由国际TOP500组织发布的全球超级计算机500强是这场竞争的风向标 。 而在2022年公布的全球超级计算机500强榜单中 , 我们可以看到这样一组数字:有72%的TOP500超算中采用了NVIDIA GPU或网络 , 世界上最强的前十个超算系统中有5个采用了NVIDIA InfiniBand网络 , 另外在前100强中超过63%的超算采用了NVIDIA InfiniBand网络 。 在TOP500中有67%的超算采用了NVIDIA InfiniBand和以太网解决方案 。
InfiniBand为云原生超级计算提供了网络支持 , 而方兴未艾的DPU将和InfiniBand一起掀起一场云原生超级计算风暴 。 TOP500中的这些数字表明这场风暴已经来临 ,NVIDIA 网络亚太区高级总监宋庆春和NVIDIA 网络技术专家崔岩近日联手为我们解析了这场风暴 。
缘起
数据中心在当下正面临着一个严峻的挑战 , 这就是由于人工智能、科学计算等应用的发展 , 现代应用程序持续产生海量的数据 , 这对数据中心的性能和处理能力提出了巨大的挑战 , 但单个数据中心所能提供的算力却是有限的 。 并且 , 能够处理海量数据的大规模数据中心 , 按传统的方式只能供给少数人享用 。 供需的矛盾使得大规模数据中心走上了云化之路 , 但这又带来了另一个问题 。
云原生让很多应用程序都变成了以分布式微服务的方式给用户提供相应的服务 , 所以这些程序可能并不是运行在数据中心的某一台服务器上 , 而可能是运行在多台服务器上 , 这就让数据中心的服务器不可避免地面临多任务的并行 , 而当超级计算机被云化之后 , 还要面临更为复杂的多租户运行 。 AI、科学计算等项目需要强大的算力支撑 , 而在多任务、多租户的条件下 , 用户很难获得在独享所有计算和存储资源时的性能 。

【联想|去繁就简:如何看待这场正在兴起的云原生超级计算风暴】NVIDIA 网络亚太区高级总监 宋庆春
云原生超级计算针对的正是这个问题 , NVIDIA 网络亚太区高级总监宋庆春介绍说:“云原生超级计算的主要目标 , 就是要让数据中心支持多任务时 , 或者当业务上云时 , 用户同样可以获得如独享所有计算和存储资源时一样的性能 。 ”
云原生超级计算的风潮已经兴起 , 那么 , 做为后来者 , 要跟进这场云原生超级计算风潮 , 要从什么地方开始呢?
云原生超级计算风暴的本质
云原生超级计算将高性能计算的强大性能与云计算服务的安全性和易用性融于一体 。 在NVIDIA云原生超级计算平台中 , 包含了NVIDIA BlueField DPU、InfiniBand、NVIDIA DOCA和Magnum IO 。 其中最关键的是 NVIDIA BlueField DPU (数据处理器) 架构和高速、低延迟的 NVIDIA Quantum InfiniBand 网络 , 它们为裸机性能、用户管理和隔离、数据保护和按需高性能计算 (HPC)和 AI服务打下了基础 。
宋庆春解释了DPU的工作原理:“数据中心的典型架构是用CPU处理应用 , 由GPU对应用进行加速 , 通过网络搭建起一个大规模的数据中心 。 但这其中存在一个很大的问题 , 就是CPU在跑业务应用之外 , 还要去处理存储和安全等方面的工作 , 让CPU无法把全部性能用于业务应用 。 而在NVIDIA提出的云原生超级计算架构中 , DPU在帮CPU卸载基础设施操作、存储和通信框架 , 提供额外算力之外 , 还可用于对业务应用进行负载均衡 。 原来有的工作占用资源不合理 , 造成的短板效应影响了整个系统性能的发挥 , 现在可以通过DPU来优化和同步不同工作之间的资源分配 , 或者通过DPU来实现实现计算和通讯的异步操作及计算和存储的异步操作 。 这样一来 , 不同的工作之间就消除了干扰 , 系统的整体性能就上升了 。 ”