我们以 Tensorflow 作为主机网络的例子 , 因为它的 Cluster Spec 复杂性更具代表性 , 但 KubeDL 的内置工作负载(如 PyTorch , XGBoost 等)我们也都针对其框架的行为实现了对应主机网络模式的网络拓扑设置 。
总结 KubeDL 通过扩展现有的分布式训练作业标准容器网络通信模式 , 实现了基于原生主机网络的通信模式 , 在常见训练场景下获得网络性能增益的同时 , 也完美适应了 RDMA/SCC 等高性能网络架构的环境 , 助力分布式训练作业运行效率的大幅提升 , 这一通信模式已经在阿里巴巴内部的生产集群中广泛使用 , 比如达摩院在云栖大会最新发布的 AliceMind 超大模型就是通过 KubeDL 主机网络+RDMA 在高性能计算集群中训练的产物 。 我们期待更多开发者参与 KubeDL 社区的建设 , 一起优化深度学习工作负载的调度及运行时效率!
作者:陈裘凯( 求索)
本文为阿里云原创内容 , 未经允许不得转载 。
- 默多克|IEEE Spectrum调查:AI 的 6 种最坏情况
- 惠普|惠普Spectre x360 14测评:搭载3: 2长宽比屏幕
- 联发科天玑 9000 AndSPEC06 跑分曝光:性能接近骁龙 8 Gen1
- 分布式系统|IBM Spectrum LSF: 分布式系统的“瑞士军刀”
- 惠普|轻薄本进化有点快 这款惠普 Spectre x360值得入
- spectrum|家用计算机先驱逝世:Linux之父曾受他启发,马斯克悼念
- gpu|刷新SPEC测试纪录 浪潮NF5280M6让每一次计算都拥有冠军性能
- 虚拟机|浪潮云海InCloud Sphere如何霸榜SPECvirt
- specvirt|4679分 全球第一 浪潮云海虚拟化InCloud Sphere破SPECvirt世界纪录
- 世界纪录|浪潮云海虚拟化InCloud Sphere破SPECvirt世界纪录