腾讯陈东东:Caelus全场景在离线混部的思考与实践( 四 )


腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
混部资源具有不稳定性 , 大数据任务若直接运行在混部资源上 , 会产生较高的失败率 , 导致无效算力 。 针对这类问题 , 我们在实践中总结出部分操作经验:大数据任务画像;大数据任务筛选;存算分离;存储加速;云盘扩展;NM容器化适配 。
容器热迁移
部分混部任务(如AI训练任务等)运行时间一般都比较长 , 多以小时或天为单位 。 若这种类型的离线任务被驱逐 , 需重新运行 , 成本开销大 。 尤其是当面临内存这种不可压缩资源受压制时 , 当前我们只能采用驱逐离线任务的策略 。
容器热迁移可以很好地解决需长时间运行的离线任务被驱逐所产生的问题 。
腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
容器热迁移是指在保证离线任务正常运行的前提下 , 从一个节点迁移到另一个节点 。
当前基于虚拟机的热迁移技术已经十分成熟 , 但基于容器的热迁移技术的探索及实践都较少 。 腾讯内部基于容器热迁移进行了诸多实践与优化 , 以内存迁移为例 , 常规的内存迁移是先停掉原节点离线任务 , 再将离线任务一次性迁移至目标节点后重新运行 。 这种方式会造成离线任务的中断时间较长 , 质量难以保证 。
我们采取了诸多策略保障中断时间尽量短 , 如采用内存按需迁移 , 同时在迁移过程中 , 采用压缩、并发方式加大内存存储速率 。 另外 , 我们也探索更加均衡的迁移策略 , 如采用迭代迁移方式 。
Caelus实践落地
目前 , Caelus已在腾讯内部多个场景落地 , 涵盖广告业务 , 腾讯视频、新闻和QQ等娱乐社交业务 , 王者对战等游戏业务 , 还包括CEPH、HDFS等存储业务 , HBase等数据库业务 。 在线场景包括容器化和非容器化 , 离线任务包括大数据和机器学习等任务 。 Caelus已经开源 , 欢迎大家积极贡献代码 , 一起助力Caelus在更多场景的落地 。 开源地址:https://github.com/Tencent/caelus【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8sGPU资源效率提升、K8s资源拓扑感知调度主题 , 扫描下方二维码或点击『阅读原文』进入活动专题 , 带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……