腾讯陈东东:Caelus全场景在离线混部的思考与实践( 四 )
文章图片
混部资源具有不稳定性 , 大数据任务若直接运行在混部资源上 , 会产生较高的失败率 , 导致无效算力 。 针对这类问题 , 我们在实践中总结出部分操作经验:大数据任务画像;大数据任务筛选;存算分离;存储加速;云盘扩展;NM容器化适配 。
容器热迁移
部分混部任务(如AI训练任务等)运行时间一般都比较长 , 多以小时或天为单位 。 若这种类型的离线任务被驱逐 , 需重新运行 , 成本开销大 。 尤其是当面临内存这种不可压缩资源受压制时 , 当前我们只能采用驱逐离线任务的策略 。
容器热迁移可以很好地解决需长时间运行的离线任务被驱逐所产生的问题 。
文章图片
容器热迁移是指在保证离线任务正常运行的前提下 , 从一个节点迁移到另一个节点 。
当前基于虚拟机的热迁移技术已经十分成熟 , 但基于容器的热迁移技术的探索及实践都较少 。 腾讯内部基于容器热迁移进行了诸多实践与优化 , 以内存迁移为例 , 常规的内存迁移是先停掉原节点离线任务 , 再将离线任务一次性迁移至目标节点后重新运行 。 这种方式会造成离线任务的中断时间较长 , 质量难以保证 。
我们采取了诸多策略保障中断时间尽量短 , 如采用内存按需迁移 , 同时在迁移过程中 , 采用压缩、并发方式加大内存存储速率 。 另外 , 我们也探索更加均衡的迁移策略 , 如采用迭代迁移方式 。
Caelus实践落地
目前 , Caelus已在腾讯内部多个场景落地 , 涵盖广告业务 , 腾讯视频、新闻和QQ等娱乐社交业务 , 王者对战等游戏业务 , 还包括CEPH、HDFS等存储业务 , HBase等数据库业务 。 在线场景包括容器化和非容器化 , 离线任务包括大数据和机器学习等任务 。 Caelus已经开源 , 欢迎大家积极贡献代码 , 一起助力Caelus在更多场景的落地 。 开源地址:https://github.com/Tencent/caelus【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8sGPU资源效率提升、K8s资源拓扑感知调度主题 , 扫描下方二维码或点击『阅读原文』进入活动专题 , 带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……
- 本文转自:中国经济周刊中国经济周刊-经济网讯 天眼查App显示|快讯!腾讯公布增强现实车辆定位专利
- 本文转自:科技日报科技日报记者 陈曦8月23日|源自高铁技术的创新 助力“双碳”目标实现
- 飞利浦|年销上亿!潮汕90后硕士做出一家估值超百亿独角兽,刚获腾讯投资
- 本文转自:科技日报科技日报记者 陈曦 实习生 严晨“天津是‘东数西算’京津冀国家枢纽节点...|“东数西算”战略下数字产业区域协同发展论坛在天津举
- 本文转自:红网来源:红网作者:通讯员 陈泽斌 编辑:李茜 本文为酒业频道原创文章|沂台酱酒|探寻双金奖背后的故事(一)
- 腾讯|净利润连续两个月下跌,裁员超5000人,腾讯发生什么事了?
- “吉林一号”卫星总设计师陈茂胜的商业航天事业
- 美团|再次重申!腾讯不会卖掉美团,马化腾更不会抛弃王兴?
- 阿里巴巴|达摩院再次拿下大奖证明马云眼光:对比腾讯,阿里选了正确的道路
- javascript|肖战《余生请多指教》获得腾讯业务突破奖,平台再次认证爆款项目