腾讯陈东东:Caelus全场景在离线混部的思考与实践

腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
嘉宾|陈东东出品|CSDN云原生
2022年7月28日 , 中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声降本增效大讲堂》系列直播活动第4讲如期举行 , 腾讯高级工程师陈东东分享了Caelus全场景在离线混部的实践案例 。 本文整理自陈东东的分享 。
在离线混部背景及意义
各大权威机构的调研数据显示 , 在线资源利用率普遍很低 , 平均在15%左右 。
腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
上图是某一在线CPU的使用曲线 , 在这里可以看出 , 在线资源使用的潮汐现象十分明显 。 业务方在申请资源时只能按照波峰时段的资源使用量进行申请 , 这就导致在波谷时段会有大量资源被浪费 。
在线资源利用率低的原因可以概括为以下几点:非容器化部署 , 未能利用整机资源;
业务容灾Buffer资源;
资源使用潮汐现象;
粗放的资源评估 , 占而不用;
业务之间相互隔离 。
腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
从上图可以看出 , 近年来我们对大数据的需求在逐步增高 , 这意味着我们需要投入更多成本来获取更多算力来对数据进行分析 。 离线作业运行时具有延迟不敏感、实时性不高、执行周期短等特点 , 利用该特点我们可以在在线任务的波谷时段混部离线任务 , 这为解决在线任务波谷时段有大量资源浪费提供了一种新的思路 。
通过在离线混部 , 可以实现提升机器资源利用率、优化成本等目标 , 同时能够充分释放资源价值 , 降低能源消耗 , 助力双碳 。
在离线混部现状痛点在离线混部在落地过程中存在诸多痛点 。定制化
技术栈定制化 , 不宜推广;
平台升级需适配 , 维护成本高;
混部场景单一 , 大部分混部系统只关注容器化场景 , 忽略了非容器化场景 , 部分混部方案依赖大数据任务云原生化改造 , 难以支持Hadoop场景 。
资源价值挖掘不充分
资源复用策略不够精细 , 利用率提升有限;
离线失败率高 , 浪费算力资源 。
技术深水区
缺乏干扰检测与处理机制;
缺乏完善的资源隔离机制;
调度性能不满足离线高并发需求;
缺乏容器热迁移机制 , 离线作业在资源受压制时只能被驱逐 。
Caelus全场景在离线混部Caelus是腾讯基于多年的混部经验打造的在离线混部系统 , 兼容多种在线和离线混部场景 。 腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
上图是在离线混部的架构图 , 可以看到 , Caelus联动存储、内核、运行时、调度及离线框架等层面 , 在保障在线和离线服务质量的同时 , 最大化提升资源利用率 。 腾讯陈东东:Caelus全场景在离线混部的思考与实践
文章图片
上图展示了Caelus全场景在离线混部 。 在线容器化已成为一种趋势 , 然而我们也要看到当前还有很多在线作业未容器化 , 这些在线作业可能还未来得及容器化 , 或不适合容器化 。 Caelus通过支持非容器化在线作业 , 可以打破混部在很多公司场景的限制 。 大数据任务是非常适合混部的 , 然而当前很多的大数据任务还是处于Hadoop生态 , 所占比例也非常高 , 针对这部分离线任务 , Caelus也是要支持的 。
在线服务质量保障关键技术与思考为保证在线服务质量 , Caelus采取了一些关键的技术手段 。
多维度指标为什么需要多维度指标呢?