阿里巴巴|阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘( 九 ) kubernetes|阿里云|中间件

诊断、自愈规则更加丰富：目前的诊断、自愈规则很多场景下都没有覆盖，需要不断优化覆盖，更多节点故障场景；基于节点池的精细化的自愈风控、流控：节点自愈的前提是不能让现状变的更糟，所以我们需要在做自愈时，做更加精确的判断；节点自愈能力与上层业务打通：不同业务形态，对节点自愈的要求不同。比如Flink业务都是任务类型，遇到节点问题需要我们尽快驱逐业务，触发任务重建，最怕的就是任务“半死不活”；中间件/数据库业务都是有状态服务，不允许我们随便驱逐业务，但是我们如果把自愈能力与上层业务逻辑打通，就可以做到将节点故障上透给业务，让业务来决策是否要自愈，以及业务如何自愈。四未来展望 ASI 作为容器服务 ACK 在阿里巴巴内部持续打磨的统一Serverless基础设施，正在持续构建更强大的全自动驾驶 Kubernetes 集群，提供集群、节点、组件的全托管能力，并一如既往地输出更多经验到整个行业。 ASI 作为阿里集团、阿里云基础设施底座，为越来越多的云产品提供更多专业服务，托管底层 Kubernetes 集群，屏蔽复杂的 Kubernetes 门槛、透明几乎所有的基础设施复杂度，并用专业的产品技术能力兜底稳定性，让云产品只需要负责自己的业务，专业的平台分工做专业的事。
作者 | 仔仁、墨封、光南
【阿里巴巴|阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘】本文为阿里云原创内容，未经允许不得转载。