文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
一 序言 ASI:Alibaba Serverless infrastructure , 阿里巴巴针对云原生应用设计的统一基础设施 。 ASI 基于阿里云公共云容器服务 ACK之上 , 支撑集团应用云原生化和云产品的Serverless化的基础设施平台 。
2021年天猫双十一 , 对于ASI来说又是难忘的一年 , 今年我们又完成了很多“第一次”:
第一次全面统一调度:电商、搜索、odps离线和蚂蚁业务全面上ASI统一调度架构 , 整个业务核数达到了惊人的数千万核 。第一次将搜索业务“无感知”平滑迁移到ASI:近千万核的业务 , 业务无感的搬到ASI(但是我们却经历了很多个不眠之夜) 。ASI场景的K8s单集群规模超过万台节点 , 数百万核 , 超越K8S社区的5000台规模 , 不断优化大规模集群的性能和稳定性 。中间件服务第一次用云产品架构支持集团业务:中间件基于ASI公共云架构 , 将中间件服务平滑迁移到云上 , 用云产品架构支持集团业务 , 实现“三位一体” 。ASI在大规模生产应用的锤炼下 , 不仅沉淀了非常多的K8S稳定性运维能力 , 更是在支持serverless场景下孵化了很多创新能力 。 如果运维过K8S(特别是运维大规模集群)的同学一定会有很深的感触:把K8S用起来很容易 , 想要用好K8S真心不容易 。 ASI在使用K8S调度体系架构早期成长阶段 , 也经历过多次血的教训 , 过程中我们持续成长、学习和成熟 。 例如:
一次正常的Kubernetes大版本升级流程 , 在升级Kubelet时把一个集群近千台业务POD全部重建; 一次线上非标操作 , 将大批量的vipserver服务全部删除 , 幸亏中间件有推空保护 , 才没有对业务造成灾难性影响; 节点证书过期 , 由于节点自愈组件故障情况误判 , 并且风控/流控规则判断也有误 , 导致自愈组件误将一个集群300+节点上的业务全部驱逐; 以上列举的各种故障场景 , 即使是专业K8S团队都无法避雷 , 如果是对K8S了解很少的用户 , 肯定更无法预防和规避风险 。 所以 , 给所有正在使用K8S服务 , 或者想要用K8S服务的用户一个中肯建议:不要想着自己就能运维好K8S集群 , 里面有多少坑你真的想象不到 , 专业的人做专业的事 , 让专业产品和SRE团队来实现运维 。 在这里 , 我也是强烈建议用户使用阿里云容器服务ACK , 因为我们在阿里巴巴大规模场景下沉淀能力增强、自动化运维和能力都会反哺到ACK中 , 帮忙更好的维护用户的Kubernetes集群 。
- 阿里巴巴|社区团购是互联网巨头的宝地,美团拼多多发展强劲,阿里坐不住了
- 阿里巴巴|被苹果无辜“踢出局”,引发央视点名,国产制造该何去何从?
- 阿里巴巴|一块桌面版3070显卡的价格,就够买一个3070笔记本,还能剩点
- 阿里巴巴|阿里员工黄土高原养猪记:给猪装上计步器,每天跑够2万步
- 阿里巴巴|程序员与软件工程师的区别
- 阿里巴巴|Java程序员从携程、美团、阿里面试回来,这些面经分享给大家
- 阿里巴巴|弘辽科技:多多进宝你真的会操作吗?
- html5|互联网广告收入榜:小米两年高居第八,阿里巴巴蝉联第一
- 阿里巴巴|盒马融资传闻背后:阿里生态单元投资价值有望释放
- 阿里巴巴|陈根:互联网下半场,阿里难造风