经过两年多的发展 , ASI体系下组件变更也完全统一在一个平台下 , 并且基于云原生的能力也建设出了非常完善的灰度能力:
3 节点全托管运维能力
前面我也介绍了 , 我们在建设系统能力时不会重复造轮子 , 但是也不能完全依赖其他产品的能力 。 ACK提供了节点生命周期管理的基本产品能力 , 而ASI作为ACK之上的Serverless平台 , 需要在ACK基本产品能力之上 , 建设规模化运维能力 。 从Sigma时代到ASI支持集团超大统一调度集群过程中 , ASI沉淀了非常多规模化运维节点的能力和经验 。 接下来介绍一下我们在售卖区如何建设节点全托管能力建设起来 。
节点全生命周期定义
要建设比较完善的节点全托管运维能力 , 我们首先要梳理清楚节点全生命周期的每一个阶段需要做哪些事情 , 如下图我们将节点全生命周期大致分为5个阶段:
节点生产前:售卖区比较复杂的场景是每一个云产品都有一套或多套资源账号 , 还有很多需要自定义ECS镜像 。 这些都需要在新业务接入时进行详细定义; 节点导入时:集群节点导入时需要建设节点创建/扩容/导入/下线等操作; 节点运行时:节点运行时往往是问题最多的阶段 , 这块也是需要重点能力建设的阶段 , 如节点组件升级、批量执行脚本能力、cve漏洞修复 , 节点巡检、自愈能力等等; 节点下线时:在节点成本优化、内核cve漏洞修复等场景下 , 都会需要节点腾挪、下线等规模化节点运维能力; 节点故障时:在节点故障时 , 我们需要有节点问题快速探测能力、问题诊断能力和节点自愈能力等 。
节点能力建设大图
ASI售卖区节点托管能力建设1年多 , 已经承载了售卖区所有上ASI的云产品 , 并且大部分核心能力都已经建设比较完善 , 节点自愈能力我们也在不断优化完善中 。
节点弹性
在云上一个最大的特点就是资源弹性 , 节点弹性能力也是售卖区ASI给云产品用户提供的一个非常重要的能力 。 ASI的节点弹性能力依靠ECS资源的极致弹性 , 能按照分钟级来进行ECS资源购买和释放 , 帮忙云产品精细化控制资源成本 。 视频云云产品目前就在ASI上重度依赖ASI节点弹性能力 , 进行资源成本控制 。 视频云平均一天节点弹性3000多次 , 并且经过不断优化 , ASI节点弹性能达到几分钟内完全拉起视频云业务 。
在节点弹性上 , 我们在节点整个生命周期中都进行了性能优化:
管控层面:通过控制并发度 , 可以快速完成几百台ECS的弹性任务处理; 组件部署优化:daemonset组件全部修改为走Region vpc内部地址拉取;rpm组件采用ECS镜像内预装模式 , 并进行节点组件部署序编排来提升节点组件安装速度;最后就是yum源带宽优化 , 从原来走共享带宽转为独占带宽模式 , 避免被其他rpm下载任务影响我们节点初始化 。业务初始化:引入dadi镜像预热技术 , 节点导入过程中可以快速预热业务镜像 , 目前能达到10g大小镜像的业务拉起只需要3min左右 。4 1-5-10 能力建设
ASI全托管模式的服务 , 最重要的还是我们能为云产品用户进行底层集群稳定性问题进行兜底 。 这个对ASI的1-5-10能力要求就非常高 , 接下来主要给大家介绍3个核心稳定性能力:
风控:在任何场景下 , ASI都应该具备踩刹车的能力; KubeProbe:快速探测集群核心链路稳定性问题; 自愈:庞大的节点规模 , 非常依赖节点自愈能力 。风控
在任何时刻 , ASI一定要有“踩刹车”的能力 , 不管是我们自己同学误操作 , 还是上层业务方误操作 , 系统必须有及时止损的能力 。 在文章开头 , 我也介绍了ASI曾经发生过的大规模重启、误删pod的事故 。 正因为之前血泪教训 , 才造就了我们很多风控能力的诞生 。
- 阿里巴巴|社区团购是互联网巨头的宝地,美团拼多多发展强劲,阿里坐不住了
- 阿里巴巴|被苹果无辜“踢出局”,引发央视点名,国产制造该何去何从?
- 阿里巴巴|一块桌面版3070显卡的价格,就够买一个3070笔记本,还能剩点
- 阿里巴巴|阿里员工黄土高原养猪记:给猪装上计步器,每天跑够2万步
- 阿里巴巴|程序员与软件工程师的区别
- 阿里巴巴|Java程序员从携程、美团、阿里面试回来,这些面经分享给大家
- 阿里巴巴|弘辽科技:多多进宝你真的会操作吗?
- html5|互联网广告收入榜:小米两年高居第八,阿里巴巴蝉联第一
- 阿里巴巴|盒马融资传闻背后:阿里生态单元投资价值有望释放
- 阿里巴巴|陈根:互联网下半场,阿里难造风