3.3.4.3高可用运维能力
1.核心系统转型中带来的运维挑战
核心系统在云原生分布式转型过程中,运维同样也面临了一系列新的挑战,其中最为主要的几个挑战有:
- 随着核心系统进行微服务应用拆分,原有运维管理的应用从个位数增长为数十甚至上百个;
- 核心应用微服务拆分后,交易链路需要跨多个微服务应用完成,对业务监控和定位提出了挑战;
- 以往核心系统主要采用被动运维方式,即出现故障然后定位故障和处置故障,而随着业务的不断发展,核心系统也面临互联网流量、业务快速上线等冲击,为应对多方冲击需要从被动运维转向主动运维;
- 技术的进步也驱动了核心系统容灾的升级,同城容灾切换RPO=0也成为新核心建设的目标,既满足合规要求,也极大的减少了业务损失;
- 此外还有诸如混沌工程,AIOps等智能化运维工具的优势也在逐步应用到核心系统运维中。
核心在云原生分布式转型的同时,构建与之对应的高可用运维保障体系显得尤为必要。总体来说,高可用运维保障体系需包括系统安全、资金安全、高可用能力以及成本容量管理四大部分,如下图所示:
![分布式|首发丨阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?](https://p0.ssl.img.360kuai.com/t017428d35d9b56f35e.jpg)
文章插图
- 资金安全:发现资金损失的风险。通过执行核对规则,以小时为频率、准实时等多种时效策略,发现资金类数据问题,向用户告警;用户可以第一时间收到告警,根据异常数据排查问题,分析原因,进而解决问题;
- 系统安全:通过IaaS层安全系统和安全攻防演练,确保基础设施层面的安全;基于应用安全体系、数据隔离和安全扫码,确保应用层面的安全;
- 高可用能力:高可用能力包括风险预防能力和应急处置能力。一是通过高可用巡检能力和应急演练能力建设加强高可用风险预防能力;二是通过监控能力,故障定位能力,应急预案能力建设和打通加强应急处置能力;
- 成本容量管理:通过全链路压测来提升系统和业务真实水位测试能力,以此为基础去打通资源管理平台和容量管理平台。在保障业务容量稳定的前提下实现容量管理自动化,快速进行容量调拨。
异地多活是分布式系统的一种高可用部署架构,可以满足金融机构城市级容灾的需求。实现异地多活架构的关键问题是如何处理跨地域的网络延迟影响,而单元化架构为异地多活架构的实现提供了可行路径。
所谓单元,是指一个能完成所有业务操作的自包含集合,在这个集合中包含了所有业务所需的所有服务,以及分配给这个单元的数据。
单元化架构就是把单元作为部署的基本单位,在所有机房中部署数个单元,每个机房里的单元数目不定,每一个单元都部署了系统所需的所有应用,数据则是全量数据按照某种维度划分后的一部分。
通过采用单元化架构,在容灾、弹性、资源利用率和灰度发布方面都将有显著收益:
- 容灾与业务连续性:支持同城和异地容灾模式,RPO=0,RTO很短;单元化多活,缩小故障影响范围;借助自动化容灾平台,可支持容灾预案和便捷的容灾演练;
- 弹性:异地多活提升扩展性,理论上无限扩展;按照单元灵活部署,提升扩容效率;
- 资源利用率:相对传统两地三中心部署架构,单元化架构能够充分利用各个数据中心资源,显著提升资源利用率;
- 灰度:灵活的流量调拨能力,支持单元级灰度发布;新老单元调用隔离,避免交叉访问兼容性,提升发布效率。
- 阿里云刘伟光:金融核心系统向全面分布式智能化转型
- 马达|Redmi K50首发!一图看懂超宽频马达CyberEngine
- Redmi|Redmi K50宇宙官宣:首发超宽频马达、安卓最大
- 马达|Redmi K50宇宙全球首发CyberEngine超宽频马达560mm3体积惊人
- 马达|媲美iPhone!Redmi K50宇宙官宣:全球首发超宽频X轴马达
- 本文转自:北青网1月18日|以数字创新焕新第三空间 星巴克1971客厅等新功能在美团首发
- 滴普科技| 滴普科技数据平台技术专家获2021海纳奖——分布式数据库十大先锋人物
- 阿里云刘伟光:金融核心系统将步入分布式智能化的时代
- 芯片|不止首发天玑9000!曝OPPO Find X5系列共三款:配备自研6nm NPU芯片
- 删除|可能是年初很值得买的旗舰,iQOO9系列首发爆销