云原生容器高可用运维能力应用

原生,容器,可用,能力,应用 · 浏览次数 : 65

小编点评

## 华为云容器SRE确定性运维实践总结 **华为云容器SRE从智能运维能力、确定性场景恢复等方面总结出一套确定性运维实践,以应对云原生业务快速增长。** **主要内容如下:** * 云原生场景下,对架构高可用、应用高可用、基础云平台高可用提出了更高的要求。 * 当确定性故障场景出现时,如何做到快速诊断和快速恢复至关重要。 * 云原生容器面对的挑战与解决方案1、华为云云原生容器年复合增长快。 * 华为云提供贴合业务特征的自动化运维平台,以解决现网运维中的实际困难。 * 建立可靠、可信的租户监控能力,打通运维能力产品化落地路径。 * 结合历史故障以及容器业务架构,梳理确定容器监控场景。 * 构建容器prometheus监控能力,实现从集群、租户、站点三级视图的监控能力。 * 基于CMC/AOM/Promtheus/CLS/datahub等构建故障推导原子能力。 **现网效果:** * 容器现网warnroom提前发现率显著提高。 * 定期性场景恢复>实现核心故障场景预案平台化、构建故障场景故障定位能力。 **确定性场景恢复的步骤:** 1. 基于CMC/AOM/Promtheus/CLS/datahub等构建容器场景全指标监控接入。 2. 结合容器场景业务生命周期以及现网故障,构建容器域故障推导模型。 3. 基于监控数据,业务性,CLS日志等构建故障推导原子能力。 4. 基于CAR打造故障定位编排引擎。 5. 结合故障模式以及应急预案,降故障恢复动作平台化。

正文

摘要:华为云容器SRE在海量集群和容器运维实践中,从智能运维能力、确定性场景恢复等多方面总结出一套确定性运维实践,以应对云原生业务快速增长。

本文分享自华为云社区《云原生容器高可用运维能力应用》,作者:陈勇/刘志超/袁文峰。

云原生场景下,对架构高可用、应用高可用、基础云平台高可用提出了更高的要求,企业以及云平台都在不断致力于稳定性建设。但面对海量复杂的客户业务场景,业务会不可避免的遇到非预期的故障,比如配置异常、应用过载、底层网络异常、硬件故障等,当这些确定性故障场景出现时,如何做到快速诊断和快速恢复,如何在故障发生前提前识别风险、消除隐患,如何在故障发生时监控准确发现定界,一直是云计算厂商面临的困难问题之一。

云原生容器面对的挑战与解决方案

1、华为云云原生容器年复合增长快,需要维护的站点和k8s集群多,复杂的海量客户应用场景给运维工作带来巨大挑战。
2、云原生便捷的快速部署能力、可伸缩性使得用户业务容器、集群结构等无时无刻不在变化之中,单局点节点变化非常快。
3、云原生社区丰富的应用实践以及容器开放的部署方式,用户易出现配置类错误,导致故障发生。
4、面对客户不同的业务场景、集群类型,当前社区在监控准确率、故障快速定位恢复等通用运维能力尚无有效的解决方案。

解决思路:

1、现网客户请求事件同比增长,单纯依赖人力的运维已无法支撑业务的快速增长,以软件工程的手段解决现网运维中的实际困难,构建贴合业务特征的自动化运维平台。
2、将业务形态与业界开源方案相结合,构建可靠、可信的租户监控能力
3、打通运维能力产品化落地路径,将实践可靠的运维能力固化到产品中,提升产品易用性以及客户自运维能力。

智能运维能力

>> 故障预防

“故障预防"在确定性运维中是很重要的一环,可以有效避免客户业务发生故障。风险识别在故障预防中极为有效的一种手段,客户业务的高可用部署、容器的资源配置合理性、依赖各服务的使用配额、集群和节点分配和使用率等,均会导致业务存在潜在风险,完备、及时的有效风险识别可消除客户业务隐患,防止应用故障。

解决思路和措施:

a. 结合历史现网故障以及容器业务架构,梳理关键风险场景和有效监控指标。
b. 基于专家经验、历史故障场景、结合租户历史行为,构建风险指标判断识别系统,自动检测租户容器场景集群风险项,为集群构建集群画像,识别集群风险。
c. 风险识别能力实现原子化对接TSC平台,赋能客户经理。
d. 风险识别联动周边,推动产品设计改进、引导租户提前消除、支撑SRE风险收编以及故障快速恢复。

现网效果:

周级别自动识别全网集群风险、分钟级单集群深度自动巡检,数据入湖并被TSC订阅消费。

>> 监控故障发现

监控发现”旨在先于客户发现,在底层ECS故障、网络故障发生时,及时发现故障,及时自愈或通知到客户,尽最大可能短时间止损,减少客户的损失。另一方面,在真正客户业务受损时,监控要做到快速判断故障影响面,做到应用链路透视监控,可以辅助快速定位至故障点。

解决思路和措施:

  1. 历史事件+业务架构,确定监控场景:通过对历史现网事件负向分析和容器场景故障模式正向分析,梳理确定容器监控场景。
  2. 从0到1构建监控能力:构建容器prometheus监控能力,实现从集群、租户、站点三级视图的监控能力,并完成1-N个站点的快速复制和覆盖。
  3. 引入基于孤立森林的智能检测算法以及租户面集群容器状态细粒度监控等不断提升监控覆盖率和准确度。

现网效果:

容器现网warroom提前发现率显著提高。

确定性场景恢复

>> 快速定位恢复

“快速定位恢复”从定位和止损两方面出发,目标是降低故障发生后的MTTR,减少客户业务损失。通过历史海量用户故障输入,明确故障确定性场景,针对这些确定性故障场景,建设自动诊断能力和一键恢复预案能力。

解决思路和措施:

a. 基于CMC/AOM/Promtheus/CLS/datahub等构建容器场景全指标监控接入.

b. 结合容器场景业务生命周期以及现网故障,构建容器域故障推导模型。

c. 结合监控数据,业务性,CLS日志等构建故障推导原子能力。

d. 基于CAR打造故障定位编排引擎。

e. 结合故障模式以及应急预案,降故障恢复动作平台化。

现网效果:

  1. 实现核心故障场景预案平台化、构建故障场景故障定位能力,对应确定性故障场景5min定界。
  2. 对应确定性故障场景实现10min恢复。

云原生容器场景运维方向

未来华为云云原生容器体量会更快速的增长,k8s社区新特性也在快速迭代,跨云跨地域业务部署是大趋势,如何在云原生时代为客户业务提供稳定的运维保障能力,如何在不断指数式增长的容器规模下,构建统一确定性运维能力是我们的方向。

总结

华为云通过海量复杂云原生客户业务场景,从风险预防、数据面监控、故障自动诊断、确定性场景预案恢复等方面,识别云原生客户云上确定性业务使用和故障场景,持续构建智能运维能力和确定性场景恢复能力,保障客户云上业务稳定,以应对云原生业务快速增长。

 

点击关注,第一时间了解华为云新鲜技术~

与云原生容器高可用运维能力应用相似的内容:

云原生容器高可用运维能力应用

摘要:华为云容器SRE在海量集群和容器运维实践中,从智能运维能力、确定性场景恢复等多方面总结出一套确定性运维实践,以应对云原生业务快速增长。 本文分享自华为云社区《云原生容器高可用运维能力应用》,作者:陈勇/刘志超/袁文峰。 云原生场景下,对架构高可用、应用高可用、基础云平台高可用提出了更高的要求,

vivo 云原生容器探索和落地实践

本文会详细介绍vivo在容器集群高可用建设中的具体实践,包括在容器集群高可用建设、容器集群自动化运维、容器平台架构升级、容器平台能力增强、容器生态打通等层面的打磨和建设。

构建高可用云原生应用,如何有效进行流量管理?

摘要:对于那些希望使用华为云的云原生服务的人来说,这篇文章提供了很好的指导,让他们了解如何通过容错来保证他们的服务的可用性和稳定性。 本文分享自华为云社区《构建高可用云原生应用,如何有效进行流量管理?》,作者: breakDawn。 随着云原生的概念越来越火,服务的架构应该如何发展和演进,成为很多程

云原生场景下实现编译加速

云原生下的流水线是通过启动容器来运行具体的功能步骤,每次运行流水线可能会被调度到不同的计算节点上。这会导致一个问题:容器运行完是不会保存数据的,每当流水线重新运行时,又会重新拉取代码、编译代码、下载依赖包等等。在云原生场景下,不存在本地宿主机编译代码、构建镜像时缓存的作用,大大延长了流水线运行时间,浪费很多不必要的时间、网络和计算成本。

DevSecOps 需要知道的十大 K8s 安全风险及建议

Kubernetes (K8s)是现代云原生世界中的容器管理平台。它实现了灵活、可扩展地开发、部署和管理微服务。K8s 能够与各种云提供商、容器运行时接口、身份验证提供商和可扩展集成点一起工作。然而 K8s 的集成方法可以在任何基础设施上运行任何容器化应用程序,这使得围绕 K8s 和其上的应用程序堆

从零开始写 Docker(十五)---实现 mydocker run -e 支持环境变量传递

本文为从零开始写 Docker 系列第十五篇,实现 mydocker run -e, 支持在启动容器时指定环境变量,让容器内运行的程序可以使用外部传递的环境变量。 完整代码见:https://github.com/lixd/mydocker 欢迎 Star 推荐阅读以下文章对 docker 基本实现

想搞懂持续交付理论和实践,你只差这三个问题

摘要:今天,我们来了解下什么是“持续交付”及“持续交付”的实践。 云原生是当下IT圈非常热门的一个词,其目的是为了各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生包含很多技术,比如容器、微服务、DevOps、持续交付等,今天,我们来了解下什么是“持续交付”及“持续交

在 Net7.0环境下测试了 Assembly.Load、Assmebly.LoadFile和Assembly.LoadFrom的区别

一、简介 很长时间没有关注一些C#技术细节了,主要在研究微服务、容器、云原生、容器编排等高大上的主题了,最近在写一些框架的时候,遇到了一些和在 Net Framework 框架下不一样的情况,当然了,我今天主要测试的是,在通过【添加项目引用】和【手动拷贝DLL】的情况下,这三个方法加载程序集:Ass

[转帖].NET 7 正式发布

https://www.oschina.net/news/216967/dotnet-7-released 微软宣布正式推出 .NET 7 ,使用 .NET 7 可以轻松地将 .NET 7 项目容器化,在 GitHub 操作中设置 CI/CD 工作流,并实现云原生可观察性。 .NET 7 是标准期限

构建高可用性的 SQL Server:Docker 容器下的主从同步实现

摘要:本文将介绍如何在 Docker 环境下搭建 MS SQL Server 的主从同步,帮助读者了解主从同步的原理和实现方式,进而提高数据的可靠性和稳定性。 一、前言 在当今信息化的时代,数据的安全性和稳定性显得尤为重要。数据库是许多企业和组织存储和管理数据的核心,因此如何保证数据库的高可用性和数