阿里云香港节点全面故障给我们的启示

阿里,香港,节点,全面,故障,我们,启示 · 浏览次数 : 2537

小编点评

**2022年12月18日上午,阿里云香港可用区C某机房设备异常公告** **阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用。** **阿里云工程师已在紧急处理中。** **该公告引发了人们对可靠性问题的讨论,一些公司认为N个9的SLA已经不能保证服务稳定性,而另一些则认为阿里云的故障处理能力足以应对这种突发事件。** **阿里云这次故障也提醒我们,无论是公有云还是公司内部的服务,都需要考虑可靠性问题。** **阿里云的故障处理方式也值得我们学习,例如:** * **事前预案,即提前做好应对故障的准备** * **持续监控和警报,及时发现和处理问题** * **及时恢复服务,并向用户进行提醒** * **提供透明的故障处理进度和结果** **阿里云的这次故障也提醒我们,不可忽视可靠性的问题,无论是个人还是企业,都需要关注服务稳定性和可靠性。**

正文

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。”

在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢?SLA 就是个笑话,服务该挂不还是挂了。虽然经过十几个小时,阿里云香港节点服务恢复了,数据也恢复了,终于可以让各位老板松了口气,估计很多运维的小伙伴已经开始迁移服务或者开始做备份了。

但是并不是每个公司都这么幸运,不知道还有谁记得「前沿数控」这个公司,当初因为所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,一夜回到解放前,也不知道官司现在结果如何了。

经过阿里云这次大故障,估计很多老板都会考虑可靠性的问题了,尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份,稍微懂点的得用混合云搞搞,估计再也没人嘲笑那些自建小容器云、自建机房的公司了。

 

公有云故障和公司内部服务处理方式区别很大

 

之前一个老板问我说公司内部要不要搞一个StatusPage?我说可以搞,但是优先级不高,等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题,哪里出问题,怎么解,其实很多时候都是有固定答案的,你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有演练过。出故障是肯定的,只是不确定什么时候发生而已。先把重要的事,不做就得死的事做了、做好了再考虑其它的。

StatusPage,一句话描述就是:当你的在线业务宕机时,StatusPage 允许你和你的客户进行沟通,告知他们当前服务的状态和问题处理进展。业务正常服务状态下,客户也可以查看当前服务状态是否正常。同时,客户也可以查看这一业务所有历史上的问题发生和处理记录。

公司内部我们有很多的渠道与用户沟通。在公司内部,一般都有系统的用户群,当服务挂了,各种监控告警就会发出来,系统相关人都会注意到,第一时间在群内周知。这个和公有云的服务还是有很大不同的。

 

再好的预案没演练过也只是预案

 

就像平时,很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现,要么备份没成功,要么备份成功了但是数据陈旧,要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全大哥 :)

 

线上服务故障演练

 

我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节,提升服务的容错性和可恢复性。

别有侥幸心理,踏实干事,一步一个脚印才能让掉坑里的次数少点。

 

相关阅读

中国云服务走向全球?先把 Status Page 搞定

我们可以信任阿里云的故障处理吗?

阿里云香港节点全面故障给我们的启示

 

 

感谢点赞、转载
关注我,了解研发效能发展动向

与阿里云香港节点全面故障给我们的启示相似的内容:

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可

阿里云入选Gartner「边缘分发平台市场指南」代表厂商

近日,全球技术研究与咨询机构Gartner首次发布边缘分发平台市场指南报告《Market Guide for Edge Distribution Platforms》,阿里云凭借内容分发网络CDN、全站加速DCDN、边缘节点服务ENS等产品获得Gartner认可,成功入选边缘分发平台代表厂商。 Ga

阿里云开发者社区有奖征文活动,期待您出文相助

和阿里云开发者社区的合作曾经是园子的收入来源之一,但现在合作机会越来越少了,今年好不容易等到一次合作机会,就是这次的有奖征文活动 ——「寻找热爱技术创作的你:写下你在技术探中的实践和思考」,详见活动公告 这次征文合作分2期,第1期需要完成保底提交50篇符合要求的文章才能拿到收入,第2期按实际提交的文

【阿里云X博客园】参与征文赢面试绿通资格!还有特别福利哦!

阿里云联合博客园发起技术实践征文比赛,我们诚挚邀请你的参加,告诉我们你在哪个领域遇到了问题,你是如何思考解决的。无论你关注的是什么技术栈,我们都相信你的故事有它独到的价值。博客园作者发文,除享活动奖品,还将获得阿里云社区纪念手办一枚,数量有限,快来参加吧

卷爆短剧出海:五大关键,由AIGC重构

短剧高温下,谈谈AIGC的助攻路线。 短剧,一个席卷全球的高温赛道。 以往只是踏着霸总题材,如今,内容循着精品化、IP化的自然发展风向,给内容、制作、平台等产业全链都带来新机,也让短剧消费走向文化深处,触发更大的社会渲染力。 从国内到全球,短剧行业亦然乘风。业内预测分析,2027年海外微短剧市场规模

一键自动化博客发布工具,用过的人都说好(阿里云篇)

阿里云有个开发者社区,入驻过的朋友可能想要把自己的博客发布到阿里云社区上。 今天我来介绍一下blog-auto-publishing-tools自动发布博客到阿里云的实现原理。 阿里云的博客发布界面比较简单,只有标题,正文,摘要,关联试用产品,发布子社区,文章图片这几个选项。 一起来看看如何实现吧。

阿里云边缘容器云帮助AI推理应用快速落地

近日,阿里云技术专家徐若晨在全球分布式云大会上,分享了《边缘容器云助力AI推理高效落地》的主题演讲,分享了阿里云边缘容器云如何助力开发者实现更快速的AI推理应用的迭代和部署。此外,他还分享了边缘AI推理应用在实际业务中的应用案例。 终端算力上移 云端算力下沉 客户在边缘部署时面对的挑战包括:首先,构

阿里云 龙蜥8.6系统镜像解决中文问号的方法

阿里云 龙蜥8.6系统镜像解决中文问号的方法 背景 计划测试环境上云 我这边作为先头不对开始搞 但是发现中文字体的显示存在问题,心中一片草泥马奔腾 搞国产OS, 连语言都不给我弄好. 问题现象 产品启动出现问题 [1]??????? [2]??????????????????????????????

阿里云物联网平台专用工具详细说明

阿里云物联网平台专用工具基本涵盖了阿里云物联网平台提供你主要管理功能,可以方便创建产品、设备、物模型,查看设备实时属性,事件,发送服务和查看服务日志等等

阿里云物联网平台设备模拟器

在使用阿里云物联网平台过程中,如果开始调试没有实际的物理设备,可以考虑在阿里云物联网平台使用官方自带的模拟器进行调试。不过也可以通过叶帆科技开发的阿里云物联网平台设备模拟器AliIoTSimulator进行调试,AliIoTSimulator可以独立运行(需要单独加载物模型配置信息),也可以由阿里云物联网平台专用工具(AliIoTTools)直接启动。