今天上午10点左右,我打开B站发现无法刷新视频列表和评论区,收藏夹和弹幕也均不可用。
原以为是手机网络问题,换网络重启手机都还是不行,第一时间打开微博,果然,B站崩了的新闻荣登榜首,小红书崩了的新闻也紧随其后。
不过,一般情况下,像这种大规模平台的这么多功能一起崩溃了显然是不太对劲的,猜测大概率是网关或者一些底层的模块崩掉了。
在10:04,也就是 B 站崩掉的时候,阿里云发布了一个上海可用区N网络访问异常的通知。
10:35时(不知道算不算快),阿里云工程师完成了网络切流调度
10:42时,所有受影响的产品都已恢复正常。
据不可靠猜测,本次事故大概率是开猿节流(裁员裁到大动脉)的后遗症(手动狗头)。
B站和小红书的总部都在上海,同一可用区内实例之间的网络延时最小,其用户访问速度也最快,就选择了阿里云的上海可用区。然后上海可用区N网络出现异常,导致了他们崩掉。
B站这次把错误码直接展示给用户的做法就很不好,如图:
不过B站和小红书在平台出现故障的时候,都有服务熔断降级的情况。这也从侧面再次印证了,我们在架构设计的时候,一定要考虑提高可用性的同时也要具备容灾能力。