[转帖]k8s集群内偶现无法访问外部域名怎么解?

故障现象 容器内频现无法访问外部服务,是用ping测试有如下现象: # ping baidu.com -c 4 PING baidu.com (110.242.68.66) 56(84) bytes of data. 64 bytes from 110.242.68.66 (110.242.68.6

【故障公告】遭遇用心良苦的疯狂攻击:DDoS + CC攻击

2023年10月2日19:32,收到阿里云的通知短信,最近几年几乎每年都会遇到短暂的 DDoS 攻击,为了减少攻击带来的影响,我们部署了好多台负载均衡,本以为和以前一样只是其中1-2台负载均衡受到攻击而被屏蔽。 但接下来接连不断的通知短信把我们惊呆了,我们针对不同线路部署的所有负载均衡全部被攻击,全...

不存在百分百的安全,该给你的系统上个保险了

故障,是每个技术人都不愿遇到,但却总会遇到的事件。程序Bug、安全漏洞、黑客攻击、服务器宕机、网络中断等诸多因素都有可能引发系统故障,使我们的业务面临瘫痪的窘境。这样的例子,国内外都在不断的发生,比如: 2020年,由于严重的全澳性IT故障,Coles的收银机全部不能联网,down机瘫痪。收银员扫不

Java RMI遇到的Connection refused to Host: 127.x.x.x/192.x.x.x/10.x.x.x问题解决方法

问题故障解决记录 -- Java RMI Connection refused to host: x.x.x.x .... 在学习JavaRMI时,我遇到了以下情况 问题原因:可能大家的host是10或者192的私有地址,我估计都是和我一样的一个原因:/etc/hosts文件的配置问题(我是ubun

[转帖]Redis故障检查:识别慢查询操作

https://weibo.com/ttarticle/p/show?id=2309404650615585505652 使用SLOWLOG命令查看Redis中的慢查询操作。 ​​前几篇日志总结了下对Redis部署时的一些配置,Redis启动后,面对各种请求,数据持久化到硬盘,很可能会出现内存不足等

[转帖]Kafka故障之磁盘打满

https://www.jianshu.com/p/095e820361ae 问:磁盘打满扩容后能正常重启吗?答:不一定 要看文件格式是否损坏(log、index等)。如果损坏会报错:index file due to requirement failed: Corrupt index found,

vivo 故障定位平台的探索与实践

本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。

智慧电厂转动设备的“非停监测”及算法应用

转动设备故障预测技术是智慧电厂运维的关键,任何“非停”(非计划性停机)事件都可能带来重大的经济损失和安全风险。尤其在面对如汽轮机这类高速旋转部件的维护挑战时,其健康状况直接关联着整个发电系统的可靠性和经济性,这无疑凸显了实施预测性维护策略的迫切性。 预测性维护技术的革新路径 预测性维护技术的兴起,标

[转帖]服务器内存故障预测居然可以这样做!

https://www.jianshu.com/p/f2b399cf260a 作者:vivo 互联网服务器团队- Hao Chan 随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。 本文主要介绍EDAC(E

[转帖]Redis cluster故障复盘,预案、工具、判断一样都不能少!

http://blog.itpub.net/31545813/viewspace-2924677/ 背景 最近从ELK日志分析发现: 有很多应用连接redis 超时; 监控平台出现”redis 集群不健康“告警; 结合之前的经验,我们一般的应处理手段为:重启连接redis超时的应用,原因有以下两点:

[转帖]Netflix 如何在 7 分钟内完成故障转移

https://www.oschina.net/translate/how-netflix-does-failovers-7-minutes-flat?print 在冬季2012年,Netflix公司遭受了 长时间断电 持续了七个小时,由于在美东地区的AWS弹性负载均衡服务的问题。(Netflix的

[转帖]HikariCP常用监控指标与故障排查实战

编者有言:本书由资深数据库连接池专家撰写,褚霸、德哥、张亮、吴晟等近10位专家高度评价,从设计思想、功能使用、原理实现、工程实践、技术扩展5个维度对HikariCP进行全面讲解和深入分析。 本文将带你抢先阅读 第10章及第14章节选内容 作者介绍 朱政科,资深架构师,十年IT老兵,对各种数据库连接池

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

前段时间收到线上一些列告警,内容是CMSGC太频繁。那接下来这篇文章我会告诉你:什么是CMSGC太频繁;整个排查过程与你分享;以及一些规避手段。

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可

上周热点回顾(10.2-10.8)

热点随笔: · 【故障公告】遭遇用心良苦的疯狂攻击:DDoS + CC攻击 (博客园团队)· 一种对数据库友好的GUID的变种使用方法 (ensleep)· BS系统的登录鉴权流程演变 (风吹草)· 会员权益-新功能发布:定时发布博文 (博客园团队)· 面试官随便问几个问题就知道你究竟做没做过微信支

Karmada跨集群优雅故障迁移特性解析

摘要:在 Karmada 最新版本 v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。 本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。 在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个

看完这篇,DWS故障修复不再愁

摘要:本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。 本文分享自华为云社区《GaussDB(DWS)故障修复系统性介绍》,作者: 闻鲜生。 DWS是一个分布式架构的MPP集群,物理部署上涉及数百数千台主机和对应的磁盘,以及这

.NET下 支持大小写不敏感的JSON Schema验证方法

问题 有很多应用程序在验证JSON数据的时候用到了JSON Schema。 在微服务架构下,有时候各个微服务由于各种历史原因,它们所生成的数据对JSON Object属性名的大小写规则可能并不统一,它们需要消费的JSON数据的属性名可能需要大小写无关。 遗憾的是,目前的JSON Schema没有这方

用.NET代码生成JSON Schema 验证器

问题 对于验证复杂JSON数据是否合法的需求,通常的解决方式是标准JSON Schema,.Net下有对应的JSON Schema实现库。应用程序通常需要将标准JSON schema传入实现库,来做后续的数据验证。这里有一种情况,就是如果使用者不太了解标准JSON Schema格式,但又希望能在自己

云网络运维必备神器:全链路故障诊断与分析

摘要:华为云Stack全链路故障诊断与分析平台,以云网络中的逻辑网络、虚拟网络、物理网络作为网络故障分析诊断切入点,以三层网络路径拓扑为核心,端到端实现三层网络路径可视化。 本文分享自华为云社区《云网络运维必备神器:全链路故障诊断与分析》,作者: 周艳春|华为云Stack高级工程师。 背景 网络作为