[转帖]NFS导致df -h无法使用解决

https://www.cnblogs.com/zhengchunyuan/p/11937198.html NFS服务意外断开,导致挂载的客户端“df -Th”命令无法使用,及挂载目录无法“cd”“ls”解决思路:1、强制取消客户端挂载2、重启NFS服务,客户端和服务端都需要重启3、重新挂载NFS处

[转帖]Cat导致内存不足原因分析

背景 线上几亿的数据在回刷的时候容器服务会出现OOM而重启,导致任务中断 内存泄露分析 jmap -histo pid 找出了有几十亿的java.lang.StackTraceElement对象,找不到被谁引用了 jmap -dump:format=b,file=heapdump.hprof pid

[转帖]NUMA导致的Oracle性能问题

https://www.cnblogs.com/realcp1018/p/6903721.html 背景简介: Oracle版本:11.2.0.4 OS 版本:OEL5.8 在一次Oracle的Dataguard正常switchover过程中,遇到了一个极其诡异的问题,一条主业务的SQL语句在新主库

5个高并发导致数仓资源类报错分析

摘要:集群运行过程中,有时候会执行并发量比较高的业务场景,一些数据库没有为这种高并发作业配置合适的参数,会导致作业大量报错,这篇文章让你玩转并发作业。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维 - 高并发导致资源类报错分析解决》,作者:323老四。 集群运行过程中,有

SElinux 导致 Keepalived 检测脚本无法执行

哈喽大家好,我是咸鱼 今天我们来看一个关于 `Keepalived` 检测脚本无法执行的问题 一位粉丝后台私信我,说他部署的 `keepalived` 集群 `vrrp_script` 模块中的脚本执行失败了,但是手动执行这个脚本却没有任何问题 ![image](https://img2023.cn

为什么StampedLock会导致CPU100%?

StampedLock 是 Java 8 引入的一种高级的锁机制,它位于 java.util.concurrent.locks 包中。与传统的读写锁(ReentrantReadWriteLock)相比,StampedLock 提供了更灵活和更高性能的锁解决方案,尤其适用于读操作远多于写操作的场景。

c++临时对象导致的生命周期问题

对象的生命周期是c++中非常重要的概念,它直接决定了你的程序是否正确以及是否存在安全问题。 今天要说的临时变量导致的生命周期问题是非常常见的,很多时候没有一定经验甚至没法识别出来。光是我自己写、review、回答别人的问题就犯了或者看到了许许多多这类问题,所以我想有必要做个简单的总结,自己备忘的同时

GCC8 编译优化 BUG 导致的内存泄漏

1. 背景 1.1. 接手老系统 最近我们又接手了一套老系统,老系统的迭代效率和稳定性较差,我们打算做重构改造,但重构周期较长,在改造完成之前还有大量的需求迭代。因此我们打算先从稳定性和迭代效率出发做一些微小的升级,其中一项效率提升便是升级编译工具 和 GCC 版本。 老系统使用 Autotools

[转帖]Code Cache满导致应用性能降低

https://juejin.cn/post/6844903601786060808 0 问题描述 一个应用在运行一段时间后,随着访问量不断增加,突然处理能力下降。但是从流量,jstack,gc上看基本正常。感觉好像突然从 “健康状态” 进入了 “虚弱状态”。 1 排查问题 在JVM日志里,可以发现

[转帖]滥用Lua导致Redis内存无法被限制

https://axlgrep.github.io/tech/redis-memory-control.html 问题描述 最近发现线上某个Redis实例内存占用达到了17.21G, 但是该实例中实际的用户数据并不是很多(大概200Mb的样子), 此外mem_fragmentation_ratio达

[转帖]巨坑的crontab环境变量导致定时脚本无法运行

https://www.jianshu.com/p/03fd78061e88 在CentOS7中跑MySQL定时备份脚本,单独执行脚本能够正常执行,但是设置好定时任务后开始一直无法执行。 操作: 1、查看定时任务是否设置好 crontab -l image.png 显示已经设置好了定时任务2、查看任

[转帖]TIME_WAIT 过多导致的问题

https://www.cnblogs.com/byfboke/p/14431176.html 背景:由于秒杀业务需求,会有持续并发连接的情况 问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用 解决:基于三个层面考虑 1>调优系统网络

[转帖]TIME_WAIT 过多导致的问题

https://www.cnblogs.com/byfboke/p/14431176.html 背景:由于秒杀业务需求,会有持续并发连接的情况 问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用 解决:基于三个层面考虑 1>调优系统网络

[转帖]Oracle大页未正常使用导致大量SWAP案例分析

http://blog.itpub.net/30310891/viewspace-2927363/稀奇古怪的.. 故障背景 某次,用户反馈一套已经正常运行一段时间的 Oracle 11.2.0.4 RAC 数据库( 128G 物理内存),在调整 process 阈值之后, R AC 集群中其中一个节

[转帖]炸了~Redis bigkey导致生产事故-bigkey问题全面分析

文章首发于公众号:BiggerBoy 原文链接 一个Redis生产事故的复盘,整理这篇文章分享给大家。本期文章分析Redis中的bigkey相关问题,主要从以下几个点入手: 文章目录 什么是bigkey?bigkey的危害bigkey的产生如何发现bigkey实际生产的操作方式 如何优化bigkey

[转帖]炸了~Redis bigkey导致生产事故-bigkey问题全面分析

https://blog.csdn.net/ibigboy/article/details/124216874 文章首发于公众号:BiggerBoy 原文链接 一个Redis生产事故的复盘,整理这篇文章分享给大家。本期文章分析Redis中的bigkey相关问题,主要从以下几个点入手: 文章目录 什么

[转帖]一个空格导致应用启动失败的问题排查

2021-02-03 分类:Java / spring 阅读(2930) 评论(2) GitHub 24k Star 的Java工程师成神之路,不来了解一下吗! 先交代一下背景,在很久之前,我曾经封装过一个分库分表的扫表工具——Full Table Scanner,主要实现方式是通过使用TDDL H

[转帖]并发delete导致oracle死锁问题的解决

项目中有一个批处理任务,用来删除数据库中过期的数据(包括说话人的语音、模型、记录等),当程序被分布式部署后,就会有多个批处理线程同时进行删除,不过不同的线程,会根据元信息表得到不同的说话人信息,从而删除不同的数据,并不存在竞争的问题,但是,当项目使用oracle数据库在线上运行时,却频繁出现了ORA

[转帖]Code Cache满导致应用性能降低

https://juejin.cn/post/6844903601786060808 0 问题描述 一个应用在运行一段时间后,随着访问量不断增加,突然处理能力下降。但是从流量,jstack,gc上看基本正常。感觉好像突然从 “健康状态” 进入了 “虚弱状态”。 1 排查问题 在JVM日志里,可以发现

[转帖]【技术剖析】2. JVM锁bug导致G1 GC挂起问题分析和解决

https://bbs.huaweicloud.com/forum/thread-144146-1-1.html 发表于 2021-07-29 20:07:087037查看 作者:宋尧飞 编者按:笔者在AArch64中遇到一个G1 GC挂起,CPU利用率高达300%的案例。经过分析发现问题是由JVM