一次nginx文件打开数的问题排查处理

现象:nginx域名配置合并之后,发现consul-template无法完成nginx重载,然后发现需要重启nginx,才能让配置生效。 注意:下次哪个服务有报错,就看重启时所有日志输出,各种情况日志输出。不要忽略细节。很多时候其实已经看到了问题,却没有深入查看问题。 查看进程最大打开文件个数 #c

记录一个HttpClient超时连接配置不生效的问题排查过程

现象 首先有一个被服务由于内存有限,导致巨卡。导致调用他的服务出现线程阻塞。jstack打印线程池如下所示: 开始排查解决问题 第一步:检查代码看是否超时设置是否正确,因为感觉超时设置正确不可能阻塞。 找到注入client的位置: 发现配置没有任何问题,此时感到了一点点慌张。(内心OS: 难不成Ht

一次Java服务内存过高的分析过程

现象 年前,收到了短信报警,显示A服务的某台机器内存过高,超过80% 如上图所示,内存会阶段性增加。奇怪的是,十多台机器中只有这一台有这个问题 堆内内存分析 最先怀疑是内存泄漏的问题,所以首先使用jmap命令把堆dump下来 jmap -dump:format=b,file=service.hpro

[转帖]记录一次spring-boot程序内存泄露排查

现象 spring boot项目jvm启动配置-Xms4g -Xmx4g,然而很不幸的是程序所占的内存越来越高,都达到了12个多G,只能临时重启服务 常用命令 jstat -class PIDjstat -compiler PIDjstat -gc PIDjstat -gccapacity PIDj

[转帖]解释docker单机部署kraft模式kafka集群时,尝试各种方式的网络broker全部不通而启动失败的原因,并提示常见bug关注点

现象: controller节点与其他两个broker的通信失败。公网ip,宿主机ip,服务名,各种网络方式,都无法成功。 两点提示: 1.bug原因:因为单机内存不够用,设置了较低的 KAFKA_HEAP_OPTS 参数值128M,导致broker通信失败! 2.kafka容器启动中,增加 BIT

[转帖]harbor-db restarting问题

现象: 在安装harbor后,启动时发现harbor-db 一直是restarting,/harbor-jobservice,/harbor-core 这两是starting 状态,如下图 解决: 1.查看你的数据库的挂载目录(对应的宿主机目录)是什么,去你的harbor的安装目录,例如我的是usr

ADG无法切换:报错 ORA-16467

现象: ADG无法切换:验证时就报错 ORA-16467 记录问题,顺便展现一次troubleshooting的心路历程。 具体查询: 在主库操作, @primary 切换验证: alter database switchover to demorac verify; 报错ORA-16467: SQ

Mapper that could not be found

现象1 mapper 资源扫不到 resources 建的是 目录 ,不是 package 所以如果直接 a.b 的方式创建,会扫描不到 mapper.xml 文件 现象2 缺少配置文件 HisDruidConfig SpringBoot 配置多数据源 现象3 没有启动添加扫描 启动项缺少扫描 Ma

用策略模式干掉代码里大量的if-eles或则Swatch,提升B格由面向过程转为面向对象

现象 大量的分支选择型代码段看着让人头疼 for (Field field : declaredFields) { Class type = field.getType(); String key = field.getName(); Element result = resultMap.ad

FAQ docker运行容器时遇到的一个iptables的报错

现象 某个同学执行docker启动容器的时候提示 docker: Error response from daemon: driver failed programming external connectivity on endpoint frosty_montalcini (5f23d1b819

慢SQL原因分析之索引失效

现象 最近收到一个慢sql工单,慢sql大概是这样:“select xxx from tabel where type = 1”。 咦,type字段明明有索引啊,为啥是慢sql呢? 原因 通过执行explain,发现实际上数据库执行了全表扫描,从而被系统判定为慢sql。这时有一定开发经验的同事会说:

[转帖]nfs丢包现象

nfs丢包现象 1.nfs mount出错整理:mount -t nfs -o nolock 192.168.1.99:/pub/share /mnt出现 RPC: Timed out 原因整理:A. 防火墙,SELinuxB. iptables规则(或者直接关掉防火墙)C. /etc/export

[转帖]k8s集群内偶现无法访问外部域名怎么解?

故障现象 容器内频现无法访问外部服务,是用ping测试有如下现象: # ping baidu.com -c 4 PING baidu.com (110.242.68.66) 56(84) bytes of data. 64 bytes from 110.242.68.66 (110.242.68.6

[转帖]org.hibernate.engine.query.spi.QueryPlanCache引起内存泄漏问题排查

问题现象: 一个后台服务在运行一段时间后,观察内存一直在增加,使用MAT工具,打开堆文件分析内存泄漏情况:fileName_Leak_Suspects的index 发现如下提示: One instance of "org.hibernate.internal.SessionFactoryImpl" 

[转帖]Fiddler抓取Chrome浏览器访问baiud.com报NET::ERR_CERT_COMMON_NAME_INVALID

错误现象 解决方法: 1、Chrome浏览器地址栏中输:chrome://net-internals/#hsts 2、在Query HSTS/PKP domain处搜索www.baidu.com网站, [什么是HSTS呢?它的作用是什么?]点击了解详情(https://blog.csdn.net/q

Windows server 2016:无法打开此计算机上的组策略对象。你可能没有相应的权限。

问题现象: 使用服务器管理器打开本地安全策略,或使用win+R快捷键,输入gpedit.msc打开系统组策略时,出现报错:无法打开此计算机上的组策略对象。你可能没有相应的权限。 解决方法: 1、使用win+E快捷键打开资源管理器,点击”查看“,勾选”隐藏的项目“,因为C:\Windows\Syste

iSCSI的客户端messages频繁报错问题解决

问题现象: 在自己的工作站中安装的RAC测试环境,使用了iSCSI模拟共享存储,环境运行OK,但是在messages信息中频繁报错如下: [root@db01rac2 ~]# tail -20f /var/log/messages Jan 13 23:08:37 db01rac2 iscsid: i

19c RAC 告警日志报错 ORA 7445 [pevm_icd_call_common()+225]

问题现象: 在一套2节点的19c RAC 环境下,节点2 alert告警 ORA 7445,且频度固定为每分钟报一次;期间有重启实例,但故障依旧: 2023-02-07T12:51:04.359849+08:00 PL/SQL package SYS.DBMS_RCVMAN version 19.1

为什么文件删除了但磁盘空间没有释放?

案例现象 这天,监控系统发来一条告警消息,内容说某台服务器根目录磁盘占用空间达到阈值,超过百分之八十了 登上服务器,df -Th 看一下,发现磁盘空间确实不够用了 进入到根目录,然后 du -sh * 可以看到,var 目录下的磁盘空间已经占用了 75G 既然如此,删除 var 目录下一些占空间较大

dmesg 时间误差现象

案例现象 这天收到监控平台发来的告警,说有台机器程序崩溃了 因为以前也有过相关的错误,根据经验,用 dmesg命令看下内核信息 发现有点不对劲,报错信息的时间跟告警时间不一致,正常来讲报错时间应该跟告警时间一致 使用 date 命令查看一下当前系统时间 然后我们查看一下系统日志 由上面的输出可以看到