记一次asp.net 8 服务器爆满的解决过程

asp,net · 浏览次数 : 7

小编点评

## 服务器配置 **两台服务器配置:** * **importapi:** 8c16g CPU, 16GB RAM, IIS 8.0 * **webapi:** 2c4g CPU, 4GB RAM, IIS 8.0 **业务描述:** * **importapi:** 用于数据导入的服务器,处理数据采集和写入操作。 * **webapi:** 用于用户端的数据查询,处理接口请求。 **问题表现:** * 当天晚上10点过后,mongodb、sqlserver和对外的webapi接口站点的进程突然cpu占用率暴涨。 * mongod平均60-80%,sqlserver占用10%,内存占用了50%,且远程桌面操作不卡,但数据接口处理时间跟平时一样200ms左右,数据不及时。 **解决方式及思路:** 1. **优化写入操作:** * 将多个写入操作合并到一个操作中。 * 使用异步连接优化数据库连接操作。 * 使用缓存机制减少数据库查询次数。 * 使用异步处理中间结果。 2. **优化数据库连接:** * 使用连接池减少连接打开次数。 * 降低连接关闭时的清理操作。 * 使用批量查询优化数据库查询效率。 3. **优化服务器性能:** * 使用反向代理降低服务器处理请求的数量。 * 使用nginx限制请求数量。 * 使用反向配置优化网站访问速度。 4. **优化数据传输:** * 使用mmap读写优化数据读取效率。 * 使用压缩技术压缩传输数据。 5. **清理日志:** * 定期清理日志文件,删除冗余的日志记录。 * 使用日志分析工具分析日志数据。 6. **监控服务器性能:** * 使用监控工具监控服务器性能,及时发现异常。 * 使用日志记录分析发现问题。 **最终原因分析:** * 问题是由前端两个站点在使用同一数据接口时,在一个页面切换过程中产生了并发写入问题。 * 导致问题出现的关键因素是前端的两个页面同时使用了同一个数据接口,导致连接争抢,性能下降。 * 通过逐步优化数据库连接、缓存、反向代理、日志清理等措施,最终解决问题。 **注意:** * 建议根据实际情况进行性能测试,确定最有效的优化方案。 * 建议使用监控工具监控服务器性能,及时发现问题并进行处理。

正文

1.描述一下服务器配置:

一台2c4g的centos,做api接口反代

一台8c16g的windows 2019 作为实际服务器,跑了iis,sql server,mongodb,redis

2.业务描述

    2.0  服务器分为两个站点:importapi:用于处理数据导入,,,webapi:用于处理对用户端的数据查询

    2.1 从数据源采集数据后,经过一系列的操作之后,写入sql和mongodb,部分基础信息会缓存在redis中,根据数据量的大小,从处理到写入的整个流程时间在60ms-1200ms之间,平均每秒服务器需要处理到2-3条数据,同一类型的数据使用队列处理,避免并发写入导致数据回跳或者出现脏数据的问题.

    2.2 用户web端,每秒定时通过接口读取数据,并显示界面上

3.使用到技术/类库

    Asp.net core 8,easycaching,freesql,redis

4.问题表现

    当天晚上10点过后,突然mongodb,sqlserver和对外的webapi接口站点的进程突然cpu占用率暴涨,mongodb平均60-80%.webapi占用20%,sqlserver占用10%,内存占用了50%,,且远程桌面操作不卡,webapi数据接口处理时间跟平时一样200ms左右,但是数据不及时,通过日志检查的到,importapi站点原本处理时间上涨到6s-12s直接,导致了数据处理不及时,处理队列积压严重,从而导致了数据更新不及时.并且webapi接口项目不定时报"The wait queue for acquiring a connection to server 127.0.0.1:xxx is full".错误.从理论上说,我们的站点是小众站点,业内人士使用,并不会出现突然涌进几十倍的用户的情况出现的

5.解决方式以及思路

    从表现上看,是mongodb的压力突然暴涨,导致写入变慢,但是压力来源是哪里,由于还没安装监控面板,所以也没办法查看,因此只能按业务反向的思路去解决,总的解决用了一下几个点

   5.1 从导入的业务流程入手,尽量优化写入以及数据分析操作所需要用的时间(之前几天就想好的优化方案了,只是还没上而已)

   5.2 关掉mongodb client 的 关掉WithWriteConcern

   5.3 在webapi接口项目,action上加入加上ResponseCache,过期时间3秒,(这里的3秒主要是按业务上考虑的)

   5.4 关掉反代nginx的日志(减少点压力,本来反代的服务器性能就没多高)

   5.5  nginx开限流,10r/s/ip burst=20

   5.6 准备一把刀(作用看后面)

   以上处理后,importapi导入的时间降低到30ms-700ms,并且webapi输出时间降低到50-300ms(缓存内50ms,缓存外300ms),mongodb的cpu占用降低到10%内,webapi占用5%下,,

6.最终原因分析

    说起来,,问题其实很简单,本来是只有一个前端站点把数据接口指向过来服务器的,,前两天迁移了另外一个站点,把数据接口也指向到这台接口服务器,意思就是两个web站点,使用同一套数据接口,,新接过来的站点,前端写完代码后,没检查,导致了一个致命的问题,由于前端使用vue,切换页面的时候调用了暂停每秒一次的定时器,然后进入详情页后,开了一个新的定时器,也是每秒取一次另外一个接口的数据,,最大的问题就出现在,进入详情页后,列表页的定时器调用关闭的函数报错了,,实际定时器是没关的,,这tm就吐血了,进去一次,开一个新的,后退到列表页又开一个新的,,来回10次,意味着加了20个每秒请求一次的的定时器,,直接自己ddos自己.至于这个问题怎么发现的,,,是解决完问题后,不死心,,去两个站点里翻找问题,本来以为这个问题在很久之前测试的时候出现过一次,应该不会再出现的,,,结果,,,,

7. 总结,,本次问题出现从晚上10点,一步一步优化,12点多1点的时候基本代码层面解决到1秒以内,,剩下的一些nginx的优化扫尾工作再花个不到一个钟头(开限流,关日志之类的操作),顺便帮前端的两个站点的centos服务器上,把nginx的静态文件gzip跟缓存功能也打开了,清理了一下写入到mongodb的日志,至于那把刀是今天准备给前端的

与记一次asp.net 8 服务器爆满的解决过程相似的内容:

记一次asp.net 8 服务器爆满的解决过程

1.描述一下服务器配置: 一台2c4g的centos,做api接口反代 一台8c16g的windows 2019 作为实际服务器,跑了iis,sql server,mongodb,redis 2.业务描述 2.0 服务器分为两个站点:importapi:用于处理数据导入,,,webapi:用于处理对

.NET8 Identity Register

分享给需要帮助的人:记一次 IdentityAPI 中注册的源码解读:设置用户账户为未验证状态,以及除此之外更安全的做法: 延迟用户创建。包含了对优缺点的说明,以及适用场景。 在ASP.NET 8 Identity 中注册API的源码如下: routeGroup.MapPost("/register

Blazor Server 发起HttpPost请求,但是多参数

一、介绍 今天突然想起之前工作上遇到的一个问题,在做Blazor 开发时后端给的一个接口请求方式是Post ,但是他需要携带多个参数,新建一个公共类又觉得麻烦,我就尝试着怎么在Post请求中携带多个参数,由于接触Asp .Net Core 的时间不够长,所以这些都不是太了解, 今天写下这篇文章做个记

记一次 .NET某网络边缘计算系统 卡死分析

一:背景 1. 讲故事 早就听说过有什么 网络边缘计算,这次还真给遇到了,有点意思,问了下 chatgpt 这是干嘛的 ? 网络边缘计算是一种计算模型,它将计算能力和数据存储位置从传统的集中式数据中心向网络边缘的用户设备、传感器和其他物联网设备移动。这种模型的目的是在接近数据生成源头的地方提供更快速

记一次RocketMQ消费非顺序消息引起的线上事故

应用场景 C端用户提交工单、工单创建完成之后、会发布一条工单创建完成的消息事件(异步消息)、MQ消费者收到消息之后、会通知各处理器处理该消息、各处理器处理完后都会发布一条将该工单写入搜索引擎的消息、最终该工单出现在搜索引擎、被工单处理人检索和处理。 事故异常体现 1、异常体现 从工单的流转记录发现、

记一次难忘的json反序列化问题排查经历

前言 最近我在做知识星球中的商品秒杀系统,昨天遇到了一个诡异的json反序列化问题,感觉挺有意思的,现在拿出来跟大家一起分享一下,希望对你会有所帮助。 案发现场 我最近在做知识星球中的商品秒杀系统,写了一个filter,获取用户请求的header中获取JWT的token信息。 然后根据token信息

记一次 .NET某机械臂上位系统 卡死分析

一:背景 1. 讲故事 前些天有位朋友找到我,说他们的程序会偶发性的卡死一段时间,然后又好了,让我帮忙看下怎么回事?窗体类的程序解决起来相对来说比较简单,让朋友用procdump自动抓一个卡死时的dump,拿到dump之后,上 windbg 说话。 二:WinDbg 分析 1. 主线程在做什么 要想

记一次 .NET某工厂报警监控设置 崩溃分析

一:背景 1. 讲故事 前些天有位朋友在微信上丢了一个崩溃的dump给我,让我帮忙看下为什么出现了崩溃,在 Windows 的事件查看器上显示的是经典的 访问违例 ,即 c0000005 错误码,不管怎么说有dump就可以上windbg开干了。 二:WinDbg 分析 1. 程序为谁崩溃了 在 Wi

记一次 .NET某游戏币自助机后端 内存暴涨分析

一:背景 1. 讲故事 前些天有位朋友找到我,说他们的程序内存会偶发性暴涨,自己分析了下是非托管内存问题,让我帮忙看下怎么回事?哈哈,看到这个dump我还是非常有兴趣的,居然还有这种游戏币自助机类型的程序,下次去大玩家看看他们出币的机器后端是不是C#写的?由于dump是linux上的程序,刚好win

记一次 .NET某工控视觉自动化系统 卡死分析

一:背景 1. 讲故事 今天分享的dump是训练营里一位学员的,从一个啥也不会到现在分析的有模有样,真的是看他成长起来的,调试技术学会了就是真真实实自己的,话不多说,上windbg说话。 二:WinDbg 分析 1. 为什么会卡死 这位学员是从事工控大类下的视觉自动化,也是目前.NET的主战场,这个