[转帖]针对容器的nginx优化

针对,容器,nginx,优化 · 浏览次数 : 0

小编点评

**1. 与我们预期的相符吗?** 是的,与我们预期的相符。根据 Nginx 的代码风格,我们可以推断它在容器内获取可用 CPU 核数的方式为解析 cgroup 文件。 **2. 指定了 --cpuset-cpus 能使用的核心数为 2 个,为什么获取到的 CPU 核心数还是 32 呢?** 因为容器只是轻量级的隔离环境,它并非真正的操作系统。因此,在容器中获取可用 CPU 核数和 Memory 大小均是物理机配置的。 **3. 方法 1:先来说一下普遍使用的 Lxcfs,对于上边提到的场景是不适用的,Lxcfs 目前仅支持改变容器的 CPU 视图(/proc/cpuinfo 文件内容)并且只有 --cpuset-cpus 参数可以生效,对于系统调用 sysconf(_SC_NPROCESSORS_ONLN) 返回的同样还是物理机的 CPU 核数。** 建议使用方法 2 或方法 3,根据容器的实际资源情况动态设置 worker 进程数。 **4. 方法 2:通过创建引导程序根据容器可以使用的物理资源自动计算出合理值并设置应用程序的启动参数。** 方法 3:应用程序自行解析容器内的 cgroup 信息,并设置程序的启动参数。 **5. 方法 4:劫持系统调用 sysconf,在类 Unix 系统上可以通过 LD_PRELOAD 这种机制预先加载个人编写的动态链接库,在动态链接库中劫持系统调用 sysconf 并根据 cgroup 信息动态计算出可用的 CPU 核心数。** **6. 总结** 我们可以通过解析 cgroup 文件获取容器可用 CPU 核数,并根据需要动态设置 worker 进程数。然而,由于容器是轻量级的隔离环境,因此我们不能直接使用 Java 的方法来解析 cgroup 文件。

正文

针对容器的nginx优化

 

本篇文章介绍了 Nginx 在容器内使用遇到的CPU核数获取问题以及对应的解决方法。

回顾上篇文章:TCP 半连接队列和全连接队列

背景

容器技术越来越普遍,很多公司已经将容器技术作为基础架构的一部分,容器中可以运行任何软件,包括 Web Server、Application Server、数据库和存储系统等,其中 Nginx 作为 Web Server 使用也非常的普遍,接下来本文简要分析下 Nginx 在容器内使用遇到的一点小问题。

我们在物理机上配置 Nginx 时通常会将 Nginx 的 worker 进程数配置为 CPU 核心数并且会将每个 worker 绑定到特定 CPU 上,这可以有效提升进程的 Cache 命中率,从而减少内存访问损耗,不放过任何能够榨取系统性能的机会;对于需要手动配置 Nginx 进程个数的场景不在本文的讨论范畴内,例如:磁盘 IO 密集型业务可能会导致 Nginx 进程阻塞,我们通常会将 Nginx 的进程数设置为 CPU 核数的 2 倍,用于提高整体的并发。

在 Nginx 配置中指定 worker_processes 指令的参数为 auto 来自动检测系统的 CPU 核心数从而启动相应个数的 worker 进程,那么在 Linux 系统上 Nginx 是怎样获取 CPU 核心数的呢?答案是通过系统调用 sysconf(_SC_NPROCESSORS_ONLN) 获取到系统当前可用的 CPU 核心数。如果我们在一个 CPU 是 32 cores 的物理机上启动 Nginx,那么 sysconf(_SC_NPROCESSORS_ONLN) 返回值为 32。

存在问题

假如我们将 Nginx 放进 Docker 启动的容器内,sysconf(_SC_NPROCESSORS_ONLN) 的返回值是多少呢?

通过 docker run 启动一个带有 Nginx 的容器,暂时不对此容器的 CPU 资源做任何限制也就是可以使用物理机上的所有资源,我们来观察 Nginx 进程启动的进程数(确认 Nginx 配置中的 worker_processes 指令设置为 auto),答案其实大家都清楚的 Nginx 启动了 32 个 worker 进程。

接下来我们对容器的 CPU 资源做限制,通过 docker run 时指定 --cpuset-cpus="0,1" 参数绑定容器内的进程到 CPU-0 和 CPU-1 上,然后再来观察 Nginx 进程启动的进程数,同样还是 32 个 worker 进程;对容器设置 cpu-shares 和 cpu-quota 也会得到同样的结果。

那么问题来了:

1. 与我们预期的相符吗?

2. 指定了 --cpuset-cpus 能使用的核心数为 2 个,为什么获取到的 CPU 核心数还是 32 呢?

第 1 个问题:

很多人都是知道的,我们更期望的结果对于上边的设置只启动两个 worker 进程,进程得到的 CPU 时间片期望被 2 个进程分摊,现在需要被 32 个进程分摊;从 Nginx 角度来看想要获得更多的时间片就需要减少在这个 CPU 上运行的进程,这样整体性能才会提升。对于 Nginx 来说也就是期望根据可用的 CPU 核数启动相应的进程数,而不是根据物理机上可用的 CPU 核数来设置进程数。

第 2 个问题:

对于容器来说目前还只是一个轻量级的隔离环境,它并不是一个真正的操作系统,那么在容器中获取可用 CPU 核心数和 Memory 大小均是物理机配置。在没有容器的时候很多软件依赖于操作系统的资源进行初始化配置的,例如:JVM 根据 CPU 核数启动相应的 gc 线程,根据物理机的 memroy 设置堆大小。

压测对比

我们通过一个简单的压测对比一下在容器中 Nginx 启动不同 worker 进程对 QPS 和 Latency 影响有多大。

物理机:32cores

容器参数:

cpu-quota=400000(即容器内的进程最多可以使用 400% 的 CPU)

压测指令:

wrk -t 32 -c 500 -d 180 http://container_ip

提前准备:

容器内安装 Openresty、将 worker_processes 修改为 4 和 32,关闭 access 日志,响应数据为 541byte。

以下是 Nginx 的 QPS 和 Latency 压测结果,QPS 从 12 万 + 降到了 4 万 +,Latency 也从 6+ms 降到了 25+ms。

解决方法

从以上压测数据可以看出,Nginx 在设置 worker 进程数为 4 和 32 时 QPS 和 Latency 有很大的差距的,了解了以上问题我们该如何解决呢?

方法 1:

先来说一下普遍使用的 Lxcfs,对于上边提到的场景是不适用的,Lxcfs 目前仅支持改变容器的 CPU 视图(/proc/cpuinfo 文件内容)并且只有 --cpuset-cpus 参数可以生效,对于系统调用 sysconf(_SC_NPROCESSORS_ONLN) 返回的同样还是物理机的 CPU 核数。

方法 2:

通过创建引导程序根据容器可以使用的物理资源自动计算出合理值并设置应用程序的启动参数,例如:通过 shell 脚本动态修改 Nginx 的 worker 进程数。

方法 3:

应用程序自行解析容器内的 cgroup 信息,并设置程序的启动参数。Docker 在 1.8 版本以后将容器分配的 cgroup 信息挂载进了容器内部,在容器内可以通过解析 cgroup 信息获取到当前容器可以使用的资源信息。例如:JDK 10 中引入了支持 Docker 容器的资源检测并配置 JVM 的运行时参数,它的原理就是解析容器内的 cgroup 信息配置 gc 线程数以及堆大小。

方法 4:

劫持系统调用 sysconf,在类 Unix 系统上可以通过 LD_PRELOAD 这种机制预先加载个人编写的的动态链接库,在动态链接库中劫持系统调用 sysconf 并根据 cgroup 信息动态计算出可用的 CPU 核心数。

小结

我们团队也参考了 JVM 的实现并根据 Nginx 的代码风格给 Nginx 打了一个 patch,使 Nginx 的 worker_processes auto 参数能够根据当前容器的可用资源自动计算出合理的 worker 进程数,同时也提交给了 Nginx 社区,但是很遗憾 Nginx 社区负责人 Maxim 并不愿意接受这种实现方式,他更希望的是容器能透明支持 sysconf(_SC_NPROCESSORS_ONLN) 系统调用的功能,而不是用这种解析 cgroup 文件的方式实现,于是我们就实现了一个可以劫持系统调用 sysconf 的动态链接库。

可能有人会有疑问,为什么 JVM 能接受解析 cgroup 文件这种方式,而 Nginx 却不能接受这种方式呢?

根据我的理解目前这个小问题对 Nginx 不是最痛的,不支持也不妨碍使用,另一点是 Nginx 作者以及现在的主要维护者 Maxim 都有重度代码洁癖,从代码风格以及代码中几乎无注释可以感受的到,Nginx 推崇的是代码即文档,要求写代码的人像写文档一样使代码的可读性非常高,对于这种用几百行代码解决的问题他们更不能忍受。而 JVM 支持的这种方式很大原因是这个问题的确很痛,网上有很多人都有报 JVM 在容器内的配置不合理导致运行时出现各种问题,所以目前通用的解决方案也只能是解析 cgroup 文件来自动化支持。

其他

如果你对 Nginx 容器内自动检测可用 CPU 核数的功能感兴趣可以自行patch:

http://mailman.nginx.org/pipermail/nginx-devel/2018-April/011078.html

如果你对容器内劫持系统调用 sysconf 的功能感兴趣可以从这里下载到源码:

https://github.com/agile6v/container_cpu_detection

JDK10 支持检测容器资源的 patch 看这里:

https://bugs.openjdk.java.net/browse/JDK-8146115

与[转帖]针对容器的nginx优化相似的内容:

[转帖]针对容器的nginx优化

针对容器的nginx优化 本篇文章介绍了 Nginx 在容器内使用遇到的CPU核数获取问题以及对应的解决方法。 回顾上篇文章:TCP 半连接队列和全连接队列 背景 容器技术越来越普遍,很多公司已经将容器技术作为基础架构的一部分,容器中可以运行任何软件,包括 Web Server、Applicatio

[转帖]Flannel 环境搭建与分析

https://switch-router.gitee.io/blog/flanenl/ 介绍 Flannel是CoreOS团队针对Kubernates设计的跨主机容器网络解决方案, 它可以使集群中不同节点上运行的docker容器都具有全集群唯一的虚拟IP地址。 举个例子,在一个由3台主机节点组成系

[转帖]Flannel 环境搭建与分析

https://switch-router.gitee.io/blog/flanenl/ 介绍 Flannel是CoreOS团队针对Kubernates设计的跨主机容器网络解决方案, 它可以使集群中不同节点上运行的docker容器都具有全集群唯一的虚拟IP地址。 举个例子,在一个由3台主机节点组成系

[转帖]Linux系统中的tar命令

https://www.cnblogs.com/PatrickLiu/p/9761988.html 时间一长什么东西都容易忘记,尤其是一些不常用的东西忘记的更快,所以避免忘记,就记录下来,可以方面使用的时候查询。Tar命令在linux系统中算是一个比较重要的命令,今天就针对该命令进行总结一下。 1.

[转帖]技术派-汇编语言指令集(intel X86系列)

针对汇编语言指令集(intel X86系列8086/80186/80286/80386/80486) AAA - Ascii Adjust for Addition AAD - Ascii Adjust for Division AAM - Ascii Adjust for Multiplicati

[转帖]043、TiDB特性_缓存表和分区表

针对于优化器在索引存在时依然使⽤全表扫描的情况下,使⽤缓存表和分区表是提升查询性能的有效⼿段。 缓存表 缓存表是将表的内容完全缓存到 TiDB Server 的内存中表的数据量不⼤,⼏乎不更改读取很频繁缓存控制: ALTER TABLE table_name CACHE|NOCACHE; # 使用t

[转帖]阿里架构师进阶专题:Redis集群的5种使用方式,各自优缺点分析

https://www.toutiao.com/article/6611108111048507908/ 本文主要针对 Redis 常见的几种使用方式及其优缺点展开分析。 一、常见使用方式 Redis 的几种常见使用方式包括: Redis 单副本 Redis 多副本(主从) Redis Sentin

[转帖]测试架构师必备的知识体系

https://www.jianshu.com/p/57fc1e0dd945 要想针对当前的产研情况做出最恰当的测试选择,除了对测试的把控能力之外,行业、产品、业务、架构、实现、项目管理等都是测试策略需要考虑的因素,这就要求测试架构师能用全局的视角,系统分析和解决问题。 制定测试策略本身也有很多技术

[转帖]网络传输性能netperf测试方法和下载

简介 Netperf是一种网络性能的测试工具,主要针对基于TCP或UDP的传输。Netperf根据应用的不同,可以进行不同模式的网络性能测试,即批量数据传输(bulk data transfer)模式和请求/应答(request/reponse)模式。 Netperf工具以client/server

[转帖]突破 etcd 限制!字节自研 K8s 存储 KubeBrain

https://my.oschina.net/u/5632822/blog/5596911 KubeBrain 是字节跳动针对 Kubernetes 元信息存储的使用需求,基于分布式 KV 存储引擎设计并实现的、可以取代 etcd 的元信息存储系统,目前支撑着线上超过 20,000 节点的超大规模