[转帖]Linux 页表、大页与透明大页

linux,页表,透明 · 浏览次数 : 0

小编点评

**Memlock** Memlock是一个用于锁定内存的大小设置参数。通常使用在**Oracle数据库**中来控制大内存页大小。 **Oracle数据库** **大内存页** 大内存页是用于共享内存的内存段。大内存页可以被分配给多个**Oracle数据库**实例。 **透明大页** 透明大页是允许大页面做动态分配的内存段。透明大页可以被分配给多个**Oracle数据库**实例。 **设置Memlock** **Memlock** Memlock是一个用于锁定内存的大小设置参数。默认设置的Memlock大小为**3G**。 **Memlock大小的设置** Memlock大小的设置可以在**Oracle数据库**中使用**SYS**参数设置。例如,以下设置可以设置Memlock大小为**5G**: ``` SYS MEMLOCK_SIZE=5G ``` **使用Memlock** **使用Memlock** 使用Memlock可以锁定内存的大小。例如以下设置可以锁定**5G**内存: ``` SYS MEMLOCK_SIZE=5G ``` **注意** **Memlock**的大小设置可以影响大页面分配的性能。如果设置过小,可能导致大页面无法分配。如果设置过大,可能导致内存不足。

正文

一、 内存映射与页表

1. 内存映射

我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。

Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存

虚拟地址空间的内部又被分为内核空间和用户空间两部分,不同字长(单个 CPU 指令可以处理数据的最大长度)的处理器,地址空间的范围也不同。比如最常见的 32 位和64 位系统:

既然每个进程都有一个这么大的地址空间,那么所有进程的虚拟内存加起来,自然要比实际的物理内存大得多。所以,并不是所有的虚拟内存都会分配物理内存,只有那些实际使用的虚拟内存才分配物理内存,并且分配后的物理内存,是通过内存映射来管理的。内存映射,其实就是将虚拟内存地址映射到物理内存地址。

2. 页表

为了完成内存映射,内核为每个进程都维护了一张页表,记录虚拟地址与物理地址的映射关系,如下图所示:

页的大小只有 4 KB ,导致的另一个问题就是,当物理内存很大时,页表会变得非常大,占用大量物理内存。

4. 页表的简单工作原理

下图是比较简单情况下的示意图,用于描述在32位系统下,页大小为4K时,操作系统如何为进程的虚拟地址和实际物理地址进行转换:

  • 目录表是用于索引页表的数据结构,其中存储着目录项(共1024个、每个4B,因此目录表共4B*1024=4K ),每个目录项指向一个页表,即可以存储1024个页表。

  • 页表,用来存放物理地址页的起始地址,即页表项(也是共1024个、每个4B,因此一个页表的大小也是4K),由于目录表最多可存1024个页表,因此页表的最大大小是1024*4K=4M。

  • 页表项,每个页表项指向4K的物理内存页,因此页表一共可以指向的物理内存大小为:1024(页表数)*1024(每个页表的页表项数)*4K(一个页表项指向的物理内存大小)=4G

假如一个进程,访问的物理内存有1GB,即262144个内存页,在32位系统中,页表需要262144*4/1024/1024=1MB,而在64位系统下,页表占用的空间增加1倍,即2MB。

对于Linux系统中运行的Oracle数据库,假如数据库的SGA大小12GB,如果一个Oracle Process访问到了所有的SGA内存,其页表大小会是24MB,如果有300个左右的会话,那么这300个连接的页表会达到7200MB,只不过并不是每个进程都会访问到SGA中所有的内存。

页表大小可以通过 /proc/meminfo 的 PageTables部分查看。

为了解决页表项过多的问题,Linux 提供了两种机制,也就是多级页表和大页(HugePage),后面我们以大页为重点。

二、 大页

大页顾名思义,就是比较大的页,通常是2MB。由于页变大了,需要的页表项也就小了,占用物理内存也减少了。

1. 大页的优点

  • 减少页表大小:默认页面大小为 4K,而大页为 2048K,意味着系统需要处理的页面减少了 512 倍。大页的页表在各进程之间可以共享,也降低了页表的大小。
  • 减少页表遍历:大页覆盖更大的连续虚拟地址范围,使得CPU中的TLB(可理解为CPU对页表的CACHE)命中率大大提高,减少了遍历页表以从虚拟地址获取物理地址的次数。
  • 减少页表查找开销:
  • 避免swap:大页内存只能锁定在物理内存中,不可swap,因此没有page-in/page-out机制开销,避免了swap引起的性能影响。
  • 减少了内存开销:由于要处理的页面数量较少,明显减少了页表访问可能出现的瓶颈。

2. 大页的缺点

  • 要预先分配
  • 需要重启主机生效
  • 当服务器内存或SGA调整时,需要对应调整大页设置
  • 如果分配不当(过多、过少、os参数配置错误),反而可能引起严重问题

严重问题可能包括:

  • (绝)大部分大页内存未能使用,严重浪费内存
  • 数据库性能差
  • 系统内存不足或交换过多
  • 数据库实例无法启动
  • 关键系统服务失败
  • 极高的sys cpu使用率

3. 大页的分配方法

  • 检查/proc/meminfo,确认系统支持HugePage

  • HugePages Total:系统中配置的大页数。
  • HugePages Free:没有访问过的大页数。
  • HugePages Rsvd:已经分配但是还未使用的页面数。
  • Hugepagesize:大页size,这里为2MB,有的内核配置中可能为4MB。

  • 设置memlock

设定oracle用户可以锁定内存的大小。这个参数在/etc/security/limits.conf文件,单位是KB。开启大页时,这个参数很重要,如果设置过小,可能导致大页无法被用到,白白浪费内存。

根据 What is Memlock and How to Calculate the Values for Memlock? (Doc ID 2511230.1) 文档建议:

  • 未启用大页:至少为3G
  • 启用为大页:至少设置为服务器内存的90%
  • 建议大小:内存大小 > memlock大小 >= 大页总内存 > SGA

例如:

  1. oracle soft memlock 18878464
  2. oracle hard memlock 18878464

重新以oracle用户连接到数据库服务器,使用ulimit -a命令便可看到对应设置

  • 改为AUTO方式管理SGA

对于11g,由于HugePage只能用于共享内存,不能用于PGA,所以不能使用AMM,只能分别设置SGA和PGA。SGA同样只能是AUTO方式管理,需要将SGA_TARGET_SIZE设为大于0的合适值。

  • 查看建议的大页数量

到目前为止,大页只能用于共享内存段等少量类型的内存。一旦将物理内存用作大页,那么这些物理内存就不能作其他用途,比如作为进程的私有内存。因此不能将过多的内存设置为大页,通常将大页用作Oracle数据库的SGA。

 Oracle Linux: Shell Script to Calculate Values Recommended Linux HugePages / HugeTLB Configuration (Doc ID 401749.1) 提供了计算建议值的脚本。需要先设置好SGA等参数、启动Oracle、并以Oracle用户执行该脚本

  • 修改/etc/sysctl.conf文件,设置vm.nr_hugepages=建议值,执行sysctl –p命令

vm.nr_hugepages这个参数值为上步计算出的建议值。然后检查/proc/meminfo,如果HugePages_Total小于设置的数量,表明没有足够的连续物理内存用于这些大内存页,需要重启服务器。

  • 重启服务器和数据库,检查大页使用情况

大页是惰性分配的,用到才会分配。随着数据库的使用,可以在/proc/meminfo中查看HugePages_Free是否已经减少。如果已经减少,表明已经使用到HugePage Memory。

三、 透明大页

在一些Linux系统中,transparent hugepage被默认开启,它允许大页做动态的分配,而不是系统启动后就分配好,根据Oracle MOS DOC:1557478.1,transparent hugepage导致了很多的问题,建议将其关闭。

1. 查看是否启用

  1. #未启用应该看到[never]
  2. cat /sys/kernel/mm/transparent_hugepage/enabled

如果这个文件不存在,则检查

  1. #未启用应该看到[never]
  2. cat /sys/kernel/mm/redhat_transparent_hugepage/enabled

如果2个文件都不存在,说明系统内核中移除了THP,例如OEL 7。

2. 关闭透明大页

  • Redhat & Centos
  1. # 重启后失效
  2. echo never > /sys/kernel/mm/transparent_hugepage/enabled
  3. echo never > /sys/kernel/mm/transparent_hugepage/defrag
  4. # 开机时设置never到以上文件中
  5. echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.d/rc.local
  6. echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.d/rc.local
  7. chmod +x /etc/rc.d/rc.local
  • SUSE Linux(区别在于开机设置never需要配置到的文件不同)
  1. # 重启后失效
  2. echo never > /sys/kernel/mm/transparent_hugepage/enabled
  3. echo never > /sys/kernel/mm/transparent_hugepage/defrag
  4. # 开机时设置never到以上文件中
  5. echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/init.d/boot.local
  6. echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/init.d/boot.local
  7. chmod +x /etc/init.d/boot.local

参考

Oracle Memory Management and HugePage (连载二)_ITPUB博客

Oracle Memory Management and HugePage (连载三) _ITPUB博客

Linux大内存页Oracle数据库优化 - 墨天轮

【云和恩墨】性能优化:Linux环境下合理配置大内存页(HugePage) - ^_^小麦苗^_^ - 博客园

《Linux性能优化实战》笔记(八)—— 内存是怎么工作的_Hehuyi_In的博客-CSDN博客

Linux之关闭大页【即关闭透明大页】_LawsonAbs's Spiritual Home-CSDN博客_关闭大页

HugePages on Oracle Linux 64-bit (文档 ID 361468.1)

Oracle Linux: Shell Script to Calculate Values Recommended Linux HugePages / HugeTLB Configuration (Doc ID 401749.1)
HugePages on Linux: What It Is... and What It Is Not... (Doc ID 361323.1)

What is Memlock and How to Calculate the Values for Memlock? (Doc ID 2511230.1)

文章知识点与官方知识档案匹配,可进一步学习相关知识
云原生入门技能树首页概览13564 人正在系统学习中

与[转帖]Linux 页表、大页与透明大页相似的内容:

[转帖]Linux 页表、大页与透明大页

一、 内存映射与页表 1. 内存映射 我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。 Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存。 虚拟地址空间的内部又被分为内

[转帖]Linux 页表、大页与透明大页

一、 内存映射与页表 1. 内存映射 我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。 Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存。 虚拟地址空间的内部又被分为内

[转帖]Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

【转帖】Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

[转帖]透明大页(huge pages) ---Transparent HugePages

https://www.coonote.com/linux-note/transparent-hugepages.html 从RedHat 6, OEL 6, SLES 11 and UEK2 kernels 开始,系统缺省会启用 Transparent HugePages :用来提高内存管理的性能

[转帖]Linux:页表中PGD、PUD、PMD、TLB等概念介绍

1、PGD: Page Global Directory Linux系统中每个进程对应用户空间的pgd是不一样的,但是linux内核 的pgd是一样的。当创建一个新的进程时,都要为新进程创建一个新的页面目录PGD,并从内核的页面目录swapper_pg_dir中复制内核区间页面目录项至新建进程页面目

[转帖]Linux 写时复制技术

https://www.cnblogs.com/dwtfukgv/p/15125933.html 目录 Linux fork Linux exec Linux 进程虚拟地址空间 栈 内存映射段 堆 BSS段 数据段 代码段 分段的优点 页表 写时复制原理 非写时复制fork一个子进程 写时复制for

[转帖]linux性能优化-内存回收

linux文件页、脏页、匿名页 缓存和缓冲区,就属于可回收内存。它们在内存管理中,通常被叫做文件页(File-backed Page)。通过内存映射获取的文件映射页,也是一种常见的文件页。它也可以被释放掉,下次再访问的时候,从文件重新读取。 大部分文件页,都可以直接回收,以后有需要时,再从磁盘重新读

[转帖]Linux下curl用法详解

https://zhuanlan.zhihu.com/p/430490147 Curl(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输,它是Linux下强大的http命令行工具,其功能十分强大,我们来看下帮助页面,参数非常丰富。

[转帖]Linux性能优化和内核观测 - 内存篇(一)

内存虚拟内存Linux 采用的是​​虚拟内存​​机制,每个进程都有自己的虚拟内存地址空间,仅当实际使用内存的时候才会映射到物理内存地址之上。这种设计提供了物理内存的超额分配,Linux 中的内存管理机制包括页换出守护进程(page out daemon)、物理换页设备(swap device),以及