[转帖]Linux 页表、大页与透明大页

linux,页表,透明 · 浏览次数 : 0

小编点评

**Oracle Memory Management and HugePage** **Introduction** Oracle Memory Management and HugePage are two important configuration parameters that influence the performance of Oracle database on Linux systems. Transparent HugePage is a feature that enables large page allocation without requiring explicit system configuration. **Setting HugePage Parameters** * **SGA_TARGET_SIZE** (Oracle 7.2 and above): Specifies the target size for the SGA pool. * **VM.NR_BIGPAGE** (Oracle 11.2 and above): Sets the maximum number of big pages that can be allocated. * **Transparent HugePage** (Oracle 7.2 and above): Enables the use of transparent huge pages. **Enabling Transparent HugePage** * Set the **transparent_hugepage** parameter to **TRUE** in the **oracle.sys** file. * Restart the Oracle database service. **Using Transparent HugePage** * Oracle automatically uses transparent huge page for allocation and deallocation operations. * It allows allocation of large pages without requiring explicit system configuration. **Conclusion** Oracle Memory Management and HugePage are essential configuration parameters that can optimize Oracle database performance on Linux systems. By setting the appropriate parameters, you can enable the use of transparent huge page, allocate large pages without requiring explicit system configuration, and improve the overall database performance.

正文

一、 内存映射与页表

1. 内存映射

我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。

Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存

虚拟地址空间的内部又被分为内核空间和用户空间两部分,不同字长(单个 CPU 指令可以处理数据的最大长度)的处理器,地址空间的范围也不同。比如最常见的 32 位和64 位系统:

既然每个进程都有一个这么大的地址空间,那么所有进程的虚拟内存加起来,自然要比实际的物理内存大得多。所以,并不是所有的虚拟内存都会分配物理内存,只有那些实际使用的虚拟内存才分配物理内存,并且分配后的物理内存,是通过内存映射来管理的。内存映射,其实就是将虚拟内存地址映射到物理内存地址。

2. 页表

为了完成内存映射,内核为每个进程都维护了一张页表,记录虚拟地址与物理地址的映射关系,如下图所示:

页的大小只有 4 KB ,导致的另一个问题就是,当物理内存很大时,页表会变得非常大,占用大量物理内存。

4. 页表的简单工作原理

下图是比较简单情况下的示意图,用于描述在32位系统下,页大小为4K时,操作系统如何为进程的虚拟地址和实际物理地址进行转换:

  • 目录表是用于索引页表的数据结构,其中存储着目录项(共1024个、每个4B,因此目录表共4B*1024=4K ),每个目录项指向一个页表,即可以存储1024个页表。

  • 页表,用来存放物理地址页的起始地址,即页表项(也是共1024个、每个4B,因此一个页表的大小也是4K),由于目录表最多可存1024个页表,因此页表的最大大小是1024*4K=4M。

  • 页表项,每个页表项指向4K的物理内存页,因此页表一共可以指向的物理内存大小为:1024(页表数)*1024(每个页表的页表项数)*4K(一个页表项指向的物理内存大小)=4G

假如一个进程,访问的物理内存有1GB,即262144个内存页,在32位系统中,页表需要262144*4/1024/1024=1MB,而在64位系统下,页表占用的空间增加1倍,即2MB。

对于Linux系统中运行的Oracle数据库,假如数据库的SGA大小12GB,如果一个Oracle Process访问到了所有的SGA内存,其页表大小会是24MB,如果有300个左右的会话,那么这300个连接的页表会达到7200MB,只不过并不是每个进程都会访问到SGA中所有的内存。

页表大小可以通过 /proc/meminfo 的 PageTables部分查看。

为了解决页表项过多的问题,Linux 提供了两种机制,也就是多级页表和大页(HugePage),后面我们以大页为重点。

二、 大页

大页顾名思义,就是比较大的页,通常是2MB。由于页变大了,需要的页表项也就小了,占用物理内存也减少了。

1. 大页的优点

  • 减少页表大小:默认页面大小为 4K,而大页为 2048K,意味着系统需要处理的页面减少了 512 倍。大页的页表在各进程之间可以共享,也降低了页表的大小。
  • 减少页表遍历:大页覆盖更大的连续虚拟地址范围,使得CPU中的TLB(可理解为CPU对页表的CACHE)命中率大大提高,减少了遍历页表以从虚拟地址获取物理地址的次数。
  • 减少页表查找开销:
  • 避免swap:大页内存只能锁定在物理内存中,不可swap,因此没有page-in/page-out机制开销,避免了swap引起的性能影响。
  • 减少了内存开销:由于要处理的页面数量较少,明显减少了页表访问可能出现的瓶颈。

2. 大页的缺点

  • 要预先分配
  • 需要重启主机生效
  • 当服务器内存或SGA调整时,需要对应调整大页设置
  • 如果分配不当(过多、过少、os参数配置错误),反而可能引起严重问题

严重问题可能包括:

  • (绝)大部分大页内存未能使用,严重浪费内存
  • 数据库性能差
  • 系统内存不足或交换过多
  • 数据库实例无法启动
  • 关键系统服务失败
  • 极高的sys cpu使用率

3. 大页的分配方法

  • 检查/proc/meminfo,确认系统支持HugePage

  • HugePages Total:系统中配置的大页数。
  • HugePages Free:没有访问过的大页数。
  • HugePages Rsvd:已经分配但是还未使用的页面数。
  • Hugepagesize:大页size,这里为2MB,有的内核配置中可能为4MB。

  • 设置memlock

设定oracle用户可以锁定内存的大小。这个参数在/etc/security/limits.conf文件,单位是KB。开启大页时,这个参数很重要,如果设置过小,可能导致大页无法被用到,白白浪费内存。

根据 What is Memlock and How to Calculate the Values for Memlock? (Doc ID 2511230.1) 文档建议:

  • 未启用大页:至少为3G
  • 启用为大页:至少设置为服务器内存的90%
  • 建议大小:内存大小 > memlock大小 >= 大页总内存 > SGA

例如:

  1. oracle soft memlock 18878464
  2. oracle hard memlock 18878464

重新以oracle用户连接到数据库服务器,使用ulimit -a命令便可看到对应设置

  • 改为AUTO方式管理SGA

对于11g,由于HugePage只能用于共享内存,不能用于PGA,所以不能使用AMM,只能分别设置SGA和PGA。SGA同样只能是AUTO方式管理,需要将SGA_TARGET_SIZE设为大于0的合适值。

  • 查看建议的大页数量

到目前为止,大页只能用于共享内存段等少量类型的内存。一旦将物理内存用作大页,那么这些物理内存就不能作其他用途,比如作为进程的私有内存。因此不能将过多的内存设置为大页,通常将大页用作Oracle数据库的SGA。

 Oracle Linux: Shell Script to Calculate Values Recommended Linux HugePages / HugeTLB Configuration (Doc ID 401749.1) 提供了计算建议值的脚本。需要先设置好SGA等参数、启动Oracle、并以Oracle用户执行该脚本

  • 修改/etc/sysctl.conf文件,设置vm.nr_hugepages=建议值,执行sysctl –p命令

vm.nr_hugepages这个参数值为上步计算出的建议值。然后检查/proc/meminfo,如果HugePages_Total小于设置的数量,表明没有足够的连续物理内存用于这些大内存页,需要重启服务器。

  • 重启服务器和数据库,检查大页使用情况

大页是惰性分配的,用到才会分配。随着数据库的使用,可以在/proc/meminfo中查看HugePages_Free是否已经减少。如果已经减少,表明已经使用到HugePage Memory。

三、 透明大页

在一些Linux系统中,transparent hugepage被默认开启,它允许大页做动态的分配,而不是系统启动后就分配好,根据Oracle MOS DOC:1557478.1,transparent hugepage导致了很多的问题,建议将其关闭。

1. 查看是否启用

  1. #未启用应该看到[never]
  2. cat /sys/kernel/mm/transparent_hugepage/enabled

如果这个文件不存在,则检查

  1. #未启用应该看到[never]
  2. cat /sys/kernel/mm/redhat_transparent_hugepage/enabled

如果2个文件都不存在,说明系统内核中移除了THP,例如OEL 7。

2. 关闭透明大页

  • Redhat & Centos
  1. # 重启后失效
  2. echo never > /sys/kernel/mm/transparent_hugepage/enabled
  3. echo never > /sys/kernel/mm/transparent_hugepage/defrag
  4. # 开机时设置never到以上文件中
  5. echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.d/rc.local
  6. echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.d/rc.local
  7. chmod +x /etc/rc.d/rc.local
  • SUSE Linux(区别在于开机设置never需要配置到的文件不同)
  1. # 重启后失效
  2. echo never > /sys/kernel/mm/transparent_hugepage/enabled
  3. echo never > /sys/kernel/mm/transparent_hugepage/defrag
  4. # 开机时设置never到以上文件中
  5. echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/init.d/boot.local
  6. echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/init.d/boot.local
  7. chmod +x /etc/init.d/boot.local

参考

Oracle Memory Management and HugePage (连载二)_ITPUB博客

Oracle Memory Management and HugePage (连载三) _ITPUB博客

Linux大内存页Oracle数据库优化 - 墨天轮

【云和恩墨】性能优化:Linux环境下合理配置大内存页(HugePage) - ^_^小麦苗^_^ - 博客园

《Linux性能优化实战》笔记(八)—— 内存是怎么工作的_Hehuyi_In的博客-CSDN博客

Linux之关闭大页【即关闭透明大页】_LawsonAbs's Spiritual Home-CSDN博客_关闭大页

HugePages on Oracle Linux 64-bit (文档 ID 361468.1)

Oracle Linux: Shell Script to Calculate Values Recommended Linux HugePages / HugeTLB Configuration (Doc ID 401749.1)
HugePages on Linux: What It Is... and What It Is Not... (Doc ID 361323.1)

What is Memlock and How to Calculate the Values for Memlock? (Doc ID 2511230.1)

文章知识点与官方知识档案匹配,可进一步学习相关知识
云原生入门技能树首页概览13477 人正在系统学习中

与[转帖]Linux 页表、大页与透明大页相似的内容:

[转帖]Linux 页表、大页与透明大页

一、 内存映射与页表 1. 内存映射 我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。 Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存。 虚拟地址空间的内部又被分为内

[转帖]Linux 页表、大页与透明大页

一、 内存映射与页表 1. 内存映射 我们通常所说的内存容量,指的是物理内存,只有内核才可以直接访问物理内存,进程并不可以。 Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。这样,进程就可以很方便地访问内存,更确切地说是访问虚拟内存。 虚拟地址空间的内部又被分为内

[转帖]Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

【转帖】Linux 调优篇:虚拟化调优(hugepage 大页内存)* 叁

一. 大页(HugePages)概念 Hugepage的引入二. hugepages相关概念三.Regular Pages 与 HugePages a、Regular Pages b、Huge Pages四. hugepage 优点五.调优方法 5.1 在Host侧查看各个numa节点上的大页分配情

[转帖]透明大页(huge pages) ---Transparent HugePages

https://www.coonote.com/linux-note/transparent-hugepages.html 从RedHat 6, OEL 6, SLES 11 and UEK2 kernels 开始,系统缺省会启用 Transparent HugePages :用来提高内存管理的性能

[转帖]Linux:页表中PGD、PUD、PMD、TLB等概念介绍

1、PGD: Page Global Directory Linux系统中每个进程对应用户空间的pgd是不一样的,但是linux内核 的pgd是一样的。当创建一个新的进程时,都要为新进程创建一个新的页面目录PGD,并从内核的页面目录swapper_pg_dir中复制内核区间页面目录项至新建进程页面目

[转帖]Linux 写时复制技术

https://www.cnblogs.com/dwtfukgv/p/15125933.html 目录 Linux fork Linux exec Linux 进程虚拟地址空间 栈 内存映射段 堆 BSS段 数据段 代码段 分段的优点 页表 写时复制原理 非写时复制fork一个子进程 写时复制for

[转帖]linux性能优化-内存回收

linux文件页、脏页、匿名页 缓存和缓冲区,就属于可回收内存。它们在内存管理中,通常被叫做文件页(File-backed Page)。通过内存映射获取的文件映射页,也是一种常见的文件页。它也可以被释放掉,下次再访问的时候,从文件重新读取。 大部分文件页,都可以直接回收,以后有需要时,再从磁盘重新读

[转帖]Linux下curl用法详解

https://zhuanlan.zhihu.com/p/430490147 Curl(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输,它是Linux下强大的http命令行工具,其功能十分强大,我们来看下帮助页面,参数非常丰富。

[转帖]Linux性能优化和内核观测 - 内存篇(一)

内存虚拟内存Linux 采用的是​​虚拟内存​​机制,每个进程都有自己的虚拟内存地址空间,仅当实际使用内存的时候才会映射到物理内存地址之上。这种设计提供了物理内存的超额分配,Linux 中的内存管理机制包括页换出守护进程(page out daemon)、物理换页设备(swap device),以及