[转帖]警惕Oracle数据库性能“隐形杀手”——Direct Path Read

警惕,oracle,数据库,性能,隐形,杀手,direct,path,read · 浏览次数 : 0

小编点评

**一、 简介** Oracle 11g 版本发布后,出现了一些性能问题,其中之一就是 Direct Path Read(直接路径读取)导致的性能问题。 Direct Path Read 是一个优化性能的方法,但如果使用不当,可能会导致性能下降。 **二、 两个典型案例** **案例 1:银行业务数据库** * 某银行业务数据库A夜间跑批业务突然变慢。 * 对top sql分析发现,sql执行频繁,执行计划没有改变(下图红框内第一列,一直是全表扫描),但是某天夜间突然Disk Reads次数(下图中间部分)暴增,这个时间正是数据库A跑批业务出问题的时间段。 **案例 2:数据库升级后IO负载超高** * 数据库重启后,数据量逐渐增长,虽然到了Direct path read的阀值,但是大量数据仍在数据库缓存(buffer cache),没有触发。 * 数据库重启,数据库缓存被清空,触发了direct path read,导致了故障的发生。

正文

一、 简介

Oracle 的11g版本正式发布到今天已经10年有余,最新版本也已经到了20c,但是Direct Path Read(直接路径读)导致性能问题的案例仍时有发生,很多12c的用户还是经常遇到这个问题,所以有必要把这个事情再跟大家讲一遍,通过2个典型案例加深理解。    

早在2012年,盖国强大师就撰写文章,介绍了direct path read这个11g版本推出的新特性:

https://www.eygle.com/archives/2012/05/oracle_11g_direct_path_read.html 也有人把关闭这个功能作为“最佳实践”,我建议先多了解一些具体情况再决定。   

 

Direct path read的目的是让一些不常使用的大表数据(冷数据),在全表扫描时,每次都从磁盘读到用户的私有内存(PGA),而不要去挤占有限的、宝贵的、频繁使用的数据(热数据)所在的共享内存(SGA-buffer cache)。

热数据只在第一次访问时从磁盘读,读到SGA的buffer cache后,再次访问会直接从内存读,效率高、对存储压力小。

试想一个表被频繁全表扫描访问(缺少索引或业务设计不合理),一开始表还不算太大,会放到共享内存,只需要少量的磁盘读,这时对存储压力不大;随着记录数的不断增加,达到了某些条件后(下文会提到),就会使用direct path read,频繁的磁盘读就会造成存储的巨大压力,出现严重的性能问题

从共享内存读到直接路径读,这个变化在不频繁的全表扫描时是起到积极作用的;如果业务不合理(一个大表正常情况不会有频繁的全表扫描)、或者缺少索引(这个是比较多的情况),频繁的大表全表扫描就会在某个触发点上对数据库性能做出致命一击,导致业务瘫痪。

 

二、 两个典型案例

1. 案例1

某银行业务数据库A夜间跑批业务突然变慢,查了很长时间,对top sql也做了“优化”(清除历史数据,虽然是比较初级优化手段,但是也最有效,如果数据需要保留就不行),仍未解决。因为是5~6套数据库共享一套存储,而且表现在存储响应时间慢,开始对其他几套库进行排查,发现其中一套数据库B在这段时间内IO消耗突增。

故障时段AWR报告显示如下:

 

数据库B之前正常时段AWR 情况:

awr对比是分析系统性能问题的一个重要手段,建议定期保存awr基线

Load Profile(Read IO相差1000多倍 1057.6M vs 0.7M):

Top events:direct path read只占 DB time 的0.1% (故障时段63.1%):

Top Read SQL:消耗较少物理读

通过对比发现是一个SQL的物理读突增导致存储整体下降,影响到存储上的其他数据库。

对该TOP SQL分析发现,sql执行频繁,执行计划没有改变(下图红框内第一列,一直是全表扫描),但是某天夜间突然Disk Reads次数(下图中间部分)暴增,这个时间正是数据库A跑批业务出问题的时间段,下面是sqlhc收集到的sql执行历史信息:

    该SQL逻辑比较简单,2个谓词条件的单表查询,只需要创建一个简单索引,即可避免全表扫描。创建索引后,一切恢复正常。

 

根因分析:  

如果不把导致问题的根本原因找到,那么很有可能下次还会再发生。根因分析需要有一定深度的技术水平才能做到,很多时候故障只是临时解决,根因未找到前还会不断发生。

有个隐含参数_serial_direct_read,决定dirrect path read的使用方式,默认是auto(共有false, true, never, auto, always几个选项),auto方式下有下面几个已知触发条件:

  • 表大小超过 _small_table_threshold 隐含参数设置的阀值

  • 表在buffer cache块数低于50%

  • 表脏块数低于的25%

上面几个条件,只要有一个不满足,都不会使用Direct path read。频繁使用的大表,达到_small_table_threshold 阀值后,因为仍有大量数据在buffer cache,不会立即触发Direct path read,但是如果遇到其他大表挤占了buffer cache,buffer cache块数低于50%,就满足了触发条件。 

另外还有一个参数_very_large_object_threshold,默认值500,即表大小超过5倍_db_block_buffers时,也会选择direct path read,这里不多解释。

上面SQL的触发时间点是统计信息收集时段,表数据块在buffer cache的量减少,触发了Direct path read后,就很难再回到从前了。除非对表“瘦身”,简单的delete还不行,必须是高水位的降低(truncate或delete +shrink)。文章最后有改参数的方法。

 

2. 案例2

这是一个来自网上的案例,某业务系统数据库升级,重启后IO负载超高(重启不一定包治百病,也有时可能让你病重),分析AWR发现是某个表频繁的全表扫描导致,用户将表历史数据归档临时解决这个问题。

 

案例分析与点评

文章作者当时并没有意识到这就是一个典型的direct path read导致的问题。数据库重启前,数据量逐渐增长,虽然到了Direct path read的阀值,但是大量数据仍在数据库缓存(buffer cache),没有触发;数据库重启,数据库缓存被清空,触发了direct path read,导致了故障的发生。没有把这个根本原因找到,以后其他表还是有可能遇到相同的问题。

    

如何判断direct path read导致的性能问题:

如果数据库变慢,IO吞吐量突然急剧增长(存储或OS监控发现),十有八九可能遇到了direct path read的问题。

如果AWR报告显示每秒的Read IO非常高,而且Top Event里面的Direct path read等待事件占DB time比例较高,就可以断定发生了Direct Path Read问题(注:这个判断一般是针对OLTP系统,OLAP里面direct path read高,很可能是正常的)

 

总结与建议:

    通过上面介绍,我们了解到Direct path read这个功能的设计初衷是为了提高数据库的整体性能。但是如果不合理的使用(频繁访问的表没有索引,或是业务不合理,表逐渐增大,突然爆发),就非常有可能遇到严重的性能问题。怎么办?

 

建议:

oracle每次升级新版本都会带来一些性能上的改进,如果用的不好,反而会带来负面影响,成为数据库性能“杀手”。

如果能定期分析AWR,提前发现Top SQL存在的隐患,Direct path Read这个功能还是有必要保留的,前提是需要对数据库做精细化的管理,可以把“杀手”变成帮手。

    但是目前绝大多数数据库维护现状是不如人意的,这种情况还是建议把这个参数关闭:

alter system set "_serial_direct_read"=never;

文章知识点与官方知识档案匹配,可进一步学习相关知识

与[转帖]警惕Oracle数据库性能“隐形杀手”——Direct Path Read相似的内容:

[转帖]警惕Oracle数据库性能“隐形杀手”——Direct Path Read

一、 简介 Oracle 的11g版本正式发布到今天已经10年有余,最新版本也已经到了20c,但是Direct Path Read(直接路径读)导致性能问题的案例仍时有发生,很多12c的用户还是经常遇到这个问题,所以有必要把这个事情再跟大家讲一遍,通过2个典型案例加深理解。 早在2012年,盖国强大

[转帖]架构真经

1 大道至简 1.1 规则1 避免过度设计 【内容】在设计中警惕复杂的解决方案 【应用场景】适用于任何项目,应用所有大型项目和复杂系统或项目设计过程中 【用法】通过测试同事是否轻松的理解解决方案,来验证是否存在过度设计 【原因】复杂的解决方案实时成本过高,而且长期维护费用昂贵 【要点】过于复杂的系统

[转帖]名言警句

https://www.cnblogs.com/zhoading/p/17128217.html 法不轻传,道不贱卖。师不顺路,医不叩门。香不白烧,经不空念。千金不传无义者,万财不渡忘恩人。医逢信者但可救,道遇无名枉费心。甘露不润无根草,妙法只渡有缘人。

[转帖]Redis服务器启动之后3个警告信息的解决方案

https://www.cnblogs.com/PatrickLiu/p/8448230.html 今天是年前最后一篇文章了,不想写太多的东西,就写一些有关Redis相关问题的解决方案。当我们启动了Redis服务器之后,会看到3个警告,如果没看到,那是很好的,但是我看到了。看到了就不能不管,所以就好

[转帖]OutOfMemory自动重启程序

OutOfMemory以后程序已经假死,无法再提供服务,最好的做法是dump内存,发送警告,然后重启服务 我的方案:利用at命令延迟启动 但有一个问题,at最多支持分钟操作,也就是说要1分钟以后才能启动,我的业务允许接受1分钟的延迟,总比收到警告然后等到人工去启动要好一点。 -XX:OnOutOfM

[转帖]GCC 编译及编译选项

俗话说:'工欲善其事,必先利其器',一直在工作中使用GNU C编译器(以下简称GCC),这里对GCC的一些警告选项细致的分析,并列举几个简单的例子[注1]供分析参考。 1、 -Wall集合警告选项我们平时可能大多数情况只使用-Wall编译警告选项,实际上-Wall选项是一系列警告编译选项的集合。下面

[转帖]SQL Server超过了每行的最大字节数(8060)的原因和解决办法

一、现象 出现这种错误都发生在SQL语句建表时,错误提示: "警告: 已创建表 'XXXX,但其最大行大小(10438)超过了每行的最大字节数(8060)。如果结果行长度超过 8060 字节,则此表中行的 INSERT 或 UPDATE 将失败。" 二、原因 为什么说每行的最大长度是8096字节?

[转帖]忽略证书的方法

在使用wget命令来获取文件的时候,我们可以使用wget命令的 –-no-check-certificate 选项来忽略证书的认证。 那么在执行curl命令是否也可以忽略SSL证书的警告信息呢。当然是有的,我们可以在执行curl 命令的时候,使用 -k 或者 –insecure 选项,来忽略签名认证

[转帖]grafana9 使用消息模板配置发送企业微信(wecom)

一、grafana9告警设置: 1、进入告警消息模板介面 2、grafana 消息模板设置 template name : API_msg_tpl #名字随便 {{ define "myalert" }} **警报时间:** {{ .StartsAt.Format "2006-01-02 15:04

[转帖]AnolisOS 入门八:使用keentune(轻豚) 调优系统性能

Anolis 龙蜥社区https://openanolis.cn/轻豚主站http://keentune.io/home 注意:使用keentune 前您应当对服务器硬件、Linux核心参数、网络通讯等知识领域有所了解 警告: 错误的使用调试工具,可能会使服务中断,请谨慎使用! 简介: 性能调优,是