数据库系列:覆盖索引和规避回表

数据库,系列,覆盖,索引,规避 · 浏览次数 : 335

小编点评

**索引覆盖**是一种非聚合索引,包含所有与查询所查询的字段。索引覆盖的目的是减少回表操作,提高查询效率。 **索引覆盖的优点:** * **快速查询:**索引覆盖可以完全从索引树中获取所需的所有数据,避免了在数据表中进行回表。 * **避免频繁访问数据表:**索引覆盖可以将所有需要获取的数据元素存储在索引中,避免频繁访问数据表进行回表。 * **降低检索时间:**索引覆盖可以显著提高查询效率,因为它可以减少检索步骤。 **索引覆盖的创建过程:** ```sql CREATE INDEX idx_emp_empname_job ON emp(empname(5),job); ``` **索引覆盖的使用场景:** * 当查询需要所有与多个字段相关的字段时。 * 当数据表很大时,索引覆盖可以减少回表操作。 * 当需要快速查询数据时。 **索引覆盖的缺点:** * 创建索引覆盖可能对数据表进行一些额外的开销。 *索引覆盖可能不适用于所有查询。 **索引覆盖的最佳实践:** * 选择包含所有需要查询的字段的索引。 * 创建索引覆盖时,考虑数据表大小和查询需求。

正文

1 介绍

在MySQL数据库查询过程中,索引覆盖和避免不必要的回表,是减少检索步骤,提高执行效率的有效手段。下面从这两个角度分析如何进行MySQL检索提效。

2 数据准备

模拟一个500w数据容量的部门表 emp,表结构如下,并通过工具模拟500w的数据:

CREATE TABLE `emp` (
  `id` int unsigned NOT NULL AUTO_INCREMENT,
  `empno` int unsigned DEFAULT NULL,
  `empname` varchar(50) DEFAULT NULL,
  `job` varchar(50) DEFAULT NULL,
  `mgr` int DEFAULT 1,
  `hiredate` datetime DEFAULT NULL ,
  `sal` int DEFAULT 0,
  `comn` int DEFAULT 0,
  `depno` int DEFAULT 100,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2345 DEFAULT CHARSET=utf8;

3 分析一下回表

3.1 回表的概念

先来了解两个基本概念,一级索引和二级索引:

  • 一级索引:索引和数据存储在一起,在同一个B+tree中的叶子节点中。一般主键索引都是一级索引。
  • 二级索引:二级索引树的叶节点仅存储主键而没有数据。当找到索引后,拿到对应的主键,再回到一级索引中找主键对应的数据记录。

回表的本质就是:通过二级索引找到B+树中的叶子结点,但二级索引的叶子节点的内容并不完全,只有索引列的值和主键key值。
我们需要拿主键值再去主键(聚集)索引的叶子节点中去获取完整的数据,这样的查询等同于需要多扫描一棵索引树,这就是回表。
image
上图中我们以empname二级索引为例,先通过二级索引找到叶结点中的索引的主键Id,在通过回表检索以及索引树,通过该Id获得完整的记录信息。
图中『主键索引检索过程』,表示的就是回表的操作。

2.2 回表的性能代价

从上面那种图中可以看出,我们通过empname字段查找二级索引的叶子节点,再通过回表,最后拿到了我们的需要的数据。
我们来分析下这个的性能问题:

  • 我们在empname字段上建立了索引,会通过索引定位数据,避免了全表扫描。
  • 根据B+Tree的特性,叶子节点所在的Page,都是通过双向链表进行关的联,遍历检索的效率比较高;
  • 同一个索引的叶子节点数据会在多Page磁盘空间中尽量相邻,避免随便IO或多次IO,带来性能损耗。

虽然MySQL做了优化,但是我们的二级索引检索完成之后还是需要拿着主键Id再去主键索引树中再检索一次。在进行回表的时候,也极有可能出现主键id所在的记录在聚簇索引叶子节点不断变化的情况,这样就会导致随机IO。而且如果数据内容不在内存中,还要从磁盘中加载。一个16kb的page,对性能的损耗还是比较大的。
所以,想报保证MySQL执行的效率,我们只能尽量地减少回表操作带来的性能消耗:

  • 尽量避免回表
  • 如果查询的字段比较多,必须回表,则应该尽量减少回表的次数

既然回表对性能有损,如何避免回表呢?就是查询的字段,通过索引可以直接全部拿到,不需要通过主键索引再次去取。
则该索引称之为索引覆盖,索引覆盖可以提高查询的效率,下面会详细说到。

3 关于索引覆盖

3.1 索引覆盖

什么是索引覆盖么,可以看一下官方的定义:

What is a covering index?
A covering index is a non-clustered index which includes all columns referenced in the query and therefore, the optimizer does not have to perform an additional lookup to the table in order to retrieve the data requested. As the data requested is all indexed by the covering index, it is a faster operation.

大意就是:只需在一棵索引树上就能获取SQL所需的所有数据元素,无需回表无需额外操作,单次轮询即可,速度更快。
结合我们的emp表来说,如果二级索引上的叶子节点上有我们想要的所有数据,那就不需要回表了。
比如我为empname和job 两个字段创建了一个组合索引,而我们检索的也恰好是这两个字段,这时候单次查找就可以达到目的,不需要回表。
如下图:
image

SELECT id, empname, job FROM emp WHERE empname = "Deny";

我们把索引中已经包含了所有需要获取的所有字段的查询方式称为覆盖索引(或索引覆盖)。

3.2 索引覆盖实践

  • 建立索引
create index idx_emp_empname_job on emp(empname(5),job);
  • Explain 执行计划分析
explain  SELECT id, empname, job FROM emp WHERE empname = "Deny"; 

explain的输出结果Extra字段为Using index时,能够触发索引覆盖。如下图:

image

  • 查询优化建议

在上面创建的索引前提下,如果通过empname进行数据检索:

select * from emp where empname = ?

需要需要在name索引中找到name对应的Id,然后通过获取的Id在主键索引中查到对应的行。整个过程需要扫描两次索引,一次empname,一次id。

如果我们查询只想查询id的值,就可以改写SQL为:

select id from emp where empname = ?

因为只需要id的值,通过name查询的时候,扫描完name索引,我们就能够获得id的值了,所以就不需要再去扫面id索引,就会直接返回,避免了回表。

当然,如果你同时需要获取hiredate的值:

select id,empname,hiredate from emp where empname = ?

这样就无法使用到覆盖索引了。

知道了覆盖索引,就知道了为什么sql中要求尽量不要使用select *,要写明具体要查询的字段。其中一个原因就是在使用到覆盖索引的情况下,不需要进入到数据区,数据就能直接返回,提升了查询效率。

与数据库系列:覆盖索引和规避回表相似的内容:

数据库系列:覆盖索引和规避回表

1 介绍 在MySQL数据库查询过程中,索引覆盖和避免不必要的回表,是减少检索步骤,提高执行效率的有效手段。下面从这两个角度分析如何进行MySQL检索提效。 2 数据准备 模拟一个500w数据容量的部门表 emp,表结构如下,并通过工具模拟500w的数据: CREATE TABLE `emp` (

数据库系列16:MyISAM与InnoDB的索引对比

相关文章 数据库系列:MySQL慢查询分析和性能优化 数据库系列:MySQL索引优化总结(综合版) 数据库系列:高并发下的数据字段变更 数据库系列:覆盖索引和规避回表 数据库系列:数据库高可用及无损扩容 数据库系列:使用高区分度索引列提升性能 数据库系列:前缀索引和索引长度的取舍 数据库系列:MyS

小白也能懂的Mysql数据库索引详解

核心概念 主键索引/二级索引 聚簇索引/非聚簇索引 回表/索引覆盖 索引下推 联合索引/最左联合匹配 前缀索引 explain 一、[索引定义] 1.索引定义 在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法

带你掌握数仓的作业级监控TopSQL

摘要:目前TopSQL功能被用户广泛使用,是性能定位、劣化分析、审计回溯等重要的基石,为用户提供覆盖内存、耗时、IO、网络、空间等多方面的监控能力。 本文分享自华为云社区《GaussDB(DWS)监控工具指南(一)作业级监控TopSQL》,作者:幕后小黑爪 。 1、引言: 监控系统是智能化管理和自动

[转帖]数据库系列之TiDB存储引擎TiKV实现机制

https://zhuanlan.zhihu.com/p/27275483 TiDB存储引擎TiKV是基于RocksDB存储引擎,通过Raft分布式算法保证数据一致性。本文详细介绍了TiKV存储引擎的实现机制和原理,加深对TiDB底层存储架构的理解。 1、TiDB存储引擎TiKV TiDB存储引擎T

[转帖]数据库系列之TiDB存储引擎TiKV实现机制

TiDB存储引擎TiKV是基于RocksDB存储引擎,通过Raft分布式算法保证数据一致性。本文详细介绍了TiKV存储引擎的实现机制和原理,加深对TiDB底层存储架构的理解。 1、TiDB存储引擎TiKV TiDB存储引擎TiKV是分布式的key-value存储引擎,它是一种高度分层的架构,通过Ra

数据库系列:MySQL慢查询分析和性能优化

1 背景 我们的业务服务随着功能规模扩大,用户量扩增,流量的不断的增长,经常会遇到一个问题,就是数据存储服务响应变慢。 导致数据库服务变慢的诱因很多,而RD最重要的工作之一就是找到问题并解决问题。 下面以MySQL为例子,我们从几个角度分析可能产生原因,并讨论解决的方案。 2 定位慢查询的原因并优化

数据库系列:数据库高可用及无损扩容

# 1 背景 在大型互联网场景中,数据库的高可用性显得尤为重要,为了保证稳定性,一般需要采用强化的架构模式,以保证数据层能够提供持续有效的稳定支撑。 # 2 高可用架构的基本演进过程 ## 2.1 基本的数据库架构 每个服务对应一个存储服务实例(基本是数据库单实例模式),使用 IP+Port 进行连

从零做软件开发项目系列之四——数据库设计

前言 在对软件进行设计的过程中,数据库的设计是一项重要的内容,软件中主要的处理对象就是各类业务数据,通过对业务数据的处理,实现各种功能。我们经常说的,写程序,说到底就是增删改查,而增删改查的对象就是各种数据。数据都存储在数据库中,其重要性不言而喻,对于数据库的设计也是软件设计的一个重要基础。 1 数

quarkus数据库篇之一:比官方demo更简单的基础操作

《quarkus数据库篇》系列的开篇,编码实战最基础的数据库增删改查,数据库用的是PostgreSQL,在官方demo基础上进一步精简,极速入门quarkus数据库操作