数据库中索引的底层原理和SQL优化

文章目录

  • 关于索引
    • B+ 树的特点
    • MySQL 为什么使用 B+ 树?
  • 索引分类
    • 聚簇索引 和 非聚簇索引
    • 覆盖索引
    • 索引的最左匹配原则
    • 索引与NULL
    • 索引的代价
    • 大表结构修改
  • SQL优化
    • EXPLAIN命令
    • 选择索引列
    • 其它细节

关于索引

索引是一种用来加快查找效率的数据结构,可以简单粗暴的把索引比喻为字典或书本的目录,通过索引可以快速的查找到想要的数据,避免了逐一遍历效率低下的问题。绝大多数跟存储和查找有关的中间件都有索引功能,但是它们的原理不尽相同。

从数据结构上来说,在 MySQL 里面索引主要是 B+ 树索引。它的查询性能更好,适合范围查询,也适合放在内存里。

MySQL 的索引又可以从不同的角度进一步划分。比如说根据叶子节点是否包含数据分成聚簇索引和非聚簇索引,还有包含某个查询的所有列的覆盖索引等等。数据库使用索引遵循最左匹配原则。但是最终数据库会不会用索引,也是一个比较难说的事情,跟查询有关,也跟数据量有关。在实践中,是否使用索引以及使用什么索引,都要以 EXPLAIN 为准。

B+ 树的特点

B+ 树是一颗多叉树,一棵m阶的B+树定义如下:

  • 每个节点最多有 m 个子节点。
  • 除根节点外,每个节点至少有 [m/2] 个子节点,根节点至少有两个子节点。
  • 有 k 个子节点的节点必有 k 个关键字。这里的关键字可以直观地理解为就是索引全部列的值。

B+ 树的两个主要特征:

  • 叶子节点存放了数据,而非叶子节点只是存放了关键字。
  • 叶子节点被链表串联起来了。

在这里插入图片描述

一棵 B+ 树就像是一个部门,部门分成管理人员(非叶子节点)和基层员工(叶子节点),管理人员只负责传达命令(只放索引关键字),具体的事务(存放数据)都是由基层员工来执行的。基层员工之间为了合作顺畅,互相都有联系,对应到B+树上就是叶子节点被链表连在一起。

B+ 树用在数据库索引上有3大优势。

  • B+ 树的高度和二叉树比起来更低,树的高度代表了查询的耗时,所以 查询性能更好
  • B+ 树的叶子节点都被串联起来了, 所以 适合范围查询
  • B+ 树的非叶子节点没有存放数据,所以 适合放入内存中

使用索引提高查询性能的时候,一个默认的前提就是 索引本身会全部装进内存中,只有真实的数据行会放在磁盘上。 如果索引放在磁盘上的话,使用索引的效果就不明显了。

MySQL 为什么使用 B+ 树?

对比 B+ 树、B 树、二叉树、红黑树、跳表,在用作索引的时候,其他数据结构都有哪些缺陷?

  • 与B+ 树相比,平衡二叉树、红黑树在同等数据量下, 高度更高,性能更差,而且它们会频繁执行再平衡过程,来保证树形结构平衡。
    在这里插入图片描述
  • 与B+ 树相比,跳表在极端情况下会退化为链表, 平衡性差,而数据库查询需要一个可预期的查询时间,并且跳表需要更多的内存。
  • 与B+ 树相比,B 树的数据存储在全部节点中, 对范围查询不友好。 非叶子节点存储了数据, 导致内存中难以放下全部非叶子节点。如果内存放不下非叶子节点,那么就意味着查询非叶子节点的时候都需要磁盘 IO。

结论:一个数据结构是否适合做数据库索引,取决于这种数据结构的增删改查性能。并且在关系型数据库里面,还额外要求对范围查询友好,减少内存消耗。

参考:数据结构与算法中的B+树

索引分类

关于索引的分类,如果站在不同的角度取看待,就会有不同的说法。

  • 根据叶子节点是否存储数据来划分,可以分成 聚簇索引非聚簇索引
  • 如果某个索引包含某个查询的所有列,那么这个索引就是 覆盖索引
  • 如果索引的值必须是唯一的,不能重复,那么这个索引就是 唯一索引。
  • 如果索引的某个列,只包含该列值的前一部分,那么这个索引就是 前缀索引。比如说在一个类型是 varchar(128) 的列上,选择前 64 个字符作为索引。
  • 如果某个索引由多个列组成,那么这个索引就是 组合索引 也叫做联合索引。
  • 全文索引 是指用于支持文本模糊查询的索引。
  • 哈希索引 是指使用哈希算法的索引,但是 MySQL 的InnoDB 引擎并不支持这种索引。

一个索引可以同时是 「覆盖索引、唯一索引、前缀索引、组合索引」,你站在不同的角度去看待索引就会有不同的说法。

聚簇索引 和 非聚簇索引

如果索引叶子节点存储的是数据行,那么它就是聚簇索引,否则就是非聚簇索引。

简单来说,某个数据表本身你就可以看作是一棵使用主键搭建起来 B+ 树,这棵树的叶子节点放着表的所有行。而其他索引也是 B+ 树,不同的是它们的叶子节点存放的是主键。聚簇索引和非聚簇索引的唯一区别就是叶子节点放的是数据行还是索引。

回表 :如果查询一张表用到了索引,那么数据库就会先在索引里面找到主键,然后再根据主键去聚簇索引中查找,最终找出数据。
在这里插入图片描述

如图所示,查询的时候先沿着绿色的线条在非聚簇索引中找到主键。然后拿着主键再去下面沿着黄色的线条找到数据行。这个数据行存放在磁盘里,所以触发磁盘 IO 之后能够读取出来。磁盘 IO 是非常慢的,因此回表性能极差,你在实践中要尽可能避免回表。

覆盖索引

如果查询的列全部都在某个索引里面,那么数据库可以直接把索引存储的这些列的值返回,不需要回表。

比如说有一个用户表 user_tab,在字段 idname 两列上创建了一个组合索引 <id, name>,那么对于这个查询来说 SELECT id, name FROM user_tab WHERE id = 123, SELECT 关键字后面的 idname 两列都在这个索引里,那么就可以直接用索引的数据,不必回表查询了。
在这里插入图片描述
这个索引在这个查询中就是一个覆盖索引。所以覆盖索引并不是一个独立的索引,而是某个索引相对于某个查询而言的。

针对这个特性,优化 SQL 性能里面有两种常见的说法。

  1. 只查询需要的列。
  2. 针对最频繁的查询来设计覆盖索引。

这两种说法本质上都是为了避免回表。

覆盖索引是最为常见的SQL优化方案。假设现在有一个执行非常频繁的 SQL,这个 SQL 查询全部的列,但是业务只会用到其中的三个列 A B C(SELECT 语句是 SELECT A, B, C 三个列),而且 WHERE 里面也只有这三个列的条件,那么就可以考虑直接创建一个 <A, B, C> 组合索引。

对于这个高频 SQL 来说,新的组合索引就是一个覆盖索引。将 SQL 由 SELECT * 改成了 SELECT A, B, C,完全避免了回表。

索引的最左匹配原则

索引在查询中是按照最左匹配原则来使用的。比如一张表的示例数据如下:

ABC
123141
123151
144122
144132
231109

假如你创建了一个在 A、B、C 三个列上的组合索引 <A, B, C>,此时:A 是绝对有序的;在 A 确定的情况下,B 是有序的;在 A 和 B 都确定的情况下,C 是有序的。

反过来说:

  • 如果 A 的值不确定,那么 B 和 C 都是无序的。例如当 A 取值可能为 1 或者 2 的时候,B 的取值可能是 (23, 44, 31)
  • 如果 A 的值确定,但是 B 的值不确定,那么 C 是无序的。例如当 A=1 而 B 可能是 44 或者 31 的时候,C 的值可能是 (122, 132, 109)

执行一个 WHERE A=a1 AND B=b1 AND C=c1 的查询就类似于:

for a in A {
  if a == a1 {
    for b in B {
      if b == b1 {
        for c in C {
          if c == c1 {
            // 这就是你要的数据,拿到主键之后去磁盘里面加载出来
          }
        }
      }
    }
  }
}

从这个角度出发,就能理解其他最左匹配原则的情况了。

  • 如果查询条件是 WHERE A = a1 AND B = b1,那么你可以推断出来,数据库只会应用外层的两重循环,不会对 C 进行过滤。
for a in A {
  if a == a1 {
      for b in B {
        if b == b1 {
          // 这就是你要的结果,去磁盘里面读取
        }
      }
  }
}

  • 如果查询条件是 WHERE A = a1 OR B = b1,那么这个查询并不会使用这个索引。
for a in A {
  if a == a1 {
      as = append(as, a)
  }
}
for b in B {
  if b == b1 {
      bs = append(bs, b)
  }
}
// as 和 bs 的并集就是你要的结果

  • 如果查询条件是 WHERE A=a1 AND B > b1 AND C = c1,那么这个查询只会使用索引的 A 和 B 两列。
for a in A {
  if a == a1 {
      for b in B {
        if b > b1 {
          // C 是无序的,所以用不了。你可以从前面的表格里面看出来
          // 比如说 b > 23 之后,对应的 C 是乱序的
          // 这就是你要的结果,去磁盘里面读取
        }
      }
  }
}

  • 如果查询条件是 WHERE A !=a1,那么这个查询也不会使用索引。

可以用一个简单的口诀判断会不会使用索引。按照组成索引的列的顺序,从左往右: AND 用 OR 不用,正用反不用,范围则中断

这个口诀是一个简化之后的版本,还有一些意外情况是不符合这个口诀描述的规律的。比如说 M = 1 OR N = 2,如果单列 M 上有一个索引,并且单列 N 上也有一个索引,那么还是可能会使用 M 和 N 上的两个索引。

在实践中,用索引还是不用索引,就一个原则: 看 EXPLAIN 命令的输出

【问题】为什么明明设置了索引,但是查询的时候数据库却没用上索引?
【分析】数据库在一些特殊的情况下可能并不会使用任何索引。例如在前面的索引 <A, B, C> 的例子中,假设 A 的所有值都是正数,然后查询条件 WHERE A > -1,那么这个时候数据库会觉得还不如直接全表扫描,那么虽然有一个索引看起来能用,但是最终并不会用。
【回答】数据库可能不使用索引的原因有以下几种:

  • 使用了 !=LIKE 之类的查询。(如果只是 LIKE abc% 这种前缀查询,那么还是可能用索引的)
  • 字段区分度不大。比如说你的 status 列只有 0 和 1 两个值,那么数据库也有可能不用。
  • 使用了特殊表达式,包括数学运算和函数调用。
  • 数据量太小,或者 MySQL 觉得全表扫描反而更快的时候。

索引与NULL

首先,MySQL 的索引对 NULL 类型的字段,会尽可能使用索引,即便索引的某个列里面有零值,并且 IS NULL IS NOT NULL 都可以使用索引。

其次, MySQL 的唯一索引允许有多行的值都是 NULL。也就是说你可以有很多行唯一索引的列的值都是 NULL。因为对于 NULL 的定义 ,是指未知值。 唯一索引中多个 NULL都是未知的,不能说它们是相等的,也不能说是不等,就是未知的。所以多个NULL的存在是不违反唯一约束的。

但是不管怎么说,使用 NULL 都是一个比较差的实践,应该尽可能避免使用NULL

索引的代价

索引并不是完全没有代价,它会消耗很多的系统资源。

  1. 索引本身需要存储起来,消耗磁盘空间。
  2. 在运行的时候,索引会被加载到内存里面,消耗内存空间。
  3. 修改数据也要同步修改索引。在增删改的时候,数据库还需要同步维护索引,引入额外的消耗。

大表结构修改

在修改表结构或者修改索引(ALTER语句)的时候,数据量大的表修改索引和数据量小的表修改索引,实施方案是不一样的。

修改索引的时候, 数据库会加表锁,直到修改完成。所以当你准备新加一个索引的时候,如果这个表的数据很多,那么在你执行加索引的命令的时候,整张表可能都会被锁住几分钟甚至几个小时。

针对这个问题,一般可以考虑以下方案:

  • 停机变更,就是把业务停下来,然后更新表结构。如果做得更加精细一点,那么就可以说只把和这个表有关的功能下线,但不需要将整个服务或者系统下线。
  • 在业务低谷变更,比停机更新好一点,但是业务依旧受到了影响。而且万一并没有在低谷能完成变更,那么就会有其他风险。
  • 创建新表,这是不停机又不想业务受到影响的方案。具体来说就是创建一张新表,这张新表就是你准备用的新的表定义。然后将旧表的数据迁移过去。

SQL优化

了解了索引的基本原理,在实际业务中,有个很常用的场景就是数据库优化。数据库优化主要包含以下内容:

  • 硬件资源优化:换更大更强的机器。
  • 操作系统优化:调整操作系统的某些设置。
  • 服务器/引擎优化:也就是针对数据库软件本体进行优化,比如说调整事务隔离级别。在 MySQL 里面还可以针对不同的引擎做优化,比如说调整 InnoDB 引擎的日志刷盘时机。
  • SQL 优化:针对的就是 SQL 本身了。

其中,SQL 优化就是为了达到两个目标:

  1. 减少磁盘 IO,也可以说是尽量避免全表扫描、尽量使用索引以及尽量使用覆盖索引。
  2. 减少内存 CPU 消耗,尽可能减少排序、分组、去重之类的操作。

EXPLAIN命令

EXPALIN 命令的用法是 EXPLAIN SQL语句,然后数据库就会返回一个执行计划。expain出来的信息有10列,分别是:id、select_type、table、type、possible_keys、key、key_len、ref、rows、Extra。
在这里插入图片描述
其中几个需要关注的字段如下:

  1. type:指的是查询到所需行的方式,从好到坏依次是 system > const > eq_ref > ref > range > index > ALL

    • system 和 const 都可以理解为数据库只会返回一行数据,所以查询时间是固定的。
    • eq_ref 和 ref 字面意思是根据索引的值来查找。
    • range:索引范围扫描。
    • index:索引全表扫描,也就是扫描整棵索引。
    • ALL:全表扫描,发起磁盘 IO 的那种全表扫描。
  2. possible_keys:候选的索引。

  3. key:实际使用的索引。

  4. rows:扫描的行数。数据库可能扫描了很多行之后才找到你需要的数据。

  5. filtered:查找到你所需的数据占 rows 的比例。

实践中,没有必要将这些东西都死记硬背下来。等你要解读 EXPLAIN 的返回结果的时候,再去查看对比就可以了。

选择索引列

设计索引的时候,列的选择非常关键,可以参考以下规则:

  • 外键,一般都会用于关联、过滤数据,所以正常来说都会为表的外键创建索引。
  • 频繁出现在 WHERE 中的列,主要是为了避免全表扫描。
  • 频繁出现在 ORDER BY 的列,这是为了避免数据库在查询出来结果之后再次排序。
  • 频繁出现在关联查询的关联条件中的列。不过一般我们都不建议使用关联查询,所以几乎可以忽略这个。
  • 区分度很高的列。比如每一行的数据都不同的列,并且在创建组合索引的时候,区分度很高的列应该尽可能放到左边。

【问题】你是怎么优化你的 SQL 查询的?
【回答】通过 SQL 的慢查询监控,当发现接口响应时间比较差的时候,就会去排查 SQL 的问题。主要可以使用 EXPLAIN 命令来查看 SQL 的执行计划,看看有没有走索引、走了什么索引、是否有内存排序、去重之类的操作。初步判定了问题所在之后,可以尝试如下优化方案:包括改写 SQL 或者修改、创建索引,然后再次运行 SQL 看看效果。如果效果不好,就继续使用 EXPLAIN 命令,再尝试修改。如此循环往复,直到 SQL 性能达到预期。

其它细节

【用 WHERE 替换 HAVING】
一般来说,数据库都是先根据 WHERE 条件找到候选的列,再根据 HAVING 条件进行二次过滤。如果能够将 HAVING 中部分条件提前到 WHERE里,那么就可以提前将不符合条件的数据过滤掉了。如果不是使用聚合函数来作为过滤条件,最好还是将过滤条件优先写到 WHERE 里面。

【优化分页中的偏移量】
比如列表分页,一页50条数据,那么当你要拿第 101 页的数据,需要写成 LIMIT 50000, 50,其中 50000 就是偏移量。实际执行中数据库就需要读出 50050 条数据,然后将前面的 50000 都丢掉,只保留 50 条。

针对这类情况,优化的思路就是 使用小偏移量。可以在原本的查询语句的 WHERE 里面加上了一个 WHERE id > max_id 的条件,这个 max_id 就是上一页的最大 ID,这样就可以保证 LIMIT 的偏移量永远是 0。

更多参考:《MySQL优化方案和explain详解》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/605734.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[C++] 类和对象:运算符重载

前言&#xff1a; 在C中&#xff0c;运算符重载是一种强大的特性&#xff0c;它允许我们重新定义已有的运算符&#xff0c;以便用于用户自定义的数据类型。通过运算符重载&#xff0c;我们可以使得我们自定义的类对象像内置类型一样进行运算&#xff0c;这为编写清晰、简洁且易…

Redis(安装及配置)

1.什么是redis Redis 全称 Remote Dictionary Server&#xff08;即远程字典服务&#xff09;&#xff0c;它是一个基于内存实现的键值型非关系&#xff08;NoSQL&#xff09;数据库&#xff0c;由意大利人 Salvatore Sanfilippo 使用 C 语言编写。 2.优势 性能极高&#xff…

靠谱二次元行研组:2024年国产动画番剧趋势报告

靠谱二次元行研组 根据靠谱二次元&#xff08;公众号ID&#xff1a;kpACGN&#xff09;统计&#xff0c;2023年全年累计在播动画番 剧超140部&#xff0c;有更新的年番超过15部。其中有123部国产动画番剧新开播&#xff0c;涉 及110个IP&#xff0c;80家制作公司&#xff0c;新…

Cloudera的简介及安装部署

简介 Cloudera是一家位于美国的软件公司&#xff0c;成立于2008年&#xff0c;专注于为企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。Cloudera的开源Apache Hadoop发行版&#xff0c;即Cloudera Distribution including Apache Hadoop&#xff08;CDH&am…

基于YOLOv5的火焰目标检测(代码+数据集+训练好的模型)

基于YOLOv5的火焰目标检测项目是一个旨在实时识别和定位视频或图像中火焰区域的计算机视觉应用。YOLOv5是YOLO&#xff08;You Only Look Once&#xff09;系列目标检测模型的一个高效版本&#xff0c;以其快速、准确且易于部署的特点而受到青睐。 技术背景 YOLOv5&#xff1…

C++进阶之路:探索访问限定符、封装与this指针的奥秘(类与对象_上篇)

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

C++ list介绍(迭代器失效)

一、常用接口 reverse逆置 sort排序&#xff08;默认升序&#xff09; 仿函数greater<int> merge合并&#xff0c;可以全部合并&#xff0c;也可以一部分合并 unique&#xff1a;去重&#xff08;先排序&#xff0c;再去重&#xff09; remove&#xff1a;删除e值&#…

Django之rest_framework(六)

一、GenericViewSet类的使用 继承自GenericAPIView,作用也与GenericAPIVIew类似,提供了get_object、get_queryset等方法便于视图的开发 1.1、代码 from rest_framework.viewsets import GenericViewSet from rest_framework.response import Response from rest_framework …

基于Springboot+Vue+Java的校园资料分享平台

&#x1f49e; 文末获取源码联系 &#x1f649; &#x1f447;&#x1f3fb; 精选专栏推荐收藏订阅 &#x1f447;&#x1f3fb; &#x1f380;《Java 精选实战项目-计算机毕业设计题目推荐-期末大作业》&#x1f618; 更多实战项目~ https://www.yuque.com/liuyixin-rotwn/ei3…

【前端热门框架【vue框架】】——对组件进行更加简洁合理的处理和解释(一)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;程序员-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

css mix-blend-mode 层叠样式属性各类效果

官方给出的定义是&#xff1a;mix-blend-mode css 属性描述了元素的内容应该与元素的直系父元素的内容和元素的背景如何混合。 通俗来讲&#xff0c;就是一张图片跟它的父级元素背景色的融合方式。 大致分为以下16种&#xff1a; mix-blend-mode: normal; mix-blend-mode: m…

QT--day3

1、mywidget.h #ifndef MYWIDGET_H #define MYWIDGET_H #include <QWidget> #include<QIcon> //图标类 #include<QLabel> //标签类 #include<QMovie> //动图类 #include<QLineEdit> //行编辑器类 #include<QPushButton> //按钮类 #include…

美团二面:SpringBoot读取配置优先级顺序是什么?

引言 Spring Boot作为一种轻量级的Java应用程序框架&#xff0c;以其开箱即用、快速搭建新项目的特性赢得了广大开发者的青睐。其核心理念之一就是简化配置过程&#xff0c;使开发者能够快速响应复杂多变的生产环境需求。为了实现这一点&#xff0c;Spring Boot支持丰富的外部…

智慧旅游推动旅游服务智慧化转型:借助智能科技的力量,实现旅游资源的精准匹配和高效利用,为游客提供更加便捷、舒适的旅游环境

目录 一、引言 二、智慧旅游的定义与特点 &#xff08;一&#xff09;智慧旅游的定义 &#xff08;二&#xff09;智慧旅游的特点 三、智能科技在旅游服务中的应用 &#xff08;一&#xff09;大数据分析助力旅游决策 &#xff08;二&#xff09;人工智能实现个性化推荐…

【C++】map和set的基础详解

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;个人主页 &#xff1a;阿然成长日记 …

【使用ChatGPT的API之前】OpenAI API提供的可用模型

文章目录 一. ChatGPT基本概念二. OpenAI API提供的可用模型1. InstructGPT2. ChatGPT3. GPT-4 三. 在OpenAI Playground中使用GPT模型-ing 在使用GPT-4和ChatGPT的API集成到Python应用程序之前&#xff0c;我们先了解ChatGPT的基本概念&#xff0c;与OpenAI API提供的可用模型…

SpringBoot Actuator未授权访问漏洞的解决方法

1. 介绍 Spring Boot Actuator 是一个用于监控和管理 Spring Boot 应用程序的功能模块。它提供了一系列生产就绪的功能&#xff0c;帮助你了解应用程序的运行状况&#xff0c;以及在运行时对应用程序进行调整。Actuator 使用了 Spring MVC 来暴露各种 HTTP 或 JMX 端点&#x…

WOA-SVM多变量分类预测|基于鲸鱼优化算法的支持向量机|Matalb

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、算法介绍&#xff1a; 四、完整程序下载&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于Matlab平台编译&am…

stm32f103zet6_RTC_1_介绍

RTC简介 实时时钟是一个独立的定时器。 RTC模块拥有一组连续计数的计数器&#xff0c;在相应软件配置下&#xff0c;可 提供时钟日历的功能。 修改计数器的值可以重新设置系统当前的时间和日期。 RTC模块和时钟配置系统(RCC_BDCR寄存器)处于后备区域&#xff0c;即在系统复…