【MySQL那些事】一文详解索引原理

741 阅读7分钟

学习任何技术,首先我们要知道怎么用,熟练之后再探究其原理,最后再根据业务进行优化。

——船长

MySQL的索引有哪些?

主键索引:表的主键列会默认添加索引,索引中保存了该行记录的所有数据
唯一索引(upique):该列的所有值必须唯一
普通索引(normal):普通列的一种索引
聚合索引:是普通索引中的一种,但是它是由多个列组成的索引

索引怎么用?

假设我们有几张表,如下

使用navicat设计学生student表,并添加索引如下

1、主键索引

mysql会为每个表的主键自动添加索引,在其索引树的叶子节点中,保存着主键所在行的所有数据,这个后面会讲。也就是说只要找到主键,就代表找到了该行记录,所以使用了主键索引速度会比较快

2、唯一索引

唯一索引对应的列,其数据不可重复,这点相当于主键,不同的是其索引树的叶子节点保存的不是所在行的所有数据,而是该列的值,查询速度比主键慢一些

3、普通索引

普通索引就没什么好说了,其值可以重复,而且索引树叶子节点保存的就是该列的值,而不是整行数据

4、聚合索引

当需要联合几个字段去查询时,使用聚合索引的速度会比多个普通索引快,因为每个索引对应一棵索引树,多个普通索引,虽然都用上了索引,但是要遍历好几个索引树,而使用聚合索引只需遍历一棵索引树

如果对索引树一点了解都没有的同学,可以先看看下面的分析,再回过头来理解一下这四种索引,必然会有焕然一新的感觉

索引的底层结构是什么?

索引底层结构分为全文索引、哈希索引、B+树索引
全文索引:只有MyISAM引擎支持,不作介绍
哈希索引:计算索引列的hashCode,并将其存在索引中,如果出现冲突,就以链表的形式存储,类似hashMap结构
B+树索引:将索引列的值排序,并放入索引树中的指定位置(Mysql默认的索引结构)

哈希索引的原理

hash是一种key-value形式的数据结构,哈希索引是以索引列的hashCode为键,数据行的地址指针为值形成的一种索引,它是一块非常紧凑的地址空间,可以将其视为数组

如果我们要查询【刘备】,那么先通过计算哈希码hashCode(刘备)=002得到,然后在哈希索引中找到key=002的位置,拿到真正保存数据的磁盘地址311,再去找到数据行。

可见这里查找了两次,第一次是根据hashCode找到地址,第二次是根据地址找到数据行,但是这种查询速度是非常快的,因为它没有去遍历每一条数据行,而是通过hashCode直接找到数据行的磁盘地址。

那如果发生hash冲突怎么办呢?例如关羽和张飞的hashCode都等于010,这时候就会将张飞接在关羽的后面,形成一种链式结构,然后在关羽的下一个地址指针中保存张飞的地址。

当查找【张飞】时,通过hashCode(张飞)=010找到地址45,再通过地址找到了关羽,通过判断姓名【张飞】!=【关羽】,于是通过下一个地址指针46继续查找,第二次就找到了张飞。

这种解决冲突的方式称之为链地址法。所以哈希索引的结构就是数组+链表的形式,与hashMap雷同,但是当冲突太多导致链表很长时,操作数据的时候还是会一直遍历链表才能找到数据,这就会影响性能。

大家可以通过哈希索引的结构,再根据自己平时写sql用到的条件,思考一下他有什么优缺点,我将在文末进行总结。

B+树索引原理

B+树的演变

二叉树 ——> 二叉搜索树 ——> 平衡二叉树 ——> B树 ——> B+树

在这里对二叉树等结构不做深入介绍,后续的算法章节会详细介绍,只简单介绍B树和B+树。

什么是B树?

基本定义:

1、根节点至少有两个子节点

2、叶子节点都在同一高度

3、如果非叶子节点有n个关键字,那么他有n+1个子节点,且这n个节点递增排列

什么是B+树?

B+是由B树演变而来的,所以它具有B树的所有特性,另外还有两点

1、B+树的非叶子节点只存关键字,不存放数据

2、B+树的叶子节点之间用指针相连,是一个双向链表

MySQL中的B+树索引

我们用上面的student表来看B+树是如何存储索引的,假设在student表中添加以下几条数据

上面我们已经为其添加了索引,现在student中的所有索引如下

id:主键索引,默认创建的
code:唯一索引
class_id:普通索引
name_class:name列和class_id列的聚合索引

id索引的B+树索引结构如下:

由此可知,主键索引的叶子节点存储了整行的记录,所以使用了主键索引的sql查询速度是非常快的。

唯一索引和普通索引一样,只不过该索引的值是唯一的,不会出现重复值

普通列class_id的索引树如下:

重点来了!重点来了!重点来了!

可见其叶子节点保存的是其行记录中的id,我们看下面两条sql有何不同

sql1:select * from tb_student where class_id=834

sql2:select id from tb_student where class_id=834

看似一样,实则不然。第一条sql查询的是整行记录,而行记录是保存在主键的索引树中的,所以其查询步骤是:根据普通索引class_id的索引树找到叶子节点,获得行记录id,然后根据id去主键索引树中取出整行记录

这个查询过程就称之为回表,可见回表会降低查询效率

而第二条sql查询的就是id,class_id的索引树叶子节点保存的就是id的值,那么不需要去主键索引树取值了,直接将id返回即可,所以效率较前者高。(看到这里大家应该能想到为什么需要聚合索引了)

知其然,知其所以然,必百战百胜。

下面我们再看看聚合索引的树结构:

为了数据能够直观一点,我们新增一个聚合索引

其索引树如下

联合索引中的第一个索引是classid,那么索引树会先根据class_id去排序,而后再依次根据后面的索引列排序。所以联合索引的最左原则就可以在此体现了。

SELECT * FROM tb_student where class_id=18 and id=834

对于上面这条语句,他有两个索引可以走,第一是联合索引id_class,第二个是主键索引id,拿到底会走哪一条呢?答案是主键索引

注意:联合索引和主键索引同时存在时,优先走主键索引

为什么呢?这是mysql采用的优化策略,因为主键索引可以直接查出整行数据,所以不管你select *还是select 其他字段我都能满足,而走联合索引且select *时还会涉及到一次回表操作

总结

哈希索引的优缺点

优点:
1、查询速度快
2、维护索引的成本相对较低

缺点:
1、无法进行范围查询,因为是通过计算元素的hashCode定位查找的,像age>50这种范围查找是无法使用哈希索引的
2、无法通过索引排序,哈希的最大特点就是散列分布,几乎毫无规律,所以无法排序

B+树索引的优缺点

优点:
1、索引树一般2-4层,查询效率高,IO消耗少
2、支持各种范围查询
3、支持索引排序

缺点:
1、维护索引树的代价高
2、索引太多所占的空间也会变大


关注公众号:全栈船长