您的位置：首页 > 数据库 > MySQL

MySQL innoDB索引底层原理详解

2016-09-02 21:25 741 查看

摘要
本文介绍MySQL的InnoDB索引相对底层原理相关知识，涉及到B+Tree索引和Hash索引，但本文主要介绍B+Tree索引，其中包括聚簇索引和非聚簇索引，InnoDB数据页结构详解，B+Tree索引的使用以及优化，同时还有B+Tree索引的查询流程简介。
此文是我对学习InnoDB索引的一个总结，内容主要参考MySQL技术内幕 InnoDB存储引擎一书，及网上一些博客（参考文献会给出）
一、先从B+Tree入手
B+树的特性

因作者文笔有限，B+树的定义如果在这里重复列出的话，应该只会让大家更困惑，同时相信任何一本数据结构书中都能找到其复杂的定义。但是为了便于读者理解接下来的内容，下面只是简单的介绍一下B+树的几个本文中会用到的特性。

B+树是为磁盘或其他直接存取辅助设备而设计的一种平衡查找树（如果不知道平衡查找树，请自行google），在B+树中，所有记录节点都是按键值的大小顺序存放在同一层的叶节点中，各叶节点指针进行连接。

下图是在网上找的一张B+树示意图

二、InnoDB数据页结构
1.页介绍

页是InnoDB存储引擎管理数据库的最小磁盘单位。页类型为B-Tree node的页，存放的即是表中行的实际数据了。

InnoDB中的页大小为16KB，且不可以更改

InnoDB可以将一条记录中的某些数据存储在真正的数据页面之外，即作为行溢出数据。MySQL的varchar数据类型可以存放65535个字节，但实际只能存储65532个。同时InnoDB是B+树结构的，因此每个页中至少应该有两个行记录，否则失去了B+树的意义，变成了链表，所以一行记录最大长度的阈值是8098，如果大于这个值就会将其存到溢出行中。

2.InnoDB数据页组成部分
File Header(文件头)
Page Header(页头)
Infimun + Supremum Records
User Records(用户记录，即行记录)
Free Space(空闲空间)
Page Directory(页目录)
File Trailer(文件结尾信息)

这也是我摘抄的书上的内容，下面我只介绍一下会帮助理解底层原理的部分。

1.在File header中，FIL+PAGE_PREV,FIL_PAGE_NEXT两个表示当前页的上一页和下一页，由此可以看出叶子节点是双向链表串起来的。如下图

2.Infimum和Supremum记录

在InnoDB存储引擎中，每个数据页中有两个虚拟的行记录，用来限定记录的边界。Infimum记录是比该页中任何主键值都要小的值，Supremum指比任何可能大的值还要大的值。这两个值在页创建时被建立，并且在任何情况下不会被删除。

由上图可以看出，行记录是记录在页中的，同时是在页内行记录之间也是双向链表链接的(在网上有看到说是单链表的)

3.Page Directory

页目录中存放了记录的相对位置，有些时候这些记录指针称为Slots（槽）或者目录槽，与其他数据库不同的是，InnoDB并不是每个记录拥有一个槽，InnoDB中的槽是一个稀疏目录，即一个槽中可能属于多个记录，最少属于4个目录，最多属于8个目录。槽中记录按照键顺序存放，这样可以利用二叉查找迅速找到记录的指针。但是由于InnoDB中的Slots是稀疏目录，二叉查找的结果只是一个粗略的结果，所以InnoDB必须通过recorder
header中的next_record来继续查找相关记录。同时slots很好的解释了recorder header中的n_owned值的含义，即还有多少记录需要查找，因为这些记录并不包括在slots中。

三、查询B+树索引的流程

首先通过B+树索引找到叶节点，再找到对应的数据页，然后将数据页加载到内存中，通过二分查找Page Directory中的槽，查找出一个粗略的目录，然后根据槽的指针指向链表中的行记录，之后在链表中依次查找。

需要注意的地方是，B+树索引不能找到具体的一条记录，而是只能找到对应的页。把页从磁盘装入到内存中，再通过Page
Directory进行二分查找，同时此二分查找也可能找不到具体的行记录（有可能会找到），只是能找到一个接近的链表中的点，再从此点开始遍历链表进行查找。

四、聚簇索引与非聚簇索引

B+树索引可以分为聚集索引和辅助索引，他们不同点是，聚集索引的行数据和主键B+树存储在一起，辅助索引只存储辅助键和主键。

1.聚集索引

聚集索引是按每张表的主键构造的一颗B+树，并且叶节点中存放着整张表的行记录数据，因此也让聚集索引的节点成为数据页，这个特性决定了索引组织表中数据也是索引的一部分。由于实际的数据页只能按照一颗B+树进行排序，所以每张表只能拥有一个聚集索引。查询优化器非常倾向于采用聚集索引，因为其直接存储行数据，所以主键的排序查询和范围查找速度非常快。

不是物理上的连续，而是逻辑上的，不过在刚开始时数据是顺序插入的所以是物理上的连续，随着数据增删，物理上不再连续。

2.辅助索引

辅助索引页级别不包含行的全部数据。叶节点除了包含键值以外，每个叶级别中的索引行中还包含了一个书签，该书签用来告诉InnoDB哪里可以找到与索引相对应的行数据。其中存的就是聚集索引的键。

辅助索引的存在并不影响数据在聚集索引的结构组织。InnoDB会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键，然后通过主键索引找到一个完整的行记录。当然如果只是需要辅助索引的值和主键索引的值，那么只需要查找辅助索引就可以查询出索要的数据，就不用再去查主键索引了。

五、索引的管理

索引在创建或者删除时，MySQL会先创建一个新的临时表，然后把数据导入临时表，删除原表，再把临时表更名为原表名称。

但是在InnoDB Plugin版本开始，支持快速创建索引。其原理是先在InnoDB上加一个s锁，在创建过程中不需要建表，所以速度会很快。创建过程中由于加了s锁，所以只能进行读操作，不能写操作。

show index form table;是查看表中索引的信息的。

Table:索引所在的表名

Non_unique:非唯一的索引，可以看到primary key 是0，因为必须是唯一的

Key_name:索引名称

Seq_in_index:索引中该列的位置

Column_name:索引的列

Collation:列以什么方式存储在索引中。可以是A或者NULL，B+树索引总是A，即排序的。

Cardinality：表示索引中唯一值的数目的估计值。如果非常小，那么需要考虑是否还需要建立这个索引了。优化器也会根据这个值来判断是否使用这个索引。

Sub_part:是否是列的部分被索引。100表示只索引列的前100个字符。

Packed:关键字如果被压缩。

Null：是否索引的列含有NULL值。

Index_type:索引的类型。InnoDB只支持B+树索引，所以显示BTREE

六、Hash索引

InnoDB中自适应哈希索引使用的是散列表的数据结构，并且DBA无法干预。

其实这一部分的原理，非常简单，在此就不做过多介绍了

总结

至此本文就结束了，本文只是从原理上进行了简单的介绍，由于笔者水平有限，且了解不深入，本文多处借鉴书本知识。外加了一些自己的见解，如有错误之处，还请不吝赐教。其中参考的博客地址：http://www.admin10000.com/document/5372.html，同时还有eremy
Cole的博客，地址：https://blog.jcole.us/2013/01/14/efficiently-traversing-innodb-btrees-with-the-page-directory/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： mysql B+树 hash 索引底层原理

相关文章推荐

新的分享

章节导航