您的位置:首页 > 职场人生

【面试题】MySQL索引相关的面试题(红黑树,hash,B树,B+树)

2018-12-13 17:15 781 查看
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_36533951/article/details/84991777

自己整理了几个面试题分享给大家

问题1:红黑树为什么那样设计?

首先聊一下二叉搜索树,主要特点是左节点比根节点小,右节点比根节点大,并且左右子树都是二叉搜索树。缺点是在极端情况下,比如插入都是有序的,就会出现退化的情况有序序列树退化成链表。

二叉搜索树

	退化成链表的二叉搜索树

此时,要想让树的节点平均分布就需要平衡树了,红黑树就是平衡树的一种(平衡二叉搜索树)。然后,一棵树的查询性能取决于树的高度,红黑树让树尽可能平衡,就是为了降低树的高度。(java中红黑树的实现treeset)

红黑树

问题2:什么是B树?

B树是一种平衡多路搜索树,他的每个节点可以拥大于等于2个子节点,M路的B树最多能拥有M个子节点,一个节点中有 m 个子节点则存在 m-1 个记录,记录按照递增次序进行排列,叶节点都在同一层上。B树之所以多路(也就是每个节点上可存多个记录)是为了降低高度,路数越多,树高度越低,查询性能也高。但也不能是无限的,否则就退化成有序数组了。

B树

退化成有序数组的B树

问题3:什么是B+树?

B+树是在B树基础上进行改造,他的数据都在叶子结点,同时叶子结点之间还加了指针形成一个链表。

B+树

问题4:为什么用B+树存储索引而不用B树?

这也是和业务场景相关的,一般去数据库查询数据,不一定只选一条,很多时候会选多条数据,在查多条情况下,B树需要做局部的中序遍历,可能要跨层访问。而B+树由于所有数据都在叶子结点,不用跨层,同时由于有链表结构,只需要找到首尾,通过链表就能把所有数据取出来了。

问题5:为什么用B+树做索引?

我们在MySQL中的数据一般是放在磁盘中的,读取数据的时候肯定会有访问磁盘的操作,磁盘中有两个机械运动的部分,分别是盘片旋转和磁臂移动。盘片旋转就是我们市面上所提到的多少转每分钟,而磁臂移动则是在盘片旋转到指定位置以后,移动磁臂后开始进行数据的读写。那么这就存在一个定位到磁盘中的块的过程,而定位是磁盘的存取中花费时间比较大的一块,毕竟机械运动花费的时候要远远大于电子运动的时间。当大规模数据存储到磁盘中的时候,显然定位是一个非常花费时间的过程,但是我们可以通过B树进行优化,提高磁盘读取时定位的效率。

为什么B类树可以进行优化呢?我们可以根据B类树的特点,构造一个多阶的B类树,然后在尽量多的在结点上存储相关的信息,保证层数尽量的少,以便后面我们可以更快的找到信息,磁盘的I/O操作也少一些,而且B类树是平衡树,每个结点到叶子结点的高度都是相同,这也保证了每个查询是稳定的。

一般去数据库查询数据,不一定只选一条,很多时候会选多条数据,在查多条情况下,B树需要做局部的中序遍历,可能要跨层访问。而B+树由于所有数据都在叶子结点,不用跨层,同时由于有链表结构,只需要找到首尾,通过链表就能把所有数据取出来了。

问题6:为什么用B+树不用红黑树?

总的来说,B/B+树是为了磁盘或其它存储设备而设计的一种平衡多路查找树(相对于二叉,B树每个内节点有多个分支),与红黑树相比,在相同数据情况下,一颗B/B+树的高度远远小于红黑树的高度,这样在磁盘查找数据时,磁臂定位次数也就越少,查询效率越高。B/B+树上操作的时间通常由存取磁盘的时间和CPU计算时间这两部分构成,而CPU的速度非常快,所以B树的操作效率取决于访问磁盘的次数,关键字总数相同的情况下B树的高度越小,磁盘I/O所花的时间越少。

问题7:既然hash比B+树快,为什么MySQL数据库要用B+树存储索引?

如果只选一个数据,那确实是hash更快。但是数据库中经常会选择多条,这时候由于B+树索引有序,并且又有链表相连,它的查询效率比hash就快很多了。
而且数据库中的索引一般是在磁盘上,数据量大的情况可能无法一次装入内存,B+树的设计可以允许数据分批加载,同时树的高度较低,提高查找效率。

参考文章:
为什么MySQL数据库索引选择使用B+树?
【面试现场】为什么MySQL数据库要用B+树存储索引?

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: