您的位置：首页 > 职场人生

【面试题】MySQL索引相关的面试题(红黑树,hash,B树,B+树)

2018-12-13 17:15 781 查看

自己整理了几个面试题分享给大家

问题1：红黑树为什么那样设计？

首先聊一下二叉搜索树，主要特点是左节点比根节点小，右节点比根节点大，并且左右子树都是二叉搜索树。缺点是在极端情况下，比如插入都是有序的，就会出现退化的情况有序序列树退化成链表。

二叉搜索树

	退化成链表的二叉搜索树

此时，要想让树的节点平均分布就需要平衡树了，红黑树就是平衡树的一种（平衡二叉搜索树）。然后，一棵树的查询性能取决于树的高度，红黑树让树尽可能平衡，就是为了降低树的高度。（java中红黑树的实现treeset）

红黑树

问题2：什么是B树？

B树是一种平衡多路搜索树，他的每个节点可以拥大于等于2个子节点，M路的B树最多能拥有M个子节点，一个节点中有 m 个子节点则存在 m-1 个记录，记录按照递增次序进行排列，叶节点都在同一层上。B树之所以多路(也就是每个节点上可存多个记录）是为了降低高度，路数越多，树高度越低，查询性能也高。但也不能是无限的，否则就退化成有序数组了。

B树

退化成有序数组的B树

问题3：什么是B+树？

B+树是在B树基础上进行改造，他的数据都在叶子结点，同时叶子结点之间还加了指针形成一个链表。

B+树

问题4：为什么用B+树存储索引而不用B树？

这也是和业务场景相关的，一般去数据库查询数据，不一定只选一条，很多时候会选多条数据，在查多条情况下，B树需要做局部的中序遍历，可能要跨层访问。而B+树由于所有数据都在叶子结点，不用跨层，同时由于有链表结构，只需要找到首尾，通过链表就能把所有数据取出来了。

问题5：为什么用B+树做索引？

我们在MySQL中的数据一般是放在磁盘中的，读取数据的时候肯定会有访问磁盘的操作，磁盘中有两个机械运动的部分，分别是盘片旋转和磁臂移动。盘片旋转就是我们市面上所提到的多少转每分钟，而磁臂移动则是在盘片旋转到指定位置以后，移动磁臂后开始进行数据的读写。那么这就存在一个定位到磁盘中的块的过程，而定位是磁盘的存取中花费时间比较大的一块，毕竟机械运动花费的时候要远远大于电子运动的时间。当大规模数据存储到磁盘中的时候，显然定位是一个非常花费时间的过程，但是我们可以通过B树进行优化，提高磁盘读取时定位的效率。

为什么B类树可以进行优化呢？我们可以根据B类树的特点，构造一个多阶的B类树，然后在尽量多的在结点上存储相关的信息，保证层数尽量的少，以便后面我们可以更快的找到信息，磁盘的I/O操作也少一些，而且B类树是平衡树，每个结点到叶子结点的高度都是相同，这也保证了每个查询是稳定的。

一般去数据库查询数据，不一定只选一条，很多时候会选多条数据，在查多条情况下，B树需要做局部的中序遍历，可能要跨层访问。而B+树由于所有数据都在叶子结点，不用跨层，同时由于有链表结构，只需要找到首尾，通过链表就能把所有数据取出来了。

问题6：为什么用B+树不用红黑树？

总的来说，B/B+树是为了磁盘或其它存储设备而设计的一种平衡多路查找树(相对于二叉，B树每个内节点有多个分支)，与红黑树相比，在相同数据情况下，一颗B/B+树的高度远远小于红黑树的高度，这样在磁盘查找数据时，磁臂定位次数也就越少，查询效率越高。B/B+树上操作的时间通常由存取磁盘的时间和CPU计算时间这两部分构成，而CPU的速度非常快，所以B树的操作效率取决于访问磁盘的次数，关键字总数相同的情况下B树的高度越小，磁盘I/O所花的时间越少。

问题7：既然hash比B+树快，为什么MySQL数据库要用B+树存储索引？

如果只选一个数据，那确实是hash更快。但是数据库中经常会选择多条，这时候由于B+树索引有序，并且又有链表相连，它的查询效率比hash就快很多了。
而且数据库中的索引一般是在磁盘上，数据量大的情况可能无法一次装入内存，B+树的设计可以允许数据分批加载，同时树的高度较低，提高查找效率。

参考文章：
为什么MySQL数据库索引选择使用B+树？
【面试现场】为什么MySQL数据库要用B+树存储索引？

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航