您的位置:首页 > 职场人生

2014阿里实习生面试题——mysql如何实现索引的

2015-01-03 09:08 531 查看
http://blog.csdn.net/baiduwu/article/details/24296739

这是2014阿里实习生北京站二面的一道试题:

在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,比如MyISAM和InnoDB存储引擎。

MyISAM索引实现:

MyISAM存储引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据记录的地址。MyISAM的索引方式也叫做“非Ju集”的,之所以这么称呼是为了与InnoDB的ju集索引区分。

InnoDB索引实现:

虽然InnoDB也使用B+Tree作为索引结构,但具体实现方式却与MyISAM截然不同。

第一个重大区别是:InnoDB的数据文件本身就是索引文件。

第二个与MyISAM索引的不同是:InnoDB的辅助索引data域存储相应记录主键的值而不是地址。ju集索引这种实现方式使得按主键的搜索十分高效,但是辅助索引搜索需要检索两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。

其实,数据库索引的实现可以采用红黑树,B-Tree树数据结构。

但是为什么实际上采用的B+Tree呢?

这要从计算机存储原理和操作系统相关知识说起。因为数据表的索引比较大,不能常驻内存,所以以文件形式存储在磁盘中。所以当查询数据的时候就需要I/O操作。高效率查询的目标是较少I/O次数。一次I/O一般读取一页(一般为4k)大小的数据(局部性原理)。如此,在B-树中,每当申请一个新结点时,就以页的大小来申请。也就是说一次I/o可以读取一个一个结点(包含很多key)的数据;而在红黑树结构结构中,逻辑相邻的结点物理上不一定相邻,就是说,读取同等的数据需要多次I/O。所以选择B-树效率更好。

那为何最终选了B+树呢?

因为B+树内节点去掉了data域,因此可以拥有更大的出度,就是说一个结点可以存储更多的内结点,那么I/O效率更高。

了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助,例如知道了InnoDB的索引实现后,就很容易明白为什么不建议使用过长的字段作为主键,因为所有辅助索引都引用主索引,过长的主索引会令辅助索引变得过大。再例如,用非单调的字段作为主键在InnoDB中不是个好主意,因为InnoDB数据文件本身是一颗B+Tree,非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整,十分低效,而使用自增字段作为主键则是一个很好的选择。



ju集索引与非ju集索引之分:

InnoDB是ju集索引,因为它的B+树的叶结点包含了完整的数据记录。而MyISAM方式B+树的叶结点只是存储了数据的地址,故称为非ju集索引。

索引使用策略及优化

MySQL的优化主要分为结构优化(Scheme optimization)和查询优化(Query optimization)。详情查看此文:

MySQL索引背后的数据结构及算法原理
注:聚,都用ju代替,ju集居然是敏感词,太坑了,求破解方法



2014阿里实习生面试题——哈希的原理和java中hashmap如何实现的



1、哈希的原理

哈希的出现时因为传统数据结构如线性表(数组,链表等),树中,关键字与其它的存放位置不存在对应的关系。因此在查找关键字的时候需要逐个比对,虽然出现了二分查找等各种提高效率的的查找算法。但是这些并不足够,希望在查询关键字的时候不经过任何比较,一次存取便能得到所查记录。因此,我们必须在关键字和其对应的存储位置间建立对应的关系f。这种对应的关系f被称为哈希函数,按此思想建立的表为哈希表。关键在于哈希函数如何构造。

有如下几种方法:

1)直接定址法

取关键字或者关键字的某个线性函数值为哈希地址。

2)数字分析法

3)平方取中法

取关键字平方后的中间几位为哈希地址。

4)折叠法

将关键字分割成位数相同的几部分(最后一部分的位数可以不通),然后取这几部分的叠加和(舍去进位)作为哈希地址。

5)取余数法

取关键字被某个不大于哈希表表长(HASH_TABLE_LENGTH)的数p除后所得的余数作为哈希地址。

H(key) = key % p (其中p小于或者等于哈希表表长HASH_TABLE_LENGTH)

6)随机数法

取关键字的随机函数值作为它的哈希地址。

那么确定了哈希函数之后,就要解决哈希冲突的问题,常用的方法如下:

1)开放定址法

Hi = (H(key) + di) % M i = 1, 2, 3,..., k ( k <= M-1 )

其中:H(key)为哈希函数;M为哈希表表长;di为增量序列;di可能有下列三种取法:

a 线性探测再散列:di = 1, 2, 3, ..., M-1

b 二次探测再散列:di = (+,-)k^2,(k <= M/2)

c 随机探测再散列:di为随机数序列

2)再哈希法

3)链地址法

4)建立一个公共溢出区

2、java中的hashmap是如何实现的

HashMap实际上是一个“链表散列”的数据结构,即数组和链表的结合体。我们可以理解为“链表的数组”,如图:



HashMap其实也是一个线性的数组实现的,所以可以理解为其存储数据的容器就是一个线性数组。那么一个线性的数组怎么实现按键值对来存取数据呢?这里HashMap有做一些处理。

  1.首先HashMap里面实现一个静态内部类Entry,其重要的属性有 key , value, next,从属性key,value我们就能很明显的看出来Entry就是HashMap键值对实现的一个基础bean,我们上面说到HashMap的基础就是一个线性数组,这个数组就是Entry[],Map里面的内容都保存在Entry[]里面。
2、hashmap中hash冲突的解决(链地址法):Entry类里面有一个next属性,作用是指向下一个Entry。每当同一个index有新的结点(A)插入时,A成为此索引的头结点,然后A->NEXT=旧头结点。



















内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: