您的位置:首页 > 其它

深入源码剖析 HashSet、HashMap、HashTable

2015-05-20 08:34 465 查看

HashTable

HashTable 是什么

public class Hashtable<K,V>
    extends Dictionary<K,V>
    implements Map<K,V>, Cloneable, java.io.Serializable


HashTable 是 Java 中哈希表的一种实现形式,它是 Dictionary 的子类,并且实现了 Map 接口。

注1:

哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。

注2:

Dictionary 类是一个能将键(key)映射到相应的值(value)的抽象父类,其中键和值都是对象,但在任何一个 Dictionary 对象中,每个键至多与一个值形成映射关系。

注3:

Map 则是定义了具有键值对关系的对象能进行的行为的接口

HashTable 的实现原理

了解了 HashTable 的相关概念之后,我们就该想想:HashTable 的具体实现原理是什么呢?我们不妨先简单看看 HashTable 的源码:

注4:

为了让大家别太头疼,我把注释部分去掉了,想要看注释的可以自己到文档里边看,在下面的讲解中有必要的地方我也会给大家指出

private transient Entry<?,?>[] table;

    private transient int count;

    private int threshold;

    private float loadFactor;

    private transient int modCount = 0;

    public Hashtable(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal Capacity: "+
                                               initialCapacity);
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal Load: "+loadFactor);

        if (initialCapacity==0)
            initialCapacity = 1;
        this.loadFactor = loadFactor;
        table = new Entry<?,?>[initialCapacity];
        threshold = (int)Math.min(initialCapacity * loadFactor, MAX_ARRAY_SIZE + 1);
    }

    public Hashtable(int initialCapacity) {
        this(initialCapacity, 0.75f);
    }

    public Hashtable() {
        this(11, 0.75f);
    }

    public Hashtable(Map<? extends K, ? extends V> t) {
        this(Math.max(2*t.size(), 11), 0.75f);
        putAll(t);
    }


从 HashTable 最基本的构造方法和相关属性我们可以注意到:

HashTable 中真正用于存储数据的是一个 Entry 数组

初始化 HashTable 时一定要传入 initialCapacity 和 loadFactor 的值,否则将使用默认值定义两者的大小

那么我们不妨就从这两点入手,研究 HashTable 的内部结构。

Entry 在 HashTable 中起什么作用?

我们不妨直接看 HashTable 的源码:

private static class Entry<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Entry<K,V> next;

        protected Entry(int hash, K key, V value, Entry<K,V> next) {
            this.hash = hash;
            this.key =  key;
            this.value = value;
            this.next = next;
        }

        @SuppressWarnings("unchecked")
        protected Object clone() {
            return new Entry<>(hash, key, value,
                                  (next==null ? null : (Entry<K,V>) next.clone()));
        }

        // Map.Entry Ops

        public K getKey() {
            return key;
        }

        public V getValue() {
            return value;
        }

        public V setValue(V value) {
            if (value == null)
                throw new NullPointerException();

            V oldValue = this.value;
            this.value = value;
            return oldValue;
        }

        public boolean equals(Object o) {
            if (!(o instanceof Map.Entry))
                return false;
            Map.Entry<?,?> e = (Map.Entry<?,?>)o;

            return (key==null ? e.getKey()==null : key.equals(e.getKey())) &&
               (value==null ? e.getValue()==null : value.equals(e.getValue()));
        }

        public int hashCode() {
            return hash ^ Objects.hashCode(value);
        }

        public String toString() {
            return key.toString()+"="+value.toString();
        }
    }


我不知道大家有没有似曾相识的感觉,反正我第一眼看到 Entry 类内的属性就反应过来了:Entry 其实就是一个链表。也就是说,HashTable 内部是结合数组和列表实现哈希表的,具体构造如图:



注5:

数组+链表实现哈希表采用的是链地址法解决冲突,具体内容可以参考我初学哈希表时的一篇博文:简单的哈希表实现(链地址法解决冲突)

initialCapacity 和 loadFactor 是什么?

从注释来看,initialCapacity 是 HashTable 的初始容量,而 loadFactor 是 HashTable 的装载因子。initialCapacity 的作用倒是好懂,就是表示新创建的 HashTable 的容量嘛。那个 loadFactor 是个什么鬼……别急,这就给你解释:

loadFactor 是 HashTable 用于衡量自身容量的值,例如 HashTable 的初始容量为20,装载因子为0.75,那么当 HashTable 中的键值对数量超过15(20*0.75)之后,HashTable 则会调用 rehash() 方法增大其容量,再将待添加的键值对加入 HashTable。

你觉得我在胡扯?不信看源码!

private void addEntry(int hash, K key, V value, int index) {
        modCount++;

        Entry<?,?> tab[] = table;
        if (count >= threshold) {
            // Rehash the table if the threshold is exceeded
            rehash();

            tab = table;
            hash = key.hashCode();
            index = (hash & 0x7FFFFFFF) % tab.length;
        }

        // Creates the new entry.
        @SuppressWarnings("unchecked")
        Entry<K,V> e = (Entry<K,V>) tab[index];
        tab[index] = new Entry<>(hash, key, value, e);
        count++;
    }


在我们调用 addEntry() 方法添加新的键值对时,首先会比较当前键值对的数量与装载上限量,如果超过装载上限则会执行 rehash() 方法。

注6:

threshold 就是装载上限,计算公式为:

java  threshold = (int)Math.min(initialCapacity * loadFactor, MAX_ARRAY_SIZE + 1);


@SuppressWarnings("unchecked")
    protected void rehash() {
        int oldCapacity = table.length;
        Entry<?,?>[] oldMap = table;

        // overflow-conscious code
        int newCapacity = (oldCapacity << 1) + 1;
        if (newCapacity - MAX_ARRAY_SIZE > 0) {
            if (oldCapacity == MAX_ARRAY_SIZE)
                // Keep running with MAX_ARRAY_SIZE buckets
                return;
            newCapacity = MAX_ARRAY_SIZE;
        }
        Entry<?,?>[] newMap = new Entry<?,?>[newCapacity];

        modCount++;
        threshold = (int)Math.min(newCapacity * loadFactor, MAX_ARRAY_SIZE + 1);
        table = newMap;

        for (int i = oldCapacity ; i-- > 0 ;) {
            for (Entry<K,V> old = (Entry<K,V>)oldMap[i] ; old != null ; ) {
                Entry<K,V> e = old;
                old = old.next;

                int index = (e.hash & 0x7FFFFFFF) % newCapacity;
                e.next = (Entry<K,V>)newMap[index];
                newMap[index] = e;
            }
        }
    }


在 rehash() 方法中则会进行相应的重哈希和新建 Entry 数组的操作。那么 Entry 数组到底会变大多少呢?答案是增大为当前最大容量的两倍:

int newCapacity = (oldCapacity << 1) + 1;


注意事项

在 HashTable 中,键与值的对象都不能是 null

为了能够成功存储和检索到相应的值,用作键的对象必须实现 hashCode() 和 equals() 方法

HashTable 是线程安全的类,其中的方法都实现了 synchronized 关键字。正如我在 String、StringBuffer、StringBuilder的区别及使用 中提到,当你不需要考虑并发时,重复的加锁解锁会带来效率的问题,此外,HashTable 这种保证线程安全的方法也不好。所以在 StackOverflow 的讨论中大部分人也同意:HashTable 已经是过去的类了,并不提倡大家使用 HashTable。

HashMap

HashMap 是什么

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable


HashMap 是 Java 中哈希表的一种实现形式,它是 AbstractMap 的子类,并且实现了 Map 接口。事实上 HashMap 与 HashTable 是很相似的,虽然 HashMap 继承于 AbstractMap 类,但是我们进入AbstractMap 类的代码:

public abstract class AbstractMap<K,V> implements Map<K,V>


AbstractMap 类只是一个实现了 Map 接口的抽象类而已。可能有人就会问了,既然 AbstractMap 类已经实现了 Map 接口,为什么 HashMap 还要实现 Map 接口,这不是多此一举么?非也,这是因为目前尚未确定 HashMap 会不会发生改变,此时 AbstractMap 只是 HashMap 的实现细节,如果有一天决定取消 AbstractMap 与 HashMap 的父子关系,那就需要重新写 HashMap 的代码了,而这又是没有必要的,因为 HashMap 所依赖的抽象逻辑 Map 接口就可以提供。

HashMap 的实现原理

同样的,我们截取 HashMap 最基本的组成:属性和构造方法来开始我们的分析的话会发现,HashMap 的实现原理和 HashTable 几乎一样,都是用 Entry 数组进行存储,链地址法解决哈希表中的冲突。并且使用了 initialCapacity 和 loadFactor。

注意事项

虽说 HashMap 与 HashTable 非常相似,但 HashMap 在细节处还是有改变的:

HashMap 的键和值都允许是 null

HashMap 是线程不安全的,但这意味着在非并发情况下 HashMap 是比 HashTable 更好的选择(效率更高),即便是需要考虑并发的情况,我们只要通过 Collections 类的 synchronizedMap 方法就可以获得线程安全的 HashMap,抑或是通过 ConcurrentHashMap 来实现线程安全。

HashMap 不能保证随着时间的推移,元素的次序不会发生改变

HashMap 的迭代器(Iterator)是 fail-fast 迭代器,而 Hashtable 的 enumerator 迭代器不是 fail-fast 。所以当有其它线程改变了 HashMap 的结构(增加或者移除元素),将会抛出ConcurrentModificationException,但迭代器本身的 remove() 方法移除元素则不会抛出ConcurrentModificationExceptio n异常。但这并不是一个一定发生的行为,要看 JVM 。这条同样也是Enumeration和Iterator的区别。

HashSet

HashSet 是什么

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable


HashSet 是 Java 中哈希表的一种实现形式,它是 AbstractSet 的子类,并且实现了 Set 接口。但值得注意的是,HashSet 一般用于进行高性能集运算,而实现 Set 接口使 HashSet 中不会出现重复元素。

HashSet 的实现原理

static final long serialVersionUID = -5024744406713321676L;

    private transient HashMap<E,Object> map;

    private static final Object PRESENT = new Object();

    public HashSet() {
        map = new HashMap<>();
    }

    public HashSet(Collection<? extends E> c) {
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c);
    }

    public HashSet(int initialCapacity, float loadFactor) {
        map = new HashMap<>(initialCapacity, loadFactor);
    }

    public HashSet(int initialCapacity) {
        map = new HashMap<>(initialCapacity);
    }


从源码可以看到,HashSet 的内部实现都依赖于 HashMap,也就是说,HashSet 其实就是为了进行几何运算对 HashMap 进行了封装,其他区别倒是不大。

注意事项

HashSet 在计算成员的哈希值时,直接通过对象进行运算,而 HashMap 则是通过存储对象对应的键进行运算
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: