一概述
这个哈希表是基于 Map 接口的实现的,它允许 null 值和null 键,它不是线程同步的,同时也不保证有序。 Map 的这种实现方式为 get(取)和 put(存)带来了比较好的性能。但是如果涉及到大量的遍历操作的话,就尽量不要把 capacity 设置得太高(或 load factor 设置得太低),否则会严重降低遍历的效率。
影响 HashMap 性能的两个重要参数:“initial capacity”(初始化容量)和”load factor“(负载因子)。简单来说,容量就是哈希表桶的个数,负载因子就是键值对个数与哈希表长度的一个比值,当比值超过负载因子之后,HashMap 就会进行 rehash操作来进行扩容。
二、数据结构
HashMap 的大致结构如下图所示,其中哈希表是一个数组,我们经常把数组中的每一个节点称为一个桶,哈希表中的每个节点都用来存储一个键值对。在插入元素时, 如果发生冲突(即多个键值对映射到同一个桶上)的话,就会通过链表的形式来解决冲突。因为一个桶上可能存在多个键值对,所以在查找的时候,会先通过 key 的哈希值先定位到桶,再遍历桶上的所有键值对,找出 key 相等的键值对,从而来获取 value。
HashMap是数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的
HashMap 中关于红黑树的三个关键参数
TREEIFY_THRESHOLD 一个桶的树化阈值 | UNTREEIFY_THRESHOLD 一个树的链表还原阈值 |
static final int TREEIFY_THRESHOLD = 8 | static final intUNTREEIFY_THRESHOLD = 6 |
当桶中元素个数超过这个值时 需要使用红黑树节点替换链表节点 | 当扩容时,桶中元素个数小于这个值 就会把树形的桶元素 还原(切分)为链 表结构 |
MIN_TREEIFY_CAPACITY 哈希表的最小树形化容量 | |
static final int MIN_TREEIFY_CAPACITY = 64 | |
当哈希表中的容量大于这个值时,表中的桶才能进行树形化 否则桶内元素太多时会扩容,而不是树形化 为了避免进行扩容、树形化选择的冲突,这个值不能小于 4 * TREEIFY_THRESHOLD |
三、属性
再来看看 HashMap 类中包含了哪些重要的属性,这对下面介绍 HashMap 方法的实现有一定的参考意义。
//默认的初始容量为 16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
//最大的容量上限为 2^30
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认的负载因子为 0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//桶变成树型结构的临界值为 8
static final int TREEIFY_THRESHOLD = 8;
//桶扩容时恢复链式结构的临界值为 6
static final int UNTREEIFY_THRESHOLD = 6;
//哈希表
transient Node<K,V>[] table;
//哈希表中键值对的个数
transient int size;
//哈希表被修改的次数
transient int modCount;
//它是通过 capacity*load factor 计算出来的,当 size 到达这个值时, 就会进行扩容操作
int threshold;
//负载因子
final float loadFactor;
//当哈希表的大小超过这个阈值,才会把链式结构转化成树型结构,否则仅采取扩容来尝试减少冲突
static final int MIN_TREEIFY_CAPACITY = 64;
下面是 Node 类的定义,它是 HashMap 中的一个静态内部类,哈希表中的每一个节点都是 Node 类型。我们可以看到,Node 类中有 4 个属性,其中除了 key 和value 之外,还有 hash 和 next 两个属性。hash 是用来存储 key 的哈希值的,next 是在构建链表时用来指向后继节点的。
static class Node<K,V> implements Map.Entry<K,V> {final int hash;final K key;V value;Node<K,V> next;Node(int hash, K key, V value, Node<K,V> next) {this.hash = hash;this.key = key;this.value = value;this.next = next;}public final K getKey() { return key; }public final V getValue() { return value; }public final String toString() { return key + "=" + value; }public final int hashCode() {return Objects.hashCode(key) ^ Objects.hashCode(value);}public final V setValue(V newValue) {V oldValue = value;value = newValue;return oldValue;}public final boolean equals(Object o) {if (o == this)return true;if (o instanceof Map.Entry) {Map.Entry<?,?> e = (Map.Entry<?,?>)o;if (Objects.equals(key, e.getKey()) &&Objects.equals(value, e.getValue()))return true;}return false;}}
四、方法源码
1、get 方法
get 方法主要调用的是 getNode 方法,所以重点要看 getNode 方法的实现
public V get(Object key) {Node<K,V> e;return (e = getNode(hash(key), key)) == null ? null : e.value;}
final Node<K,V> getNode(int hash, Object key) {Node<K,V>[] tab; Node<K,V> first, e; int n; K k;//如果哈希表不为空 && key 对应的桶上不为空if ((tab = table) != null && (n = tab.length) > 0 &&(first = tab[(n - 1) & hash]) != null) {//是否直接命中if (first.hash == hash && // always check first node((k = first.key) == key || (key != null && key.equals(k))))return first;//判断是否有后续节点if ((e = first.next) != null) {//如果当前的桶是采用红黑树处理冲突,则调用红黑树的 get 方法去获取节点if (first instanceof TreeNode)return ((TreeNode<K,V>)first).getTreeNode(hash, key);//不是红黑树的话,那就是传统的链式结构了,通过循环的方法判断链中是否存在该 keydo {if (e.hash == hash &&((k = e.key) == key || (key != null && key.equals(k))))return e;} while ((e = e.next) != null);}}return null;}
实现步骤大致如下:
1、通过 hash 值获取该 key 映射到的桶。
2、桶上的 key 就是要查找的 key,则直接命中。
3、桶上的 key 不是要查找的 key,则查看后续节点:
如果后续节点是树节点,通过调用树的方法查找该 key。
如果后续节点是链式节点,则通过循环遍历链查找该 key。
2、put 方法
//put 方法的具体实现也是在 putVal 方法中,所以我们重点看下面的 putVal 方法
public V put(K key, V value) {return putVal(hash(key), key, value, false, true);}final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {Node<K,V>[] tab; Node<K,V> p; int n, i;//如果哈希表为空,则先创建一个哈希表if ((tab = table) == null || (n = tab.length) == 0)n = (tab = resize()).length;//如果当前桶没有碰撞冲突,则直接把键值对插入,完事if ((p = tab[i = (n - 1) & hash]) == null)tab[i] = newNode(hash, key, value, null);else {Node<K,V> e; K k;//如果桶上节点的 key 与当前 key 重复,那你就是我要找的节点了if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))e = p;else if (p instanceof TreeNode)//如果是采用红黑树的方式处理冲突,则通过红黑树的 putTreeVal 方法去插入这个键值对e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);//否则就是传统的链式结构else {//采用循环遍历的方式,判断链中是否有重复的 keyfor (int binCount = 0; ; ++binCount) {//到了链尾还没找到重复的 key,则说明 HashMap 没有包含该键if ((e = p.next) == null) {//创建一个新节点插入到尾部p.next = newNode(hash, key, value, null);//如果链的长度大于 TREEIFY_THRESHOLD(8) 这个临界值,则把链变为红黑树if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1sttreeifyBin(tab, hash);break;}//找到了重复的 keyif (e.hash == hash &&((k = e.key) == key || (key != null && key.equals(k))))break;p = e;}}//这里表示在上面的操作中找到了重复的键,所以这里把该键的值替换为新值if (e != null) { // existing mapping for keyV oldValue = e.value;if (!onlyIfAbsent || oldValue == null)e.value = value;afterNodeAccess(e);return oldValue;}}++modCount;//判断是否需要进行扩容if (++size > threshold)resize();afterNodeInsertion(evict);return null;}/*** Replaces all linked nodes in bin at index for given hash unless* table is too small, in which case resizes instead.*///将桶内所有的 链表节点 替换成 红黑树节点final void treeifyBin(Node<K,V>[] tab, int hash) {int n, index; Node<K,V> e;//如果当前哈希表为空,或者哈希表中元素的个数小于 进行树形化的阈值(默认为 64),就去新建/扩容if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)resize();else if ((e = tab[index = (n - 1) & hash]) != null) {// 如果哈希表中的元素个数超过了树形化阈值,进行树形化// e 是哈希表中指定位置桶里的链表节点,从第一个开始TreeNode<K,V> hd = null, tl = null;do {//新建一个树形节点,内容和当前链表节点 e 一致TreeNode<K,V> p = replacementTreeNode(e, null);//确定树头节点if (tl == null)hd = p;else {p.prev = tl;tl.next = p;}tl = p;} while ((e = e.next) != null);//让桶的第一个元素指向新建的红黑树头结点,以后这个桶里的元素就是红黑树而不是链表了if ((tab[index] = hd) != null)hd.treeify(tab);}}
put 方法比较复杂,实现步骤大致如下:
1、先通过 hash 值计算出 key 映射到哪个桶。
2、如果桶上没有碰撞冲突,则直接插入。
3、如果出现碰撞冲突了,则需要处理冲突:
-
- 如果该桶使用红黑树处理冲突,则调用红黑树的方法插入。
- 否则采用传统的链式方法插入。如果链的长度到达临界值,则把链转变为 红黑树。
4、如果桶中存在重复的键,则为该键替换新值。
5、如果 size 大于阈值,则进行扩容。
3、remove 方法
理解了 put 方法之后,remove 已经没什么难度了,所以重复的内容就不再做详细介绍了。
//remove 方法的具体实现在 removeNode 方法中,所以我们重点看下面的removeNode 方法
public V remove(Object key) {Node<K,V> e;return (e = removeNode(hash(key), key, null, false, true)) == null ?null : e.value;}final Node<K,V> removeNode(int hash, Object key, Object value,boolean matchValue, boolean movable) {Node<K,V>[] tab; Node<K,V> p; int n, index;//如果当前 key 映射到的桶不为空if ((tab = table) != null && (n = tab.length) > 0 &&(p = tab[index = (n - 1) & hash]) != null) {Node<K,V> node = null, e; K k; V v;//如果桶上的节点就是要找的 key,则直接命中if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))node = p;else if ((e = p.next) != null) {//如果是以红黑树处理冲突,则构建一个树节点if (p instanceof TreeNode)node = ((TreeNode<K,V>)p).getTreeNode(hash, key);else {//如果是以链式的方式处理冲突,则通过遍历链表来寻找节点do {if (e.hash == hash &&((k = e.key) == key ||(key != null && key.equals(k)))) {node = e;break;}p = e;} while ((e = e.next) != null);}}//比对找到的 key 的 value 跟要删除的是否匹配if (node != null && (!matchValue || (v = node.value) == value ||(value != null && value.equals(v)))) {//通过调用红黑树的方法来删除节点if (node instanceof TreeNode)((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);//使用链表的操作来删除节点else if (node == p)tab[index] = node.next;elsep.next = node.next;++modCount;--size;afterNodeRemoval(node);return node;}}return null;}
4、hash 方法
在get 方法和put 方法中都需要先计算key 映射到哪个桶上,然后才进行之后的操作, 计算的主要代码如下:
(n - 1) & hash
上面代码中的 n 指的是哈希表的大小,hash 指的是 key 的哈希值,hash 是通过下面这个方法计算出来的,采用了二次哈希的方式,其中 key 的 hashCode 方法是一个native 方法:
static final int hash(Object key) {int h;return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);}
这个 hash 方法先通过 key 的 hashCode 方法获取一个哈希值,再拿这个哈希值与它的高 16 位的哈希值做一个异或操作来得到最后的哈希值,计算过程可以参考下图。为啥要这样做呢?注释中是这样解释的:如果当 n 很小,假设为 64 的话,那么 n-1 即为 63(0x111111),这样的值跟 hashCode()直接做与操作,实际上只使用了哈希值的后 6 位。如果当哈希值的高位变化很大,低位变化很小,这样就很容易造成冲突了,所以这里把高低位都利用起来,从而解决了这个问题。
正是因为与的这个操作,决定了 HashMap 的大小只能是 2 的幂次方,想一想,如果不是2 的幂次方,会发生什么事情?即使你在创建 HashMap 的时候指定了初始大小, HashMap 在构建的时候也会调用下面这个方法来调整大小:
static final int tableSizeFor(int cap) {int n = cap - 1;n |= n >>> 1;n |= n >>> 2;n |= n >>> 4;n |= n >>> 8;n |= n >>> 16;return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;}
这个方法的作用看起来可能不是很直观,它的实际作用就是把cap 变成第一个大于等于 2 的幂次方的数。例如,16 还是 16,13 就会调整为 16,17 就会调整为 32。
5、resize 方法
HashMap 在进行扩容时,使用的 rehash 方式非常巧妙,因为每次扩容都是翻倍,与原来计算(n-1)&hash 的结果相比,只是多了一个 bit 位,所以节点要么就在原来的位置,要么就被分配到“原位置+旧容量”这个位置。
例如,原来的容量为 16,那么应该拿 hash 跟 15(0x1111)做与操作;在扩容扩到了 32 的容量之后,应该拿 hash 跟 31(0x11111)做与操作。新容量跟原来相比只是多了一个 bit 位,假设原来的位置在5,那么当新增的那个 bit 位的计算结果为 0 时,那么该节点还是在 5;相反,计算结果为 1 时,则该节点会被分配到 21 的桶上。
看下图可以明白这句话的意思,n 为table 的长度,图(a)表示扩容前的key1 和key2 两种key 确定索引位置的示例,图(b)表示扩容后key1 和key2 两种key 确定索引位置的示例,其中hash1 是key1 对应的哈希与高位运算结果。
元素在重新计算hash 之后,因为n 变为2 倍,那么n-1 的mask 范围在高位多1bit(红色),因此新的index 就会发生这样的化:
因此,我们在扩充HashMap 的时候,不需要像JDK1.7 的实现那样重新计算hash,只需要看看原来的hash 值新增的那个bit 是1 还是0 就好了,是0 的话索引没变,是1 的话索引变成“原索引+oldCap”,可以看看下图为16 扩充为32 的resize 示意图:
这个设计确实非常的巧妙,既省去了重新计算hash 值的时间,而且同时,由于新增的1bit 是0 还是1 可以认为是随机的,因此resize 的过程,均匀的把之前的冲突的节点分散到新的bucket了。这一块就是JDK1.8 新增的优化点。
final Node<K,V>[] resize() {Node<K,V>[] oldTab = table;int oldCap = (oldTab == null) ? 0 : oldTab.length;int oldThr = threshold;int newCap, newThr = 0;//计算扩容后的大小if (oldCap > 0) {//如果当前容量超过最大容量,则无法进行扩容if (oldCap >= MAXIMUM_CAPACITY) {threshold = Integer.MAX_VALUE;return oldTab;}//没超过最大值则扩为原来的两倍else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&oldCap >= DEFAULT_INITIAL_CAPACITY)newThr = oldThr << 1; // double threshold}else if (oldThr > 0) // initial capacity was placed in thresholdnewCap = oldThr;else { // zero initial threshold signifies using defaultsnewCap = DEFAULT_INITIAL_CAPACITY;newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);}if (newThr == 0) {float ft = (float)newCap * loadFactor;newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?(int)ft : Integer.MAX_VALUE);}//新的 resize 阈值threshold = newThr;//创建新的哈希表@SuppressWarnings({"rawtypes","unchecked"})Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];table = newTab;if (oldTab != null) {//遍历旧哈希表的每个桶,重新计算桶里元素的新位置for (int j = 0; j < oldCap; ++j) {Node<K,V> e;if ((e = oldTab[j]) != null) {oldTab[j] = null;//如果桶上只有一个键值对,则直接插入if (e.next == null)newTab[e.hash & (newCap - 1)] = e;//如果是通过红黑树来处理冲突的,则调用相关方法把树分离开else if (e instanceof TreeNode)((TreeNode<K,V>)e).split(this, newTab, j, oldCap);else { // preserve order//如果采用链式处理冲突Node<K,V> loHead = null, loTail = null;Node<K,V> hiHead = null, hiTail = null;Node<K,V> next;//通过上面讲的方法来计算节点的新位置do {next = e.next;if ((e.hash & oldCap) == 0) {if (loTail == null)loHead = e;elseloTail.next = e;loTail = e;}else {if (hiTail == null)hiHead = e;elsehiTail.next = e;hiTail = e;}} while ((e = next) != null);if (loTail != null) {loTail.next = null;newTab[j] = loHead;}if (hiTail != null) {hiTail.next = null;newTab[j + oldCap] = hiHead;}}}}}return newTab;}
在这里有一个需要注意的地方,有些文章指出当哈希表的桶占用超过阈值时就进行扩容,这是不对的;实际上是当哈希表中的键值对个数超过阈值时,才进行扩容的。
五、方法使用
1.put
向map中添加值,若对应的key存在,则返回之前的value,如果没有则返回null
@Testpublic void testPut() {// 向map中添加值,若对应的key存在,则返回之前的value,如果没有则返回nullHashMap<String, Integer> map = new HashMap<String, Integer>();System.out.println(map.put("1", 1));//nullSystem.out.println(map.put("1", 2));//1}
2.get
得到map中key相对应的value的值
@Testpublic void testGet() {HashMap<String, Integer> map=new HashMap<String, Integer>();map.put("DEMO", 1);//得到map中key相对应的value的值System.out.println(map.get("1"));//nullSystem.out.println(map.get("DEMO"));//1}
六、总结
按照原来的拉链法来解决冲突,如果一个桶上的冲突很严重的话,是会导致哈希表的效率降低至 O(n),而通过红黑树的方式,可以把效率改进至 O(logn)。相比链式结构的节点,树型结构的节点会占用比较多的空间,所以这是一种以空间换时间的改进方式。