3,055 views

阅读模式

之前有写过ArrayList与LinkedList，分别用到了数组与链表的结构，下面来看看HashMap，了解其实现及扩容机制。

构造函数

HashMap有四个构造函数，其中比较有代表性的是下面这个

public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " + loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}

需要注意的有两个入参initialCapacity和loadFactor，分别指HashMap的深度及负载因子（了解HashMap的实现后就能理解这两个值的含义）

在类中我们可以发现有两个常量，即他们的默认值，数组长度默认为16，当数组存储量达到16 * 0.75 = 12时，会进行扩容

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final float DEFAULT_LOAD_FACTOR = 0.75f;

再看看tableSizeFor(initialCapacity)

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

这里用于根据capacity生成最终的数组长度，并确保其为2的幂

数据结构

static class Node<K,V> implements Map.Entry<K,V> {
    ...
    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }
    ...
}

transient Node<K,V>[] table;

在HashMap中，可以发现上述两段代码，前一段代码是一个单向链表，可见，HashMap是一个链表数组（链表散列）

散列、put及get

再看看HashMap是如何实现存储的

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

源码比较长，逻辑上主要是

确定数组长度
根据hash值找数组位置 i = (n - 1) & hash
如果 i 位置为空，则新建Node并返回
如果 i 位置不为空，则判断key是否跟已存在的key一致（equals比较），一致则修改该Node为新建的Node，不一致则新建Node，并将Next指向新Node（HashMap认为最新加入的值为使用概率最大，故在链表前端增加Node，而不在尾端增加）
5.考虑是否需要扩容，根据前面说到的扩展因子进行判断，如何扩容后面再说

其中table位置使用了i = (n - 1) & hash，前面的tableSizeFor保证了n-1为全1的二进制数，通过&运算，取hash的后N位

hash的实现

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

在hashCode后还有一个h>>>16异或的操作，hashCode的高16位与低16位异或

(n - 1) & hash

上图是 i = (n - 1) & hash的完整版，HashMap这样做，HashCode低位高位都利用起来，在低位间接的保留了高位的信息，加大低位的随机性，起到扰动函数的作用，减少hash冲突的几率，让HashMap的值尽量平均的分布在Node数组中

HashMap的取值与存储类似，关键代码依然是(n - 1) & hash，在遇到hash冲突时，则会进入链表取值，这个留到后面说

hash冲突

尽管HashMap的hash进行了高位低位混用的优化，但hash冲突是难免的，HashMap使用了链表的方式解决hash冲突

HashMap存储结构

从上图可以发现，当发生hash冲突时，HashMap使用了链表，之前贴出的put(key, value)方法中有一行是这样的

// 之前已经赋值 p = tab[i = (n - 1) & hash])
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))

即在比较完hash值以后，会继续比较key是否一致，这样确保能找到正确的key

总结

HashMap采用了数组+链表的数据结构，利用hash()方法生成数组下标，有助于实现快速查找，而链表则解决了hash冲突的问题。而在扩容等方面，通过tableSizeFor，能完美的使用位运算，运算效率得到不错的提升。

ps: 近一个月都比较忙，工作+家庭，这篇文章断断续续写了三四次，从17年写到了18年，总算完了，不知道中间会不会有什么遗漏或者错误...

Android开发（java基础）HashMap存储结构及扩容

构造函数

数据结构

散列、put及get

hash冲突

总结

忘记压缩包密码别慌！4 款免安装便携破解工具亲测有效（附下载）

尤雨溪都在推荐的 Vue 拖拽库！

React使用dangerouslySetInnerHTML时如何防止xss攻击

夜莺监控（Nightingale）：Github上7k Star 的开源国产监控系统推荐

【文尾附OpenAI注册方法】ChatGPT 到底能不能真正帮忙写代码？

解决IIS站点get请求链接过长导致的404.15问题

如何在php代码中内嵌javascript代码

不用定时器，CSS 也能实现电子时钟

2022年Web开发者调查：Vue.js较2011年略有下降，React 仍然是使用最广泛的前端框架

教程：在国内如何注册OpenAI账号并试用ChatGPT

发表评论

构造函数

数据结构

散列、put及get

hash冲突

总结

发表评论

加入我们

立即登录

找回密码