标签:gate 等于 计算方法 appdata lis front 平衡 尾插法 xtend
哈希值
通过一定的散列算法,把一个不固定长度的输入,转成一个固定长度的输出,输出的结果我们称之为哈希
map中,hash就是一个int值
哈希表: 存储哈希值的数组 -- 存取散列值(哈希值)的一个容器
哈希值到底该如何存,该如何取呢??? -- 通过数组的角标实现数据的存取 角标就是索引
? 需要有一个映射:不同的hash值存在对应角标位
? hash值 ----运算---》 index
? (hash值通过某种运算得到 index)
哈希函数:将哈希值通过某种运算规则得到对应index
如何让存取效率是最高的???
怎么样尽可能少的产生hash冲突
hash函数计算出来的角标要尽可以能均匀
// indexFor 是 哈希函数,h 是某一位,算出来的是角标
static int indexFor(int h, int length) {
return h & (length-1); // length 是 map 中数组的长度
}
这里拿一个值 h 按位与 数组长度-1
map 中数组长度 length 必须是 2 的幂次方数,因为 任何数和 2 的幂次方 - 1 做与运算,得到的结果都在 [0~ 2的幂次方 - 1] 这个范围内
Tips:
a & (2 ^ n - 1) == a % (2 ^ n),也就是说和 7 做与运算相当于 对 8 取模 (可以在纸上试一下)
假设上面是 0123,h 是 0123 某一位, indexFor 就是 拿 h 和 (length - 1) 做与运算,得到角标,如果 (length - 1) 不是 2的幂次方 - 1,那么就会有部分角标拿不到(因为只有和 1111 做 与运算 可以得到完整的,且不超过 (length - 1) 的数),数组的空间就浪费了一半,空间没有利用那么 hash 冲突产生的几率就增加了
扩容后,数据迁移时,数据要么在原来的位置,要么在(原来的位置 + 扩容长度)
如果 length 不是是 2 的幂次方,必然要重新 hash,现在不需要重新 hash,效率更好
下面是完整解释
public class TestHashMap01 {
public static void main(String[] args) throws Exception {
Map map = new HashMap(); // Map 在构建的时候传递了一个初始容量 initialCapacity,默认是16
printTableLen(map);
}
/**
* 反射获取 Map 中数组长度
* @param map
* @throws Exception
*/
public static void printTableLen(Map map) throws Exception {
// 获取类
Class<? extends Map> cls = map.getClass();
// 获取成员变量
Field table = cls.getDeclaredField("table");
// 暴力反射
table.setAccessible(true);
Map.Entry[] arr = (Map.Entry[]) table.get(map);
if (arr != null) {
System.out.println("Map 中数组长度:" + arr.length);
}
}
}
// 这里我没有输出,为什么?? 理论上输出 16
// 如果 Map map = new HashMap(5) 会输出 8
// 如果 Map map = new HashMap(1) 会输出 1
这里发现 如果使用 jdk 1.7 会输出
Map 中数组的长度为:0
如果使用 jdk 1.8
什么也没有输出,为什么???
- 假设是 8
- 因为 8 - 1 = 7,二进制是 111, h & (length - 1) 就会得到
假设长度不是2的幂次方
上面这段什么意思呢:
假设上面是 0123,h 是 hash code,indexFor 就是 拿 h 和 (length - 1) 做与运算,得到角标 index,如果 (length - 1) 不是 2的幂次方 - 1,那么就会有部分角标拿不到(因为只有和 1111 做 与运算 可以得到完整的,且不超过 (length - 1) 的数)
2 的幂次方,在扩容时,扩容后的数组长度是原数组长度的 2 倍,结果还是 2 的幂次方有什么好处?
扩容后,数据迁移时,数据要么在原来的位置,要么在(原来的位置 + 扩容长度)
如果 length 不是是 2 的幂次方,必然要重新 hash,现在不需要重新 hash,效率更好
jdk 1.7
判断是否到达阈值(loadFactor 0.75 * 数组长度)
同时是否产生 hash 冲突
(ctrl + alt + shift + u 展示类之间结构(继承关系),ctrl + F12 (navigate -> file structure)展示文件结构(类的方法))
这两个条件同时满足才会进入 resize 方法
扩容后再添加元素,并且在添加元素的时候重新计算了角标位
具体看下面的 存值分析
public V put(K key, V value) {
//HashMap允许存储null键,存储在数组的0索引位置
if (key == null)
return putForNullKey(value);
//内部通过一个扰乱算法获得一个hash值,用于计算数组索引
int hash = hash(key);
//计算数组索引
int i = indexFor(hash, table.length);
//判断是否是重复键,有值是一种情况,没有值是另一种情况
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
// 如果 for 循环还没有找到值,往下走
modCount++;
//添加元素
addEntry(hash, key, value, i);
return null;
}
// 添加元素的方法
void addEntry(int hash, K key, V value, int bucketIndex) {
// 元素个数大于阈值,同时当前索引位有值,就会执行扩容操作
// threshold 阈值 = capacity * loadFactor
// bucketIndex 计算出的角标位
if ((size >= threshold) && (null != table[bucketIndex])) {
//2倍扩容
resize(2 * table.length); // resize 传递的参数是新的容量
hash = (null != key) ? hash(key) : 0;
//重新计算索引位置
bucketIndex = indexFor(hash, table.length);
}
//基于键值创建Entry节点,并以头插法存入对应位置
createEntry(hash, key, value, bucketIndex);
}
jdk 1.8
jdk 1.7
/**
* Rehashes the contents of this map into a new array with a
* larger capacity. This method is called automatically when the
* number of keys in this map reaches its threshold.
*
* If current capacity is MAXIMUM_CAPACITY, this method does not
* resize the map, but sets threshold to Integer.MAX_VALUE.
* This has the effect of preventing future calls.
*
* @param newCapacity the new capacity, MUST be a power of two;
* must be greater than current capacity unless current
* capacity is MAXIMUM_CAPACITY (in which case value
* is irrelevant).
*/
void resize(int newCapacity) {
Entry[] oldTable = table; // table 是存数据的数组
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) { // 如果旧的容量已经达到了最大的容量值,就扩不了了
threshold = Integer.MAX_VALUE;
return;
}
// 如果旧的容量没有达到最大值
// 创建一个新的数组,容量为新的容量值
Entry[] newTable = new Entry[newCapacity];
// 新的数组出来了,数据迁移
transfer(newTable, initHashSeedAsNeeded(newCapacity));
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
数据迁移
/**
* Transfers all entries from current table to newTable. 数据迁移
*/
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) { // 不为空就进来
Entry<K,V> next = e.next; // 用一个变量记录 e.next
// 这一步先不管它
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
// 拿 hash 值 与上 新的长度 - 1,得到角标
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
举个例子:
一开始,假设容量为 4 ,扩容容量为 8,新数组为空,链表是 10, 6, 2,e指向10,next指向 6
与运算就是取模,i = 10 & 7 = 10 % 8 = 2,
int i = indexFor(e.hash, newCapacity);
得到的是2,
e.next = newTable[i];
把 newTable[i] 赋给 e.next,也就是让 e.next 指向 newTable[i]
newTable[i] = e;
把 原来 e 的值,也就是 10 赋给 newTable[i]
e = next;
再让 e 指向 next,也就是原来的 e.next 也就是 6 的位置
这样,第一次 while 循环就结束了,如图所示
注意此时,e 变了之后,e.next 就不再指向 newTable[i] 了,现在指向的是 2 的位置
然后再经历一次 while 循环,把 e.next 也就是 2 记录为 next,6 对 8 取余为 6,把 6 放到新数组中 6 的位置,再让 e 指向 next 也就是 2(这里看到 e.next = newTable[i] 这一步好像没有什么用啊,其实不然 )
继续 while 循环,e 不为空,但是 e.next 为空了,2 模与 8 为 2,i = 2,注意这时,有冲突了,解决办法就是,e.next = newTable[i]
,让 e.next 指向现在新数组中索引为 i 的位置,接着把 e 赋给 newTable[i],也就是先把 10 赋给 e.next,然后把 2 放到新数组中 2 的位置,然后让 2 的 next 为 10,最后把 next 赋给 e,现在 e 是空了, while 循环就结束了,数据迁移就做完了,如下图所示
1.7 会出现的问题 死循环
线程2 执行完成,是这种状态
线程 2 transfer 一做完,注意 resize 方法里的代码,
table 就发生变化了,table 变成了 newTable
接下来线程 1 继续执行,注意这里 线程1 继续执行时候 的 for 循环遍历的 table 数组已经是 newTable了
因此这里的 e 就是 图中的 10
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
10 对应的 角标仍然是 2,i = 2
e.next = newTable[i]
,这里让 e.next 指向 newTable[i] 也就是 2,如图所示,也就形成了死循环,e.next 永远有值
这就是 HashMap 不是线程安全的原因
jdk 1.8
? 这段代码就是单向链表的尾插法
jdk 1.8 多线程情况下,会有数据丢失的问题
线程 1 向 1 号角标存了 一个 10,线程 2 向 1 号角标存了 一个 12
因为 上面是 直接赋值 tab[index] = loHead.untreeify(map);
因此会直接覆盖,会有数据丢失的问题
多线程的情况下 可以用 ConcurrentHashMap
HashMap源码分析
public V put(K key, V value) {
//HashMap允许存储null键,存储在数组的0索引位置
if (key == null)
return putForNullKey(value);
//内部通过一个扰乱算法获得一个hash值,用于计算数组索引
int hash = hash(key);
//计算数组索引
int i = indexFor(hash, table.length);
//判断是否是重复键,有值是一种情况,没有值是另一种情况
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
// 如果 for 循环还没有找到值,往下走
modCount++;
//添加元素
addEntry(hash, key, value, i);
return null;
}
// 添加元素的方法
void addEntry(int hash, K key, V value, int bucketIndex) {
// 元素个数大于阈值,同时当前索引位有值,就会执行扩容操作
// threshold 阈值 = capacity * loadFactor
// bucketIndex 计算出的角标位
if ((size >= threshold) && (null != table[bucketIndex])) {
//2倍扩容
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
//重新计算索引位置
bucketIndex = indexFor(hash, table.length);
}
//基于键值创建Entry节点,并以头插法存入对应位置
createEntry(hash, key, value, bucketIndex);
}
public V put(K key, V value) {
// hash(key)计算hash值,用于计算索引
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//完成初始化容器
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//得到的索引位没有元素,直接存入
if ((p = tab[i = (n - 1) & hash]) == null) // p 就是 table 中的元素
tab[i] = newNode(hash, key, value, null);
else {
//索引位有元素
Node<K,V> e; K k;
// 如果 p 是重复元素
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
// 如果是红黑树节点 TreeNode 是红黑树
else if (p instanceof TreeNode)
//入树
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
// 以上两种都不是,就是单向链表
else {
// 遍历链表依次比较键
for (int binCount = 0; ; ++binCount) {
// p.next 赋值给 e,没有重复键
if ((e = p.next) == null) {
// 尾插法,添加元素,形成单向链表
p.next = newNode(hash, key, value, null);
// 如果加完之后数量 >= 8个,将链表 树化
// TREEIFY_THRESHOLD = 8, binCount 是从 0 开始的
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
// treeifyBin 把链表树化 ,把 Node节点转换为 TreeNode
treeifyBin(tab, hash);
break;
}
//有重复键
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
//键重复,更新值
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
// 容量超过阈值,扩容
if (++size > threshold) // 这里的 threshold 计算方法和 jdk 1.7 不一样
resize();
afterNodeInsertion(evict);
return null;
}
/**
* Replaces all linked nodes in bin at index for given hash unless
* table is too small, in which case resizes instead.
* 树化方法
*/
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
// 下面这个循环是形成双向链表
do {
// 把 Node 节点 e 转换为 TreeNode
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null) // 第一次进来 tl 肯定为空
hd = p; // hd 记录 p
else {
p.prev = tl;
tl.next = p;
}
tl = p; // tl 也在记录元素 p
} while ((e = e.next) != null);
// treeify 真正的形成树形结构
if ((tab[index] = hd) != null)
hd.treeify(tab);
}
}
TreeNode
截取一部分
? TreeNode 继承了 Entry
Entry 继承了 Node
Node 里面有 next,记录下一个,TreeNode里面有 prev,记录上一个,也就是说 TreeNode 在形成链表的时候同时记录上一个和下一个,是一个双向链表
维护双向链表的目的就在于 扩容 上
看上面的 treeifyBin 里面的 do-while 部分
/**
* Forms tree of the nodes linked from this node.
* @return root of tree
*/
final void treeify(Node<K,V>[] tab) {
TreeNode<K,V> root = null;
for (TreeNode<K,V> x = this, next; x != null; x = next) {
next = (TreeNode<K,V>)x.next;
x.left = x.right = null;
if (root == null) {
x.parent = null;
x.red = false;
root = x;
}
else {
K k = x.key;
int h = x.hash;
Class<?> kc = null;
for (TreeNode<K,V> p = root;;) {
int dir, ph;
K pk = p.key;
if ((ph = p.hash) > h)
dir = -1;
else if (ph < h)
dir = 1;
else if ((kc == null &&
(kc = comparableClassFor(k)) == null) ||
(dir = compareComparables(kc, k, pk)) == 0)
dir = tieBreakOrder(k, pk);
TreeNode<K,V> xp = p;
if ((p = (dir <= 0) ? p.left : p.right) == null) {
x.parent = xp;
if (dir <= 0)
xp.left = x;
else
xp.right = x;
root = balanceInsertion(root, x);
break;
}
}
}
}
moveRootToFront(tab, root);
}
概率学问题,链表的长度为 8 的概率为 1000w 分之 6,超过 8 概率为 千万分之 1 (泊松分布)
也就是说尽量不进行树化,因为它要维护双向链表还要维护树,维护树的时候还要考虑红黑树的平衡,必然涉及到变色和旋转,变色和旋转是很慢很麻烦的,因此尽量不进行树化,也就是说在概率很低的情况下才进行树化
/**
* Initializes or doubles table size. If null, allocates in
* accord with initial capacity target held in field threshold.
* Otherwise, because we are using power-of-two expansion, the
* elements from each bin must either stay at same index, or move
* with a power of two offset in the new table.
*
* @return the table
*/
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
// 数据迁移
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e; // 只有一个元素的话直接加进去
// 如果是个树
else if (e instanceof TreeNode)
// split 方法 数据迁移
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
// 维护单向链表
else { // preserve order 维护秩序
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
// 拿 e 的 hash 值 与上 旧的容量
// 为 0 代表在原位置,不为零代表在新位置 (原理见下面注释)
// 在原位置
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
// 在新位置
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
// 新数组的原始位置
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
/*
举个例子:
原容量为 8,新容量为 16,角标为 5,如果角标没变还是5,就得到 0,如果角标变成了 13,就得到了 8
5 0000 0101
0000 1000
---------
0000 0000 0
13 0000 1101
0000 1000
---------
0000 1000 8
原理就是 原来的角标一定是小于旧的容量的,没变的话做与运算一定为0,变了就是 加上了旧的容量,相与会得到旧的容量
*/
加入一开始 有 10 -> 2 -> 14 一个单向链表 (图中写错了)
经过上述代码中的 do-while 循环后,得到下面的情况
再经过下述代码变为扩容后的情况
也就是 低位的形成一个单向链表,高位的形成一个单向链表,再分别放入新数组的不同的位置,这样就避免了一个环形结构的形成
final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
// 把 this 赋给 b
TreeNode<K,V> b = this;
// Relink into lo and hi lists, preserving order
TreeNode<K,V> loHead = null, loTail = null;
TreeNode<K,V> hiHead = null, hiTail = null;
int lc = 0, hc = 0;
// 把 b 赋给 e
for (TreeNode<K,V> e = b, next; e != null; e = next) {
next = (TreeNode<K,V>)e.next; // 用 next 记录 e.next
// 把 e 和 next 之间的断掉了,例子中就是把 10 和 2 之间的断掉了
e.next = null;
if ((e.hash & bit) == 0) {
if ((e.prev = loTail) == null)
loHead = e;
else
loTail.next = e;
loTail = e;
++lc; // lc 低位的元素个数
}
else {
if ((e.prev = hiTail) == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
++hc; // 高位的元素个数
}
}
if (loHead != null) {
/*
如果高低位的元素个数 <= 6,用 untreeify 方法把树形结构重新转成单向链表
UNTREEIFY_THRESHOLD = 6 ,threshold 阈值
注意这个只在扩容的时候用,删除的时候把树变成单向链表不是按照这个值来判断的
如果超过 6 就转成红黑树
*/
if (lc <= UNTREEIFY_THRESHOLD)
tab[index] = loHead.untreeify(map);
else {
tab[index] = loHead;
if (hiHead != null) // (else is already treeified)
loHead.treeify(tab);
}
}
if (hiHead != null) {
if (hc <= UNTREEIFY_THRESHOLD)
tab[index + bit] = hiHead.untreeify(map);
else {
tab[index + bit] = hiHead;
if (loHead != null)
hiHead.treeify(tab);
}
}
}
假设一个双向链表
维护完之后
public V get(Object key) {
//取空键对应的值
if (key == null)
return getForNullKey();
//取非空键对应的值
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
int hash = (key == null) ? 0 : hash(key);
//遍历链表获取值
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//检查头部元素是否是要找的元素
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
//红黑树查找
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
//链表查找
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
解决hash碰撞的方式有很多,比如开放地址法,重哈希,链地址法,公共溢出区等等。
HashMap中防止碰撞的方式主要有两个:哈希值扰动+链地址法(当扰动后,还是hash碰撞,使用链表/红黑树存储元素)
final int hash(Object k) {
int h = 0;
h ^= k.hashCode();
//充分利用高低位
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
01100011 00001110 11000110 00011001
00000000 01101010 11001100 00011001
static final int hash(Object key) {
int h;
//充分利用高低位
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
public HashMap() {
//默认容量16
this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//超过最大容纳量,取最大容量
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
//负载因子容错处理
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
//通过1左移运算,找到一个大于/等于自定义容量的最小2的幂次方数
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
this.loadFactor = loadFactor;
threshold = (int)Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
//基于容量,创建数组
table = new Entry[capacity];
useAltHashing = sun.misc.VM.isBooted() &&
(capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
init();
}
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
例:
假设自定义容量取值为10
1<10
1进行左移运算
0000 0000 0000 0000 0000 0000 0000 0001 -- 新容量等于1
<<
0000 0000 0000 0000 0000 0000 0000 0010 -- 新容量等于2
2<10
2进行左移运算
0000 0000 0000 0000 0000 0000 0000 0010
<<
0000 0000 0000 0000 0000 0000 0000 0100 -- 新容量等于4
4<10
4进行左移运算
0000 0000 0000 0000 0000 0000 0000 0100
<<
0000 0000 0000 0000 0000 0000 0000 1000 -- 新容量等于8
8<10
8进行左移运算
0000 0000 0000 0000 0000 0000 0000 1000
<<
0000 0000 0000 0000 0000 0000 0001 0000 -- 新容量等于16
为什么容量必须是2的幂次方数呢?
① 以上那些2的幂次方数有一个特点,高位为1,后续全部为0,这样的数减一,就会变成刚才为1的位置为0,后续所有值都为1,这样减一之后的数,和任何数进行与运算,得到的结果,永远是0-2的幂次方减一,正好符合数组角标的范围。
② 同时减一后,一定是一个奇数,末位一定是1,那么和其他数进行与运算后,得到的结果可能是奇数,也可能是偶数,那么可以充分利用数组的容量。
③ 2的幂次方数减一后,低位都是1,这样数组的索引位都有可能存入元素,如果低位不都是1,就会导致有些数组的索引位永远空缺,不利于数组的充分利用
④ 便于扩容时,重新定位元素的索引位,我们知道扩容的原则是原来数组的2倍,那么扩容后,数组容量还是一个2的幂次方数,原数组中的元素在新数组中,要么在原始索引位,要么在原始索引位+扩容值的位置,避免了重新hash的效率问题
注意,jdk1.8的容量计算动作,在resize()扩容方法中完成。
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
假设初始容量设置为10:
n = 10-1
0000 0000 0000 0000 0000 0000 0000 1001 //9
n右移1位
0000 0000 0000 0000 0000 0000 0000 0100 //4
| 0000 0000 0000 0000 0000 0000 0000 1001 //9
-----------------------------------------------------
0000 0000 0000 0000 0000 0000 0000 1101 //13
n右移2位
0000 0000 0000 0000 0000 0000 0000 0011
| 0000 0000 0000 0000 0000 0000 0000 1101
---------------------------------------------------
0000 0000 0000 0000 0000 0000 0000 1111 //15
n右移4位
0000 0000 0000 0000 0000 0000 0000 0000
| 0000 0000 0000 0000 0000 0000 0000 1111
----------------------------------------------------
0000 0000 0000 0000 0000 0000 0000 1111 //15
通过一系列右移+或运算后,能够将初始值减一得到的值,后面的所有0变成1,最终返回的是得到的值+1的结果作为容量,正好就是大于等于给定容量的2的幂次方数
void createEntry(int hash, K key, V value, int bucketIndex) {
//取出索引位置的元素
Entry<K,V> e = table[bucketIndex];
//将新的元素放置到索引位,同时将原来的作为新元素的下一个保存,形成单向链表
//头插法
table[bucketIndex] = new Entry<>(hash, key, value, e);
size++;
}
数组和单向链表的结构,在这里就不再赘述了,前面存取元素的过程中已经分析
这里我们来看下红黑树和双向链表结构
//当添加元素后,单向链表长度达到8个会执行该方法
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
//如果此时数组长度小于64,会通过扩容数组的方式,来避免单向链表过长
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
//通过转成红黑树,来避免单向链表过长
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
do {
//把所有Node节点,转成TreeNode节点,并形成双向链表
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else {
p.prev = tl;
tl.next = p;
}
tl = p;
} while ((e = e.next) != null);
if ((tab[index] = hd) != null)
//将双向链表中的元素形成红黑树结构
hd.treeify(tab);
}
}
//当添加元素时,对应的索引位置为TreeNode节点,会执行该方法
final TreeNode<K,V> putTreeVal(HashMap<K,V> map, Node<K,V>[] tab,
int h, K k, V v) {
Class<?> kc = null;
boolean searched = false;
TreeNode<K,V> root = (parent != null) ? root() : this;
for (TreeNode<K,V> p = root;;) {
int dir, ph; K pk;
if ((ph = p.hash) > h)
dir = -1;
else if (ph < h)
dir = 1;
else if ((pk = p.key) == k || (k != null && k.equals(pk)))
return p;
else if ((kc == null &&
(kc = comparableClassFor(k)) == null) ||
(dir = compareComparables(kc, k, pk)) == 0) {
if (!searched) {
TreeNode<K,V> q, ch;
searched = true;
if (((ch = p.left) != null &&
(q = ch.find(h, k, kc)) != null) ||
((ch = p.right) != null &&
(q = ch.find(h, k, kc)) != null))
return q;
}
dir = tieBreakOrder(k, pk);
}
//以上逻辑,就是在遍历红黑树,决定新元素放置的位置
TreeNode<K,V> xp = p;
if ((p = (dir <= 0) ? p.left : p.right) == null) {
Node<K,V> xpn = xp.next;
TreeNode<K,V> x = map.newTreeNode(h, k, v, xpn);
//找到新元素放置的位置,并将其添加进红黑树结构
if (dir <= 0)
xp.left = x;
else
xp.right = x;
//同时维护双向链表结构
xp.next = x;
x.parent = x.prev = xp;
if (xpn != null)
((TreeNode<K,V>)xpn).prev = x;
//通过变色+旋转达到红黑树的自平衡
moveRootToFront(tab, balanceInsertion(root, x));
return null;
}
}
}
你可能会有疑问,为什么在维护红黑树的同时,需要再维护一种双向链表的结构呢?其实主要是为了扩容方便的
void addEntry(int hash, K key, V value, int bucketIndex) {
//当元素个数达到了扩容阈值,同时元素该放置的位置有元素时,会执行扩容
if ((size >= threshold) && (null != table[bucketIndex])) {
//扩容为原来的两倍
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
//扩容之后,在将新元素添加进集合
createEntry(hash, key, value, bucketIndex);
}
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
//达到最大容量,不扩容
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
//根据新容量创建数组
Entry[] newTable = new Entry[newCapacity];
boolean oldAltHashing = useAltHashing;
useAltHashing |= sun.misc.VM.isBooted() &&
(newCapacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
//计算是否需要重新计算hash
boolean rehash = oldAltHashing ^ useAltHashing;
//将旧数组中的元素迁移到新的数组中
transfer(newTable, rehash);
//保存新数组
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
//记录遍历到的元素的下一个元素
Entry<K,V> next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
//计算新数组的角标位置
int i = indexFor(e.hash, newCapacity);
//把当前元素的下一个改为新数组对应位置的元素--头插法
e.next = newTable[i];
//将当前元素放置在数组对应索引位置
newTable[i] = e;
//再次迁移下一个元素
e = next;
}
}
}
//元素个数,达到扩容阈值,就扩容
//这个方法前半部分初始化数组的逻辑之前已经分析过了
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
//数组容量达到最大值,不扩容
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
//新的数组容量为原来的2倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
//数组角标位置只有一个元素,直接将数据迁移到新数组
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
//数组角标位置为TreeNode,迁移红黑树数据
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
//迁移单向链表数据
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
//先遍历整个单向链表,元素放置的位置,要么是原来的位置,要么是原来位置+扩容容量的位置
do {
next = e.next;
//放置在原来角标位置的元素
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
//尾插法
loTail.next = e;
loTail = e;
}
//放置在原来角标+扩容容量 位置的元素
else {
if (hiTail == null)
hiHead = e;
else
//尾插法
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//将放置在原角标位的元素存入数组
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//将放置在新角标位的元素存入数组
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
红黑树数据的迁移
final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
TreeNode<K,V> b = this;
// Relink into lo and hi lists, preserving order
TreeNode<K,V> loHead = null, loTail = null;
TreeNode<K,V> hiHead = null, hiTail = null;
int lc = 0, hc = 0;
//通过遍历双向链表,实现数据迁移
for (TreeNode<K,V> e = b, next; e != null; e = next) {
next = (TreeNode<K,V>)e.next;
e.next = null;
//原角标位置
if ((e.hash & bit) == 0) {
//记录前一个
if ((e.prev = loTail) == null)
loHead = e;
else
//记录下一个 -- 尾插法
loTail.next = e;
loTail = e;
//该标记累计,用于判断是否需要转会单向链表
++lc;
}
//原角标+扩容容量 位置
else {
//记录前一个
if ((e.prev = hiTail) == null)
hiHead = e;
else
//记录下一个 -- 尾插法
hiTail.next = e;
hiTail = e;
//该标记累计,用于判断是否需要转会单向链表
++hc;
}
}
if (loHead != null) {
//元素个数小于等于6,转成单向链表
if (lc <= UNTREEIFY_THRESHOLD)
tab[index] = loHead.untreeify(map);
else {
//存入新的数组
tab[index] = loHead;
if (hiHead != null) // (else is already treeified)
//树化
loHead.treeify(tab);
}
}
if (hiHead != null) {
//元素个数小于等于6,转成单向链表
if (hc <= UNTREEIFY_THRESHOLD)
tab[index + bit] = hiHead.untreeify(map);
else {
//存入新的数组
tab[index + bit] = hiHead;
if (loHead != null)
//树化
hiHead.treeify(tab);
}
}
}
//将红黑树转成单向链表
final Node<K,V> untreeify(HashMap<K,V> map) {
Node<K,V> hd = null, tl = null;
for (Node<K,V> q = this; q != null; q = q.next) {
Node<K,V> p = map.replacementNode(q, null);
if (tl == null)
hd = p;
else
//尾插法,形成单向链表
tl.next = p;
tl = p;
}
return hd;
}
// 添加元素时,会有数据覆盖丢失数据
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//此处,如果多个线程向同一个位置存入元素,会有值覆盖的问题,导致数丢失
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
//下面代码省略
// 扩容时,迁移数据的情况下,会有数据覆盖丢失的问题
// 多线程环境下,给同一个数组的相同位置赋值,会有数据覆盖的风险
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead; //将原始索引位的数据迁移到新数组
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead; //将新索引位的数据迁移到新数组
}
当然,jdk1.8中的HashMap本身是线程不安全的,在多线程环境下,应该还会有更多其他问题,有待大家一起去探究。
标签:gate 等于 计算方法 appdata lis front 平衡 尾插法 xtend
原文地址:https://www.cnblogs.com/icewalnut/p/14485836.html