面试官-HashMap的容量为什么一定是2^n?

嗨,我是大明哥,一个专注「死磕 Java」系列创作的硬核程序员。


回答

HashMap 的容量被设计为 2^n,主要有如下几个优势:

  1. 位运算效率:与使用取模(%)操作相比,使用位运算来计算索引位置更加高效。当容量是 2^n 时,计算索引的公式可以从 (hash % capacity) 简化为 (hash & (capacity - 1)),这个操作仅涉及位与运算,比取模操作更快。
  2. 元素分布更加均匀:利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突,提高了 HashMap 的整体性能。
  3. 扩容性能更佳HashMap 的初始容量是2^n,扩容也是以 2 倍的形式进行扩容,这样在进行扩容重新分布元素时,我们只需要对参与计算的最高位进行检测,如果为 1 就向高位移动 2^(n-1) 位,为 0 就保持不动。无需重新计算所有 key 的 hash 值再来重新分布。

详解

HashMap 的默认容量是 1 << 4,也就是2^4,也就是16。当我们指定容量大小的时候,如果这个值不是 2^n,HashMap 就会将其处理为 2^n

    public HashMap(int initialCapacity) {this(initialCapacity, DEFAULT_LOAD_FACTOR);}public HashMap(int initialCapacity, float loadFactor) {// 处理初始容量this.threshold = tableSizeFor(initialCapacity);}

使用 tableSizeFor() 对初始容量进行处理:

    static final int tableSizeFor(int cap) {int n = cap - 1;n |= n >>> 1;n |= n >>> 2;n |= n >>> 4;n |= n >>> 8;n |= n >>> 16;return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;}

这个方法用于计算给定容量 cap 最接近的、大于或等于该值的 2^n 的数。可能有小伙伴看到这个方法就懵逼了,大明哥用 21 来详细介绍下,它是如何处理得到 32 的。

  • int n = cap - 1:这一步的目的是为了简化后面的位操作n = 21 - 1 = 20,二进制为:10100
  • n |= n >>> 1;
    • 右移一位并进行位或运算,目的是把最高位的 1 右边的第一个位也设置为 1。
    • n >>> 1 右移一位得到 01010 ,然后与 10100 位或运算,得到 11110,为 30。
  • n |= n >>> 2;
    • n >>> 2 右移两位得到 00111,然后与 11110 位或运算,得到 11111,为 32。
    • 由于此时 n 已经全部都是 1 了,所以再进行右移和位或操作,n 保持不变,即 11111,为 32。

然后重复这个过程,分别是 n >>> 4n >>> 8n >>> 16。每一步都将前面步骤中生成的 1 向右扩散,确保从最初的最高位 1 到最低位,所有位都被设置为 1。

为什么 HashMap 要进行这样的操作呢 ?主要有如下三个原因:

  1. 位运算效率:与使用取模(%)操作相比,使用位运算来计算索引位置更加高效。当容量是 2^n 时,计算索引的公式可以从 (hash % capacity) 简化为 (hash & (capacity - 1)),这个操作仅涉及位与运算,比取模操作更快。
  2. 元素分布更加均匀:利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突,提高了 HashMap 的整体性能。
  3. 扩容性能更佳HashMap 的初始容量是2^n,扩容也是以 2 倍的形式进行扩容,这样在进行扩容 hash 重分布时,只有两种情况:要么保持不变 ,要么在原索引位置上 + n,性能比打散重新再分布性能更好。

位运算效率

因为位运算仅仅只涉及到简单的二进制位操作,而不需要复杂的算术计算。而取模运算涉及到除法运算,除法运算确是 CPU 中相对复杂和耗时的操作之一,因为它涉及到多步骤的算术计算。

所以,相比于位运算,取模运算需要更多的CPU周期来完成。

如果我们不将 HashMap 的容量约定为 2^n,是无法将 % 运算转换为 & 运算的。而x % 2^n = x & (2^ - 1),可以把 % 运算转换为 & 运算,这样性能就大大提高了。

那为什么 x % 2^n = x & (2^ - 1)呢?

当我们用一个数 x 去取模 2^n 时,实际上是在找出 x 中能够被 2^n 整除的最大部分的余数。在二进制中,2^n 总是像 100...0(后面跟着 n 个 0)。因此,x 除以 2^n 的余数只与 x 的二进制表示中的最低 n 位有关,这正是按位与操作 x & (2^n - 1) 所保留的部分。

看不懂?举个例子,假设 n = 4,x = 25。25 % 2^4 它是等于 25 / 2^4 的余数,即 25 >> 4(11001 右移 4 位),而被移除到的部分(4 位 1001)就是我们的余数,即x 除以 2^n 的余数只与 x 的二进制表示中的最低 n 位有关。而 25 & (16 -1) = 11001 & 1111 = 1001

所以你会看到 HashMap 在获取数组下标时采用的方式就是位运算,例如 put()

分布更加均匀

我们先写个简单的案例测试下,我们新建一个 Student 对象,利用它的 hashcode 分别与 12、16 、 25 、32,按照 HashMap 那样定位 index 的方式来计算值(公式:(table.length - 1) & (key.hashCode ^ (key.hashCode >> 16))),然后放入到 HashMap 中去,看看 HashMap 的结果就可以知道分布情况了。

  • Student 对象
@Data
@AllArgsConstructor
public class Student{private String name;private Integer age;
}
  • 测试程序:
public class HashMapTest {public static void main(String[] args) {Map<Integer,Integer> resultMap = new HashMap<>();int k = 16;   // 修改这个// 循环创建 500 个对象for (int i = 0; i < 500 ; i++) {Student student = new Student("skjava-" + i,i);int h = student.hashCode();int hash1 = h ^ (h>>>16);int hash = (k - 1) & hash1;if (resultMap.containsKey(hash)) {int count = resultMap.get(hash);resultMap.put(hash,count + 1);} else {resultMap.put(hash,1);}}resultMap.forEach((key,value) -> System.out.println("key:" + key + "    value:" + value));}
}

最终得到的结果分布图如下:

从上图可以看出只有容量为 16 和 32 的分布是均匀的,而 12 和 25 分布都极其不均匀。为什么会出现这种情况?我们以 s 的 hash (115 = 1110011)值为例。最接近的 127,则 "s".hashCode() & (127 - 1) 如下图:

那如果 capacity 为106 呢?

你会发现标红色虚线部分,无论是 0 还是 1 产生的结果都是一样的,所以如果 capacity 为 106,则它产生的 hash 冲突比 127 大的多。

所以,容量为 2^n ,它能够利用哈希码的低位直接作为数组索引,确保了元素能够被均匀分布在整个 HashMap 中,从而在理想情况下减少了哈希冲突。

扩容性能更佳

当 HashMap 的容量超过阈值后,就会进行扩容操作,扩容就会设计到 hash 重分布的。而重分布的过程是重新计算所有 key 的 hash 值,然后再重新分布,这个过程非常繁重且性能极低。如果我们将 HashMap 的容量保持为 2^n,就避免了这个过程,会变得非常简单而又高效。

加入我们有这样一批 key:sikecom,为了更好地演示,HashMap 的初始容量为8,所以数据分布如下:

现在我们扩容到 16 去,index = hash & (16-1),上面 7 个字母调整位置如表:

keykey 二进制值key ^ (16-1)原始位置扩容 16后位置结果
s1110011001133不动
i1101001100119移动 8 位
k11010111011311移动 8 位
e1100101010155不动
c1100011001133不动
o11011111111715移动 8 位
m11011011101513移动 8 位

看不明白?下图 s 的 index 变化图:

再看 i 的 index 变化图:

从上图 si 的变化图中可以看出,HashMap 的扩容是否需要移位,由扩容后 key 的 hashcode 参与计算的最高位是否 1 所决定,并且移动的方向只有一个,即向高位移动。因此,在扩容后,我们不需要对每个 key 都进行计算然后来重新分配位置,我们只需要对最高位进行检测,如果为 1 就向高位移动 2^(n-1) 位,为 0 就保持不动,从而优化了性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/452737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用Spring AI 做智能客服,基于私有知识库和RAG技术

Java智能客服系统运用RAG技术提升答疑精准度 基于Spring ai 的 RAG&#xff08;检索增强生成&#xff09;技术&#xff0c;Java智能客服系统能够利用私有知识库中的信息提供更准确的答疑服务。 它的核心思路是&#xff1a; 首先&#xff0c;将客服QA以Word形式导入到系统中&…

upload-labs Pass-04

upload-labs Pass-04 在进行测试前&#xff0c;先了解一下.htaccess文件 .htaccess文件 .htaccess是Apache网络服务器一个配置文件&#xff0c;当.htaccess文件被放置在一个通过Apache Web服务器加载的目录中&#xff0c;.htaccess文件会被Apache Web服务器软件检测并执行&…

深度学习 之 模型部署 使用Flask和PyTorch构建图像分类Web服务

引言 随着深度学习的发展&#xff0c;图像分类已成为一项基础的技术&#xff0c;被广泛应用于各种场景之中。本文将介绍如何使用Flask框架和PyTorch库来构建一个简单的图像分类Web服务。通过这个服务&#xff0c;用户可以通过HTTP POST请求上传花朵图片&#xff0c;然后由后端…

【大数据技术基础 | 实验四】HDFS实验:读写HDFS文件

文章目录 一、实验目的二、实验要求三、实验原理&#xff08;一&#xff09;Java Classpath&#xff08;二&#xff09;Eclipse Hadoop插件 四、实验环境五、实验内容和步骤&#xff08;一&#xff09;配置master服务器classpath&#xff08;二&#xff09;使用master服务器编写…

D42【python 接口自动化学习】- python基础之函数

day42 高阶函数 学习日期&#xff1a;20241019 学习目标&#xff1a;函数&#xfe63;- 55 高阶函数&#xff1a;函数对象与函数调用的用法区别 学习笔记&#xff1a; 函数对象和函数调用 # 函数对象和函数调用 def foo():print(foo display)# 函数对象 a foo print(a) # &…

influxdb安装

官网&#xff1a; https://www.influxdata.com/ centos7安装 wget https://dl.influxdata.com/influxdb/releases/influxdb2-2.0.4.x86_64.rpmyum localinstall influxdb2-2.0.4.x86_64.rpm启动 systemctl start influxdb systemctl enable influxdb # netstat -npult |gre…

Springboot指定扫描路径

方式一&#xff1a;通过在启动类的SpringbootApplication中指定包扫描或类扫描 指定需要扫描的包 scanBasePackages{"待扫描包1","待扫描包2", . . . ," "} 指定需要扫描的类 scanBasePackageClasses{类1.class,类2.class,...} 方式二&#xff…

权限(补充)

在上一篇Linux权限&#xff08;想了解的可以点击看看哦&#xff09;中已经见识了一部分权限&#xff0c;但是少了很重要的一部分&#xff1a; 那就是用户之间的转换&#xff0c;文件读写的关系&#xff0c;这里就简单的介绍一些&#xff1b; 我们在Linux权限知道了目录权限的关…

sql数据库命令行操作(数据库的创建和删除)

查询数据库 查询电脑里面所有数据库 SHOW DATABASES;查询当前所处的数据库 SELECT DATABASE();应用场景&#xff1a;当我使用了USE命令后不知道自己所在哪个数据库时&#xff0c;可以使用这个命令查询自己所在数据库 创建数据库 创建 CREATE DATABASE [IF NOT EXISTS] 数据…

StarTowerChain:开启去中心化创新篇章

官网&#xff1a; www.startower.fr 在当今创新驱动的时代&#xff0c;StarTowerChain 以其独特的去中心化创新模式&#xff0c;为我们带来了新的希望和机遇。去中心化&#xff0c;这个充满活力与创造力的理念&#xff0c;正引领着我们走向未来的创新之路。 StarTowerChain …

远程连接服务器

linux客户端通过秘钥登录linux服务端root用户 [rootClient ~]# ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): // 存放文件&#xff0c;若直接回车就存在括号文件中&#xff09; Enter passphrase (empty f…

SpringCloudAlibaba[Nacos]注册配置中心注册与发现服务

Nacos的全称是Dynamic Naming and Configuration Service&#xff0c;Na为naming/nameServer即注册中心,co为configuration即注册中心&#xff0c;service是指该注册/配置中心都是以服务为核心。是阿里巴巴开源易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nac…

基于预测算法的航班离港延误系统

毕业设计不知道做什么&#xff1f;想找一个结合算法与应用的项目&#xff1f;那你绝对不能错过这个"基于预测算法的航班离港延误系统"&#xff01;✈️&#x1f4ca; 项目简介&#xff1a; 这个系统专注于航班离港的延误预测&#xff0c;通过强大的神经网络技术对大…

2024软考网络工程师笔记 - 第4章.局域网和城域网

文章目录 局域网基础1️⃣局域网和城域网体系架构 IEEE&#xff08;负责链路层&#xff09;2️⃣局域网拓扑结构 &#x1f551;CSMA/CD1️⃣CSMA/CD2️⃣CSMA/CD三种监听算法3️⃣冲突检测原理 &#x1f552;二进制指数退避算法1️⃣ 二进制指数退避算法 &#x1f553;最小帧长…

IO进程---day5

1、使用有名管道实现两个进程之间的相互通信 //管道文件 #include<myhead.h> int main(int argc, const char *argv[]) {//创建有名管道文件1if(mkfifo("./pipe1",0664)-1){perror("创建管道文件失败");return 0;}if(mkfifo("./pipe2",066…

数据结构:二叉树、堆

目录 一.树的概念 二、二叉树 1.二叉树的概念 2.特殊类型的二叉树 3.二叉树的性质 4.二叉树存储的结构 三、堆 1.堆的概念 2.堆的实现 Heap.h Heap.c 一.树的概念 注意&#xff0c;树的同一层中不能有关联&#xff0c;否侧就不是树了&#xff0c;就变成图了&#xff…

RequestBody接收参数报错com.fasterxml.jackson.databind.exc.MismatchedInputException

目录&#xff1a; 1、错误现象2、解决办法3、最终验证 1、错误现象 报错的现象和代码如下&#xff1a; 2、解决办法 查了很多都说参数类型对不上&#xff0c;但是明明是对上的&#xff0c;没有问题&#xff0c;最后只有换接收方式后验证是可以的&#xff1b;最终想了一下&…

效果不错的论文介绍:Im2Flow2Act:-跨领域机器人操控技术

Im2Flow2Act: 跨领域机器人操控技术 简介 今天介绍一个比较惊艳的论文&#xff0c;Im2Flow2Act&#xff0c;可以预测应该怎么移动图象中的物体预测移动方法完成需要执行的动作任务。 Im2Flow2Act 是一个基于学习的机器人操控框架&#xff0c;旨在通过多种数据源为机器人提供操…

计算DOTA文件的IOU

背景 在目标检测任务中&#xff0c;评估不同对象之间的重叠情况是至关重要的&#xff0c;而IOU&#xff08;Intersection Over Union&#xff09;是衡量这种重叠程度的重要指标。本文将介绍如何编写一个Python脚本&#xff0c;通过并行化处理DOTA格式的标注文件&#xff0c;统…

vue3 解决背景图与窗口留有间隙的问题

需要实现一个登录界面&#xff0c;login.vue的代码如下&#xff1a; <script> import { ref } from vue;export default {setup() {return {};}, }; </script><template><div id"login-container" class"login-container"><di…