场景题：一个存储IP地址的100G 的文件, 找出现次数最多的 IP ？

场景题：一个存储IP地址的100G 的文件, 找出现次数最多的 IP ？

news/2025/3/17 0:09:27/文章来源:https://blog.csdn.net/qq_36624086/article/details/146239495

和大文件中存id，然后要求排序问题一样的处理思路

使用MapReduce的思想解决，加上哈希分割，先将大文件中的IP地址按照哈希函数进行分割，存到多个文件上，接着每个分片单独处理，用Hashmap统计IP出现频次，记录当前分片最大值。最后归并处理，找出所有候选IP中的最大出现次数的IP。

1.哈希分割（预处理阶段）

① 使用高效哈希函数计算每个IP的哈希值
② 按哈希值取模分片：hash(ip) % N → 生成N个分片文件

分片数计算：假设可用内存1G，每个分片限制为50MB → N=2000分片

2.分块统计（Map阶段）

每个分片处理时：

将小文件加载到内存中
① 使用HashMap<String, Long>统计IP出现频率
② 同步维护当前分片的最大值：maxIP和maxCount

3.全局归并（Reduce阶段）

读取所有中间结果文件中的最高频IP
在这些候选IP中找出全局出现次数最多的IP

4.关键问题

1.哈希函数设计

file_index = hash(IP地址) % 256

这个哈希函数确保了同一个IP地址一定会被映射到同一个文件索引

2.某个分割的文件仍然过大，怎么解决？

若某分片的IP种类过多导致HashMap溢出，解决方案：

对该分片进行二次哈希分片

5.面试回答模板

“我会采用分布式计算中常用的分治策略：

哈希分片：将IP按哈希值分散到256个分片中，确保相同IP在同一分片；
分块统计：对每个分片使用HashMap统计频率，同时记录分片内的最大值；
全局归并：比较所有分片的最大值得到最终结果。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/34398.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

学习 springboot -Bean 管理（注册条件）

学习 springboot -Bean 管理（注册条件）

前言上一篇博客 :学习springboot-Bean管理（Bean 注册，Bean 扫描）-CSDN博客我们了解了 bean 注册需要使用到 Bean 和Import 将第三方jar 包的对象注入到ioc 容器如下图所示通过图片，可以看到Country 对象和Province 对象已…

阅读更多...

【云原生技术】编排与容器的技术演进之路

【云原生技术】编排与容器的技术演进之路

一、编排与容器的技术演进之路 1.1 DockerClient 此时 K8s 只是编排领域的一个选择，而 Docker 此时一家独大，所以 K8s 的客户端只是作为 Docker 的客户端来调用 Docker 引擎来完成服务。 1.2 RUNC&Shim OCI催生 runcrunc，剥离 Docke…

阅读更多...

安卓投屏到mac操作

1. 安装 brew install scrcpy2. 打开手机usb调试 3. 安装 brew install android-platform-tools 4. 重启终端，运行命令 adb devices scrcpy 参考：https://zhuanlan.zhihu.com/p/682491037https://zhuanlan.zhihu.com/p/682491037

阅读更多...

c#知识点补充

c#知识点补充

1.静态类无法被继承 2.线程join方法的使用作用就是让多个线程，按顺序执行 3.线程里lock的作用保证每次只执行一次 4.线程池的使用

阅读更多...

3分钟复现 Manus 超强开源项目 OpenManus

3分钟复现 Manus 超强开源项目 OpenManus

文章目录前言什么是 OpenManus构建方式环境准备克隆代码仓库安装依赖配置 LLM API运行 OpenManus 效果演示总结个人简介前言近期人工智能领域迎来了一位备受瞩目的新星——Manus。Manus 能够独立执行复杂的现实任务，无需人工干预。由于限制原因大部分人无法体验…

阅读更多...

电路原理（电容集成电路NE555）

电路原理（电容集成电路NE555）

电容 1.特性：充放电，隔直流，通交流 2.电容是通过聚集正负电荷来存储电能的 3.电容充放电过程可等效为导通回路 4.多电容并联可以把容量叠加，但是多电容串联就不会，只会叠加电容的耐压值。 6.电容充放电时相当于通路&a…

阅读更多...

【redis】hash基本命令和内部编码

【redis】hash基本命令和内部编码

文章目录表示形式命令HSET 和 HGET HEXISTSHDELHKEYSHVALSHGETALLHMGETHLENHSETNXHINCRBYHINCRBYFLOAT命令小结内部编码表示形式 Redis 自身已经是键值对结构了 Redis 自身的键值对就是通过哈希的方式来组织的把 key 这一层组织完成之后，到了 value 这一层&…

阅读更多...

学习路之TP6 --重写vendor目录下的文件(新建命令)

学习路之TP6 --重写vendor目录下的文件(新建命令)

[TOC](学习路之TP6 --重写vendor目录下的文件(新建命令)) 一、新建命令文件 php think make:command CustomWorker二、修改复制vendor\topthink\think-worker\src\command\Server.php 内容到app\command\CustomWorker.php 修改继承类：class CustomWorker exten…

阅读更多...

Python----数据可视化（Pyecharts三：绘图二：涟漪散点图，K线图，漏斗图，雷达图，词云图，地图，柱状图折线图组合，时间线轮廓图）

Python----数据可视化（Pyecharts三：绘图二：涟漪散点图，K线图，漏斗图，雷达图，词云图，地图，柱状图折线图组合，时间线轮廓图）

1、涟漪特效散点图 from pyecharts.globals import SymbolType from pyecharts.charts import EffectScatter from pyecharts.faker import Faker from pyecharts import options as opts from pyecharts.globals import ThemeType # 绘制图表 es (EffectScatter(init_optsop…

阅读更多...

Linux内核网络层分析

Linux内核网络层分析

网络访问层仍受到传输介质的性质以及相关适配器的设备驱动程序的影响很大。网络层与网络适配器的硬件性质几乎完全分离。为什么说几乎？因为该层不仅负责发送和接收数据，还负责在彼此不直接连接的系统之间转发和路由分组。查找最佳路由并选择适当的网络设…

阅读更多...

OpenHarmony子系统开发 - Rust编译构建指导

OpenHarmony子系统开发 - Rust编译构建指导

OpenHarmony子系统开发 - Rust编译构建指导一、Rust模块配置规则和指导概述 Rust是一门静态强类型语言，具有更安全的内存管理、更好的运行性能、原生支持多线程开发等优势。Rust官方也使用Cargo工具来专门为Rust代码创建工程和构建编译。 OpenHarmony为了集成C…

阅读更多...

分享一个免费的CKA认证学习资料

分享一个免费的CKA认证学习资料

关于CKA考试 CKA（Certified Kubernetes Administrator）是CNCF基金会（Cloud Native Computing Foundation）官方推出的Kubernetes管理员认证计划，用于证明持有人有履行Kubernetes管理的知识，技能等相关的能力…

阅读更多...

MySQL的一些八股文

MySQL的一些八股文

1.什么是BufferPool？ Buffer Pool基本概念 Buffer Pool：缓冲池，简称BP。其作用是用来缓存表数据与索引数据，减少磁盘IO操作，提升效率。 Buffer Pool由缓存数据页(Page) 和对缓存数据页进行描述的控制块组成, 控制…

阅读更多...

$卷积神经网络（笔记02）$

卷积神经网络（笔记02）

一、简述在卷积神经网络中池化层的作用，并解释其为何能帮助提高模型性能。池化层的作用 1. 降低数据维度池化操作通过对输入特征图进行下采样，减少特征图的空间尺寸。常见的池化方式有最大池化（Max Pooling）和平均池化&…

阅读更多...

面试系列｜蚂蚁金服技术面【1】

面试系列｜蚂蚁金服技术面【1】

哈喽，大家好！今天分享一下蚂蚁金服的 Java 后端开发岗位真实社招面经，复盘面试过程中踩过的坑，整理面试过程中提到的知识点，希望能给正在准备面试的你一些参考和启发，希望对你有帮助，愿你能够获…

阅读更多...

带环链表的相关知识点

带环链表的相关知识点

带环链表的相关知识点 1.判断是否有环2.寻找入环节点补充：相交链表如果链表中有某个节点,可以通过连续跟踪next指针再次到达,则链表中存在环。为了表示给定链表中的环，评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置（索引从 0 开…

阅读更多...

初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力

初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力

简介 Cannon.js 是一个基于 JavaScript 的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理 Cannon.js 使用了欧拉角来表示物体的旋转，…

阅读更多...

【小沐学Web3D】three.js 加载三维模型（React）

【小沐学Web3D】three.js 加载三维模型（React）

文章目录 1、简介1.1 three.js1.2 react.js 2、three.js React结语 1、简介 1.1 three.js Three.js 是一款 webGL（3D绘图标准）引擎，可以运行于所有支持 webGL 的浏览器。Three.js 封装了 webGL 底层的 API ，为我们提供了高级的…

阅读更多...

简述计算机网络中的七层模型和四层模型

简述计算机网络中的七层模型和四层模型

在计算机网络中，网络协议栈的设计通常采用分层结构来处理不同的通信任务。常见的分层结构有OSI七层模型和TCP/IP四层模型。虽然它们的层次数量不同，但本质上都在解决如何有效地进行计算机间通信。本文将分别介绍这两种结构的功能和各层的协议。一、OSI七…

阅读更多...

在 CentOS 上安装 Oracle 数据库

在 CentOS 上安装 Oracle 数据库

文章目录 **1. 系统准备****1.1 检查系统要求****1.2 更新系统****1.3 安装必要的依赖包****1.4 创建 Oracle 用户和组****1.5 配置内核参数****1.6 配置用户限制****1.7 配置 PAM 模块****1.8 创建 Oracle 安装目录** **2. 下载 Oracle 数据库安装包****2.1 访问 Oracle 官方网…

阅读更多...

最新文章

推荐文章