3. 使用tcpdump抓取rdma数据包

系列文章

  • 第1章 多机多卡运行nccl-tests 和channel获取
  • 第2章 多机多卡nccl-tests 对比分析
  • 第3章 使用tcpdump抓取rdma数据包

目录

  • 系列文章
  • 一、准备工作
    • 1. 源码编译tcpdump
    • 2. 安装wireshark
  • 二、Tcpdump抓包
  • 三、Wireshark分析


一、准备工作

1. 源码编译tcpdump

使用 tcpdump 需要对源码进行编译,才可以抓取 RDMA 网卡数据包

参考tcpdump提供的安装说明:https://github.com/the-tcpdump-group/tcpdump/blob/master/INSTALL.md

tcpdump依赖于libpcap,因此首先需要对 libpcap 进行编译安装:

git clone https://github.com/the-tcpdump-group/libpcap.git
cd libpcap./autogen.sh 
./configure 
sudo make install

对 tcpdump 使用同样的命令编译

git clone https://github.com/the-tcpdump-group/tcpdump.git
cd tcpdump./autogen.sh 
./configure 
sudo make install

查看版本信息
在这里插入图片描述

2. 安装wireshark

sudo apt-get update
sudo apt-get install wireshark

二、Tcpdump抓包

使用 tcpdump 抓取 RDMA 数据包-tcpdump需要sudo权限

sudo tcpdump -i mlx5_0 -s 0 -w rdma.pcap 
//使用 tcpdump 抓取 mlx5_0 设备数据包并保存在 rdma.pcap 中,使用 wireshark 进行数据包分析
  • -i mlx5_0: 指定了要监听的网络接口。mlx5_0代表使用的是Mellanox ConnectX系列适配器的一个InfiniBand或RoCE (RDMA over Converged Ethernet) 接口。

  • -s 0: 设置抓取数据包时的snaplen(抓包长度)为0,意味着捕获整个数据包的内容,不受默认限制。这样可以确保即使是非常长的数据包也能被完整捕获。

  • -w rdma.pcap: 使用-w选项将捕获的数据保存到名为rdma.pcap的文件中。.pcap是Packet Capture的缩写,是一种标准的网络数据包捕获格式,可以被多种网络分析工具(如Wireshark)打开和分析。

接下来可以执行perftest测试 ,或者使用roce进行分布式训练或者执行nccl-test,都会有RoCE报文传输了。

以perftest为例:

ib_send_bw是用来测试SEND操作的带宽的程序(infiniband_sendbandwidth),其中<server_ip>表示对端的IP,对于我的环境来说,本节点mlx5_0对应的ip是10.110.0.21,另外一个机器mlx5-0对应的是10.110.0.25,两台机器的网卡连接交换机。

#server端
ib_send_bw -d mlx5_0#client端 - 10.110.0.21为server ip
ib_send_bw -d mlx5_0 10.110.0.21

在这里插入图片描述
在这里插入图片描述

执行之后关闭tcpdump即可.

三、Wireshark分析

wieshark 打开 tcpdump 保存的pcap文件,即可看到RoCE报文。
其中RRoCE是Routable RoCE的意思,即可以被路由的RoCE,即RoCE v2。我们随便选中一个条目,下面的窗口中我们就可以看到每一层报文的内容了,非常清晰:
在这里插入图片描述
上图从上到下分别是:物理层–>以太网链路层–>IPv4网络层–>UDP传输层–>IB传输层(BTH头和iCRC校验)–>数据。

由于我自己对RDMA不是很了解,只是知道如何查看设备信息以及如何在分布式训练中使用他们。在别的文章评论区看到以下内容,感到很受用,记录一下!

RoCE v2协议栈是包括从物理层到传输层以及在此之上的IB传输层。

RoCEv2的外层报文是基于UDP的,它并不具备应答确认与重传机制。假设网络出现了丢包,那么发送端需要怎么把被丢弃的报文再发送给接收端呢?

  • RoCEv2协议里面有ack确认机制。重传机制有go back N
  • 这个是在UDP上层的IB传输层协议保证的,如果是RC,会有ACK和Go-Back-N重传

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/341905.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于web的垃圾分类回收系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;用户管理&#xff0c;公告管理&#xff0c;运输管理&#xff0c;基础数据管理 用户账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;运输管理&#xff0c;公告…

基于Django的博客系统之用HayStack连接elasticsearch增加搜索功能(五)

上一篇&#xff1a;搭建基于Django的博客系统数据库迁移从Sqlite3到MySQL&#xff08;四&#xff09; 下一篇&#xff1a;基于Django的博客系统之增加类别导航栏&#xff08;六&#xff09; 功能概述 添加搜索框用于搜索博客。 需求详细描述 1. 添加搜索框用于搜索博客 描…

C语言 | Leetcode C语言题解之第133题克隆图

题目&#xff1a; 题解&#xff1a; struct Node** visited; int* state; //数组存放结点状态 0&#xff1a;结点未创建 1&#xff1a;仅创建结点 2&#xff1a;结点已创建并已填入所有内容void bfs(struct Node* s) {if (visited[s->val] && state[s->val] 2…

图片和PDF展示预览、并支持下载

需求 展示图片和PDF类型&#xff0c;并且点击图片或者PDF可以预览 第一步&#xff1a;遍历所有的图片和PDF列表 <div v-for"(data,index) in parerFont(item.fileInfo)" :key"index" class"data-list-item"><downloadCard :file-inf…

【面试八股总结】锁:互斥锁、自旋锁、读写锁、乐观锁、悲观锁

使用加锁操作和解锁操作可以解决并发线程/进程的互斥问题。任何想进入临界区的线程&#xff0c;必须先执行加锁操作。若加锁操作顺利通过&#xff0c;则线程可进入临界区&#xff1b;在完成对临界资源的访问后再执行解锁操作&#xff0c;以释放该临界资源。 一、互斥锁与自旋锁…

【C语言】详解函数(下)(庖丁解牛版)

文章目录 1. 前言2. 数组做函数形参3. 函数嵌套调用和链式访问3.1 嵌套调用3.2 链式访问 1. 前言 详解C语言函数(上)的链接&#xff1a;http://t.csdnimg.cn/EGsfe 经过对函数的初步了解之后,相信大家已经对C语言标准库里的函数已经有初步的认知了&#xff0c;并且还学会了如…

Linux系统Docker部署Apache Superset并实现远程访问详细流程

目录 前言 1. 使用Docker部署Apache Superset 1.1 第一步安装docker 、docker compose 1.2 克隆superset代码到本地并使用docker compose启动 2. 安装cpolar内网穿透&#xff0c;实现公网访问 3. 设置固定连接公网地址 前言 作者简介&#xff1a; 懒大王敲代码&#xff0…

x86国产化麒麟系统上安装docker及问题解决

以前感觉安装docker没有问题&#xff0c;所以没有记录怎么安装的&#xff0c;最近在国产化系统上安装docker总是失败&#xff0c;经过仔细研究完全解决了该问题&#xff0c;特此记录。 参考链接&#xff1a; 在 OpenKylin 上安装 Docker 按照上面的链接可以知道整个docker安装…

浏览器工作原理

主要分为导航、获取数据、HTML解析、css解析、执行javaScript、渲染树几个步骤。 1.导航 DNS查询 DNS服务器类似于电话簿&#xff0c;里面包含公共的IP地址以及相关主机名数据库&#xff0c;我们输入一个域名&#xff0c;他能帮我们映射到对应的IP地址。&#xff08;第一次查…

Latex之图片排列的简单使用(以MiKTeX工具为例)

一、参考资料 Latex如何插入图片 Latex 学术撰写工具推荐&#xff08;在线、Windows、Mac、Linux&#xff09; 关于Latex并排多张图片及加入图片说明的方法 二、准备工作 1. 在线LaTex工具 Overleaf 2. 本地LaTex工具 MiKTeX 3. 测试用例 \documentclass{article} \ti…

题号:BC19 题目:反向输出一个四位数

题号&#xff1a;BC19 题目&#xff1a;反向输出一个四位数 废话不多说&#xff0c;上题目&#xff1a; 解题思路&#xff1a; 我们发现可以用%和/两个操作符就可以解决。 代码如下: int main() {int a 0;scanf("%d ",& a);while (a){printf("%d "…

Python Django 5 Web应用开发实战

大家好&#xff0c;我是爱编程的喵喵。双985硕士毕业&#xff0c;现担任全栈工程师一职&#xff0c;热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。…

【PB案例学习笔记】-17制作一个颜色选择框

写在前面 这是PB案例学习笔记系列文章的第17篇&#xff0c;该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习&#xff0c;提高编程技巧&#xff0c;以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码&#xff0c;小凡都上传到了gite…

解决找不到api-ms-win-crt-runtime-l1-1-0.dll问题的5种方法

电脑已经成为我们生活和工作中不可或缺的工具&#xff0c;然而&#xff0c;由于各种原因&#xff0c;我们可能会遇到一些常见的问题&#xff0c;其中之一就是电脑缺失api-ms-win-crt-runtime-l1-1-0.dll文件。这个问题可能会导致电脑出现错误提示、程序无法正常运行等困扰。为了…

easyexcel模板填充列表

引入依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>2.2.6</version></dependency>编写模板 编写代码 public class FillData {private String name;private Double number;pu…

python数据分析——模型诊断

参考资料&#xff1a;活用pandas库 创建模型是持续性活动。当向模型中添加或删除变量时&#xff0c;需要设法比较模型&#xff0c;并需要统一的方法衡量模型的性能。 1、残差 模型的残差指实际观测值与模型估计值之差。 # 导入pandas库 import pandas as pd # 读取数据集 hou…

[next.js]pwa缓存

配置Next.js (v14 App Router模式) 使其支持PWA缓存&#xff0c;配置server worker和mainfest.json&#xff0c;让项目支持离线访问和可安装。 安装依赖next-pwa npm i next-pwa配置next.config.js const path require(path);const withPWAInit require(next-pwa);// 判断…

Nodejs 第七十四章(微服务)

什么是微服务&#xff1f; micro servers 微服务和微前端是类似的&#xff0c;微前端就是借鉴了微服务的理念去实现的&#xff0c;那么微服务指的就是&#xff0c;将应用程序拆分成为一系列小型、独立的服务&#xff0c;每个服务都是专注于执行特定的业务&#xff0c;比如文章…

微软云计算[3]之Windows Azure AppFabric

Windows Azure AppFabric AppFabric概述AppFabric关键技术服务总线访问控制高速缓存 AppFabric概述 AppFabric为本地应用和云中应用提供了分布式的基础架构服务 用户本地应用与云应用之间进行安全联接和信息传递 云应用和现有应用或服务之间的连接及跨语言、跨平台、跨不同标…

13- Redis 中的 压缩列表 数据结构

压缩列表的最大特点&#xff0c;就是它被设计成一种内存紧凑型的数据结构&#xff0c;占用 一块连续的内存空间&#xff0c;不仅可以利用 CPU 缓存&#xff0c;而且会针对不同长度的数据&#xff0c;进行相应编码&#xff0c;这种方法可以有效的节省内存开销。 但是&#xff0…