【大模型系列篇】DeepSeek开源周,解锁AI黑科技

🔥 Day1:FlashMLA —— GPU推理加速器

  • 专为处理长短不一的AI推理请求而生,就像给Hopper GPU装上了智能导航,让数据在芯片上跑出3000GB/s的"磁悬浮"速度。
  • ✅ 已支持BF16格式|580万亿次浮点运算/秒
  • FlashMLA GitHub Repo([1])

Flash MLA是一个针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计。与传统解码器相比,Flash MLA在处理可变长度序列时,能够显著提高计算效率和速度。这对于自然语言处理、图像识别、语音识别等需要大规模数据处理的应用场景具有重要意义,可以加速模型训练和推理过程,提升AI应用的性能和效率。


🔥 Day2:DeepEP —— 专家模型通信枢纽

  • 首个开源的MoE模型通信库,让分布在多个GPU的"AI专家"像坐上了光速传输带,通过NVLink和RDMA实现毫秒级协作。
  • ✅ 原生FP8支持|训练推理双优化
  • DeepEP GitHub Repo([2])

DeepEP专为专家混合(MoE)和专家并行(EP)设计的通信库,高效且优化的all-to-all通信,支持 dispatch & combine。节点内和节点间支持NVLink和RDMA,用于训练和推理预填充的高吞吐量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,实现计算与通信重叠。


🔥 Day3:DeepGEMM —— 矩阵运算新标杆

  • 用300行核心代码实现FP8计算革命,在Hopper GPU上飙出1350万亿次/秒的运算速度,比专家手工调优的代码还要快。
  • ✅ 支持密集/MoE双模式|即编即用
  • DeepGEMM GitHub Repo([3])

DeepGEMM是一个支持密集型和混合专家(MoE)通用矩阵乘法(GEMM)运算的FP8通用矩阵乘法库,它为V3/R1模型的训练和推理提供支持。

DeepGEMM完全基于NVIDIA的CUDA并行计算平台编写,充分利用了NVIDIA Hopper架构的最新张量核心进行优化。

它采用即时编译(JIT)技术,无需预编译,可在运行时动态编译内核,提高了灵活性和适应性。


🔥 Day4:DualPipe & EPLB —— 并行计算的交响指挥

  • DualPipe流水线([4]):像给AI训练装上双向磁悬浮,计算与传输完美错峰。
  • EPLB负载均衡器([5]):让每个GPU专家都精准接单,拒绝"忙闲不均"。
  • profile-data可视化分析工具([6]):给计算通信做"CT扫描",病灶一目了然。

DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。相较于传统单向流水线,该技术可显著提升计算吞吐量,尤其适用于千亿至万亿参数规模的模型训练。DualPipe通过智能调度机制,在反向传播阶段同步执行前向计算,使硬件利用率提升约30%。可谓是训练界的时间管理大师!

EPLB (Expert-Parallel Load Balancer):这是一个用于V3/R1的专家并行负载均衡器。负载均衡是分布式训练非常重点的优化方向了,EPLB通过实时监控与自适应分配计算任务,确保各个计算节点的"工作量"适中,避免某些节点成为瓶颈,,使万卡级集群的整体利用率提升至92%以上,有效避免资源闲置,进一步提高训练效率。

Computation-Communication Overlap Analyzer:这个工具帮助分析V3/R1模型中的计算和通信重叠部分。DeepSeek首次构建了3D并行(数据/流水线/张量并行)的时空效率模型。通过开源的分析数据集开发者可精准定位计算与通信的冲突节点,为超大规模模型训练提供调优基准,据测试可减少约15%的端到端训练耗时。


🔥 Day5:3FS & Smallpond —— 数据洪流的超导管道

  • 3FS GitHub Repo([7]):是一个利用现代SSD和RDMA网络全带宽的并行文件系统。
  • Smallpond GitHub Repo([8]) : 是一款构建于DuckDB和3FS之上的轻量级数据处理框架。

Fire-Flyer 文件系统(3FS)是一个利用现代SSD和RDMA网络全带宽的并行文件系统。Smallpond是一款构建于DuckDB和3FS之上的轻量级数据处理框架。它旨在简化在3FS上进行数据处理的流程,并充分利用DuckDB的高性能分析能力,充分榨干SSD和RDMA性能。


GitHub Repo

[1]FlashMLA GitHub Repo:https://github.com/deepseek-ai/FlashMLA

[2]DeepEP GitHub Repo:https://github.com/deepseek-ai/DeepEP

[3]DeepGEMM GitHub Repo:https://github.com/deepseek-ai/DeepGEMM

[4]DualPipe流水线:https://github.com/deepseek-ai/DualPipe

[5]EPLB负载均衡器:https://github.com/deepseek-ai/eplb

[6]profile-data可视化分析工具:https://github.com/deepseek-ai/profile-data

[7]3FS GitHub Repo:https://github.com/deepseek-ai/3FS

[8]Smallpond GitHub Repo:https://github.com/deepseek-ai/smallpond

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25778.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

scala基础

Scala基础 scala基础Scala介绍第一个scala代码object和class的区别关键区别伴生类和伴生对象: 字节码解析在java中创建三个类 反编译代码编译User.class源码后的结果编译Emp.class源码后的结果 注释Scala类型推断&至简原则变量var和val之间的区别可变变量不可变…

智能家居遥控革命!昂瑞微HS6621EM:用「芯」定义AIoT时代的语音交互标杆

AIoT爆发期,遥控器为何成为智能家居的「隐形战场」? 随着Meta、苹果等巨头加速布局空间计算,智能家居生态正从「单一设备联网」向「全场景无感交互」跃迁。作为高频使用的入口设备,语音遥控器的性能直接决定用户体验天花板。昂瑞微…

绕过密码卸载360终端安全管理系统

一不小心在电脑上安装了360终端安全管理系统,就会发现没有密码,就无法退出无法卸载360,很容易成为一个心病,360终端安全管理系统,没有密码,进程无法退出,软件无法卸载,前不久听同事说…

MongoDB 笔记

一、基础概念 MongoDB 的特点是什么? MongoDB是一种NoSQL数据库,具有以下特点: 文档存储模型 MongoDB 使用 BSON(Binary JSON) 格式存储数据,数据以文档的形式组织,类似于JSON对象。文档可以包…

小程序Three Dof识别 实现景区AR体验

代码工程 GitCode - 全球开发者的开源社区,开源代码托管平台 dof

ABAP语言的动态程序

通过几个例子,由浅入深讲解 ABAP 动态编程。ABAP 动态编程主要通过 RTTS (Runtime Type Services) 来实现,包括 RTTI 和 RTTC: 运行时类型标识(RTTI) – 提供在运行时获取数据对象的类型定义的方法。运行时类型创建(R…

【安卓】BroadcastReceiver 动态声明为 RECEIVER_NOT_EXPORTED 后无法接收任何 Intent 的问题

一、问题起因 自 Android 14 (API 级别 34) 起,使用 context.registerReceiver(receiver, filter, flags) 动态注册广播接收器时,必须显式地声明 RECEIVER_NOT_EXPORTED 或 RECEIVER_EXPORTED 。 如果声明为 RECEIVER_EXPORTED ,任何第三方应…

unity pico开发二:创建基本的交互

文章目录 导入UnityXR Interaction ToolKit构建基础内容 导入UnityXR Interaction ToolKit 检查一下packagemanager,unityxr interactionToolkit是否自动导入 我们需要升级到一个不超过3.x的版本,因为pico还不支持3.x的内容 然后右侧samples里导入初始…

[STM32]从零开始的STM32 DEBUG问题讲解及解决办法

一、前言 最近也是重装了一次keil,想着也是重装了,也是去官网下载了一个5.41的最新版,在安装和配置编译器和别的版本keil都没太大的区别,但是在调试时,遇到问题了,在我Debug的System Viewer窗口中没有GPIO&…

学习threejs,使用ShaderMaterial自定义着色器材质

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.ShaderMaterial1.1.1…

查看ITHOR全部仿真家庭场景

1. 目标 按序号显示所有120个家庭场景统计单个场景里物体数量 2. 代码 import time from ai2thor.controller import Controller# 统计当前场景中的物体数量 def count_objects_in_scene(controller):objects controller.last_event.metadata["objects"]object_c…

ES6 特性全面解析与应用实践

1、let let 关键字用来声明变量,使用let 声明的变量有几个特点: 1) 不允许重复声明 2) 块儿级作用域 3) 不存在变量提升 4) 不影响作用域链 5) 暂时性死区 6)不与顶级对象挂钩 在代码块内,使用let命令声明变量之前&#x…

VSCode轻松调试运行C#控制台程序

1.背景 我一直都是用VS来开发C#项目的,用的比较顺手,也习惯了。看其他技术文章有介绍VS Code更轻量,更方便。所以我专门花时间来使用VS Code,看看它是如何调试代码、如何运行C#控制台。这篇文章是一个记录的过程。 2.操作 2.1 V…

【多模态】Magma多模态AI Agent

1. 前言 微软杨建伟团队,最近在AI Agent方面动作连连,前两天开源了OmniParser V2,2月26日又开源了Magma,OmniParser专注在对GUI的识别解析,而Magma则是基于多模态技术,能够同时应对GUI和物理世界的交互&…

spring Boot入门

目录 Spring Boot 概述 新建Spring Boot项目 方式一:使用Spring Initializr创建SpringBoot项目 方式二:使用Maven方式构建Spring Boot项目 Spring Boot 概述 简介 •Spring Boot是基于Spring框架开发的全新框架,其设计目的是简化Java…

手机隐私数据彻底删除工具:回收或弃用手机前防数据恢复

软件介绍 有这样一款由吾爱网友chenwangjun 原创开发的数据处理软件,名为 AndroidDiskClear。它的核心功能十分强大,能够将你手机里已经删除的各类文件,像图片、普通文件、文字信息等彻底清除干净,有效杜绝数据恢复类软件的二次恢…

docker使用代理的简单配置

1准备代理服务器 准备代理服务器,例如192.168.120.168:52209 配置docker.service文件 查看service文件的位置 systemctl status docker 编辑service文件 vim /usr/lib/systemd/system/docker.service 添加代理配置 ... [Service] Environment"HTTP_PROXY…

Coze与Dify:企业级大模型应用开发认知陷阱与破局之道

前言 当前大模型应用开发似乎陷入了一种“范式陷阱”:当人们谈论AI Agent或智能体时,脑海里浮现的往往是Coze、Dify这类以对话交互为核心的低代码平台。这些工具确实降低了体验大模型的门槛,但也让行业陷入一种危险的认知偏差——将大模型等…

GitHub 语析 - 基于大模型的知识库与知识图谱问答平台

语析 - 基于大模型的知识库与知识图谱问答平台 GitHub 地址:https://github.com/xerrors/Yuxi-Know 📝 项目概述 语析是一个强大的问答平台,结合了大模型 RAG 知识库与知识图谱技术,基于 Llamaindex VueJS FastAPI Neo4j 构…

由浅入深系列——Distinctive Image Featuresfrom Scale-Invariant Keypoints(SIFT)

第一章:为什么我们需要"图像指纹"?——SIFT的诞生 想象一下,你带着一张埃菲尔铁塔的明信片来到巴黎。站在铁塔脚下,你举起明信片想拍张对比照——但无论怎么调整角度,手机APP就是识别不出两张图片的对应关系…