传统混合专家模型MoE架构详解以及python示例（DeepSeek-V3之基础）

传统混合专家模型MoE架构详解以及python示例（DeepSeek-V3之基础）

news/2025/3/25 10:48:04/文章来源:https://blog.csdn.net/lzm12278828/article/details/145671008

我们已经了解到DeepSeek-V3的框架结构基于三大核心技术构建：多头潜在注意力（MLA）、DeepSeekMoE架构和多token预测（MTP）。而DeepSeekMoE架构的底层模型采用了混合专家模型（Mixture of Experts，MoE）架构。所以我们先了解一下传统混合专家模型MoE架构。

一、传统混合专家模型MoE架构

DeepSeekMoE是基于MoE的，所以我们先分析一下传统混合专家模型MoE架构，MoE在处理大规模数据和复杂任务时为什么表现出显著的优势，因为MoE架构的具有稀疏激活、动态路由、负载均衡、可拓展性等多个核心特点。

以下是传统混合专家模型（MoE）的架构图，针对一个token输入：

图1 传统混合专家模型（MoE）的架构图

以下是传统MoE架构的核心特点解析：

1. 稀疏激活（Sparse Activation）

MoE架构的核心特性之一是稀疏激活。在传统的Transformer模型中，每个输入token都会激活整个模型的所有参数，而MoE架构则通过门控网络（Gate Network）实现输入数据到专家模块的分配。门控网络采用动态路由机制（Dynamic Routing），根据输入数据的特征，计算每个输入与各个专家（Experts）模块的“适配度”分数，并选择适配度最高的几个专家来处理输入，实现稀疏激活。这种稀疏激活机制显著减少了每次计算所需的资源，提高了计算效率。

2. 动态路由机制（Dynamic Routing）

MoE架构通过门控网络动态决定哪些专家参与计算。门控网络根据输入数据的特征计算每个专家的相关性得分，并选择得分最高的几个专家进行激活。这种动态路由机制不仅提高了模型的适应性，还允许模型根据输入数据的特点灵活调整计算资源的分配。

3. 负载均衡（Load Balancing）

负载均衡是 MoE 架构中的一个重要挑战。传统MoE模型通常通过引入辅助损失函数（如负载均衡损失）来强制模型均衡使用各个专家。这些辅助损失函数会惩罚负载过高的专家，从而避免某些专家被过度使用，而其他专家则处于闲置状态。

图2 负载均衡示意图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/19458.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

$【深度学习】计算机视觉（CV）-目标检测-Faster R-CNN —— 高精度目标检测算法$

【深度学习】计算机视觉（CV）-目标检测-Faster R-CNN —— 高精度目标检测算法

1.什么是 Faster R-CNN？ Faster R-CNN（Region-based Convolutional Neural Network） 是目标检测（Object Detection） 领域的一种双阶段（Two-Stage） 深度学习方法，由 Ross Girshick…

阅读更多...

实现pytorch注意力机制-one demo

实现pytorch注意力机制-one demo

主要组成部分： 1. 定义注意力层： 定义一个Attention_Layer类，接受两个参数：hidden_dim（隐藏层维度）和is_bi_rnn（是否是双向RNN）。 2. 定义前向传播： 定义了注意力层的…

阅读更多...

SAP-ABAP：SAP的Screen Layout Designer屏幕布局设计器详解及示例

SAP-ABAP：SAP的Screen Layout Designer屏幕布局设计器详解及示例

在SAP中，Screen Layout Designer（屏幕布局设计器）是用于设计和维护屏幕（Dynpro）布局的工具。通过Screen Layout Designer，您可以创建和修改屏幕元素（如输入字段、按钮、文本、表格控件等&#x…

阅读更多...

windows11+ubuntu20.04双系统下卸载ubuntu并重新安装

windows11+ubuntu20.04双系统下卸载ubuntu并重新安装

windows11ubuntu20.04双系统下卸载ubuntu并重新安装背景：昨晚我电脑ubuntu20.04系统突然崩溃了，无奈只能重装系统了（好在没有什么重要数据）。刚好趁着这次换个ubuntu24.04系统玩一下，学习一下ROS2。现系统&#xff…

阅读更多...

SpringBoot速成（11)更新用户头像,密码P13-P14

SpringBoot速成（11)更新用户头像,密码P13-P14

更新头像： 1.代码展示: 1.RequestParam 是 Spring MVC 中非常实用的注解，用于从 HTTP 请求中提取参数并绑定到控制器方法的参数上。 2.PatchMapping 是 Spring MVC 中的一个注解，用于处理 HTTP 的 PATCH 请求。PATCH 请求通常用于对资源的部…

阅读更多...

DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决

DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决

我的个人主页我的专栏：人工智能领域、java-数据结构、Javase、C语言，希望能帮助到大家！！！点赞👍收藏❤ 一、引言在机器学习的广袤天地中，大型语言模型（LLM）无疑是最…

阅读更多...

Datawhale 数学建模导论二笔记1

Datawhale 数学建模导论二笔记1

第6章数据处理与拟合模型本章主要涉及到的知识点有： 数据与大数据Python数据预处理常见的统计分析模型随机过程与随机模拟数据可视化本章内容涉及到基础的概率论与数理统计理论，如果对这部分内容不熟悉，可以参考相关概率论与数理统计的…

阅读更多...

【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调

【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调

文章目录 1.背景2.微调方式2.1 关键环境版本信息2.2 步骤2.2.1 下载llama-factory2.2.2 准备数据集2.2.3 微调模式2.2.3.1 zero-3微调2.2.3.2 zero-2微调2.2.3.3 单卡Lora微调 2.3 踩坑经验2.3.1 问题一：ValueError: Undefined dataset xxxx in dataset_info.json.2…

阅读更多...

STM32 如何使用DMA和获取ADC

STM32 如何使用DMA和获取ADC

目录背景 ‌摇杆的原理程序端口配置 ADC 配置 DMA配置背景 DMA是一种计算机技术，允许某些硬件子系统直接访问系统内存，而不需要中央处理器（CPU）的介入，从而减轻CPU的负担。我们可以通过DMA来从外设&#xf…

阅读更多...

Jvascript网页设计案例：通过js实现一款密码强度检测，适用于等保测评整改

Jvascript网页设计案例：通过js实现一款密码强度检测，适用于等保测评整改

本文目录前言功能预览样式特点总结：1. 整体视觉风格2. 密码输入框设计3. 强度指示条4. 结果文本与原因说明功能特点总结：1. 密码强度检测2. 实时反馈机制3. 详细原因说明4. 视觉提示5. 交互体验优化密码强度检测逻辑Html代码Javascript代码前言能满…

阅读更多...

Mybatis高级(动态SQL)

Mybatis高级(动态SQL)

目录一、动态SQL 1.1 数据准备： 1.2 <if>标签 1.3<trim> 标签 1.4<where>标签 1.5<set>标签 1.6 <foreach>标签 1.7<include> 标签一、动态SQL 动态SQL是Mybatis的强⼤特性之⼀，能够完成不同条件下不同…

阅读更多...

mac 意外退出移动硬盘后再次插入移动硬盘不显示怎么办

mac 意外退出移动硬盘后再次插入移动硬盘不显示怎么办

第一步：sudo ps aux | grep fsck 打开mac控制台输入如下指令，我们看到会出现两个进程，看进程是root的这个 sudo ps aux|grep fsck 第二步：杀死进程在第一步基础上我们知道不显示u盘的进程是：62319，我们…

阅读更多...

(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求，并与ChatGPT进行对比(附本地部署教程)

(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求，并与ChatGPT进行对比(附本地部署教程)

(2025)通过Ollama光速部署本地DeepSeek-R1模型(支持Windows10/11)_deepseek猫娘咒语-CSDN博客文章浏览阅读1k次，点赞19次，收藏9次。通过Ollama光速部署本地DeepSeek-R1(支持Windows10/11)_deepseek猫娘咒语https://blog.csdn.net/m0_70478643/article/de…

阅读更多...

qt + opengl 给立方体增加阴影

qt + opengl 给立方体增加阴影

在前几篇文章里面学会了通过opengl实现一个立方体，那么这篇我们来学习光照。风氏光照模型的主要结构由3个分量组成：环境(Ambient)、漫反射(Diffuse)和镜面(Specular)光照。下面这张图展示了这些光照分量看起来的样子： 1 环境光照(Ambient …

阅读更多...

机器学习-监督学习

机器学习-监督学习

1. 定义与原理监督学习依赖于标记数据（即每个输入样本都对应已知的输出标签），模型通过分析这些数据中的规律，建立从输入特征到目标标签的映射函数。例如，在垃圾邮件检测中，输入是邮件内容，输出…

阅读更多...

使用grafana v11 建立k线(蜡烛图)仪表板

使用grafana v11 建立k线(蜡烛图)仪表板

先看实现的结果沪铜主力合约 2025-02-12 的1分钟k线图功能介绍: 左上角支持切换主力合约,日期,实现动态加载数据. 项目背景: 我想通过前端展示期货指定品种某1天的1分钟k线,类似tqsdk 的web_gui 生成图形化界面— TianQin Python SDK 3.7.8 文档项目架构: 后端: fastap…

阅读更多...

我们来学HTTP/TCP -- 另辟蹊径从响应入手

我们来学HTTP/TCP -- 另辟蹊径从响应入手

从响应入手题记响应结语题记很多“废话”，在很多文章中出奇的一致那种感觉是，说了好像又没说一样，可以称之为“电子技术垃圾”当然，是从个人主观的感受，这该死的回旋镖估计也会打在自己头上但咱也学学哪吒精神“我…

阅读更多...

Golang官方编程指南

Golang官方编程指南

文章目录 1. Golang 官方编程指南2. Golang 标准库API文档 1. Golang 官方编程指南 Golang 官方网站：https://go.dev/ 点击下一步，查看官方手册怎么用 https://tour.go-zh.org/welcome/1 手册中的内容比较简单 go语言是以包的形式化管理函数的搜索包名…

阅读更多...

开源语音克隆项目 OpenVoice V2 本地部署

开源语音克隆项目 OpenVoice V2 本地部署

#本机环境 WIN11 I5 GPU 4060ti 16G 内存 32G #开始 git clone https://github.com/myshell-ai/OpenVoice.git conda create -n opvenv python3.9 -y conda activate opvenv pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/…

阅读更多...

Java8适配的markdown转换html工具（FlexMark）

Java8适配的markdown转换html工具（FlexMark）

坐标地址： <dependency><groupId>com.vladsch.flexmark</groupId><artifactId>flexmark-all</artifactId><version>0.60.0</version> </dependency> 工具类代码： import com.vladsch.flexmark.ext.tab…

阅读更多...

最新文章

推荐文章