[论文笔记] chatgpt系列 SparseMOE—GPT4的MOE结构

[论文笔记] chatgpt系列 SparseMOE—GPT4的MOE结构

news/2025/1/11 1:22:39/文章来源:https://blog.csdn.net/Trance95/article/details/134998500

SparseMOE: 稀疏激活的MOE

Swtich MOE，所有token要在K个专家网络中，选择一个专家网络。

显存增加。

Experts Choice：路由MOE：

由专家选择token。这样不同的专家都选择到某个token，也可以不选择该token。

由于FFN层的时间复杂度和attention层不同，FFN层的时间复杂度在O(N*d)，N是输入长度，d是隐层纬度。attention层的时间复杂度在O(N^2*d)。

所以这样操作没能减小计算量。参数量也是多了几个Expert的参数量。

论文里的效果比SparseMOE更好。显存增加。

Tokens Choice：路由MOE：

由token选择专家。每个token只能进到一个专家里。没有t

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/220141.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【开源Mongdb驱动】SpringBoot+Mybatis+Mongdb融合使用教程

【开源Mongdb驱动】SpringBoot+Mybatis+Mongdb融合使用教程

#【开源Mongdb驱动】SpringBootMybatisMongdb无缝融合使用教程介绍本文介绍一款基于JAVA开源的mongodb jdbc驱动为基础的无缝与springbootmybatis融合使用案例 mongodb JDBC 使用案例 https://blog.csdn.net/gongbing798930123/article/details/135002530 《基于开源的JA…

阅读更多...

git 切换远程地址分支推送到指定地址分支版本回退

git 切换远程地址分支推送到指定地址分支版本回退

切换远程地址 1、切换远程仓库地址： 方式一：修改远程仓库地址【git remote set-url origin URL】更换远程仓库地址，URL为新地址。 git remote set-url https://gitee.com/xxss/omj_gateway.git 方式二：先删除远程仓库地址&…

阅读更多...

六：爬虫-数据解析之BeautifulSoup4

六：爬虫-数据解析之BeautifulSoup4

六：bs4简介基本概念： 简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱…

阅读更多...

在金属/绝缘体/p-GaN栅极高电子迁移率晶体管中同时实现大的栅压摆幅和增强的阈值电压稳定性

在金属/绝缘体/p-GaN栅极高电子迁移率晶体管中同时实现大的栅压摆幅和增强的阈值电压稳定性

标题：Simultaneously Achieving Large Gate Swing and Enhanced Threshold Voltage Stability in Metal/Insulator/p-GaN Gate HEMT (IEDM2023) 摘要摘要：对于增强型GaN功率晶体管的发展，栅压摆幅和阈值电压稳定性通常是互相排斥的。本文展…

阅读更多...

计算机组成原理——校验码

计算机组成原理——校验码

计算机组成原理学习笔记——校验码-CSDN博客校验码——海明码及码距，码距_海明码的码距是多少-CSDN博客 1 下列关于码距与检错与纠错能力的描述中正确的是 （ABC） （多选） A. 码距为1的编码不具备任何检错能力 B. 码…

阅读更多...

LVS负载均衡器（nat模式）+nginx（七层反向代理）+tomcat（多实例），实现负载均衡和动静分离

LVS负载均衡器（nat模式）+nginx（七层反向代理）+tomcat（多实例），实现负载均衡和动静分离

目录前言一、配置nfs共享存储二、配置2个nginx节点服务的网页页面节点1:192.168.20.10 步骤一：修改网关指向调度器的内网ip地址步骤二：将nfs共享的目录进行挂载，并修改nginx的配置文件中location的root指向挂载点步骤三&#xff…

阅读更多...

接口优化的常见方案实战经验

接口优化的常见方案实战经验

一、背景针对老项目，去年做了许多降本增效的事情，其中发现最多的就是接口耗时过长的问题，就集中搞了一次接口性能优化。本文将给小伙伴们分享一下接口优化的通用方案。二、接口优化方案总结 1.批处理批量思想：批量操作数据库…

阅读更多...

【漏洞复现】CVE-2023-6848 kodbox远程命令执行

【漏洞复现】CVE-2023-6848 kodbox远程命令执行

漏洞描述 kodbox 是一个网络文件管理器。它也是一个网页代码编辑器，允许您直接在网页浏览器中开发网站。您可以在基于 Linux、Windows 或 Mac 的平台上在线或本地运行 kodbox。唯一的要求是要有 PHP 5及以上。 kalcaddle kodbox 中发现漏洞，最高版本为 1.48。它已被宣布为关…

阅读更多...

【算法与数据结构】455、LeetCode分发饼干

【算法与数据结构】455、LeetCode分发饼干

文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析：因为大饼干可以满足大胃口的孩子也必然可以满足小胃口的孩子，如果要尽可能的满足孩子的胃口…

阅读更多...

processon使用及流程图和泳道图的绘画（登录界面流程图，门诊流程图绘制门诊泳道图，住院泳道图，OA会议泳道图），Axure自定义元件

processon使用及流程图和泳道图的绘画（登录界面流程图，门诊流程图绘制门诊泳道图，住院泳道图，OA会议泳道图），Axure自定义元件

目录一.processon图形的使用场景介绍二.流程图绘画三.泳道图的绘画 1.绘制门诊流程图绘制门诊泳道图 2. 绘制住院泳道图编辑 3.绘制药库采购入库流程图 4.绘制OA会议泳道图四.Axure自定义元件 1.Axure载入元件库一.processon图形的使用场景介绍二.流程图绘画示例&…

阅读更多...

1846_安全SPI

1846_安全SPI

Grey 全部学习内容汇总：GitHub - GreyZhang/g_embedded: some embedded basic knowledge. 1846_安全SPI SPI是一种常见的通信方式，在汽车电子中比较常用。但是如果涉及到安全相关的设计，可能得考虑更多。而SPI协议本身没有很好的标准化&am…

阅读更多...

GO的sql注入盲注脚本

GO的sql注入盲注脚本

之间学习了go的语法这里就开始go的爬虫与其说是爬虫其实就是网站的访问如何实现因为之前想通过go写sql注入盲注脚本发现不是那么简单这里开始研究一下首先是请求网站这里貌似很简单 package mainimport ("fmt""net/http" )func main() {res, …

阅读更多...

【C语言】SCU安全项目1-FindKeys

【C语言】SCU安全项目1-FindKeys

目录前言命令行参数 16进制转字符串 extract_message1 process_keys12 extract_message2 main process_keys34 前言因为这个学期基本都在搞CTF的web方向，C语言不免荒废。所幸还会一点指针相关的知识，故第一个安全项目做的挺顺利的&#xff0c…

阅读更多...

verilog基础语法-计数器

verilog基础语法-计数器

概述： 计数器是FPGA开发中最常用的电路，列如通讯中记录时钟个数，跑马灯中时间记录，存储器中地址的控制等等。本节给出向上计数器，上下计数器以及双向计数器案例。内容 1. 向上计数器 2.向下计数器 3.向上向下计数…

阅读更多...

第一个程序（STM32F103点灯）

第一个程序（STM32F103点灯）

点亮LED 看原理图确定控制LED的引脚看主芯片手册确定如何设置/控制引脚写程序 LED有很多种，像插脚的，贴片的。它们长得完全不一样，因此我们在原理图中将它抽象出来。嵌入式系统中，一个LED的电阻非常低，I U/R&…

阅读更多...

GZ015 机器人系统集成应用技术样题5-学生赛

GZ015 机器人系统集成应用技术样题5-学生赛

2023年全国职业院校技能大赛高职组“机器人系统集成应用技术”赛项竞赛任务书（学生赛） 样题5 选手须知： 本任务书共 24页，如出现任务书缺页、字迹不清等问题，请及时向裁判示意，并进行任务书的更换。参赛队…

阅读更多...

04_Web框架之Django一

04_Web框架之Django一

Web框架之Django一学习目标和内容 1、能够描述Django的作用 2、能够使用Django创建应用 3、能够使用GET和POST请求方式进行传参 4、能够使用Django的函数式方法定义视图 5、能够进行Django的配置文件修改 6、能够基本使用Django的路由定义一、Django相关介绍 1、什么是Djan…

阅读更多...

[Kubernetes]3. k8s集群Service详解

[Kubernetes]3. k8s集群Service详解

在上一节讲解了k8s 的pod,deployment,以及借助pod,deployment来部署项目,但会存在问题: 每次只能访问一个 pod，没有负载均衡自动转发到不同 pod访问还需要端口转发Pod重创后IP变了，名字也变了针对上面的问题,可以借助Service来解决,下面就来看看Service怎么使用一.Service详…

阅读更多...

IDEA中alt enter不显示创建实现类快捷键

IDEA中alt enter不显示创建实现类快捷键

alt enter不显示创建实现类快捷键是因为idea中的设置没打开，按照一下设置打开就可以了。点击setting-->>editor-->>intentions-->>java下的declaration 如下图所示：

阅读更多...

【后端学前端】第四天 css动画垂直轮播效果（css变量、位移缩放动画、动画延迟）

【后端学前端】第四天 css动画垂直轮播效果（css变量、位移缩放动画、动画延迟）

1、学习信息视频地址：css动画垂直轮播效果（css变量、位移缩放动画、动画延迟）_哔哩哔哩_bilibili 2、源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title…

阅读更多...

最新文章

推荐文章