混合专家模型(MoE)2022-2023顶会顶刊论文合集,包含算法、系统、应用3大类

混合专家模型(MoE)是一种深度学习技术,它通过将多个模型(这些模型被称为"专家")直接结合在一起,以加快模型训练的速度,获得更好的预测性能。这种模型设计策略在大模型中尤为重要,它可以解决大模型在训练时面临的一些问题。比如通过层之间的参数共享,MoE能够压缩模型大小;利用MoE的设计,可以扩大模型容量。

目前,基于Transformer扩展的大模型是当前各种大模型的主干,MoE则是扩展Transformer的一种关键技术。在大模型已至瓶颈的现在,MoE技术的发展为如何降低大模型训练难度和推理成本等难题提供了新的解题思路。

这次我整理了2022-2023近两年混合专家模型相关的顶会顶刊论文54篇,分了算法、系统、应用3个大类来和各位分享,帮助有需要的同学攻克大模型现存问题。

MoE算法

Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks

混合专家系统中的补丁级路由对于卷积神经网络是样本高效的

「简述:」论文主要讨论了混合专家模型(MoE)在深度学习中的应用,特别是patch级路由在MoE(pMoE)中的效果。pMoE能够将输入分成多个补丁(或标记),并只将一部分补丁发送给每个专家,从而显著减少计算量。通过使用混合两层卷积神经网络(CNN)进行监督分类任务,作者证明了pMoE能够减少实现所需推广所需的训练样本数量,并优于其单个专家对应项。这是因为pMoE路由器可以过滤与标签无关的补丁,并将类似的类判别补丁路由到相同的专家,这有助于提高模型的泛化能力。

Robust Mixture-of-Expert Training for Convolutional Neural Networks

用于卷积神经网络的鲁棒混合专家训练

「简述:」论文提出了一种新方法AdvMoE,用于提高混合专家模型的对抗鲁棒性。作者发现传统的对抗训练对于混合专家模型不再有效,因为路由器和专家之间难以相互适应。因此,他们提出了一种新的交替对抗训练框架,将路由器和专家分开进行训练。实验结果表明,AdvMoE可以提高混合专家模型的对抗鲁棒性,并具有更高的效率。

Brainformers: Trading Simplicity for Efficiency

以简单换效率

「简述:」论文研究了Transformer设计的选择,并发现更复杂的块可以更有效。文章开发了一个名为Brainformer的复杂块,它由多种类型的层组成,并优于最先进的密集和稀疏Transformer。Brainformer具有更高的质量和效率,特别是在训练速度和步骤时间方面。在下游任务评估中,Brainformer也表现出更高的性能。最后,在fewshot评估中,Brainformer也优于通过NAS派生的模型。

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

用简单高效的稀疏性扩展到万亿参数模型

「简述:」论文提出了一种名为Switch Transformer的方法,用于解决混合专家(MoE)模型的复杂性、通信成本和训练不稳定性等问题。作者简化了MoE路由算法,并设计了更直观的改进模型,以降低通信和计算成本。同时,作者提出了新的训练技术,帮助控制不稳定性,并展示了大型稀疏模型可以使用更低精度(bfloat16)格式进行训练。在多语言环境下,作者使用T5-Base和T5-Large模型实现了更高的预训练速度,并在大规模数据集上预训练了高达万亿参数规模的模型。

Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners

稀疏融合专家混合是域可泛化学习器

「简述:」论文提出了一种名为SF-MoE的新领域泛化方法,该方法基于混合专家(MoE)模型构建。作者发现,混合专家模型可以通过处理多个领域的预测特征来处理分布偏移,从而提高其泛化能力。为此,作者将稀疏性和融合机制引入到MoE框架中,以保持模型的稀疏性和预测性。大量实验表明,SF-MoE是一个可泛化的域学习者,并在五个大规模领域泛化数据集上优于最先进的方法,同时计算成本相同甚至更低。作者还从分布式表示的角度揭示了SF-MoE的内部机制(例如视觉属性)。

  1. On the Representation Collapse of Sparse Mixture of Experts

  2. Taming Sparsely Activated Transformer with Stochastic Experts

  3. Go Wider Instead of Deeper

  4. StableMoE: Stable Routing Strategy for Mixture of Experts

  5. Unified Scaling Laws for Routed Language Models

  6. Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs

  7. A Theoretical View on Sparsely Activated Networks

  8. Designing Effective Sparse Expert Models

  9. Mixture-of-Experts with Expert Choice Routing

  10. Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models

  11. A Review of Sparse Expert Models in Deep Learning

  12. EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate

  13. muNet: Evolving Pretrained Deep Neural Networks into Scalable Auto-tuning Multitask Systems

  14. Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts

  15. ST-MoE: Designing Stable and Transferable Sparse Expert Models

  16. MoEC: Mixture of Expert Clusters

  17. No Language Left Behind: Scaling Human-Centered Machine Translation

  18. Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation

  19. Interpretable Mixture of Experts for Structured Data

  20. Task-Specific Expert Pruning for Sparse Mixture-of-Experts

  21. Gating Dropout: Communication-efficient Regularization for Sparsely Activated Transformers

  22. AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models

  23. Sparse Mixers: Combining MoE and Mixing to build a more efficient BERT

  24. One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code

  25. SkillNet-NLG: General-Purpose Natural Language Generation with a Sparsely Activated Approach

  26. Residual Mixture of Experts

  27. Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners

  28. MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation

  29. Mixture-of-experts VAEs can disregard variation in surjective multimodal data

  30. Efficient Language Modeling with Sparse all-MLP

  31. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

  32. One Student Knows All Experts Know: From Sparse to Dense

MoE系统

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale

推进专家混合推理和训练,为下一代人工智能规模提供动力

「简述:」论文提出了DeepSpeed-MoE,这是一个端到端的MoE训练和推理解决方案,包括新的MoE架构设计和模型压缩技术,以及一个高度优化的推理系统。DeepSpeed-MoE可以为大规模MoE模型提供更快、更便宜的推理服务,与同等质量的密集模型相比,可加速4.5倍,成本降低9倍。

FasterMoE: modeling and optimizing training of large-scale dynamic pre-trained models

大规模动态预训练模型的建模和优化训练

「简述:」论文提出了一种性能模型来预测特定任务的操作延迟,并设计了动态阴影方法和智能细粒度调度方法来应对负载不平衡和提高执行效率。此外,作者还设计了一种避免拥塞的专家选择策略来降低网络拥塞。最终,作者将这些优化措施集成为一个名为FasterMoE的系统,实现了高效的分布式MoE模型训练。实验证明,FasterMoE在大规模模型上比现有系统具有更好的性能。

  1. HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System

  2. Tutel: Adaptive Mixture-of-Experts at Scale

  3. Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning

  4. BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores

  5. MegaBlocks: Efficient Sparse Training with Mixture-of-Experts

  6. SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training and Inference System

MoE应用

SCoMoE: Efficient Mixtures of Experts with Structured Communication

具有结构化通信的高效专家混合模型

「简述:」论文介绍了一种名为SCoMoE的Mixture-of-Experts(MoE)模型,该模型通过结构化全连接通信来减少通信成本。具体来说,SCoMoE使用快速的 intra-accelerator/node 通信通道来鼓励数据跨设备通信,并使用标记聚类方法在 MoE 层之前将来自不同设备的相关标记进行聚合。实验结果表明,SCoMoE在双语和多语言机器翻译任务上表现出色,比现有系统具有更好的性能和效率。

Switch-NeRF: Learning Scene Decomposition with Mixture of Experts for Large-scale Neural Radiance Fields

使用混合专家学习大规模神经辐射场的场景分解 简述:论文提出了一种新型端到端大规模神经辐射场Switch-NeRF,该模型使用基于专家混合的学习场景分解。作者设计了一个门控网络来将3D点分配给不同的NeRF子网络,并使用稀疏门控混合专家(MoE)的设计来优化门控网络和NeRF子网络以适应不同的场景分割。此外,作者还提出了一种可学习的方法来融合不同子网络的输出,以确保整个场景的一致性。实验结果表明,Switch-NeRF在重建大型场景方面具有高保真度和高效率,并在多个大规模数据集上取得了显著的性能提升。

  1. Spatial Mixture-of-Experts

  2. A Mixture-of-Expert Approach to RL-based Dialogue Management

  3. Pluralistic Image Completion with Probabilistic Mixture-of-Experts

  4. ST-ExpertNet: A Deep Expert Framework for Traffic Prediction

  5. Build a Robust QA System with Transformer-based Mixture of Experts

  6. Mixture of Experts for Biomedical Question Answering

  7. Learning Large-scale Universal User Representation with Sparse Mixture of Experts

关注下方《学姐带你玩AI》🚀🚀🚀

回复“混合专家”获取全部论文合集

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224771.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

W5100S-EVB-Pico评估版介绍

文章目录 1 简介2 硬件资源2.1 硬件规格2.2 引脚定义2.3 工作条件 3 参考资料3.1 Datasheet3.2 原理图3.3 尺寸图(单位:mm)3.4 参考例程 4 硬件协议栈优势 1 简介 W5100S-EVB-Pico是一款基于树莓派RP2040和全硬件TCP/IP协议栈以太网芯片W5100…

Java经典框架之Spring MVC

Spring MVC Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机,Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. Spring MVC 入门案例 2. 基…

Android 13 - Media框架(26)- OMXNodeInstance(三)

上一节我们了解了OMXNodeInstance中的端口定义,这一节我们一起来学习ACodec、OMXNode、OMX 组件使用的 buffer 到底是怎么分配出来的,以及如何关联起来的。(我们只会去了解 graphic buffer的创建、input bytebuffer的创建、secure buffer的创…

博客摘录「 Apollo安装和基本使用」2023年11月27日

一、常见配置中心对比 Spring Cloud Config: https://github.com/spring-cloud/spring-cloud-configApollo: https://github.com/ctripcorp/apolloNacos: https://github.com/alibaba/nacos 对比项目/配置中心 spring cloud config apollo nacos(重点) 开源时间 2014.9 …

尺寸公差分析与尺寸链计算软件-DTAS3D到底能给我们带来哪些价值?

【技能】DTAS3D能给我们带来哪些价值? DTAS3D是一款高度集成的公差分析软件,旨在为产品开发团队提供准确的建议,从而放心地将设计发布给制造部门。下面是DTAS3D的关键价值和应用: 1.与三维CAD无缝集成: DTAS3D与三维CAD软件 (CATIA、NX、Cr…

scala学习七:集合

一、集合colletion Scala提供了一套很好的集合实现,提供了一些集合类型的抽象。 Scala 集合分为可变的和不可变的集合。 可变集合可以在适当的地方被更新或扩展。可以修改,添加,移除一个集合的元素。 而不可变集合类,永远不会改变…

【操作系统】探究进程奥秘:显示进程列表的解密与实战

​🌈个人主页:Sarapines Programmer🔥 系列专栏:Linux专栏:《探秘Linux | 操作系统解密》⏰诗赋清音:月悬苍穹泛清辉,梦随星河徜徉辉。情牵天际云千层,志立乘风意自飞。 ​ 目录 &a…

Go_defer详解

defer 1. 前言 defer语句用于延迟函数的调用,每次defer都会把一个函数压入栈中,函数返回前再把延迟的函数取出并执行。 为了方便描述,我们把创建defer的函数称为主函数,defer语句后面的函数称为延迟函数。 延迟函数可能有输入…

IDEA 2022.2 安装教程

1.下载2020.3版本IDEA 链接:https://pan.baidu.com/s/1IFK8VRjT7vM2VM75ToveGQ?pwd176m 提取码:176m 2.安装 下载完成后,双击exe安装包,出现IDEA安装欢迎首页: 3.将 ja - netfiltet 文件复制到idea安装目录附件 …

Docker部署Nexus Maven私服并实现远程访问Nexus界面

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 1. Docker安装Nexus2. 本地访问Nexus3. Linux安装Cpolar4. 配置Nexus界面公网地址5. 远程访问 Nexus界面6. 固定N…

【ONE·MySQL || 基础介绍】

总言 主要内容:MySQL在Centos 7下的安装(主要学习相关指令语句,理解安装操作是在做什么)、对MySQL数据库有一个基础认识。 文章目录 总言0、MySQL的安装与卸载(Centos 7)0.1、MySQL的卸载0.1.1、卸载不必要…

面向对象设计与分析40讲(15)简单工厂方法模式

文章目录 定义示例优缺点定义 简单工厂模式是一种创建型模式,用于根据客户端的需求创建对象实例,所谓的需求反映到编程语言里就是传入的参数。 简单工厂模式包括三个主要部分: 工厂类(Simple Factory):这是整个模式的核心。它负责根据客户端的请求来创建并返回相应的对…

.Net7.0 或更高版本 System.Drawing.Common 上传图片跨平台方案

项目升级.Net7.0以后,System.Drawing.Common开关已经被删除,且System.Drawing.Common仅在 Windows 上支持 ,于是想办法将原来上传图片验证文件名和获取图片扩展名方法替换一下,便开始搜索相关解决方案。 .Net6.0文档:…

Java Web基础详解

回顾 之前的两篇的文章已经大概的带我们了解了tomcat的一些基本的操作,比如从零搭建我们自己的调试环境以及官方文档构建的方式,接下来的话,我将带大家来了解一下tomcat的一些基础知识,这些基础知识将以问题的方式抛出&#xff0…

移动开发新的风口?Harmony4.0鸿蒙应用开发基础+实践案例

前段时间鸿蒙4.0引发了很多讨论,不少业内人士认为,鸿蒙将与iOS、安卓鼎足而三了。 事实上,从如今手机操作系统竞赛中不难看出,安卓与iOS的形态、功能逐渐趋同化,两大系统互相取长补短,综合性能等差距越来越…

索引进阶 | 再谈 MySQL 的慢 SQL 优化

索引可以提高数据检索的效率,降低数据库的IO成本。 MySQL在300万条记录左右性能开始逐渐下降,虽然官方文档说500~800w记录,所以大数据量建立索引是非常有必要的。 MySQL提供了Explain,用于显示SQL执行的详细信息,可以…

《Git快速入门》Git分支

1.master、origin、origin/master 区别 首先搞懂git分支的一些名称区别: master : Git 的默认分支名字。它并不是一个特殊分支、跟其它分支完全没有区别。 之所以几乎每一个仓库都有 master 分支,是因为 git init 命令默认创建它&#xff0c…

iOS设备信息详解

文章目录 ID 体系iOS设备信息详解IDFA介绍特点IDFA新政前世今生获取方式 IDFV介绍获取方式 UUID介绍特点获取方式 UDID介绍获取方式 OpenUDID介绍 Bundle ID介绍分类其他 IP地址介绍获取方式 MAC地址介绍获取方式正常获取MAC地址获取对应Wi-Fi的MAC地址 系统版本获取方式 设备型…

什么是OAuth2.0

前言 OAuth(Open Authorization)是一个关于授权(authorization)的开放网络标准,允许用户授权第三方应用访问他们存储在另外的服务提供者上的信息,而不需要将用户名和密码提供给第三方移动应用或分享他们数…

智能优化算法应用:基于蛇优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于蛇优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于蛇优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.蛇优化算法4.实验参数设定5.算法结果6.参考文…