混合专家系统(MoE)

混合专家系统(Mixture of Experts)

原理:

混合专家系统(MoE)是一种神经网络,也属于一种combine的模型。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型,各个模型被称为专家,而门控模块用于选择使用哪个专家,模型的实际输出为各个模型的输出与门控模型的权重组合。各个专家模型可采用不同的函数(各种线性或非线性函数)。混合专家系统就是将多个模型整合到一个单独的任务中。

混合专家系统有两种架构:competitive MoE 和cooperative MoE。competitive MoE中数据的局部区域被强制集中在数据的各离散空间,而cooperative MoE没有进行强制限制。

对于较小的数据集,该模型的表现可能不太好,但随着数据集规模的增大,该模型的表现会有明显的提高。

定义X为Nd维输入,y为Nc维输出,K为专家数,$\lambda $为学习率:

f o r j i n ( 0... ( d − 1 ) ) a n d i i n ( 0... ( c − 1 ) ) for\ j\ in (0...(d-1))\ and\ i\ in\ (0...(c-1)) for j in(0...(d1)) and i in (0...(c1)):
各专家输出为: V i k = w i k x V_{ik}=w_{ik}x Vik=wikx

(其中 w i k w_{ik} wik为第k个专家模型对第i列输出的权重, V i k V_{ik} Vik为第k个专家对第i列的预测。( w i k w_{ik} wik添加了bias所以输出为d+1维))

第k个专家输出均值为:

m k = ∑ i = 0 c − 1 V i k m_{k}=\sum_{i=0}^{c-1}V_{ik} mk=i=0c1Vik

门限模块输出为:

g k = e m k T ∑ k e m k T g_{k}=\frac{e^{m_{k}^{T}}}{\sum_{k}e^{m_{k}^{T}}} gk=kemkTemkT

输出 y i y_i yi通过softmax函数转成概率值为:
y s i = e y i ∑ i e y i y_{si}=\frac{e^{y_{i}}}{\sum_{i}e^{y_{i}}} ysi=ieyieyi

对于Cooperative MoE:

Δ w i k = λ ( y i − y s i ) g k x \Delta w_{ik}=\lambda(y_{i}-y_{si})g_{k}x Δwik=λ(yiysi)gkx
Δ m k = λ ( y i − y s i ) ( v i k − y s i ) g k x \Delta m_{k}=\lambda(y_{i}-y_{si})(v_{ik}-y_{si})g_{k}x Δmk=λ(yiysi)(vikysi)gkx

对于Competitive MoE:
Δ w i k = λ f k ( y i − y i k ) x \Delta w_{ik}=\lambda f_{k}(y_{i}-y_{ik})x Δwik=λfk(yiyik)x
Δ m k = λ ( f k − g k ) x \Delta m_{k}=\lambda (f_{k}-g_{k})x Δmk=λ(fkgk)x
y i k = e V i k ∑ i e V i k y_{ik}=\frac{e^{V_{ik}}}{\sum_{i}e^{V_{ik}}} yik=ieVikeVik
f k = g k e ∑ i y i l o g y i k ∑ l g l e ∑ i y i l o g y i k f_{k}=\frac{g_{k}e^{\sum_{i}y_{i}logy_{ik}}}{\sum_{l}g_{l}e^{\sum_{i}y_{i}logy_{ik}}} fk=lgleiyilogyikgkeiyilogyik

实验结果:

不同数据集相同k值:

  1. k=2使用线性数据集,采用SGD和FTRL两种训练方式,结果如下:
    这里写图片描述
    这里写图片描述
  2. k=2使用非线性数据集,采用SGD和FTRL两种训练方式,结果如下:
    这里写图片描述
    这里写图片描述

相同数据集不同k值:

  1. k=1:
    这里写图片描述
    这里写图片描述
  2. k=2:
    这里写图片描述
    这里写图片描述
  3. k=4:
    这里写图片描述
    这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15163.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重磅来袭:复旦团队发布国内首个类 ChatGPT 模型 MOSS,邀公众参与内测!

前言 ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。今天,从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(htt…

聚观早报 | 科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告

今日要闻:科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告;科研人员研发纳米粒子治疗癌症;中小学教材不得夹带商业广告;Z-Library又被美国FBI查封了 科大讯飞称10月整体赶超ChatGPT 5 月 6 日,科大讯飞董事…

不得不说,关于分子对接,MOE有点牛!

来源公众号:计算机辅助药物设计 CADD MOE软件的虚拟仿真实验 多奈哌齐与乙酰胆碱酯酶的分子对接 本文基于MOE软件设计了多奈哌齐与乙酰胆碱酯酶的分子对接虚拟仿真实验。 通过分子结构预处理、分子对接以及数据分析等内容&#…

打脸质疑者!Mobileye市值冲高,公司CEO说出心声

三个多月前, Mobileye以21美元发行价第二次在美股IPO上市。截止上周五,该公司股价升至32.98美元,市值达到264.47亿美元。相比于美股其他自动驾驶公司股价跌跌不休,显然,资本市场更看重企业的盈利能力和可预见的营收规模…

科技公司 CEO 合谋“诈骗”自家公司超 900 万美元,现已被捕

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 虽然一直都知道许多 CEO 实际上并不能随意设定自己的薪酬,但还真没见过 CEO 为了赚钱“诈骗”自家公司的! 本周三,美国纽约南区地方法院和联邦调查局宣布已逮捕并起…

【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测,多模态融合

本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文。 论文标题:Multimodal Fusion with Co-Attention Networks for Fake News Detection; 作者:Yang Wu, Pengwei Zhan, Yunjian…

多维考察ChatGPT

2022年11月30日,OpenAI正式发布了一款聊天机器人ChatGPT,它不仅会聊天,还会编写代码、撰写文案、代写论文、即时翻译……一时让人分不清这是“作业神器”,还是“竞业凶器”。不管你爱它还是恨它,都不能无视它。在商业上…

「国际科技信息中心SCITIC论坛」从ChatGPT、流浪地球、虚拟数字人、AIGC探索数字化创意,展望人类与AI的共创...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年2月24日,由国际科技信息中心主办,AI TIME承办的SCITIC论坛——数字化创意探索,从流浪地球说起完美收官。SCITIC论坛由国际科技信息中心倾力打造,围绕深圳“…

ChatGPT 生成Mysql学生表,课程表与成绩表并插入测试数据

想学习SQL语句,又不想自己创建表,也不想造数据,这个时候ChatGPT可以一键帮我们做好。 我们可以将SQL 语句复制出来。 -- 创建学生表 CREATE TABLE students (id INT(11) NOT NULL AUTO_INCREMENT,name VARCHAR(50) NOT NULL,gender ENUM(男, 女) NOT NULL,age INT(3) NOT N…

【ChatGpt变形计】| 让使用变得更加便利 | 随笔

🦁 狮子有话说 ChatGpt是一款基于人工智能技术的聊天机器人,可以通过自然语言的方式与用户进行交互。它不仅可以回答用户的问题,还可以进行智能对话,甚至可以进行情感分析,让用户感受到更真实的人性化交互。无论你是想…

动动嘴就能喝上咖啡,ChatGPT做到了

当ChatGPT接管咖啡吧后,会发生什么呢?让我们来看看吧! 众所周知,打工人不能失去咖啡。然而,不论是点外卖还是自己做,都需要耗费不少的时间。如果,只要我说一句: “我要喝咖啡&#x…

[ChatGPT]Open AI开放ChatGPT模型API,允许第三方开发人员将其集成到自己的应用和服务中

ChatGPT大事件 3月2日,Open AI在官方博客宣布,开放了ChatGPT和Whisper的模型API,用户可将其集成在应用程序等产品中。 注意, Open AI开放的是ChatGPT模型的API。也就是说,企业、个人开发者都能使用目前最强大的模型之…

用ChatGPT创建一个REST API

ChatGPT是OpenAI公司开发的大型语言模型。在本文中,主要探讨如何使用ChatGPT在C#中创建REST API。 一、简介 ChatGPT是由人工智能研究中心OpenAI创建的尖端自然语言处理模型,OpenAI公司是由埃隆马斯克、萨姆奥特曼和格雷格布罗克曼共同创办的。该模型于…

Meta没做成的事OpenAI要干?ChatGPT之父推出加密项目Worldcoin

大模型焦虑还未停歇,鬼才创始人瞄准了加密领域。 继ChatPT之后,OpenAI的首席执行官Sam Altman推出的加密货币项目Worldcoin近日被透露融资近一亿美金,彻底搅翻了科技界与Web3的平静。 据官网描述,Worldcoin由Sam和Max Novendstern…

ChatGPT助力校招----面试问题分享(六)

1 ChatGPT每日一题:对比串口、IIC、SPI通信协议 问题:对比串口、IIC、SPI通信协议 ChatGPT:串口、I2C和SPI都是数字系统中常用的通信协议。它们各自有着不同的优缺点,下面是它们的比较: 串口通信 串口通信是一种最…

ChatGPT助力码上行动:零基础学会Python编程

摘要: Python编程作为一种简洁、易学且功能强大的编程语言,正逐渐成为初学者进入编程领域的首选。然而,对于零基础的学习者来说,学习编程仍然存在一定的挑战。本文将介绍如何利用ChatGPT的强大语言生成能力,助力零基础…

ChatGPT助力DevOps的优势与局限

一、前言 DevOps 是一种方法论,旨在提高软件开发和 IT 运营团队的协作和效率。DevOps 涉及各种任务和流程的自动化,例如规划、编码、测试、部署、监控和故障排除。然而,其中一些任务和流程仍然有大量任务需要人工手动处理,而这会…

ChatGPT助力校招----面试问题分享(三)

1 ChatGPT每日一题:MOS管与三极管的区别 问题:MOS管和三极管的区别有哪些 ChatGPT:MOS管(金属氧化物半导体场效应管)和三极管(双极性晶体管)是两种不同的半导体器件,它们在工作原理、结构和性能方面存在一些重要的区别。以下是它…

ChatGPT助力校招----面试问题分享(四)

1 ChatGPT每日一题:电阻如何选型 问题:电阻如何选型 ChatGPT:电阻的选型通常需要考虑以下几个方面: 额定功率:电阻的额定功率是指电阻能够承受的最大功率。在选型时,需要根据电路中所需要的功率确定所选…

ChatGPT助力校招----面试问题分享(七)

1 ChatGPT每日一题:SPI通信协议的四种工作模式 问题:SPI通信协议的四种工作模式 ChatGPT:SPI(Serial Peripheral Interface)总线是一种同步串行通信协议,它在多种数字系统中得到了广泛应用。SPI总线有四种…