超越CLIP!谷歌发布首个大规模MoE架构的视觉语言模型

a180431cdcf8ec0ce761665772e78994.png

文 | 明敏(发自凹非寺)
源 | 量子位

多模态模型常见,但是基于稀疏化的还是头一个。谷歌带来最新成果LIMoE,首次将稀疏化方法用在了图像文本混合模型上。要知道,随着大模型参数呈指数级增加,训练成本也是一路飙升。

所以如何降低训练成本,成为了目前学界重点关注的一个问题。

谷歌想到的办法,不是拼硬件,而是从模型本身入手。利用稀疏化的方法,让每次输入只需激活部分网络就能完成任务。

它们在模型内部设置了很多“专家”,每个“专家”只需处理对应部分的输入,根据任务情况按需使用“专家”就好。这样一来,尽管模型容量很大,但是计算成本并没有暴增70eab6c45495c7b1822d1cc44796b3f1.gif而且还不会降低性能。新方法LIMoE零样本学习任务中,可是直接超越了CLIP。怪不得网友高呼:

快分享给我们API!

7b31d77b28f9da795d5bafad6c1e25dc.png

让不同“专家”处理不同任务

对于深度学习来说,能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法,往往是单个输入就需要激活整个网络。谷歌这次提出的新方法,最大亮点就是首次在这一领域采用了稀疏化模型

稀疏化的方法便是无需让整个模型来处理所有的输入。通过对神经网络进行划分,它让神经网络也“专业对口”,不同的子模型只处理固定类型的任务或数据。

但也不是完全割裂开来,模型内部仍有可共享的部分。此次基于的模型是MoE(Mixture-of-Experts layer),它被称为专家混合模型。也就是在Transformer架构的基础上,加设了“专家层”。

它是一个并行的FNN,取代了原本的前馈网络。这里的“专家”,也就是模型内部的不同子模型。每个子模型专门用于不同的输入。

每一层中的专家由门控网络控制,该网络根据输入数据激活专家。对于每个标记,门控网络选择最合适的专家来处理数据。ad2f3256545b9746e1b3d66d8b610133.png

此次新提出的LIMoE,其实就是让MoE能同时处理图像文本。具体来看,就是让LIMoE进行对比学习。

在利用大量图像-文本对训练时,网络内部的图像模型提取图像表示,文本模型提取文本表示。针对相同的图像-文本对,模型会拉近图像和文本表示的距离。

反之,对于不同的图像-文本对,则会让相应的表示彼此远离。这样一来的直接好处,就是能实现零样本学习。比如一张图像的表示更接近文本“狗”的表示,那么它就会被归类为狗。这种思路可以扩展到数千种情况。

实际上,CLIP和ALIGAN采用的都是这个思路,它们在ImageNet数据集上的精度分别是76.2%、76.4%。而LIMoE-L/16可以达到78.6% ,已经超过了CLIP。未经过预训练的LIMoE H/14则能达到84.1%的精度。

c4e4275579686df848b8cf5357fd9ced.png

d83e1143788de78a20577192327d96ec.png而在LIMoE的专家层中,谷歌表示还发现了一些有趣的现象。比如在训练设置中,图像标记比文本标记要多很多,因此所有专家都会在在任务中多少处理些图像。

只不过有的会主要处理图像,有的主要处理文本,或者二者兼具。还有在大多数情况下,都会有一个专家来处理所有包含文本表示的图像patch。

1e9c5f57e8dcb557bb2bf19edefa5bef.png除了性能上的提升,使用稀疏化模型的好处还体现在降低计算成本上。因为“多专家”的模式意味着,尽管多设了很多子模型,模型容量显著增加,但是实际计算成本并没有明显变化。

如果一次任务中只使用了一个子模型,那它的成本和标准Transformer的差不多。比如LIMoE-H/14总共有5.6B参数,但是通过稀疏化,它只会使用每个token的675M参数。

One More Thing

稀疏化模型一直是谷歌深度研究的一个方向,已经提出了MoE、GLaM在内的多个模型。这次LIMoE也不是谷歌第一次魔改MoE。

去年6月,他们提出了V-MoE,是一种新型的视觉架构,今年已将全部代码开源。

参考链接:
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html

8ba265b69b9b0866e55091b4d867c638.png后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

40721b487e0aa5a5b53ede55b66b91f5.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15165.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测,多模态

本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文。 论文标题:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection; 关键词:社交媒体&am…

混合专家系统(MoE)

混合专家系统(Mixture of Experts) 原理: 混合专家系统(MoE)是一种神经网络,也属于一种combine的模型。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型&…

重磅来袭:复旦团队发布国内首个类 ChatGPT 模型 MOSS,邀公众参与内测!

前言 ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。今天,从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(htt…

聚观早报 | 科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告

今日要闻:科大讯飞称10月整体赶超ChatGPT;苹果遭欧盟警告;科研人员研发纳米粒子治疗癌症;中小学教材不得夹带商业广告;Z-Library又被美国FBI查封了 科大讯飞称10月整体赶超ChatGPT 5 月 6 日,科大讯飞董事…

不得不说,关于分子对接,MOE有点牛!

来源公众号:计算机辅助药物设计 CADD MOE软件的虚拟仿真实验 多奈哌齐与乙酰胆碱酯酶的分子对接 本文基于MOE软件设计了多奈哌齐与乙酰胆碱酯酶的分子对接虚拟仿真实验。 通过分子结构预处理、分子对接以及数据分析等内容&#…

打脸质疑者!Mobileye市值冲高,公司CEO说出心声

三个多月前, Mobileye以21美元发行价第二次在美股IPO上市。截止上周五,该公司股价升至32.98美元,市值达到264.47亿美元。相比于美股其他自动驾驶公司股价跌跌不休,显然,资本市场更看重企业的盈利能力和可预见的营收规模…

科技公司 CEO 合谋“诈骗”自家公司超 900 万美元,现已被捕

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 虽然一直都知道许多 CEO 实际上并不能随意设定自己的薪酬,但还真没见过 CEO 为了赚钱“诈骗”自家公司的! 本周三,美国纽约南区地方法院和联邦调查局宣布已逮捕并起…

【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测,多模态融合

本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文。 论文标题:Multimodal Fusion with Co-Attention Networks for Fake News Detection; 作者:Yang Wu, Pengwei Zhan, Yunjian…

多维考察ChatGPT

2022年11月30日,OpenAI正式发布了一款聊天机器人ChatGPT,它不仅会聊天,还会编写代码、撰写文案、代写论文、即时翻译……一时让人分不清这是“作业神器”,还是“竞业凶器”。不管你爱它还是恨它,都不能无视它。在商业上…

「国际科技信息中心SCITIC论坛」从ChatGPT、流浪地球、虚拟数字人、AIGC探索数字化创意,展望人类与AI的共创...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年2月24日,由国际科技信息中心主办,AI TIME承办的SCITIC论坛——数字化创意探索,从流浪地球说起完美收官。SCITIC论坛由国际科技信息中心倾力打造,围绕深圳“…

ChatGPT 生成Mysql学生表,课程表与成绩表并插入测试数据

想学习SQL语句,又不想自己创建表,也不想造数据,这个时候ChatGPT可以一键帮我们做好。 我们可以将SQL 语句复制出来。 -- 创建学生表 CREATE TABLE students (id INT(11) NOT NULL AUTO_INCREMENT,name VARCHAR(50) NOT NULL,gender ENUM(男, 女) NOT NULL,age INT(3) NOT N…

【ChatGpt变形计】| 让使用变得更加便利 | 随笔

🦁 狮子有话说 ChatGpt是一款基于人工智能技术的聊天机器人,可以通过自然语言的方式与用户进行交互。它不仅可以回答用户的问题,还可以进行智能对话,甚至可以进行情感分析,让用户感受到更真实的人性化交互。无论你是想…

动动嘴就能喝上咖啡,ChatGPT做到了

当ChatGPT接管咖啡吧后,会发生什么呢?让我们来看看吧! 众所周知,打工人不能失去咖啡。然而,不论是点外卖还是自己做,都需要耗费不少的时间。如果,只要我说一句: “我要喝咖啡&#x…

[ChatGPT]Open AI开放ChatGPT模型API,允许第三方开发人员将其集成到自己的应用和服务中

ChatGPT大事件 3月2日,Open AI在官方博客宣布,开放了ChatGPT和Whisper的模型API,用户可将其集成在应用程序等产品中。 注意, Open AI开放的是ChatGPT模型的API。也就是说,企业、个人开发者都能使用目前最强大的模型之…

用ChatGPT创建一个REST API

ChatGPT是OpenAI公司开发的大型语言模型。在本文中,主要探讨如何使用ChatGPT在C#中创建REST API。 一、简介 ChatGPT是由人工智能研究中心OpenAI创建的尖端自然语言处理模型,OpenAI公司是由埃隆马斯克、萨姆奥特曼和格雷格布罗克曼共同创办的。该模型于…

Meta没做成的事OpenAI要干?ChatGPT之父推出加密项目Worldcoin

大模型焦虑还未停歇,鬼才创始人瞄准了加密领域。 继ChatPT之后,OpenAI的首席执行官Sam Altman推出的加密货币项目Worldcoin近日被透露融资近一亿美金,彻底搅翻了科技界与Web3的平静。 据官网描述,Worldcoin由Sam和Max Novendstern…

ChatGPT助力校招----面试问题分享(六)

1 ChatGPT每日一题:对比串口、IIC、SPI通信协议 问题:对比串口、IIC、SPI通信协议 ChatGPT:串口、I2C和SPI都是数字系统中常用的通信协议。它们各自有着不同的优缺点,下面是它们的比较: 串口通信 串口通信是一种最…

ChatGPT助力码上行动:零基础学会Python编程

摘要: Python编程作为一种简洁、易学且功能强大的编程语言,正逐渐成为初学者进入编程领域的首选。然而,对于零基础的学习者来说,学习编程仍然存在一定的挑战。本文将介绍如何利用ChatGPT的强大语言生成能力,助力零基础…

ChatGPT助力DevOps的优势与局限

一、前言 DevOps 是一种方法论,旨在提高软件开发和 IT 运营团队的协作和效率。DevOps 涉及各种任务和流程的自动化,例如规划、编码、测试、部署、监控和故障排除。然而,其中一些任务和流程仍然有大量任务需要人工手动处理,而这会…

ChatGPT助力校招----面试问题分享(三)

1 ChatGPT每日一题:MOS管与三极管的区别 问题:MOS管和三极管的区别有哪些 ChatGPT:MOS管(金属氧化物半导体场效应管)和三极管(双极性晶体管)是两种不同的半导体器件,它们在工作原理、结构和性能方面存在一些重要的区别。以下是它…