在 GitHub 上“搞事”,Meta 开源 ImageBind 新模型,超越 GPT-4,对齐文本、音频等 6 种模态!...

4cf5dc4c3533c276ed8b19dc3cfa4868.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

据外媒报道,上周四,Google、微软、OpenAI 几家公司的 CEO 受邀去白宫,共论关于人工智能发展的一些重要问题。然而,让人有些想不通的是,深耕 AI 多年的 Meta 公司(前身为 Facebook)却没有在受邀之列。

没多久,更让 Meta CEO 扎克伯格扎心的是,一位官员对此解释称,本次会议“侧重的是目前在 AI 领域,尤其是面向消费者的产品方面,处于领先地位的公司。”

显然对于这样的解释,并不能让人信服,毕竟这一次受邀名单中还有一家由 OpenAI 的前成员创立的美国人工智能初创和公益公司 Anthropic。

似乎是为了出一口“气”,也为证明自家的实力,相比 OpenAI、Google 推出闭源的 GPT-4、Bard 模型,Meta 在开源大模型的路上一骑绝尘,继两个月前开源 LLaMA 大模型之后,再次于 5 月 9 日开源了一个新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天时间,收获了 1.6k 个 Star。

这个模型与众不同之处便是可以将多个数据流连接在一起,包括文本、图像/视频和音频、视觉、IMU、热数据和深度(Depth)数据。这也是业界第一个能够整合六种类型数据的模型。

bdfd11972ba786c147b6f71b9ed4be4f.gif

c40c7f4b5fd4e9bca0644b360af7304b.png

ImageBind 用图像对齐六模态,旨在实现感官大一统

简单来看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样将文字与图像配对的图像生成器,ImageBind 更像是广撒网,可以连接文本、图像/视频、音频、3D 测量(深度)、温度数据(热)和运动数据(来自 IMU),而且它无需先针对每一种可能性进行训练,直接预测数据之间的联系,类似于人类感知或者想象环境的方式。

dfc84a8de9ac033cfda5f3e185337cd7.png

对此,Meta 在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能使机器更好地一起分析许多不同形式的信息,从而有助于推进人工智能。”

打个比喻,人类可以听或者阅读一些关于描述某个动物的文本,然后在现实生活中看到就能认识。

你站在繁忙的城市街道等有刺激性环境中,你的大脑会(很大程度上应该是无意识地)吸收景象、声音和其他感官体验,以此推断有关来往的汽车、行人、高楼、天气等信息。

在很多场景中,一个单一的联合嵌入空间包含许多不同种类的数据,如声音、图像、视频等等。

如今,基于 ImageBind 这样的模型可以让机器学习更接近人类学习。

在官方博客中,Meta 分享  ImageBind 是通过图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,即图像与各种模式共存,可以作为连接这些模式的桥梁,例如利用网络数据将文本与图像连接起来,或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。

521a36cbcf4a74e7ef51ff963ef95d4e.png

ImageBind 整体概览

从大规模网络数据中学到的视觉表征可以作为目标来学习不同模态的特征。这使得 ImageBind 能够对齐与图像共同出现的任何模式,自然地将这些模式相互对齐。与图像有强烈关联的模态,如热学和深度,更容易对齐。非视觉的模态,如音频和 IMU,具有较弱的关联性。

ImageBind 显示,图像配对数据足以将这六种模式绑定在一起。该模型可以更全面地解释内容,使不同的模式可以相互 "对话",并在不观察它们的情况下找到联系。

例如,ImageBind 可以在没有看到它们在一起的情况下将音频和文本联系起来。这使得其他模型能够 "理解 "新的模式,而不需要任何资源密集型的训练。

f7426f4c454e42f7c222c241e5ea09c7.png

不过,该模型目前只是一个研究项目,没有直接的消费者和实际应用,但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式,也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式,趟出一条属于开源大模型的路。

baf63c16616caad137a5f73a10053678.png

ImageBind 强大的背后

与此同时,作为一种多模态的模型,ImageBind 还加入了 Meta 近期开源的一系列 AI 工具,包括 DINOv2 计算机视觉模型,这是一种不需要微调训练高性能计算机视觉模型的新方法;以及 Segment Anything(SAM),这是一种通用分割模型,可以根据任何用户的提示,对任何图像中的任何物体进行分割。

ImageBind 是对这些模型的补充,因为它专注于多模态表示学习。它试图为多种模式学习提供一个统一的特征空间,包括但不限于图像和视频。在未来, ImageBind 可以利用 DINOv2 的强大视觉特征来进一步提高其能力。

ead2f98f083e4490e990e45545cfe3ba.png

ImageBind 的性能

针对 ImageBind 性能,Meta 研究科学家还发布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)论文,分享了技术细则。

17576ec9b930851e0b63fd53cc0e19c3.png

通过分析表明,ImageBind 模型的性能实际上可以通过使用很少的训练实例来提高。这个模型有新的出现的能力,或者说是扩展行为--也就是说,在较小的模型中不存在的能力,但在较大的版本中出现。这可能包括识别哪种音频适合某张图片或从照片中预测场景的深度。

而 ImageBind 的缩放行为随着图像编码器的强度而提高。

换句话说,ImageBind 对准各种模式的能力随着视觉模型的强度和大小而增加。这表明,较大的视觉模型有利于非视觉任务,如音频分类,而且训练这种模型的好处超出了计算机视觉任务。

在实验中,研究人员使用了 ImageBind 的音频和深度编码器,并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。

结果显示,ImageBind 可以用于少量样本的音频和深度分类任务,并且优于之前定制的方法。

36e7deb7b4a7bef363252234e228c185.png

最终,Meta 认为 ImageBind 这项技术最终会超越目前的六种“感官”,其在博客上说道,“虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。” 

175a575c797c0130e26ae5489e456170.png

ImageBind 可以用来干什么?

如果说 ChatGPT 可以充当搜索引擎、问答社区,Midjourney 可以被用来当画画工具,那么用 ImageBind 可以做什么?

根据官方发布的 Demo 显示,它可以直接用图片生成音频:

e48d4bbfa4c8600f6dd5a3e0bb82e3a0.png

也可以音频生成图片:

fe47d5f8f1b79432fd1f371b803e4e7f.png

亦或者直接给一个文本,就可以检索相关的图片或者音频内容:

c8739c93c866ce269d71d38f4afbc40c.png

当然,基于 ImageBind 也可以给出一个音频+一张图,如“狗叫声”+海景图:

5b6ee87c0e5d6d4a247e74e75e57b3d2.png

可以直接得到一张“狗在看海”的图:

d510b5858e8161cf960caec67426e5ed.png

也可以给出音频,生成相应的图像:

8b4d7dddd7bdce6f41091cba1f963284.png

正如上文所述, ImageBind 给出了未来生成式 AI 系统可以以多模态呈现的方式,同时,结合 Meta 内部的虚拟现实、混合现实和元宇宙等技术和场景结合。

可以想象一下未来的头显设备,它不仅可以生成音频和视频输入,也可以生成物理舞台上的环境和运动,即可以动态构建 3D 场景(包括声音、运动等)。

亦或者,虚拟游戏开发人员也许最终可以使用它来减少设计过程中的大量跑腿工作。

同样,内容创作者可以仅基于文本、图像或音频输入制作具有逼真的音频和动作的沉浸式视频。

也很容易想象,用 ImageBind 这样的工具会在无障碍空间打开新的大门,譬如,生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。

“在典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量),”Meta 说。“ImageBind 表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。这很重要,因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据,或深度数据和海边文本描述的样本的数据集。”

当前,外界可以通过大约 30 行 Python 代码就能使用这个多模式嵌入 API:

c751d77ff4e5cc73a10c5dd8cf9d5771.jpeg

5bb7d87219ee6e704d3f0fac95dc7329.png

开源大模型是好事还是坏事?

ImageBind 一经官宣,也吸引了很多 AI 专家的关注。如卷积网络之父 Yann LeCun 也在第一时间分享了关于 ImageBind 的资料:

fde8128983e443f4589a23fadda8b6f7.png

NVIDIA AI 科学家 Jim Fan 在 Twitter 上表示:

自从 LLaMA 以来,Meta 就在开源领域大放异彩。

ImageBind:Meta 最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和 IMU 信号!

OpenAI Embedding 是 AI 驱动搜索和长期记忆的基础。ImageBind 是 Meta 的 Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。

通过对齐 6 种模态,你可以实现一些仅靠文本的 GPT-4 无法实现的花式功能:

  • 跨模态检索:将其视为多媒体谷歌搜索

  • 嵌入空间算术:无缝地组合不同的数据格式。

  • 生成:通过扩散将任何模态映射到其他任何模态。

当然,这种通用的多模态嵌入在性能上优于领域特定的特征。

ImageBind:将它们全部绑定到一个嵌入空间。

241fa7ddfcf98948ee0f57a5b6225da1.png

也有网友评价道,「这项创新为增强搜索、沉浸式 VR 体验和高级机器人技术铺平了道路。对于 AI 爱好者和专业人士来说,激动人心的时刻即将到来!」。

449e112703955d17e67c1e2d58d37f4b.png

不过,对于 Meta 采取开源的做法,也有人提出了质疑。

据 The Verge 报道,那些反对开源的人,如 OpenAI,表示这种做法对创作者有害,因为竞争对手可以复制他们的作品,并且可能具有潜在的危险,允许恶意行为者利用最先进的人工智能模型。

与之形成对比的是,支持开源的人则认为,像 Meta 开源 ImageBind 的做法有利于生态的快速建立与发展,也能集结全球的力量,帮助 AI 模型快速迭代和捕捉 Bug。

早些时候,Meta 开源的 LLaMA 模型只能用于研究用途,但是期间 LLaMA 模型在 4chan 上被泄露,有匿名用户通过 BT 种子公开了 LLaMA-65B—— 有 650 亿个参数的 LLaMA,容量为 220GB。

随着 LLaMA “被公开”,一大批基于这款大模型的衍生品,号称是 ChatGPT 开源替代品的工具在短时间内快速涌现,如跟着  LLaMA(美洲驼)名字走的“驼类”家族包含了:斯坦福大学发布的 Alpaca(羊驼,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡内基梅隆大学等高校研究人员开源的 Vicuna(骆马),还有基于 LLaMA 7B 的多语言指令跟随语言模型 Guanaco(原驼,https://guanaco-model.github.io/)等等。

面对这股新兴的力量,近日,在一位谷歌内部的研究人员泄露的一份文件中显示,在大模型时代,「Google 没有护城河,OpenAI 也没有」。其主要原因就是第三股——开源大模型的力量与生态正在崛起。

所以,OpenAI 和 Google 两家在 AI 大模型上你追我赶的竞争中,谁能笑到最后,也未必就不会是 Meta,我们也将拭目以待。对此,你是否看好开源大模型的发展?

相关阅读

论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址:https://github.com/facebookresearch/ImageBind

Demo:https://imagebind.metademolab.com/

参考

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research

推荐阅读:

▶ChatGPT 之父推出加密货币钱包;Intel 被曝预算砍掉 10%、裁员 20%;Firefox 113 发布|极客头条

▶“请不要在 GitHub 上传我的代码!”

▶AI 读心术来了,准确率高达 82%?论文已刊登在 Nature!

2c05eb49631c535ccd9649bc893ef1c0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55228.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ChatGPT聊天的零样本信息提取7.25

基于ChatGPT聊天的零样本信息提取 摘要介绍ChatIE用于零样本IE的多轮 QA 实验总结 摘要 零样本信息提取(IE)旨在从未注释的文本中构建IE系统。由于很少涉及人类干预,因此具有挑战性。 零样本IE减少了数据标记所需的时间和工作量。最近对大型…

Android开发权威指南(第2版)电子书pdf下载

Android开发权威指南(第2版)下载链接: https://pan.baidu.com/s/1pftvlZCCq-OzI9o_BAOBjA 提取码获取方式:关注下面微信公众号,回复关键字: 1125

[前言] 实现一个Android电子书阅读APP

大家好,我是小方,我将在接下来的几篇文章中从零实现一个网络小说阅读器,从安卓编程最基础的部分讲起,直至成功完成我们的应用,从新建一个项目开始,不断添加新的代码,添加新的界面,循…

安卓手机上最好的3个azw3阅读器

azw3是亚马逊推出的一种电子书格式,它填补了Mobi对于复杂排版的缺陷,以及原来mobi或azw内容排版上的一些缺陷。目前从Amazon购买的书,大部分已经是azw3格式了,而以前主流的mobi格式则越来越少,它正逐渐取代mobi成为Kin…

安卓手机上最好用的3个azw3阅读器

azw/azw3是亚马逊推出的一种电子书格式,它填补了Mobi对于复杂排版的缺陷,以及原来mobi或azw内容排版上的一些缺陷。目前从Amazon购买的书,大部分已经是azw3格式了,而以前主流的mobi格式则越来越少,它正逐渐取代mobi成为…

安卓电子书格式_6 款值得收藏的电子书阅读软件推荐

前言 通勤路上或者闲暇时分,除了上网刷微博,相信也有很多朋友会看看资料或小说充充电消遣消遣时间。 下面推荐几款优秀的电子书阅读软件给大家,基本可以覆盖大多数平台和常见电子书格式。 电子书阅读软件推荐 # Icecream Ebook Reader 官网&a…

Android开发之pdf

Android手机里面读取显示pdf文件,如果只是简单的开发只需要参考官方提供的simple PdfRendererBasic demo即可。如果你还想支持手势、动画和缩放等高级功能,那么需要用到开源库,网上不错开源的库倒是有几个,稍后再来对比抉择,先来了…

基于Android的本地电子书阅读器的设计与实现Ebook(3)

之前写这个只是抱着半玩的心态,没有想到有这么多网友愿意驻足浏览,十分的惊喜。这里浅浅说一下我并不是专门学软件开发的,所以如果有什么错误请多指教。 接上回分解。现在我们来到第二个界面“感悟”: fragment_login2.xml&#x…

电子书《Head First Android 开发》百度网盘链接

电子书《Head First Android 开发》,很不错的一本学习安卓的书,需要的可以使用百度网盘 链接:https://pan.baidu.com/s/1bYR0fKK2c0qU-T45Hg6nDQ 提取码:c6pn 目录:

基于Android的本地电子书阅读器的设计与实现Ebook(终章)

昨天写到最后实在是卡的受不了了&#xff0c;今天把这个写完。 最后就是补充几个xml&#xff0c;不知道前面有没有放&#xff0c;在这里补充下。 应该有五个是遗漏的&#xff1a; 我在这里按照顺序依次给出代码&#xff0c;就不标名字了 <?xml version"1.0" enc…

安卓电子书格式_不用电脑,6招教你把手机上的电子书传输到Kindle上

点击 上方蓝字 查看你有多少朋友在悄悄关注 本文共 15 68 字 预计阅读时间: 2 分钟 相信每位Kindler都会有这样的生活场景——出门在外,不易携带电脑,手头上只能带轻量级的设备,比如带一部可以上网的手机,一台Kindle。 在这种场景下,如果Kindle上没有想看的书,而手机上却…

基于安卓的电子书阅读器

功能描述&#xff1a; 1&#xff1a;用户在使用软件前需要先对软件进行注册&#xff0c;注册完成后通过账号和密码登录成功后&#xff0c;才可以对软件进行使用 2&#xff1a;用户登录成功后可以查看最新书籍信息&#xff0c;以及数据的分类&#xff0c;排行等信息&#xff0c;…

epub文件是什么文件?如何用安卓手机打开?

大家在查找资料时&#xff0c;越来越多的遇见epub格式了。其实EPUB是一种电子文档格式&#xff0c; 如同word txt pdf一样可以承载很多文字信息。但在这种格式中&#xff0c;使用了不同的开放标准。区别在于&#xff0c;EPub文件属于一种可以“自动重新编排”的文件&#xff1b…

安卓手机电子书阅读器的使用体验及对比

写在前面 由于一些原因, 我一直使用安卓手机, 在安卓上查看PDF, 我经历了几个不同的阶段, 但是体验多多少少会有一些不好, 直到最近, 我才在一篇博客中找到了一款软件, 名为readera, 可以说完美解决了之前各种软件中的一些缺点与不足了. 下面从我的各个阶段使用 的PDF阅读器开…

安卓手机上最好的3个mobi阅读器

如epub、azw3一样&#xff0c;mobi也是一种常见的电子书格式&#xff0c;它可以用亚马逊电子设备打开阅读&#xff0c;但是在手机上应该怎么打开呢&#xff1f;其实通过一些支持mobi格式的阅读器就可以打开。今天小编就为大家推荐3个在安卓手机上可用的mobi阅读器。 第一款&am…

下载了免费的txt电子书,如何用安卓手机打开?

小编在通勤的时候&#xff0c;经常会看到身边的人在拿着手机看小说&#xff0c;看来喜欢使用手机阅读的人真的越来越多了。今天小编就为大家推荐几款良心的安卓手机TXT阅读器&#xff0c;使用这些阅读器&#xff0c;读TXT电子书的体验更好哦&#xff01;一起来看看吧&#xff0…

mobi怎么在Android手机上打开?

mobi格式之所以流行主要是源于亚马逊官网的电子书格式以及Kindle&#xff0c;mobi格式的文件无法直接用阅读器打开&#xff0c;而我们在日常生活中经常用手机打开文件阅读。今天小编就向大家分享mobi怎么在Android手机上打开&#xff1f; mobi文件转码为epub文件 首先&#xf…

epub电子书如何用安卓手机打开?

现在网络上有很多epub格式的小说资源&#xff0c;但很多手机由于自身不能直接打开epub格式文件&#xff0c;或者阅读软件使用感较差&#xff0c;会我们的阅读带来不小的困扰。今天我就为大家介绍3款可以在安卓手机上打开epub的小说阅读器。 第一款&#xff1a;Neat Reader 这…

azw3电子书如何用安卓手机打开?

现在网络上有很多azw3格式的小说资源&#xff0c;但这个格式是适配亚马逊kindle的&#xff0c;很多手机由于自身不能直接打开azw3格式文件&#xff0c;会我们的阅读带来不小的困扰。今天我就为大家介绍3款可以在安卓手机上打开azw3的小说阅读器。 第一款&#xff1a;Neat Read…

txt电子书如何用安卓手机完美打开?

在手机上看小说&#xff0c;好的阅读器可以使阅读体验锦上添花。下面为大家推荐几款安卓手机上的txt阅读器&#xff0c;供大家尝试。 第一款&#xff1a;Neat Reader 这款阅读器界面设计相当整洁&#xff0c;色调以淡蓝色和白色为主&#xff0c;整体阅读视觉感舒适&#xff0c…