ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)

文章目录

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)
    • Image-to-Text 模型
      • Flamingo
      • VisualGPT
    • Text-to-Video 模型
      • Phenaki
      • Soundify
    • Text-to-Audio 模型
      • AudioLM
      • Jukebox
      • Whisper

ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)

AI绘画成了2022年热议的科技话题,要归功于「以文生图」这种文字转图像(Text-to-Image)或文字转3D模型(Text-to-3D)这样崭新的交互方式。2022年8月,Stable Diffusion正式开放,这无疑进一步给AI创作带来了最近的火热。

和机器学习刚开始火的时候一样,AI生成技术也并不是凭空出现的。只是近一两年以来,作品的质量和计算速度日益快速提升,让我们忽略了AI绘画同样悠久的历史。
在这里插入图片描述

1月27日,谷歌发布全新AI模型——MusicLM。通过AI模型MusicLM,文字可以直接生成高保真的音乐。继文字生成AI模型在绘画创作领域的发光发热,音乐领域又即将被Jukebox (是一种由人工智能驱动的音乐创作模型)等攻占,不难看到,生成式AI赛道正在迎来爆发。

今天我们继续学习由西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交的综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》。

论文:ChatGPT is not all you need. A State of the Art Review of large Generative AI models
机构:Quantitative Methods Department, Universidad Pontificia Comillas, Madrid, Spain
作者:Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch´an
地址:https://arxiv.org/pdf/2301.04655.pdf

大家可以回顾第一部分的内容:
传送门:ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

这第二部分,我们接着来看Image-to-Text,Text-to-Video,Text-to-Audio模型的一些细节。

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)
    • Image-to-Text 模型
      • Flamingo
      • VisualGPT
    • Text-to-Video 模型
      • Phenaki
      • Soundify
    • Text-to-Audio 模型
      • AudioLM
      • Jukebox
      • Whisper

在这里插入图片描述

Image-to-Text 模型

有时,获取描述图像的文本也很有用,相当于图像生成的逆版本。

Flamingo

Flamingo是Deepmind开发的一个视觉语言模型,在开放式的视觉语言任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

具体来说,Flamingo的输入包含视觉条件下的自回归文本生成模型,能够接收与图像或视频交错的文本token序列,并生成文本作为输出。Flamingo模型利用了两个互补的模型:一个是分析视觉场景的视觉模型,一个是执行基本推理形式的大型语言模型。语言模型是在大量文本数据上训练的。

在这里插入图片描述

仅使用少量注释示例构建可以快速适应众多任务的模型是多模态机器学习研究的一项公开挑战。然而Flamingo正是具有这种能力,且在架构上进行了创新:(i)连接强大的预训练视觉和语言模型,(ii)处理任意交错的视觉和文本数据序列,以及(iii)无缝摄取图像或视频作为输入。由于它们的灵活性,Flamingo 模型可以在包含任意交错的文本和图像的大规模多模式网络语料库上进行训练,这是赋予它们上下文小样本学习能力的关键。

用户可以向模型输入query,并附上一张照片或一段视频,模型就会用文本答案来回答。如下图10所示。

在这里插入图片描述

VisualGPT

VisualGPT 是一个由 OpenAI 开发的图像-文本模型,基于预训练语言模型GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。 OpenAI 已经对外提供了API来访问该模型。

为了更有效地将视觉信息融合到语言模型的不同层中,我们可以考虑专门设计的交叉注意力融合机制来平衡文本生成能力和视觉信息的混合。所以,VisualGPT 的一个创新点是采用自我复活的编码器-解码器注意机制,以使用少量域内图像文本数据快速适应预训练的 LM。
在这里插入图片描述

图像描述(Image Captioning)任务要求计算机用自然语言描述一张图片的视觉内容。目前的图像描述模型主要是基于Encoder-Decoder的架构,通过在大量成对的图文数据上训练,从而获得更准确更细致的图像描述。然而,大规模的人工标注的训练数据获取代价高昂,而网络上自动爬取的数据清洗后不可避免地存在一些错误,而且一些特定领域比如医学影像报告并无构建大规模数据集的条件。

VisualGPT 最大的优点是首次提出将预训练语言模型PLM适应到各领域的图像描述任务上,以缓解数据上存在的问题。通过对作为decoder的gpt进行结构修改,插入自复活激活门(SRAU),平衡PLM预先学习到的语言知识和输入的图像信息,从而更好地解决新物体的描述问题,最终生成更高质量的图像描述。

如下图11包含了模型生成的三个文本提示示例,这些文本提示与输入到模型的三个图像相关。

在这里插入图片描述

Text-to-Video 模型

在22年下半年我们看到了一些文本转视频的模型,期待更高分辨率和帧率的模型出现。

Phenaki

继 Meta 的 Make-A-Video 之后,谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。

Phenaki 由 Google Research 开发,是一个能够在给定一系列文本提示的情况下,进行逼真视频合成的模型。谷歌已经对外提供了API来访问该模型。

Phenaki 是第一个可以从开放域时间变量提示中生成视频的模型。

为了解决训练数据较少问题,谷歌还通过在大型图像-文本对语料库和数量较少的视频-文本示例上进行联合训练,从而拓展视频数据集的可用范围。主要是图像-文本数据集往往有数十亿的输入数据,而文本-视频数据集则小得多,并且对不同长度的视频进行计算也是一个难题。

Phenaki 模型包含三个部分:C-ViViT编码器、训练Transformer和视频生成器。
在这里插入图片描述

Phenaki 基于新的编解码器架构 C-ViViT 将视频压缩为离散嵌入。将输入token转换为embedding后,接着经过时序Transformer和空间Transformer,再使用一个没有激活的单一线性投影,将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频,甚至能够处理一些数据集中不存在的新概念。视频可以长达几分钟,而模型则在1.4秒的视频上训练。如下图12和图13中展示了通过一系列文本提示以及通过一系列文字提示和图像创建视频的一些示例。

在这里插入图片描述
在这里插入图片描述

Phenaki 可以将详细的文本提示转换为两分钟以上的视频,但缺点是视频质量较低。

Soundify

在视频编辑中,声音占故事的一半。熟练的视频编辑器将声音(如效果和环境)覆盖在画面上,为对象添加角色或将观众沉浸在空间中。但是,对于专业的视频编辑来说,问题来自于找到合适的声音、对齐声音、视频和调谐参数,这个过程可能非常乏味和耗时。

为了解决这个问题,Soundify 是 Runway 开发的一个将声音效果与视频相匹配的系统,目的即制作音效。Soundify 通过利用带标签的录音棚音效库和将CLIP(一种具有令人印象深刻的Zero-Shot图像分类功能的神经网络)扩展到“Zero-Shot检测器”中,能够在无需资源密集型通信学习或音频生成的情况下产生高质量的结果。

在这里插入图片描述

具体地,Soundify 包括分类(classification)、同步(synchronization)和混合(mix)三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。该分类通过将声音发射器分类在视频中来匹配效果。为了减少不同的声音发射器,Soundify 基于绝对颜色直方图距离分割视频。在同步部分,通过将效果标签与每个帧进行比较来识别间隔,并以阈值来精确定位连续匹配。在混合部分,效果被分成大约一秒钟的块,关键的是,块是通过交叉缝缝合的。

Text-to-Audio 模型

相比 Text-to-Image 有盛行的AI作画,Text-to-Audio 也有AI作曲,有广泛的 TTS(Text-to-speech)场景。TTS技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。其中,AI作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAI Jukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。

图像不是唯一重要的非结构化数据格式。对于视频、音乐和许多环境,音频可能至关重要。

AudioLM

AudioLM 由谷歌开发,可用于生成高质量的音频,并具有长距离一致性。
在这里插入图片描述

AudioLM 由三个部分组成:

  • 一个token生成模型,它将一系列声音映射到一个离散的token序列中。这一步也减少了序列的大小(采样率减少了大约 300 倍)。
  • 一个仅包含解码器的transformer,可以最大化预测序列中下一个token的可能性。该模型包含 12 层,16 个注意力头,嵌入维度为 1024,前馈层维度为 4096。
  • 一个将预测的token转换为音频token的去token模型。

AudioLM 的特别之处在于将输入音频映射成一个离散的token序列,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。 与其他模型一样,可以通过GitHub找到API。
在这里插入图片描述

通过对大量原始音频波形的训练,AudioLM 成功学会了在短提示下生成自然连贯的连续语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不需要在训练时添加符号表示。
在这里插入图片描述

由于音频信号涉及多个尺度(scale)的抽象,所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM 模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

Jukebox

Jukebox 由 OpenAI 开发的音乐创作模型,可生成带有唱词的音乐。不过目前模型仍然局限于英语。与其他模型一样,可以通过GitHub找到API。

早期自动生成音乐的一个方法是音符产生器,生成可以弹奏的乐谱,但音符生成器最大的局限便在于,它无法捕获人声以及其他音乐细节,如音色、力度和表现力。

还有另一种方法,直接将音乐建模为原始音频。但由于音频序列很长,因此在音频级别上生成音乐非常困难,以44 kHz,16位元的CD音乐为例,一首4分钟的歌曲,可能要耗费1000万小时的时常。因此要学习音乐的高阶语义,模型需要能够处理极长的相依关系。

总的来说,训练一个自动生成音乐模型,需面对的一个挑战:原始音频的空间维数非常高,需要建模的信息量很大。关键瓶颈在于,对原始音频进行建模会直接引入极远距离的依赖关系,从而使其在计算上难以理解音乐的高级语义。而 Jukebox 的特别之处是试图通过分层 VQ-VAE 架构来解决,将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。这种模式仅限于英文歌曲。具体来说,它的训练数据集来自LyricWiki的120万首歌曲,其中有60万首是英文歌。VQ-VAE 有50亿个参数,在9秒音频剪辑上训练3天。

在这里插入图片描述

为了解决歌词处理对应的问题,Jukebox 的研究者还增加了新的基于神经网络的工具:

  • Spleeter,可以从歌曲中提取人声进行语音识别;
  • NUS AutoLyricsAlign,把歌词和歌曲进行对齐;
  • 注意力机制,让解码出来的音乐,随着播放的进度,注意歌词编码的位置变化。

Jukebox 的中文就是点唱机,大概意思是点什么唱什么,只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入,它就能自动生成对应的音乐:旋律、和声,还有创作歌曲的歌词。得益于类似于 GPT-2 的基于 Transformer 的架构,点唱机可以生成多样且连贯的音乐,对同一首歌曲进行多种演绎,为用户提供多种选择。

Whisper

Whisper 是 OpenAI 开发的一种自动语音识别模型。根据 OpenAI 的介绍,该模型对口音、背景噪音和技术语言具有很好的鲁棒性。此外,它还支持 99 种不同语言的转录和从这些语言到英语的翻译。与其他模型一样,可以通过GitHub找到API。
在这里插入图片描述

首先,Whisper 最大特点是它使用的超大规模训练集:它使用从网络上收集的68万小时的多语言、多任务监督数据进行训练。这导致数据集的内容非常多元化,涵盖了许多不同环境、不同录音设备下、不同语言的音频。

其次,Whisper 体系结构是一种简单的端到端方法,具体来说就是 Transformer 的编码器-解码器格式。

在这里插入图片描述

输入音频被分成30秒的片段,再转换成 log-Mel 谱图,然后传入编码器。

解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

在这里插入图片描述

与其他模型相比,英文语音识别正是 Whisper 的核心竞争力。

参考:

https://baijiahao.baidu.com/s?id=1746191197239679569&wfr=spider&for=pc

https://roll.sohu.com/a/634763268_121207965

https://baijiahao.baidu.com/s?id=1756520241186383004&wfr=spider&for=pc

https://openai.com/blog/whisper/

欢迎各位关注我的个人公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13252.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强化学习与ChatGPT:快速让AI学会玩贪食蛇游戏!

大家好,我是千寻哥,现在自动驾驶很火热,其实自动驾驶是一个很大的概念,主要涉及的领域包括强化学习以及计算机视觉。 今天给各位讲讲强化学习的入门知识,并且手把手和大家一起做一个强化学习的Demo。 一、 浅谈强化学习入门 说到强化学习,你可能会有一些陌生,但是说到…

谷歌发布 Bard,对抗 ChatGPT

近日,谷歌宣布将推出对话 AI 服务 —— Bard,与时下流行的 ChatGPT 进行直接竞争。 《2022-2023 中国开发者大调查》重磅启动,欢迎扫描下方二维码,参与问卷调研,更有 iPad 等精美大礼等你拿!

我用半个小时做了一个Android ChatGPT虚拟女友

拥有一个听自己话的女友,是每个程序员的梦想。在我和她的世界里,她永远都是那么可爱乖巧,不会嫌弃我们这些码农,在累的时候,她会安慰我们,在不开心的时候,她会给我们讲故事,永远忠诚…

朗涛任命Juanita Zhang为中国大陆区总经理,Peggy Hon为中国香港区总经理

在迅速发展的消费环境中,带领才华横溢的多元创意团队,持续推动业务发展 (中国上海,2022年9月27日)近日,全球顶尖的品牌设计与咨询公司朗涛宣布重要人事任命,分别任命Juanita Zhang为中国大陆区总…

chatgpt研究框架 --技术路线-行业进程研究

ChatGPT市场反应热烈,国内外巨头纷纷入场 据统计,ChatGPT日活跃用户数的增速远超Instagram,1月份平均每天有超过1300万名独立访问者使用ChatGPT,是去年12月份的两倍多;国内外科技巨头都非常重视ChatGPT引发的科技浪潮…

[转] 公务员80分申论万能模板(转给需要的人)

在公务员考试中,一般情况下,考生行政职业能力测验的分数差距一般不会大,但申论就不同了,两个人相差十几分甚至几十分是很正常的事,所以能否写好申论,是公务员考试的关键,下面搜集网上一些有关申…

使用 ChatGPT 构建金融系统流程图

ChatGPT 的受欢迎程度不断增长,现在被广泛用于各种应用程序。作为一名全栈工程师,出于对技术的追求,使用 ChatGPT 来探索一些可能的使用场合,之前介绍过使用 ChatGPT 协助编码 。本文就来探索 ChatGPT 设计一个金融系统并画出 Mer…

chatgpt赋能python:如何利用Python创建图表

如何利用Python创建图表 在数据分析和可视化方面,Python是一个非常强大的工具。它拥有许多流行的库和工具,使得数据可视化变得简单且快捷。其中之一是Matplotlib - 一个基于Python的可视化库。在本文中,我们将探讨如何使用Matplotlib库创建图…

我也想再上个学

关注我的同学应该知道,我不止在一次告诉大家读书是可以让大家能有更多的机会的,有时候自己也想什么时候再深造一下,等楠哥不那么需要我了,我也不用那么努力赚钱了,再去读读书,在学校里面打打篮球&#xff0…

还在死守TCP吗,来看看即将成为HTTP3.0标准协议的QUIC

文章目录 背景为什么需要QUIC为什么QUIC能撼动TCP的霸主地位QUIC 缺点展望未来参考 背景 一段时间以来被称为 HTTP-over-QUIC 的协议现在已经改变了名称,将正式成为 HTTP/3。这是由马克•诺丁汉(Mark Nottingham)最初的建议引发的 具体博客地址 为什么需要QUIC …

近期EI收录的国际会议汇总(AI/CV/深度学习等领域)

鉴于一些小伙伴正在为找不到投稿渠道而苦恼 本期小编为大家推荐三则国际会议信息 了解领域前沿,分享研究成果 启发科研思路,尽在学术会议 近期EI收录的国际会议汇总,相信总有一个适合你! 01 第二届图像、视觉与智能系统国际学术会…

一代「博雅」大师离世!缅怀复旦大学原校长、中国科学院院士杨福家教授

作者丨Joey 好困 来源丨新智元 【导读】2022年7月17日,著名核物理学家、复旦大学原校长、中科院院士杨福家在上海因病逝世,享年86岁。 据复旦大学消息,著名核物理学家、复旦大学原校长、中国科学院院士杨福家教授于7月17日在上海因病离世&…

诺丁汉为满足当地需求新建一个数据中心

日前,在英国诺丁汉新建的一个数据中心开通运营,该数据中心可以部署约2500台服务器。 据诺丁汉邮报报道,SpaceDataCenters公司表示在诺丁汉的贝斯福德投资建设了一个数据中心,这是因为当地缺乏高质量的数据中心,因此&am…

深度学习求解魔方新方法!诺丁汉大学研究团队提出适应度函数

作者 | 凌霄 责编 | 寇雪芹 头图 | 下载于视觉中国 人工智能和人类之间的“竞赛”一直都是热门的研究话题,AlphaGo 战胜了人类围棋玩家,AlphaZero 在围棋比赛中击败了AlphaGo 及其更高版本,并在国际象棋比赛中击败了顶级象棋引擎之一 Stockfi…

013英超:托特纳姆热刺 VS 诺丁汉森林icon胜平负:主胜

013英超:托特纳姆热刺 VS 诺丁汉森林icon 胜平负:主胜 分析:作为英超豪门之一的热刺相较于上个赛季,在本赛季发挥依旧很平稳,目前球队以14胜3平9负积45分排在联赛第4位,刚刚卡在下赛季欧冠icon资格区,多赛一…

导致计算机科学硕士和计算机科学理学硕士,诺丁汉大学计算机科学理学硕士研究生offer一枚...

原标题:诺丁汉大学计算机科学理学硕士研究生offer一枚 指南者留学学员背景 学生姓名:Q同学 本科学校:中国计量大学 本科专业:电子科学与技术 录取学校:诺丁汉大学 录取专业:计算机科学理学硕士 背景资料 大…

宁波市教育学院计算机系主任,欢迎宁波诺丁汉大学计算机系主任白瑞斌教授一行到访南科大...

2021年1月10日至11日,受南方科技大学计算机科学与工程系刘江教授邀请,宁波诺丁汉大学(UNNC)计算机科学系主任白瑞斌教授率崔天翔、任剑锋、李家炜、卢正四位助理教授,专程赴深圳到访南方科技大学计算机科学与工程系,双方学校的老师…

ChatGPT,拯救半导体?

关注、星标公众号,精彩内容每日送达 来源:内容由半导体行业观察(ID:icbank)编译自kedglobal,谢谢。 2023年6月22日,OMDIA高级咨询总监Akira Minamikawa先生在该公司主办的半导体市场趋势研讨会活…

上海亚商投顾:沪指午后放量跳水两市上涨个股不足500只

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 指数早间震荡走高,沪指盘中收复3300点,午后集体跳水,创业板指一度跌超2%。Chat…

AI帮我写代码,上班摸鱼不是梦(调教过程全记录)

最近发现磁盘空间严重不足,都弹窗提示我了: 想想看到底哪个文件夹占的空间比较大,好做针对性的删除和清理。奈何Windows系统没有查看文件夹大小的工具,只能鼠标放在某个文件夹上,等提示: AI时代都来临了&am…