ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

文章目录

  • ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)
    • Text-to-Image 模型
      • DALL-E 2
      • IMAGEN
      • Stable Diffusion
      • Muse
    • Text-to-3D 模型
      • Dreamfusion
      • Magic3D

ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)

近两个月我们都被 ChatGPT 刷屏,说它的发展速度犹如坐火箭也毫不夸张。凭借其出色的性能,自从 Stable Diffusion 开源和 ChatGPT 开放接口后,业界对生成式模型更加热情了。然而,生成式SOTA模型发布速度之快,种类之多,我们很难做到不错过每一个模型。

上月,来自西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交了一篇综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》,将生成式模型按照任务模态、领域分成9大类,并总结了2022年发布的21个生成式模型的能力和局限性。这些局限性包括缺少特定任务下的大型数据集,以及需要高昂的计算资源等。
title

论文:ChatGPT is not all you need. A State of the Art Review of large Generative AI models
机构:Quantitative Methods Department, Universidad Pontificia Comillas, Madrid, Spain
作者:Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch´an
地址:https://arxiv.org/pdf/2301.04655.pdf

首先,模型可以按照输入和输出的数据类型分成9个大类,如下图 1 所示。
在这里插入图片描述

文章主要关注点是描述生成式 AI 模型的最新进展,为让读者能有整体认识,在图 2 中给出了所有已发布的模型。
在这里插入图片描述

另外,在这些已发布大模型的背后,只有如下图 3 所示的6个公司(OpenAl,Google,DeepMind,Meta,runway,Nvidia),在收购的初创公司和与学术界合作的帮助下,成功地部署了这些最先进的生成式AI模型。这一事实背后的主要原因是,为了能够估计这些模型的参数,必须拥有强大的计算能力以及在数据科学和数据工程方面技术精湛、经验丰富的团队。

在这里插入图片描述

在参与创业的主要公司层面,微软向OpenAI投资了100亿美元,并帮助他们开发模型。此外,谷歌在2014年收购了Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学 (KAUST)、卡耐基梅隆大学和南洋理工大学开发的;Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

在公司和大学合作层面,如Stable Diffusion由Runway, Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作。

文章从第三章开始详细介绍了图 1 描述的9个类别,对于每个类别,都相应地展示模型的详细信息。

Text-to-Image 模型

我们首先来看 Text-to-Image 模型,即输入是文本提示而输出是图像的模型。

DALL-E 2

由 OpenAI 开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,相比DALL-E 1,其分辨率提高了 4 倍。OpenAI 已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段。

CLIP 是 OpenAI 在2021年初的一篇工作:《Learning Transferable Visual Models From Natural Language Supervision》。CLIP 是一组模型,有 9 个图像编码器、5 个卷积编码器和 4 个 transformer 编码器。它是一个 zero-shot 的视觉分类模型,预训练的模型在没有微调的情况下在下游任务上取得了很好的迁移效果。作者在30多个数据集上做了测试,涵盖了 OCR、视频中的动作检测、坐标定位等任务。详见 https://github.com/openai/CLIP.

在这里插入图片描述

具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果。为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding。

因此,DALL-E 2 生成的图像在语义上巧妙地将不同且不相关的元素组合起来,例如输入 prompt:a bowl of soup that is a portal to another dimension as digital art,便生成了下面的图像。

在这里插入图片描述

IMAGEN

Imagen 是一种文本到图像的扩散模型,能够生成较为真实的图片。这是建立在大型的transformer语言模型上。谷歌已经对外提供了API来访问该模型。

Imagen 主要利用了 T5 模型作为预训练模型,同时使用800GB的训练语料来进行预训练。预训练结束后,然后进行冻结,输入到Text-to-Image diffusion Model中,然后通过上采样,使得图片生成高清图像。具体的模型结构如下:
在这里插入图片描述

同时谷歌发现,在纯文本语料库上预训练的通用大型语言模型(如T5)在为图像合成编码文本方面出人意料地有效。不增加diffusion model的大小,而去增加语言模型的大小,生成的效果会更加逼真。

总结起来看,使用 Imagen 有这几个主要发现:

  • 大型预训练冻结文本编码器对于文本到图像生成任务非常有效。
  • 增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。
  • 引入一个新的高效U-Net体系结果,它具有更高的计算效率、更高的内存效率和更快的收敛速度。
  • 模型在没有用到COCO数据集训练情况下,达到了最高的效果。

此外,谷歌研究者推出了比COCO更有挑战性的测试基准 DrawBench ,包含各种刁钻的提示词。DrawBench 是对图像到文本(text to image)模型进行多维评估。其中包含11个类别,大约200个文本提示,旨在探索模型的不同语义属性。

Stable Diffusion

Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。如果想要更深入了解Stable Diffusion的技术原理,可以阅读论文《High-Resolution Image Synthesis with Latent Diffusion Models》,它发表于CVPR2022,由德国慕尼黑大学机器视觉与学习研究小组开发。Stability AI 官方实践了开源承诺,目前已经发布了Stable Diffusion 2.0 版本,项目地址:https://github.com/Stability-AI/stablediffusion.

与其他模型相比,Stable Diffusion的主要区别在于使用了Latent Diffusion Models,通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛,也带来了文图生成领域的大火。

Latent Diffusion Models整体框架如下图,首先需要训练好一个自编码模型(AutoEncoder),这样就可以利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到原始像素空间即可,论文将这个方法称之为感知压缩(Perceptual Compression)。

在这里插入图片描述

Muse

谷歌发布的文本-图像生成模型 Muse,没有采用当下大火的扩散模型(diffusion model),而是采用了经典的 Transformer 模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。

Muse 以 masked modeling 任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse 的训练过程就是预测随机masked掉的图像token。

与像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于 Muse 使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高。与Parti(一种自回归模型)相比,Muse由于并行解码而更有效。Muse在推断时间上比 Imagen-3B 或 Parti-3B 快10倍,比 Stable Diffusion v1.4 快3倍。

Muse模型的框架包含多个组件,训练pipeline由T5-XXL预训练文本编码器,基础模型(base model)和超分辨率模型组成,如下图所示。
在这里插入图片描述

Text-to-3D 模型

目前的文本图像生成模型如DALL-E 2, Imagen等仍然停留在二维创作(即图片),无法生成360度无死角的3D模型。想要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型架构对3D数据进行降噪。

但是现在用2D数据训练出来的模型,也能生成3D图像了。只要输入简单的文本提示,就能生成具备具有密度、颜色等元素的3D模型。

Dreamfusion

DreamFusion 由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。具体地,DreamFusion 先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。它用了一个新的损失计算方法来代替CLIP:通过文本到图像的Imagen扩散模型来计算损失。

训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验。
在这里插入图片描述

相比其他方法主要是对像素进行采样,在参数空间的采样比在像素空间的采样要难得多,DreamFusion使用了一个可微的生成器,专注于创建从随机角度渲染图像的三维模型。

在这里插入图片描述

Magic3D

Magic3D 是由英伟达公司开发的文本到3D模型。虽然 Dreamfusion 模型取得了显著的效果,但该方法存在两个问题:处理时间长和生成的图像质量低。然而,Magic3D 使用两阶段优化框架解决了这些问题。

首先,Magic3D 构建了一个低分辨率的扩散先验,然后,它使用稀疏的3D哈希网格结构加速。使用这一点,纹理化的3D网格模型通过有效的可微渲染进一步优化。经过人类评估对比 Dreamfusion 和 Magic3D,Magic3D 模型取得了更好的结果,结果表示 61.7% 的人更喜欢 Magic3D 而不是DreamFusion。如下图9所示,与 DreamFusion 相比,Magic3D 在几何体和纹理方面实现了更高质量的3D形状。

在这里插入图片描述

请小伙伴们持续关注我的公众号「HsuDan」,我会继续更新这篇生成式AI模型综述《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》中剩下的7大类模型:Image-to-Text 模型,Text-to-Video 模型,Text-to-Audio 模型,Text-to-Text 模型,Text-to-Code 模型,Text-to-Science 模型等。

欢迎各位关注我的个人公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7934.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式AI,ChatGPT和自动驾驶的技术趋势漫谈

作者丨Dr.Luo 来源丨佐思汽车研究 编辑丨集智书童 作者简介: Dr. Luo,东南大学工学博士,英国布里斯托大学博士后,是复睿微电子英国研发中心GRUK首席AI科学家,常驻英国剑桥。Dr. Luo长期从事科学研究和机器视觉先进产…

chatGPT常见问题解决-An error occurred. If this issue persists please contact us through our...

文章目录 遇到问题解决方案1操作方法关闭安全访问关闭浏览器如果再次遇到问题解决方案2使用火狐浏览器遇到问题 An error occurred. If this issue persists please contact us through our help center at help.openai.com. 解决方案1 操作方法 关闭安全访问

华为天才少年稚晖君被曝离职;苹果 A16“挤牙膏”原因曝光;​Ruby 3.2.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

互联网晚报 | 奇瑞汽车回应要求员工周六上班;好欢螺回应妇女节争议文案;TVB淘宝首播带货2350万...

奇瑞汽车回应要求员工周六上班:本意不是压榨员工,鼓励愿意努力的奋斗 “周六是奋斗者的正常工作日,对于行政领导必须是正常工作日,请想办法规避法律风险。”3月7日,奇瑞汽车执行副总经理高新华要求周六上班的内部邮件引…

聚观早报|九安医疗从硅谷银行取回6亿存款;商汤科技发布通用大模型

今日要闻:九安医疗从硅谷银行取回6亿存款;OpenAI推出GPT-4更精准解决问题;iPhone 14/Plus黄色版开售即破发;消息称英伟达RTX 4070显卡即将上市;商汤科技发布多模态通用大模型 九安医疗从硅谷银行取回6亿存款 3 月 14…

第一台被“越狱”的 iPhone | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 7 月 10 日,在 1856 年的今天,交流电的发明者尼古拉特斯拉(Nikola Tesla)出生。特斯拉被认为是电力商业化的重要…

音视频技术开发周刊 | 285

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 GPT-4 Office全家桶发布 谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 …

美团以 20.65 亿人民币收购光年之外;ChatGPT 涉嫌信息盗窃被起诉;OpenCV 4.8.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

训练个人专属ChatGPT!港科大开源LMFlow:3090单卡5小时

本文来源 机器之心编辑部 拥有自己的 AI 大模型!开源项目 LMFlow 支持上千种模型,提供全流程高效训练方案。 2022 年 11 月 30 日,OpenAI 推出 ChatGPT,令人没想到的是,这个对话模型在 AI 圈掀起一股又一股讨论狂潮。…

Open AI官方「ChatGPT 打假工具」来啦!网友:等于瞎猜?

文|Alex 鱼羊 发自 凹非寺源|量子位 ChatGPT到处“造假”作弊,现在搞得OpenAI官方都坐不住了。 就在今天,OpenAI紧急发布官方打假工具:基于GPT打造,打开网页就能用。 好家伙,这岂不是真以己之矛…

ChatGPT最新版多功能批量写作工具激发创作的无限可能

随着科技的不断发展,人工智能逐渐渗透到各个领域,其中包括写作领域。近年来,OpenAI推出的ChatGPT最新版多功能批量写作工具,为写作者们带来了全新的创作体验。这一工具不仅能够帮助写作者提高工作效率,还能够激发创作的…

一个开源的 ChatGPT VSCode 插件

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:Github中文社区 近在百度推出文心一言后 阿里也开启了自家的ChatGPT的内测邀请,因此接下来的一个月huber会陆续给大家带来ChatGPT及周边内容。 vscode-ChatGPT 今天给大家推…

【VS】VSCode设置中英文模式

Vscode是一款开源的跨平台编辑器。默认情况下,vscode使用的语言为英文(us),如何将其显示语言修改成中文。 使用快捷键组合【CtrlShiftp】,在搜索框中输入“configure display language”,点击确定后; 修改locale.json…

工具 | VSCode+ChatGPT 编程利器

本文首发微信公众号:全副武装的大师兄(一个分享前沿技术,生活感受的公众号,关注我,率先了解好玩的工具) 托了GPT同学的福,最近编程时,常会在ChatGPT中说明自己的需求以生成代码&…

VScode:将VScode界面的显示语言改为简体中文,切换VScode界面的显示语言

VScode版本V1.54.1 VScode界面默认的语言为英语,需要安装简体中文语言包,语言包为插件(Extension)。 安装语言包 打开左侧插件栏(Extensions),在搜索框中输入chinese。 选择Chinese(Simplifi…

VSCode更改显示语言-如更改英语为中文或者将中文改为英语

目录 一、问题描述 二、问题解决 一、问题描述 VSCode属于一款前端开发超级牛13的开发软件,但是很多小伙伴安装好之后发现语言是英文的,毕竟大家英语不(yi)错(ban),但是总感觉中文的界面看着亲切一点,那么又该如何更改语言呢&am…

vs code 如何使用copilot(对接了chatgpt)

VS Code 是一个非常流行的开发工具,而 Copilot 则是一个基于 GPT 模型的代码生成工具,可以通过 VS Code 安装相关的插件来使用。 以下是在 VS Code 中使用 Copilot 的步骤: 下载安装 VS Code 插件 首先,你需要下载并安装 Copil…

我用 ChatGPT 做了一道菜 !!

自从使用ChatGPT之后,我的生活变得更加丰富了。 它以一个厨师的身份,为我提供各种健康美味的菜谱,以及干货知识、烹饪技巧等等,让我能够轻松地做出口感和营养都兼备的佳肴。 ChatGPT不仅为我提供各种各样的菜谱,包括…

ChatGLM-6B (介绍以及本地部署)

中文ChatGPT平替——ChatGLM-6B ChatGLM-6B简介官方实例本地部署1.下载代码2.通过conda创建虚拟环境3.修改代码4.模型量化5.详细代码 调用示例 ChatGLM-6B 简介 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构&…

Bagging 和 随机森林(Random Forest,RF)

前面已经了解到集成学习有两个流派,一个是 Boosting 派系,它的特点是各个弱学习器之间有依赖关系。另一种是 Bagging 流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。而随机森林又是对 Bagging 的一个改进算法&#…