促进社区AIGC发展!Stability AI 再开源 RLHF、DeepFloyd IF

本文来源  新智元  编辑:Aeneas 好困

【新智元导读】开源先锋StabilityAI一天扔了两枚重磅炸弹:发布史上首个开源RLHF大语言模型,以及像素级图像模型DeepFloyd IF。开源社区狂喜!

最近,大名鼎鼎的Stable Diffusion背后的公司,一连整了两个大活。

首先,Stability AI重磅发布了世上首个基于RLHF的开源LLM聊天机器人——StableVicuna。

19813f0d4575c2ea78d2384ca6f0e3f3.png

StableVicuna基于Vicuna-13B模型实现,是第一个使用人类反馈训练的大规模开源聊天机器人。

有网友经过实测后表示,StableVicuna就是目前当之无愧的13B LLM之王!

对此,1x exited创始人表示,这可以看作是自ChatGPT推出以来的第二个里程碑。

11014fef4f0d91062496f138d4527ac5.png

另外,Stability AI 发布了开源模型DeepFloyd IF,这个文本到图像的级联像素扩散模型功能超强,可以巧妙地把文本集成到图像中。

e17764aea5b8c733468ddeb3b881c768.png

这个模型的革命性意义在于,它一连解决了文生图领域的两大难题:正确生成文字,正确理解空间关系!

秉持着开源的一贯传统,DeepFloyd IF在以后会完全开源。

Stailibity AI,果然是开源界当之无愧的扛把子。

b41084d7da3f90b143a476c3301f3c8f.png

StableVicuna

世上首个开源RLHF LLM聊天机器人StableVicuna,由Stability AI震撼发布!

a39d2ee7ed9fd8cd34b59e37e60d4fbc.png

一位Youtube主播对Stable Vicuna进行了实测,Stable Vicuna在每一次测试中,都击败了前任王者Vicuna。

50219eeab56ecd3af34f2ec9335955ac.png

所以这位Youtuber激动地喊出:Stable Vicuna就是目前最强大的 13B LLM模型,是当之无愧的LLM模型之王!

53a5f3b3afc9f4be3e27461f61a64b0a.png

102f64e5fb41e6ed4fcba78b503c0417.png

StableVicuna基于小羊驼Vicuna-13B模型实现, 是Vicuna-13B的进一步指令微调和RLHF训练的版本。

而Vicuna-13B是LLaMA-13B的一个指令微调模型。

8f29d0e2d660829e24ebe7e62c8a70d9.png

从以下基准测试可以看出,StableVicuna与类似规模的开源聊天机器人在整体性能上的比较。

7eab97c71b6013ea92c1d3283ef8c8c6.png

StableVicuna可以做基础数学题。

f57fa403446b86b7f4c2ba89514c3972.png

可以写代码。

f7a52f4b95bfe97029ef8bf02f1a22ec.png

还能为你讲解语法知识。

614a921c834c374bb7d2e9d36cda6a6f.png

开源聊天机器人平替狂潮

Stability AI想做这样一个开源的聊天机器人,当然也是受了此前LLaMa权重泄露引爆的ChatGPT平替狂潮的影响。

从去年春天Character.ai的聊天机器人,到后来的ChatGPT和Bard, 都引发了大家对开源平替的强烈兴趣。

这些聊天模型的成功,基本都归功于这两种训练范式:指令微调和人类反馈强化学习 (RLHF)。

ccf41559997f4d0123876ea0e792b716.png

这期间,开发者一直在努力构建开源框架帮助训练这些模型,比如trlX、trl、DeepSpeed Chat和ColossalAI等,然而,却并没有一个开源模型,能够同时应用指令微调和RLHF。

大多数模型都是在没有RLHF的情况下进行指令微调的,因为这个过程十分复杂。

最近,Open Assistant、Anthropic 和 Stanford都开始向公众提供RLHF数据集。

Stability AI把这些数据集与trlX提供的RLHF相结合,就得到了史上第一个大规模指令微调和RLHF模型——StableVicuna。

训练过程

为了实现StableVicuna的强大性能,研究者利用Vicuna作为基础模型,并遵循了一种典型的三级RLHF管线。

Vicuna在130亿参数LLaMA模型的基础上,使用Alpaca进行调整后得到的。

c88327da6fc311a88ce71ddbd8c5d26f.png

他们混合了三个数据集,训练出具有监督微调 (SFT) 的Vicuna基础模型:

  • OpenAssistant Conversations Dataset (OASST1),一个人工生成的、人工注释的助理式对话语料库,包含 161,443条消息,分布在66,497个对话树中,使用35种不同的语言;

  • GPT4 All Prompt Generations,由 GPT-3.5 Turbo 生成的 437,605 个提示和响应的数据集;

  • Alpaca,这是由OpenAI的text-davinci-003引擎生成,包含52,000条指令和演示的数据集。

研究者使用trlx,训练了一个奖励模型。在以下这些RLHF偏好数据集上,研究者得到了SFT模型,这是奖励模型的基础。

  • OpenAssistant Conversations Dataset (OASST1),包含7213个偏好样本;

  • Anthropic HH-RLHF,一个关于AI助手有用性和无害性的偏好数据集,包含160,800个人类标签;

  • 斯坦福人类偏好 (SHP),这是一个数据集,包含348,718个人类对各种不同回答的集体偏好,包括18个从烹饪到哲学的不同学科领域。

最后,研究者使用了trlX,进行近端策略优化 (Proximal Policy Optimization, PPO) 强化学习,对SFT模型进行了RLHF训练,然后,StableVicuna就诞生了!

693a29a3fde62360885137db3fe7c2e9.png

据Stability AI称,会进一步开发StableVicuna,并且会很快在Discord上推出。

另外,Stability AI还计划给StableVicuna一个聊天界面,目前正在开发中。

32c1796ec5867f52108e2e6b39513965.png

b81bf7f8e91504130740a6713745277c.png

相关演示已经可以在HuggingFace上查看了,开发者也可以在Hugging Face上下载模型的权重,作为原始LLaMA模型的增量。

但如果想使用StableVicuna,还需要获得原始LLaMA模型的访问权限。

获得权重增量和 LLaMA 权重后,使用GitHub存储库中提供的脚本将它们组合起来,就能得到StableVicuna-13B了。不过,也是不允许商用的。

DeepFloyd IF


在同一时间,Stability AI还放出了一个大动作。

你敢信,AI一直无法正确生成文字这个老大难问题,竟然被解决了?(基本上)

没错,下面这张「完美」的招牌,就是由StabilityAI全新推出的开源图像生成模型——DeepFloyd IF制作的。

d1c3a03a668af2189d905ebddd5c0a7d.png

除此之外,DeepFloyd IF还能够生成正确的空间关系。

b99f429fb5697ceb196dc5431130f74b.png

模型刚一发布,网友们已经玩疯了:

5fc5e81a19d6ef6e168cf060f7dbd981.png

prompt: Robot holding a neon sign that says "I can spell".

ffd3a57e0b328844a6104700f495c9fd.png

bf05e199a00be8837e6add5b0cd1f4ef.png

1abac8ddcd21296722603c2b19960615.jpeg

不过,对于prompt中没有明确说明的文字,DeepFloyd IF大概率还是会出错。

8fa8d4134c0f76b62d5b7949addd5c21.png

prompt:A neon sign of an American motel at night with the sign javilop

9668b65fa95b2ecf549c41c534f42d8e.png

官方演示

9ea0d6445fa3f135d31a3b8c0834fe91.png

49f80a7c75dd309356fac6671c68a1ed.png

08acad28a239cb3fac095d6ce715c8c2.png

下图可左右滑动查看更多

fe88a61f197b4fdd935caf553aed5b96.png

39374c3f242c06fde7be4d520d93e5c2.png

843d6487d63a8f6a41ffbc0cb8b6a5ac.png

顺便一提,在硬件的需求上,如果想要实现模型所能支持的最大1,024 x 1,024像素输出,建议使用24GB的显存;如果只要256 x 256像素,16GB的显存即可。

是的,RTX 3060 16G就能跑。

a58cee8a17b4d73e1859e5bf79fa0d7d.png

代码实现:https://gist.github.com/Stella2211/ab17625d63aa03e38d82ddc8c1aae151

开源版谷歌Imagen

2022年5月,谷歌高调发布了自家的图像生成模型Imagen。

根据官方演示的效果,Imagen不仅在质量上完胜OpenAI最强的DALL-E 2,更重要的是——它能够正确地生成文本。

迄今为止,没有任何一个开源模型能够稳定地实现这一功能。

b3e9750e3672d6056edfd59439d0d066.png

与其他生成式AI模型一样,Imagen也依赖于一个冻结的文本编码器:先将文本提示转换为嵌入,然后由扩散模型解码成图像。但不同的是,Imagen并没有使用多模态训练的CLIP,而是使用了大型T5-XXL语言模型。

这次,StabilityAI推出的DeepFloyd IF复刻的正是这一架构。

甚至在测试中,DeepFloyd IF凭借着COCO数据集上6.66的zero-shot FID分数,直接超越了谷歌的Imagen,以及一众竞品(包括自家Stable Diffusion)。

8c373dfad98194641babbf04be1392a5.png

下一代图像生成AI模型

具体来说,DeepFloyd IF是一个模块化、级联的像素扩散模型。

  • 模块化:

DeepFloyd IF由几个神经模块组成(可以解决独立任务的神经网络),它们在一个架构中相互协同工作。

  • 级联:

DeepFloyd IF以多个模型级联的方式实现高分辨率输出:首先生成一个低分辨率的样本,然后通过连续的超分辨率模型进行上采样,最终得到高分辨率图像。

ff71d77b4b9adca73b0e6d3fba75ad6e.png

  • 扩散:

DeepFloyd IF的基本模型和超分辨率模型都是扩散模型,其中使用马尔可夫链的步骤将随机噪声注入到数据中,然后反转该过程从噪声中生成新的数据样本。

f69d08763989dbd1b4dc8f0202df8a2b.png

  • 像素:

DeepFloyd IF在像素空间工作。与潜在扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的,其中使用潜在表征。

1f7caca2444be09d76d5b9302ac0e286.png

上面这个流程图展示的就是,DeepFloyd IF三个阶段的性能:

  • 阶段1:

基本扩散模型将定性文本转换为64x64图像。DeepFloyd团队已经训练了三个版本的基本模型,每个版本都有不同的参数:IF-I 400M、IF-I 900M和IF-I 4.3B。

  • 阶段2:

为了「放大」图像,团队将两个文本条件超分辨率模型(Efficient U-Net)应用于基本模型的输出。其中之一将64x64图像放大到256x256图像。同样,这个模型也有几个版本:IF-II 400M和IF-II 1.2B。

  • 阶段3:

应用第二个超分辨率扩散模型,生成生动的1024x1024图像。最后的第三阶段模型IF-III拥有700M参数。

值得注意的是,团队还没有正式发布第三阶段的模型,但DeepFloyd IF的模块化特性让我们可以使用其他上采样模型——如Stable Diffusion x4 Upscaler。

团队表示,这项工作展示了更大的UNet架构在级联扩散模型的第一阶段的潜力,从而为文本到图像合成展示了充满希望的未来。

490975c260b342ab3f4f160cca55bcab.png

69a163ac4dcb31e7fc589d72a462a9c5.png

数据集训练

DeepFloyd IF是在一个定制的高质量LAION-A数据集上进行训练的,该数据集包含10亿(图像,文本)对。

LAION-A是LAION-5B数据集英文部分的一个子集,基于相似度哈希去重后获得,对原始数据集进行了额外的清理和修改。DeepFloyd的定制过滤器用于删除水印、NSFW和其他不适当的内容。

目前,DeepFloyd IF模型的许可仅限于非商业目的的研究,在完成反馈的收集之后,DeepFloyd和StabilityAI团队将发布一个完全免费的商业版本。

参考资料:

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

https://stability.ai/blog/deepfloyd-if-text-to-image-model

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

0022f7f52eab4fd809807f8654bed348.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

2052569fb14a26e2eaf58fd2c090243f.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49422.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享200+个关于AI的网站

分享200个关于AI的网站 欢迎大家访问:https://tools.haiyong.site/ai 快速导航 AI 应用AI 写作AI 编程AI 设计AI 作图AI 训练模型AI 影音编辑AI 效率助手 AI 应用 文心一言: https://yiyan.baidu.com/ 百度出品的人工智能语言模型 ChatGPT: https://chat.openai.c…

论文《Can AI-Generated Text be Reliably Detected?》译文

摘要 大型语言模型(LLM)的快速发展使它们能够在包括文档续写和问答系统在内的各种任务中表现惊人。然而,不受监管地使用这些模型可能导致恶意后果,如抄袭、伪造新闻、垃圾邮件等。因此,可靠地检测人工智能生成的文本对…

我的周刊(第080期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 stable-diffusion-webui-docker[1] 基于 Docker 的…

文案一键配图!

大家好,我是懂王。 之前听到过这样一句话,朋友圈内容吸引力为:视频>图片>文字>链接。其实这句话还是有几分道理的。毕竟如何简短,快速的了解信息才是最重要的。 无论是发朋友还是写文章,只要你涉及到内容创…

ChatGPT iOS 应用程序用户现在可以访问互联网

OpenAI 的 iOS 版 ChatGPT 应用程序现在允许 ChatGPT Plus 用户通过 Bing 搜索访问信息。付费用户的浏览功能处于测试阶段。 ChatGPT iOS 应用程序用户现在可以通过 Bing 搜索访问信息。但是,该功能仅适用于 ChatGPT Plus 用户,并且必须通过设置启用。 …

iOS iTunes Connect后台显示app已经上架(可供销售),但用手机在App Store搜不到的解决办法。

//联系人:石虎 QQ:1224614774 昵称:嗡嘛呢叭咪哄 一、概念 在 iTunes Connect后台显示的状态是“Ready for sale”,即"可供销售"。 审核通过后,客户即在appstore搜索下载,但没有搜到,以为是苹果数据同步延迟。 图: 二解…

已经上架的app(可供销售)在AppStore上搜不到的解决办法

这两天很是头大, 因为3天前手动发布的app到现在都还没在AppStore上看到,打了无数电话给苹果和发邮件给review团队. 下面说说怎么解决我们在iTunes后台看到是绿灯(可供销售)但是就是在AppStore上搜不到新版本. 1.打电话 4006-701-855, 这是iTunes提供的支持电话,中国时间 9:00-1…

已上架的App在AppStore上无法搜索到的问题

前言 # 如果还没有苹果开发者账号,自行注册苹果开发者中心 (opens new window)并缴费成为开发者。 # 证书配置 证书教程 (opens new window)Win系统请使用 appuploader (opens new window)进行生成。 # 发布证书(三个端只需一个即可 格式.p12 上传到后…

itunesconnect后台显示app已经上架(可供销售),但在appstore搜不到的解决办法。

昨天在itunesconnect提交了新版本,今天早上一早起来看到已经审核通过了 。在itunesconnect中显示是“可供销售”,但是在appstore中搜索时显示的还是老的版本。搜了几次都是这样。后来查了一些资料发现遇到这个appstore缓存bug的开发者还不在少数。还找到…

新人直接上手,手机拍延时摄影

新人直接上手,手机拍延时摄影 延时摄影是什么飞机上的摄影海天一色海天一色精剪版高空摄像机场降落神仙仙云-猴哥腾云驾雾腾云驾雾精剪版蓝天白云的马尼拉 延时摄影是什么 延时摄影是什么?这是一种视频,也可以理解为是一种gif动图。我们一般…

隔空拍照,视频,定位,PHP开发的在线版网恋照妖镜源码使用方法

初衷还是为了避免网恋翻车,毕竟网络世界里 谁也不知道和你相聊甚欢的对象是不是一个抠脚大汉呢?! 其原理:对方点击该链接并确认授权后 网页会自动调用前置摄像头抓拍照片,然后通过前面设置的密码就可以查看到刚刚抓拍…

Android Camera2 实现连拍

gitee 链接: 通过 captureBurst 实现连拍 拍完的图片放在 /data/data/com.example.burstcapture/files/ 连拍的具体实现代码在 BurstCapture.java 、BurstCaptureExpo.java、BurstCaptureFocus.java中,调用在 MainActivity.java中,调用方式很…

对拍详解

对拍详解 ——HM 对拍是家中写题、考场中写题判断自己的程序答案是否正确的一种技巧,当…

Android Camera预览角度和拍照保存图片角度学习

1 Camera预览角度处理 开发Camera过程中会遇到Camera拍照,获取照片后可以上传照片或者展示给用户。 Camera的图像数据来源于摄像头硬件的图像传感器,这个图像传感器被固定到手机上后会有一个默认的方向,一般默认方向是当手机左侧横放时&…

国仁网络资讯:短视频拍摄如何上热门;掌握这8大拍摄运镜手法即可。

抖音视频拍摄基本分为两种:一种是随手拍,记录生活精彩时刻;一种是情景拍摄,一般整个视频都是设计好的。 随手一拍很轻松,但未免没有那么多偶然的精彩瞬间,此时就需要我们自己去编排了,编排出一条精彩视频,拍摄技巧是必须的。 不同拍摄手法所表达的意思也各不相同。那么…

定位教程4-固定相机之先抓后拍

相机固定,机器人吸住一个物料,拍照,然后将电池放到其他位置,这也是一个经典的应用场景。 相机在上和在下都是一样的标定方法,只是需要注意下角度取反而已,大家在实际使用的时候自己测试一下就知道角度取反问题. 其标定方法和之前的固定相机-先拍再抓一样,都是先9点标定,再5点标…

Android 使用CameraX实现预览/拍照/录制视频/图片分析/对焦/缩放/切换摄像头等操作

1. CameraX架构 看官方文档 CameraX架构 有如下这一段话 使用CameraX,借助名为"用例"的抽象概念与设备的相机进行交互。 预览 : 接受用于显示预览的Surface,例如PreviewView图片分析 : 为分析 (例如机器学习) 提供CPU可访问的缓冲区图片拍摄…

Android 使用Camera2 实现拍照录像的功能

职场小白迷上优美句子: 还是电影 《无问西东》中的台词,这句有点感人: 沈光耀的妈妈对沈光耀说:"当初你离家千里,来到这个地方读书,你父亲和我都没有反对过,因为,是我们想你,…

天猫精灵Aligenie对接记录(三)

原文 https://www.jksxit.com/essay/42 服务端需要开发API接口处理阿里精灵发送的智能设备控制指令,并遵循AliGenie智能家居接入协议。 (1)同步模式

天猫精灵智能设备对接(4)

apache2php7.0 web服务器的构建 我个人使用的服务器是腾讯云,系统是ubuntu16.04,如果大家要是没有云服务器可以采用花生壳内网穿透的方法,还能得到一个只能在花生壳免费部署的域名,但是也要花6块钱,看需求了&#xff0…