对标GPT核心技术RLHF!港科大开源RAFT「木筏」,适用GPT扩散模型

梦晨 发自 凹非寺  量子位 | QbitAI

开源大模型火爆,已有大小羊驼LLaMA、Vicuna等很多可选。

但这些羊驼们玩起来经常没有ChatGPT效果好,比如总说自己只是一个语言模型、没有感情blabla,拒绝和用户交朋友。

dccb09667a0e1ae5141185d754890c4c.png

归根结底,是这些模型没有ChatGPT那么对齐(Alignment),也就是没那么符合人类用语习惯和价值观。

为此,港科大LMFlow团队提出全新对齐算法RAFT,轻松把伯克利Vicuna-7b模型定制成心理陪伴机器人,从此AI会尽力做你的朋友。

f2e12baedf94707df71927af2ad0a197.gif

相较于OpenAI所用RLHF对齐算法的高门槛,RAFT(Reward rAnked Fine-Tuning)易于实现,在训练过程中具有较高的稳定性,并能取得更好的对齐效果。

并且任意生成模型都可以用此算法高效对齐,NLP/CV通用

用在Stable Diffusion上,还能对齐生成图片和提示词,让模型生成更加符合提示词描述的图片。

25fe958390b4548e09ba1654ca3be6aa.png

另外,团队特别提示RAFT的对齐训练过程中生成与训练过程完全解耦。

这样就可以在生成过程中利用一些魔法提示词 (magic prompts),让最终对齐的模型不需要魔法提示词也能得到好的效果。从而大大减少了提示词编写的难度!

可以说,RAFT为AIGC社区的研究者和工作者提供了一种新的可选的AI对齐策略。

RAFT模型对齐

OpenAI在ChatGPT前身Instruct论文中介绍了基于人类反馈的强化学习(RLHF)算法。

首先利用人类标注数据训练一个打分器 (reward model),然后通过强化学习算法(如PPO)来调节模型的行为,使得模型可以学习人类的反馈。

但PPO等强化学习算法高度依赖反向梯度计算,导致训练代价较高,并且由于强化学习通常具有较多的超参数, 导致其训练过程具有较高的不稳定性。

相比之下,RAFT算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的AI模型。

具体而言,RAFT分为三个核心步骤:

(1)数据收集:数据收集可以利用正在训练的生成模型作为生成器,也可以利用预训练模型(例如LLaMA、ChatGPT,甚至人类)和训练模型的混合模型作为生成器,有利于提升数据生成的多样性和质量。

(2)数据排序:一般在RLHF中我们都拥有一个与目标需求对齐的分类器或者回归器,从而筛选出最符合人类需求的样本。

(3)模型微调:利用最符合人类需求的样本来实现模型的微调,使得训练之后的模型能够与人类需求相匹配。

在RAFT算法中,模型利用了更多次采样 (当下采样后用以精调的样本一定时),和更少次梯度计算(因为大部分低质量数据被reward函数筛选掉了),让模型更加稳定和鲁棒。

同时,在某些情况下, 由于有监督微调本身对于超参数敏感性更低, 有更稳健的收敛性, 在相同reward情况下,RAFT可以拥有更好的困惑度 (perplexity, 对应其生成多样性和流畅性更好)。

34601c50e9c3a10896463fb601dd0d20.png

完整算法如下所示:

cdf473422783029d849eccce6b17e6f1.png

定制垂直领域GPT

作者在多个任务上进行了实验,首先是正向影评补全。

作者实验发现,给出一个电影评论的起始句,RAFT微调后的大模型可以轻松补齐电影评论,而且更加积极和流畅。

如下图所示,LLaMA未经调整的影评会以随机概率输出正面和负面的评论,RAFT和PPO都能够将评论的态度倾向正面。

9e03d8af8f8cf4aff61f51528d1c9138.png

在基于Vicuna制作的一个心理陪伴机器人演示中,作者模拟了一个因为考试失利而心情低落的人和机器人在聊天。

可以看到在使用RAFT进行对齐之前,模型说自己没有情感和感情,拒绝和人类交友。

但是在RAFT对齐之后,模型的共情能力明显增强,不断地在安慰人类说,“虽然我是一个AI,但是我会尽力做你的朋友”。

8eb2cd7402b553f84a714d4ba141f0ea.png

增强Stable Diffusion

除了在语言模型上的对齐能力以外,作者还在扩散模型上验证了文生图的对齐能力,这是之前PPO算法无法做到的事情。

原始Stable Diffusion在256x256分辨率生成中效果不佳 ,但经过RAFT微调之后不仅产生不错的效果,所需要的时间也仅为原版的20%。

对计算资源不足的AIGC爱好者来说无疑是一个福音。

f33866f44d24feb48dacd20c335a3c8b.png

除了提升256分辨率图片的生成能力以外,RAFT还能够对齐生成图片和提示词,让模型生成更加符合提示词描述的图片。

如下图所示,给出提示词“莫奈风格的猫”,原始的stable diffusion生成的图片里,大多数没有猫,而是生成了“莫奈风格”的其他作品,这是由于“莫奈作品”中鲜有猫的身影,而stable diffusion没有完全理解文本的含义。

而经过RAFT微调后,stable diffusion认识到“猫”的概念,所以每张图片里都会有猫的身影。

ba6ba74cb60b80b3a1ad268bf8d0663e.png

RAFT来自香港科技大学统计和机器学习实验室团队,也是开源LMFlow模型微调框架的一次重大升级。

LMFlow包括完整的训练流程、模型权重和测试工具。您可以使用它来构建各种类型的语言模型,包括对话模型、问答模型和文本生成模型等。

自框架发布两周以来,LMFlow团队仍在进行着密集的迭代,并在4月9号正式上线了RAFT算法,补齐了AI对齐的训练流程。

LMFlow框架的逐步完善,将更加便利于科研人员和开发者在有限算力下微调和部署大模型。

论文:https://arxiv.org/abs/2304.06767

GitHub:https://github.com/OptimalScale/LMFlow

文档: https://optimalscale.github.io/LMFlow/examples/raft.html

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

c5b11cd33dcbff1d9199b2cc9a615055.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

f2d6b2b00038293991dbefeb3ecde41d.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47526.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DDPM详解 AI绘画

话说DDPM DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式, 逐步从一个纯噪音的图片中生成图…

对抗生成网络GAN系列——DCGAN简介及人脸图像生成案例

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题 🍊往期回顾:对抗生成网络GAN系列——GAN原理及手写数字生成小案例 🍊近期目标:写好专栏的每一篇文章 🍊支持小苏:点赞…

用户画像·用户性别预测

文章目录 一、为什么进行性别预测二、特征数据选取三、算法选择四、代码示例1、使用朴素贝叶斯,进行建模2、使用支持向量机3、使用逻辑斯蒂回归 一、为什么进行性别预测 用户注册时,所填写的性别,存在大概率的随意性;不能完全作为…

云开发视频资源变现微信小程序源码

简介: 云开发视频资源变现微信小程序源码,带有流量主功能。获取视频,获取资源需先看广告,资源变现小程序全源码无删减,自己付费做的。 主要功能,就是用户想观看你的视频或者获取你的资源,就需…

拉伯证券|年报行情如火如荼 博弈“超预期”还须警惕“风险点

本周以来,在指数转入高位盘整的背景下,A股商场资金围绕年报头绪展开布局,“年报预增”一跃成为商场最强主线,不少成绩预增公司短期股价收获明显超额收益。 Choice数据显现,截至1月12日盘前,开年以来共136家…

基于上证金融数据的情感分析和走势预测 代码+数据

目录 情感分析结果: ​编辑 首先是获取 股票评论数据的网站: 程序: 数据展示: 情感分析结果: 首先是获取 股票评论数据的网站: 上证指数股吧_上证指数分析讨论社区-东方财富网 程序: im…

FTT暴雷加密熊市雪上加霜?如何对抗系统风险

11月加密领域,正在上演一场新的戏剧:CZ vs SBF。 行情及后续风险预判,这是一场亿万富翁之战。中心化交易所币安和FTX的首席执行官CZ和SBF正在对峙。 FTX事件到11月11日似乎进入了一个新的阶段,在过去的几天里发生的事情几乎可以确…

fastposter v2.9.3 简单易用的海报生成器

🔥🔥🔥 fastposter海报生成器是一款快速开发海报的工具。只需上传一张背景图,在对应的位置放上组件(文字、图片、二维🐴、头像)即可生成海报。 点击代码直接生成各种语言的调用代码,…

fastposter v2.6.1 发布 程序员专属海报生成器

fastposter v2.6.1 发布 程序员专属海报生成器 fastposter电商级海报生成器,程序员专属海报生成器,一分钟完成海报开发,轻松在线作图。支持Java、Python、PHP、 Go、JavaScript等多种语言。 v2.6.1 发布 程序员专属海报生成器 解决Windows下…

你是如何看待“孔乙己的长衫”?

学历是一个十分有争议的话题,观点不一,这使得这个话题讨论起来令人热血沸腾。就人生而言,学历是否会成为敲门砖或枷锁,可以说是个纯粹的看法和态度问题。 首先,我们要看到学历本身。学历是告诉人们你有哪些学科的专业…

浅谈“孔乙己”的长衫

书中的孔乙己 孔乙已是鲁迅笔下人物,穷困流倒还穿着象征读书人的长衫,迁腐、麻木。最近,大家自我调佩是“当代孔乙己”,学历成为思想负担,找工作时高不成低不就。 当代的“孔乙己” 如今社会,从小学开始每…

打工人都在用的AI工具

随着ChatGPT的问世,AI也算迎来了高光时刻!下文是技术宅整理的一些和ChatGPT相关的工具应用,排名不分先后,也不代表个人推荐,但真心真心好好用,主打的就是一个纯粹! 本文将先分享10个有趣的AI小工…

巴黎时装周儿童单元上海站圆满落幕,代言人陈沫含亮相并献上精彩走秀

3月18日,巴黎时装周儿童单元上海站在上海宝华喜来登酒店圆满落幕。巴黎时装周儿童单元(又名:巴黎儿童时装周)由巴黎高定协会(Paris advanced customization Association,PACA)及法国视听艺术协会(Association franaise…

人工智能迎来高光时刻,拟人化AI进入爆发前夜

3 月,随着 OpenAI 新一代模型 GPT-4 以及百度“文心一言”的正式公布,通用人工智能 AGI 的概念再次点燃全球社交平台。从最初的文字对话到如今的看图写代码,AGI 领域终于迎来了属于自己的“iPhone 时刻”,而对话式 AI 这一充满无限…

Meta发布LLaMA 2:分析及解读

Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。 我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在…

用Rword2vec告诉你券商的推荐买股票是否靠谱

最近国内A股走势不错,又有听到周边有不少同事打算入市了。那么咱们IT人员如果相关金融知识不多,又不想买基金交管费的话,跟着券商的推荐买行不行呢? 如果是零基础的朋友请参考https://blog.csdn.net/BEYONDMA/article/details/879…

音频合并的软件有哪些?这几个软件分享给你

我们平时听过的歌曲串烧,是由多首歌曲拼接起来的。如果大家不想在听音乐时手动切换歌曲的话,不妨试试使用软件,将歌曲剪辑拼接起来。但是作为剪辑小白,不知道音频拼接软件哪个好用。没关系,下面给你们分享几款手残党也…

语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载&a…

如何进行音频合并?很简单,只需三步骤

大家有没有经常在短视频上刷到一些歌曲串烧,他们将很多歌曲结合在一起居然毫无违和感,但其实像这样的歌曲合并呀,或者说是音频合并到一块的操作其实是非常简单的,仅需几分钟就能轻松上手,你们也可以像那些短视频的up主…

计算机弹音乐百度百科,电子音乐合成器

电子音乐合成器又简称电子合成器,是由电子设备代替乐队进行演奏和进行自动化编曲的一种电子化设备。用合成器制作声音的方法很多,起先是把若干个正弦波振荡器连在一起,改变各自的频率、振幅,就可以产生不同音色。后来,…