学习ChatGPT,AI绘画引入人类反馈会怎样?

9eb5526c07e67d5cf6fc0737eba99a2e.png

来源:机器之心
本文约2400字,建议阅读5分钟本文介绍了研究人员在文本到图像模型中引入人类反馈。

NLP 领域使用的技术不断地向其他领域扩展,如 CV 和多模态,鸿沟正在被打破。本文中谷歌研究院和加州伯克利的研究人员在文本到图像模型中引入人类反馈,微调后的模型生成见过和未见过对象的效果得到了显著提升。

最近,深度生成模型在根据文本 prompt 生成高质量图像方面取得了显著成功,部分原因在于深度生成模型扩展到了大规模网络数据集(如 LAION)。但是,一些重大挑战依然存在,因而大规模文本到图像模型无法生成与文本 prompt 完全对齐的图像。举例而言,当前的文本到图像模型往往无法生成可靠的视觉文本,并在组合式图像生成方面存在困难。

回到语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,然后通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。

c56999a15530357fb34f9df3aeaff3df.png

论文地址:https://arxiv.org/pdf/2302.12192v1.pdf

本文方法如下图 1 所示,主要分为 3 个步骤。

第一步:首先从「设计用来测试文本到图像模型输出对齐的」一组文本 prompt 中生成不同的图像。具体地,检查预训练模型更容易出错的 prompt—— 生成具有特定颜色、数量和背景的对象,然后收集用于评估模型输出的二元人类反馈。

第二步:使用了人工标记的数据集,训练一个奖励函数来预测给定图像和文本 prompt 的人类反馈。研究者提出了一项辅助任务,在一组扰动文本 prompt 中识别原始文本 prompt,以更有效地将人类反馈用于奖励学习。这一技术改进了奖励函数对未见过图像和文本 prompt 的泛化表现。

第三步:通过奖励加权似然最大化更新文本到图像模型,以更好地使它与人类反馈保持一致。与之前使用强化学习进行优化的工作不同,研究者使用半监督学习来更新模型,以测量模型输出质量即学得的奖励函数。

702cc4a74ccacbeb74e52da4dcda6c6f.png

研究者使用带有人类反馈的 27000 个图像 - 文本对来微调 Stable Diffusion 模型,结果显示微调后的模型在生成具有特定颜色、数量和背景的对象方面实现显著提升。图像 - 文本对齐方面实现了高达 47% 的改进,但图像保真度略有下降。

此外,组合式生成结果也得到了改进,即在给定未见过颜色、数量和背景 prompt 组合时可以更好地生成未见过的对象。他们还观察到,学得的奖励函数比测试文本 prompt 上的 CLIP 分数更符合人类对对齐的评估。

不过,论文一作 Kimin Lee 也表示,本文的结果并没有解决现有文本到图像模型中所有的失效模型,仍存在诸多挑战。他们希望这项工作能够突出从人类反馈中学习在对齐文生图模型中的应用潜力。

1b1be7d006837d7ba621f70568f72bce.png

方法介绍

为了将生成图像与文本 prompt 对齐,该研究对预训练模型进行了一系列微调,过程如上图 1 所示。首先从一组文本 prompt 中生成相应的图像,这一过程旨在测试文生图模型的各种性能;然后是人类评分员对这些生成的图像提供二进制反馈;接下来,该研究训练了一个奖励模型来预测以文本 prompt 和图像作为输入的人类反馈;最后,该研究使用奖励加权对数似然对文生图模型进行微调,以改善文本 - 图像对齐。

人类数据收集

为了测试文生图模型的功能,该研究考虑了三类文本 prompt:指定数量(specified count)、颜色、背景。对于每个类别,该研究对每个描述该物体的单词或短语两两进行组合来生成 prompt,例如将绿色(颜色)与一只狗(数量)组合。此外,该研究还考虑了三个类别的组合(例如,在一个城市中两只染着绿颜色的狗)。下表 1 更好的阐述了数据集分类。每一个 prompt 会被用来生成 60 张图像,模型主要为 Stable Diffusion v1.5 。

223dbb06a79991084e1f459c570aadbd.png

人类反馈

接下来对生成的图像进行人类反馈。由同一个 prompt 生成的 3 张图像会被呈递给打标签人员,并要求他们评估生成的每幅图像是否与 prompt 保持一致,评价标准为 good 或 bad。由于这项任务比较简单,用二元反馈就可以了。

奖励学习

为了更好的评价图像 - 文本对齐,该研究使用奖励函数91eb8b9234147147f8c10e172f5678d0.png来衡量,该函数可以将图像 x 的 CLIP 嵌入和文本 prompt z 映射到标量值。之后其被用来预测人类反馈 k_y ∈ {0, 1} (1 = good, 0 = bad) 。

从形式上来讲,就是给定人类反馈数据集 D^human = {(x, z, y)},奖励函数8879bca3873d91b2d169e083873da8b8.png通过最小化均方误差 (MSE) 来训练:

ac595c5582e17d2ba652fd0aa039a17b.png

此前,已经有研究表明数据增强方法可以显着提高数据效率和模型学习性能,为了有效地利用反馈数据集,该研究设计了一个简单的数据增强方案和奖励学习的辅助损失(auxiliary loss)。该研究在辅助任务中使用增强 prompt,即对原始 prompt 进行分类奖励学习。Prompt 分类器使用奖励函数,如下所示:

9bb0fdbf96df7ba84973047517a728c9.png

辅助损失为:

5c7f981680ae8cbbef021e6276add701.png

最后是更新文生图模型。由于模型生成的数据集多样性是有限的,可能导致过拟合。为了缓解这一点,该研究还最小化了预训练损失,如下所示:

0d3268d1900f17412ffd691298911b5e.png

实验结果 

实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。

62f314076d999e3ce5ca4846d7389d66.png

人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。 

99f8430eddf51d23a46057cd285d55e6.png

图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。

4478e5edbbc7ba677e0c64f268872bae.png

奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。

6804949a75f257f1178afe850c2e8122.png

编辑:王菁

校对:程安乐

8a45a2ac16b1ec340db3bc00073d126e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35216.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(十三)AI作画、AI绘画、AIGC本地大模型

(十三)AI作画、AI绘画、AIGC本地大模型 AI作画近期很火,涌现出了很多AIGC(AI内容生成)的网站、平台,但这些平台都是使用的云上的算力,基本都有使用的各种限制等。 一、本代码自动将大模型下载本地,可以无-限-使-用。但是对硬件的…

健身房会员管理系统

开发工具(eclipse/idea/vscode等):idea 数据库(sqlite/mysql/sqlserver等):mysql 功能模块(请用文字描述,至少200字):涉及到的技术 SpringBoot Mybatis Thymeleaf mysql题目描述:健身房管理系统是对健身房会员,员工的管…

健身房管理系统分析

主要功能: 1、经理权限&#xff1a; <1>会员的添加和移除&#xff1b; <2>会员基本情况的查询功能&#xff1b; <3>会员的消费记录查询功能&#xff1b; <4>会员续卡功能&#xff1b; <5>教练的在职和当班情况&#xff1b; <6>教练的排班…

让 ChatGPT 来担任这个召之即来挥之即去的私人健身教练

健身教练 和ChatGPT聊天可以运用在各种正式、非正式&#xff0c;工作、休闲场合&#xff0c;让我们再来看一个场景&#xff0c;也是年轻人群体中非常热门的话题&#xff1a;健身。健身已经是年轻人最流行的活动&#xff0c;既可以是私密的个人健身&#xff0c;也可以是呼朋唤友…

chatgpt赋能python:如何使用Python快速打包iOS应用程序

如何使用Python快速打包iOS应用程序 如果你是iOS应用程序开发者&#xff0c;那么你一定知道打包iOS应用程序的繁琐和耗时。在iOS应用商店上发布应用程序需要遵守特定的规则&#xff0c;并且必须打包成IPA文件。如果你想在你的开发流程中更快地打包应用程序&#xff0c;那么你可…

腾讯云控制台详细介绍及使用教程

腾讯云控制台是用户通过网页端管理和使用云产品的入口&#xff0c;用户通过控制台对腾讯云产品和服务进行选购、查看、使用等各种操作。掌握了控制台的使用就是操作腾讯云产品的第一步。 一、控制台总览页 在控制台总览页&#xff0c;查看所有腾讯云产品入口、使用文档入口、在…

使用腾讯云轻量应用服务器搭建网站教程(也太简单了)

码笔记一直想搭建个人网站博客&#xff0c;腾讯云轻量应用服务器还不错&#xff0c;公网带宽也够用&#xff0c;想着用搞台轻量服务器搭建个网站&#xff0c;没想到通过应用镜像&#xff0c;也太简单了&#xff0c;把全部教程分享给大家&#xff1a; 本文是以轻量应用服务器上…

登陆注册实现腾讯云短信验证功能

目前比较流行的短信登陆注册&#xff0c;因为腾讯提供的sdk每月有100条免费短信&#xff0c;下面博主将和大家分享实现的过程&#xff01; 第一步 腾讯云短信功能注册&#xff1a; 然后配置短信签名和短信正文来确认发送短信的默认格式 需要注意的是&#xff0c;两个花括号为…

腾讯云SSL证书配置(nginx)

申请SSL证书 下载证书 下载完证书之后解压&#xff0c;因为腾讯云选择的是nginx服务器&#xff0c;所以我们只需要下载nginx并解压。 配置Nginx服务器 我们需要把刚才解压的nginx证书文件拷贝到nginx的conf路径下面—也就是服务器中/etc/nginx/conf路径下面的。 ssl_cert…

腾讯云弹性MapReduce

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、弹性MapReduce产品架构二、弹性MapReduce 应用功能三、弹性MapReduce优势四、弹性MapReduce试用场景总结 前言 腾讯云弹性MapReduce是结合云技术和 Hadoop、…

Xshell远程连接腾讯云服务器(Xshell无法使用密码登录)

1.新建 填写云服务器IP地址后选择连接 输入root 如果上方密码处为灰色无法点击&#xff0c;则通过云服务器网页登录终端 输入命令cd /etc/ssh命令进入文件夹修改sshd_config&#xff08;注意&#xff01;不要与ssh_config混淆&#xff09; 输入命令vim sshd_config对该配置…

腾讯云域名购买和域名解析教程

一. 域名购买操作步骤 1. 登录 腾讯云 域名注册 2. 选择合适的域名&#xff0c;添加到购物车&#xff0c;然后支付。 二. 添加解析操作步骤 步骤1&#xff1a;添加记录 1. 登录 腾讯云 DNS 解析控制台。 2. 在 “域名解析列表” 中&#xff0c;可查看全部已添加的域名。如下…

Java后端利用腾讯云短信服务发短信

利用手机验证码进行注册或进行下一步操作已经是非常普遍的&#xff0c;这篇文章就教你如何是用腾讯云短信服务发送手机验证码。 文章目录 一、前提条件 二、代码实现 1.引入依赖 2.Java代码实现 3.代码改进 4.实现效果 三&#xff0c;关于项目中验证码验证逻辑分享 1.…

腾讯云完整建站过程

整个网站的建立其实是很简单的,总共包含如下几个步骤: 第一步&#xff1a;购买自己的云域名,首推腾讯云域名,学生党优惠力度很大 第二步&#xff1a;购买自己的云空间,我也是在腾讯云上购买的轻量级云服务器 第三步&#xff1a;将域名和云空间绑定起来,也就是域名的解析 第四步…

腾讯云服务器入门使用流程 新手必看教程

一、根据个人需要选择云服务器配置, 打开首页》云服务器,选好cpu、内存、带宽,地域,这几个是主要的。其他都可以默认选择。 二、登陆控制台 1、登陆账号之后,在首页右上角,点击控制台 进去看到服务界面,控制台比较容易看懂。搜索你需要的云产品 2、以云服务器为例,…

腾讯云GPU云服务器配置初体验

一、故事背景 GPU 云服务器&#xff08;GPU Cloud Computing&#xff09;是基于 GPU 的快速、稳定、弹性的计算服务&#xff0c;因此&#xff0c;可以广泛应用到深度学习训练/推理、图形图像处理以及科学计算等场景中。 GPU 云服务器提供和标准 CVM 云服务器一致的方便快捷的管…

使用腾讯云发送短信API接口实现(完整流程)

步骤 一、开通腾讯云短信服务二、申请签名前的准备&#xff08;申请公众号&#xff09;三、创建签名和模板四、腾讯云API实现发送短信五、使用springboot进行调用六、可能会报的错误 一、开通腾讯云短信服务 在腾讯云官网找到短信服务&#xff0c;开通 二、申请签名前的准备…

使用腾讯云发送短信 ---- 手把手教你搞定所有步骤

最近在跟着一位大佬搞他的Austin项目&#xff0c;austin项目核心功能&#xff1a;发送消息。 这里作者使用了腾讯云发送短信&#xff0c;因为注册就送 100条免费短信的额度。发短信的功能就不用花钱了。 这里就记录了使用腾讯云的整个过程 第一步&#xff1a;注册腾讯云 注…

注册免费使用腾讯云企业邮箱

新手小白适用 在狗爹上买的域名 然鹅现在并不赠送邮箱了 买空间倒是有赠送的 但是我还专门打客服问过 说是不稳定…. 还是入鹅厂的坑吧 小绿锁也是在鹅厂申请的 别问我为啥…. &#xff08;还不是因为穷。。&#xff09; 如果你是阿里云的空间或是那几个某空间都是赠送企业…

腾讯云账户注销操作教程

本篇文章为腾讯云账号注销操作教程&#xff0c;操作前请认真查阅腾讯云官方文档。 腾讯云官方文档地址&#xff1a;https://cloud.tencent.com/document/product/378/30252 文章说明&#xff1a;解决小白不知道如何注销腾讯云账号的问题。 操作必读的注意事项&#xff1a; 1.注…