Google RichHF-18K 文本到图像生成中的丰富人类反馈

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,图像生成模型(T2I)如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在诸如伪影(如物体变形、文本和身体部位失真)、与文本描述不一致以及美学质量低下等问题。例如,某个输入提示为“熊猫骑摩托车”,但生成的图像却显示了两只熊猫,并伴有其他不需要的伪影,如熊猫的鼻子和车轮辐条变形。

受人类反馈强化学习(RLHF)在大型语言模型(LLMs)中的成功启发,研究者们探索了从人类反馈中学习(LHF)是否能帮助改善图像生成模型。在应用于LLMs时,人类反馈可以包括简单的偏好评分(如“点赞或踩”、“A或B”),也可以是更详细的回应,如重写有问题的答案。然而,目前LHF在T2I中的应用主要集中在简单的响应上,如偏好评分,因为修复有问题的图像通常需要高级技能(如编辑),这既困难又耗时。

在“富人类反馈的文本到图像生成”中,研究人员设计了一种获取具体且易于获取的富人类反馈的方法。他们展示了LHF在T2I中的可行性和优势。主要贡献有三点:

  1. 研究者们策划并发布了RichHF-18K,这是一个覆盖18K张由Stable Diffusion变体生成图像的人类反馈数据集。
  2. 他们训练了一个多模态变压器模型——Rich Automatic Human Feedback(RAHF),用于预测各种类型的人类反馈,如不可信评分、伪影位置热图以及丢失或未对齐的文本/关键词。
  3. 他们展示了预测的丰富人类反馈可以用来改善图像生成,这种改进还可以推广到其他模型(如Muse)。

这是第一个用于最先进的文本到图像生成的丰富反馈数据集和模型。

富人类反馈的收集

从Pick-a-Pic训练数据集中根据PaLI自动创建的属性选择图像,以确保类别和类型的良好多样性,最终得到17K张图像。研究人员将这17K张样本随机分为训练集(16K样本)和验证集(1K样本)。此外,他们在Pick-a-Pic测试集中收集了丰富的人类反馈,作为测试集。最终,RichHF-18K数据集包含16K训练样本、1K验证样本和1K测试样本。

对于每张生成的图像,注释者首先检查图像并阅读文本提示,然后在图像上标记任何不可信、伪影或与文本提示不一致的位置。最后,注释者对未对齐的关键词以及可信度、图像-文本对齐、美学和整体质量的四种评分进行打分,分别使用5分Likert量表。

富人类反馈的预测

RAHF模型的架构基于ViT和T5X模型,受先前大型视觉语言模型(PaLI和Spotlight)的启发。文本信息通过自注意力机制传播到图像标记以预测文本未对齐评分和热图(伪影或未对齐的区域),而视觉信息传播到文本标记以进行更好的视觉感知文本编码,从而解码文本未对齐序列。最好的模型使用单头预测每种类型的反馈,如热图、评分和未对齐序列。研究人员为每个任务在提示中添加了任务字符串(如“不可信热图”)以提示模型特定任务。

从丰富的人类反馈中学习

预测的丰富人类反馈(如评分和热图)可以用来改善图像生成。例如,通过用预测的评分来微调生成模型。研究人员首先通过RAHF预测的评分筛选Muse模型的结果,创建一个高质量的数据集,然后使用该数据集通过LoRA微调方法微调Muse模型。对比评估显示,使用RAHF可信度评分微调的Muse生成的图像比原始Muse具有显著更少的伪影。

此外,研究人员展示了使用RAHF美学评分作为分类器指导来改进Latent Diffusion模型的示例,这表明每种细化的评分都可以改善生成模型的不同方面。

总之,研究人员发布了RichHF-18K,这是第一个用于文本到图像生成的丰富人类反馈数据集。他们设计并训练了一个多模态变压器来预测丰富的人类反馈,并展示了使用这些反馈改进图像生成的一些实例。未来的工作包括改进数据集以提高注释质量(尤其是在未对齐热图上),并收集更多生成模型(如Imagen和DALL-E)的丰富人类反馈,同时探索更多使用丰富人类反馈的方法。他们希望RichHF-18K和初始模型能够激发进一步在图像生成领域学习人类反馈的研究方向。

下载 https://github.com/google-research/google-research/tree/master/richhf_18k

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/370761.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDA*——AcWing 180. 排书

IDA* 定义 IDA*(Iterative Deepening A*)是一种结合了深度优先搜索(DFS)的递归深度限制特性和A搜索的启发式估价函数的搜索算法。它主要用于解决启发式搜索问题,尤其是当搜索空间很大或者搜索成本不确定时。 IDA* 是…

场景管理分析平台介绍

在数字化浪潮的推动下,数据已成为企业决策的重要依据。特别是在智能驾驶、虚拟现实和物联网等领域,场景数据的高效管理和利用至关重要。在智能驾驶领域面对海量的场景数据,如何高效处理、精准分析,并将其转化为有价值的决策支持&a…

C++基础(十一):STL简介

从今天开始,我们正式步入STL的学习,STL(标准模板库,Standard Template Library)是C标准库的重要组成部分,提供了一系列通用的类和函数模板,包括容器、算法、迭代器等。它的设计极大地提高了代码…

AI让大龄程序员重新焕发活力

AI是在帮助开发者还是取代他们? 在软件开发领域,生成式人工智能(AIGC)正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试,AI工具正在成为开发者的得力助手。然而,这也引发了对开发者职业…

Python爬虫零基础实战,简洁实用!

1.爬虫简介 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 你可以简单地想象:每个…

【SPIE独立出版】第四届智能交通系统与智慧城市国际学术会议(ITSSC 2024)

第四届智能交通系统与智慧城市国际学术会议(ITSSC 2024)将于2024年8月23-25日在中国西安举行。本次会议主要围绕智能交通、交通新能源、无人驾驶、智慧城市、智能家居、智能生活等研究领域展开讨论, 旨在为该研究领域的专家学者们提供一个分享…

文心一言最常用的20条指令及指令说明,含增强指令

下面是20条文心一言的指令及其说明,每条指令尽量简洁明了,以便在有限的字数内提供尽可能多的信息。以下是这些指令及其说明: 1. 查询天气 指令:今天北京的天气怎么样?说明:此指令用于查询特定城市&#xf…

无人机5公里WiFi低延迟图传模组,抗干扰、长距离、低延迟,飞睿智能无线通信新标杆

在科技日新月异的今天,我们见证了无数通信技术的飞跃。从开始的电报、电话,到如今的4G、5G网络,再到WiFi的广泛应用,每一次技术的革新都极大地改变了人们的生活方式。飞睿智能5公里WiFi低延迟图传模组,它以其独特的优势…

Python 获取tiktok视频评论回复数据 api接口

TIKTOK api接口 用于爬取tiktok视频评论回复数据 详细采集页面如图 https://www.tiktok.com/dailymail/video/7329872821990182190?qneural%20link&t1706783508149 请求API http://api.xxxx.com/tt/video/info/comment/reply?video_id7288909913185701125&comment_…

ELK优化之Filebeat部署

目录 1.安装配置Nginx 2.安装 Filebeat 3.设置 filebeat 的主配置文件 4.修改Logstash配置 5.启动配置 6.kibana验证 主机名ip地址主要软件es01192.168.9.114ElasticSearches02192.168.9.115ElasticSearches03192.168.9.116ElasticSearch、Kibananginx01192.168.9.113ng…

AE的首选项设置

打开AE,点击 编辑->首选项->常规 显示 点击“所有关键帧”,这样显示路径就会显示所有关键帧 导入 将序列素材改为25帧每秒,作为以后制作的默认 媒体和磁盘缓存 根据个人需求选择磁盘缓存的文件夹,如果d盘空间充足,就改成…

上海外贸建站公司wordpress模板推荐

Sora索啦高端制造业wordpress主题 红色高端制造业wordpress主题,适合外贸企业出海建独立站的wordpress模板。 https://www.jianzhanpress.com/?p5885 Yamal外贸独立站wordpress主题 绿色的亚马尔Yamal外贸独立站wordpress模板,适用于外贸公司建独立站…

Autosar MCAL-S32k324 Crypto配置-RandomNumber生成及使用

文章目录 前言CryptoPrimitivesCryptoPrimitiveAlgorithmFamilyCryptoPrimitiveAlgorithmModeCryptoPrimitiveAlgorithmSecondaryFamilyCryptoPrimitiveServiceCryptoDriverObject代码使用Random Generate执行流程配置job函数使用示例总结前言 之前介绍过AES-CMAC算法的配置,…

Linux|信号

Linux|信号 信号的概念信号处理的三种方式捕捉信号的System Call -- signal 1.产生信号的5种方式2.信号的保存2.1 core 标志位 2.信号的保存2.1 对pending 表 和 block 表操作2.2 阻塞SIGINT信号 并打印pending表例子 捕捉信号sigaction 函数验证当前正在处理某信号&#xff0c…

视觉语言模型:融合视觉与语言的未来

1. 概述 视觉语言模型(Vision-Language Models, VLMs)是能够同时处理和理解视觉(图像)和语言(文本)两种模态信息的人工智能模型。这种模型结合了计算机视觉和自然语言处理的技术,使得它们能够在…

代码随想录-Day49

300. 最长递增子序列 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的 …

使用握手信号实现跨时钟域数据传输

目录 描述 输入描述: 输出描述: 参考代码 描述 分别编写一个数据发送模块和一个数据接收模块,模块的时钟信号分别为clk_a,clk_b。两个时钟的频率不相同。数据发送模块循环发送0-7,在每个数据传输完成之后&#xf…

Cube-Studio:开源大模型全链路一站式中台

开源项目,欢迎star哦,https://github.com/data-infra/cube-studio 一款真正意义的 LLMOps 框架 LLMOps(Large Language Model Operations)是一个涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一…

docker部署mycat,连接上面一篇的一主二从mysql

一、docker下载mycat镜像 查看安装结果 这个名称太长,在安装容器时不方便操作,设置标签为mycat docker tag longhronshens/mycat-docker mycat 二、安装容器 先安装一个,主要目的是获得配置文件 docker run -it -d --name mycat -p 8066:…

SpringBoot新手快速入门系列教程7:基于Redis的一个简单存取数据的例子

新手可能有这样的疑问,有了数据库的存取方式,我们为什么还要使用Redis这种缓存数据库读取方式呢? 原因主要有以下几点: 1. 性能提升 数据库查询尤其是复杂查询可能会消耗大量的时间和资源。而Redis是一个内存数据库&#xff0c…