GPT-4o首次引入!全新图像自动评估基准发布!

目录

01 什么是DreamBench++?

02 与人类对齐的自动化评估

03 更全面的个性化数据集

04 实验结果


面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。

对此,来自清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中科院和旷视的研究人员共同推出了一项新基准——DreamBench++。

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计的提示词以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。结果显示,DreamBench++与人类评价高度一致。

01 什么是DreamBench++?

DreamBench++是一个全新的评估工具,在个性化图像评估领域实现了两项关键技术突破:

  1. 引入支持多模态的GPT-4o,实现与人类偏好的深度对齐和自动化评估。
     
  2. 推出了一个更为全面和多元化的数据集。

02 与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。研究人员选择直接打分而非对比,以避免不同方法生成的图像顺序影响结果,并减少标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的提示词:

  • 任务描述:明确评估的目标和要求。
     
  • 评分标准解释:详细说明评估的依据。
     
  • 评分范围定义:设定评分的量化标准。
     
  • 格式规范:确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训的标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

03 更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。构建过程包括以下步骤:

  • 获取主题关键词:团队挑选并生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体、活物和风格化图片三种类型。
     
  • 图片收集:收集来源包括Unsplash、Rawpixel和Google Image Search。挑选背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
     
  • 提示词(prompt)生成:引导GPT-4o生成不同复杂程度的提示词。这些提示词的复杂性与生成任务的难度相对应。

04 实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

  • 在图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
     
  • 在文本遵循方面,CLIP-T的评分则相对较低。
     
  • GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅关注单一方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了79.64%的一致性。


在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%。

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%。这也侧面说明,通过设计提示词,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,DreamBench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。同时,Emu2在非自然或复杂图像上的表现也会下降。

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

DeepSeek-Coder-v2击败GPT-4 Turbo,成为竞技场最强开源编码模型!


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/366985.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql主键自增连续新增时报错主键重复-Duplicate entry “x” for key PRIMARY

mysql主键自增连续新增时报错主键重复 1、mysql数据库设置数据库主键自增的规律 id -- AUTO_INCREMENT2、可视化工具查看自增没问题 3、问题描述 新增第一个时操作成功,新增第二个时候操作失败报错: Duplicate entry “x” for key PRIMARY4、分析&a…

千益畅行,旅游卡,如何赚钱?

​ 赚钱这件事情,只有自己努力执行才会有结果。生活中没有幸运二字,每个光鲜亮丽的背后,都是不为人知的付出! #旅游卡服务#

简过网:考公务员难度大吗,一般考几年才上岸!

先调查一下,大家考公务员都是几年才上岸的? 最近有网友私信小编,普通人考公要准备多久才能上岸,其实对于多久能上岸这个问题,并没有一个准确的数字,众所周知,公务员考试是有一定难度的&#xf…

Git入门 本地仓库 远端仓库 多分支

Git入门 Git入门本地git初始化git仓库初始化 创建远端仓库githubgitee 指定远端仓库推送至远端多分支将feature分支合并至dev分支 其他开发者 Git入门 本地git初始化 git仓库初始化 mkdir myrepo # 创建仓库文件夹 cd myrepo/ # 进入目录 git init # 初始化git仓库 (创建.g…

C - Popcorn(abs358)

题意&#xff1a;有n个摊子&#xff0c;m个爆米花&#xff0c;想花费最少去的店铺买到所有的口味的爆米花&#xff0c;找到每一列都为‘o’的最少行数。 分析&#xff1a;用dfs寻找最少路径 #include<bits/stdc.h> using namespace std; typedef long long ll; char x;…

CAN通信波形【示波器抓取】

在测试bms系统过程中&#xff0c;在上位机发现无法读取CAN通信&#xff0c;尝试使用示波器抓取CAN通信波形&#xff0c;&#xff0c;去确定CAN通信是否正常。 做一想要从车上测出can总线上的数据还不太容易。 于是我首先使用示波器&#xff08;我使用的示波器型号是TDS 220&am…

第十四届蓝桥杯省赛C++B组E题【接龙数列】题解(AC)

需求分析 题目要求最少删掉多少个数后&#xff0c;使得数列变为接龙数列。 相当于题目要求求出数组中的最长接龙子序列。 题目分析 对于一个数能不能放到接龙数列中&#xff0c;只关系到这个数的第一位和最后一位&#xff0c;所以我们可以先对数组进行预处理&#xff0c;将…

opencascade AIS_InteractiveContext源码学习7 debug visualization

AIS_InteractiveContext 前言 交互上下文&#xff08;Interactive Context&#xff09;允许您在一个或多个视图器中管理交互对象的图形行为和选择。类方法使这一操作非常透明。需要记住的是&#xff0c;对于已经被交互上下文识别的交互对象&#xff0c;必须使用上下文方法进行…

JVM专题十一:JVM 中的收集器一

上一篇JVM专题十&#xff1a;JVM中的垃圾回收机制专题中&#xff0c;我们主要介绍了Java的垃圾机制&#xff0c;包括垃圾回收基本概念&#xff0c;重点介绍了垃圾回收机制中自动内存管理与垃圾收集算法。如果说收集算法是内存回收的方法论&#xff0c;那么垃圾收集器就是内存回…

OBS 免费的录屏软件

一、下载 obs 【OBS】OBS Studio 的安装、参数设置和录屏、摄像头使用教程-CSDN博客 二、使用 obs & 输出无黑屏 【OBS任意指定区域录屏的方法-哔哩哔哩】 https://b23.tv/aM0hj8A OBS任意指定区域录屏的方法_哔哩哔哩_bilibili 步骤&#xff1a; 1&#xff09;获取区域…

【智能算法】目标检测算法

目录 一、目标检测算法分类 二、 常见目标检测算法及matlab代码实现 2.1 R-CNN 2.1.1 定义 2.1.2 matlab代码实现 2.2 Fast R-CNN 2.2.1 定义 2.2.2 matlab代码实现 2.3 Faster R-CNN 2.3.1 定义 2.3.2 matlab代码实现 2.4 YOLO 2.4.1 定义 2.4.2 matlab代码实现…

[开源软件] 支持链接汇总

“Common rules: 1- If the repo is on github, the support/bug link is also on the github with issues”" label; 2- Could ask questions by email list;" 3rd party software support link Note gcc https://gcc.gnu.org openssh https://bugzilla.mindrot.o…

作业7.2

用结构体数组以及函数完成: 录入你要增加的几个学生&#xff0c;之后输出所有的学生信息 删除你要删除的第几个学生&#xff0c;并打印所有的学生信息 修改你要修改的第几个学生&#xff0c;并打印所有的学生信息 查找你要查找的第几个学生&#xff0c;并打印该的学生信息 1 /*…

WSL2安装ContOS7并更新gcc

目录 WSL2安装CentOS7下载安装包安装启动CentOS7 CentOS7更换国内源gcc从源码安装gcc卸载gcc CMake中使用gcc关于linux配置文件参考 WSL2安装CentOS7 Windows11官方WSL2已经支持Ubuntu、Open SUSE、Debian。但是没有centos&#xff0c;所以centos的安装方式略有不同。 下载安…

VehicleSPY的安装与使用

VehicleSPY介绍 Vehicle Spy 是美国英特佩斯公司的一款集成了诊断、节点/ECU仿真、数据获取、自动测试和车内通信网络监控等功能的工具&#xff0c;Vehicle Spy软件支持的应用场景很多&#xff0c;无法一一列举&#xff0c;以下是一些常见的应用&#xff1a; 总线监控&#x…

解锁IDEA中Git/SVN Issue Navigation功能:80%程序员都不懂的秘密武器~

文章目录 前言什么是 Git Issue Navigation&#xff1f;配置 Git Issue Navigation1. 打开设置2. 导航到 Issue Navigation 设置3. 添加新的 Issue Navigation 规则具体示例配置 使用 Git Issue Navigation在提交信息中使用 Issue ID实际导航到连接 优点1. 快速定位问题2. 提高…

低代码+定制:优化项目管理的新方案

引言 在当今快速变化的商业环境中&#xff0c;企业需要更加灵活、高效的项目管理工具。低代码平台作为一种新的开发方式&#xff0c;因其能够快速构建应用程序而受到广泛关注。与此同时&#xff0c;软件定制开发仍然是满足特定复杂需求的重要手段。在项目管理中&#xff0c;低代…

javaEE——Servlet

1.web开发概述 所谓web开发,指的是从网页中向后端程序发送请求,与后端程序进行交互 2.java后端开发环境搭建 web后端(javaEE)程序需要运行在服务器中的&#xff0c;这样前端才可以访问得到 3.服务器是什么&#xff1f; ①服务器就是一款软件&#xff0c;可以向其发送请求&#…

【ubuntu18.04】 局域网唤醒 wakeonlan

ai服务器经常因为断电,无法重启,当然可以设置bios 来电启动。 这里使用局域网唤醒配置。 自动开关机设置 工具:ethtool 端口 : enp4s0 Wake-on: d 表示禁用Wake-on: g 激活 ,例如:ethtool -s eth0 wol g 配置/etc/rc.local ,这个文件不存在,自己创建工具下载 tengxun W…

网络研究观:网络犯罪简报

通过犯罪研究人员精选的新闻提要了解最新的全球网络犯罪威胁。 了解不同的数字欺诈以及如何保护自己。 1. 网络犯罪分子冒充 CBI 和 IB 官员&#xff1a;KP 加尔各答警察局警告公民&#xff0c;诈骗者通过发送虚假的 CBI 和 IB 通知来勒索钱财&#xff0c;指控他们在线观看儿…