聊天机器人竞技场排行榜第8周介绍MT-Bench和Vicuna-33B

聊天机器人竞技场排行榜第8周:介绍MT-Bench和Vicuna-33B

原文作者:Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Hao Zhang
日期:2023年6月22日
以下内容翻译自源英文网址: Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B | LMSYS Org
无法保证翻译的正确性

文章目录

  • 聊天机器人竞技场排行榜第8周:介绍MT-Bench和Vicuna-33B
    • 更新后的排行榜和新模型
    • 使用MT-bench和Arena评估聊天机器人
      • 动机
      • 为什么选择MT-Bench?
      • 但是,如何评判聊天机器人的回答呢?
    • 结果与分析
      • MT-Bench有效区分不同聊天机器人
      • 多轮对话能力
      • LLM评委的解释性
    • 如何在MT-Bench上评估新模型
    • 后续工作
    • 相关工作
    • 链接

在本篇博文中,我们分享聊天机器人竞技场排行榜的最新更新,现在包含更多开源模型和三个评估指标:

  1. 聊天机器人竞技场Elo评分,基于来自聊天机器人竞技场的4.2万匿名用户投票,使用Elo评分系统。

  2. MT-Bench评分,基于一套具有挑战性的多轮对话基准测试和GPT-4评分,在我们的判断LLM充当评委论文中提出和验证。

  3. MMLU评分,一个广泛采用的基准测试。

此外,我们很高兴推出一系列新的Vicuna-v1.3模型,参数规模从7B到33B,在用户分享对话的扩充数据集上进行了训练。模型权重现已开源。

更新后的排行榜和新模型

表 1. LLM 排行榜(时间范围:2023 年 4 月 24 日至 6 月 19 日)。最新且详细的版本在这里。

模型MT-bench(分数)竞技场Elo评级MMLU许可
GPT-48.99122786.4专有
GPT-3.5-turbo7.94113070.0专有
Claude-v17.90117875.6专有
Claude-instant-v17.85115661.3专有
Vicuna-33B7.12-59.2非商业用途
WizardLM-30B7.01-58.7非商业用途
Guanaco-33B6.53106557.6非商业用途
Tulu-30B6.43-58.1非商业用途
Guanaco-65B6.41-62.1非商业用途
OpenAssistant-LLaMA-30B6.41-56.0非商业用途
PaLM-Chat-Bison-0016.401038-专有
Vicuna-13B6.39106152.1非商业用途
MPT-30B-chat6.39-50.4CC-BY-NC-SA-4.0
WizardLM-13B6.35104852.3非商业用途
Vicuna-7B6.00100847.1非商业用途
Baize-v2-13B5.75-48.9非商业用途
Nous-Hermes-13B5.51-49.3非商业用途
MPT-7B-Chat5.4295632.0CC-BY-NC-SA-4.0
GPT4All-13B-Snoozy5.4198643.0非商业用途
Koala-13B5.3599244.7非商业用途
MPT-30B-Instruct5.22-47.8CC-BY-SA 3.0
Falcon-40B-Instruct5.17-54.7Apache 2.0
H2O-Oasst-OpenLLaMA-13B4.63-42.8Apache 2.0
Alpaca-13B4.5393048.1非商业用途
ChatGLM-6B4.5090536.1非商业用途
OpenAssistant-Pythia-12B4.3292427.0Apache 2.0
RWKV-4-Raven-14B3.9895025.6Apache 2.0
Dolly-V2-12B3.2885025.7MIT
FastChat-T5-3B3.0489747.7Apache 2.0
StableLM-Tuned-Alpha-7B2.7587124.4CC-BY-NC-SA-4.0
LLaMA-13B2.6182647.0非商业用途

使用MT-bench和Arena评估聊天机器人

动机

尽管已经存在几个大语言模型的基准测试,比如MMLU、HellaSwag和HumanEval,我们注意到这些基准测试在评估语言模型的人类偏好时可能存在不足。传统的基准测试通常针对选择题等封闭性问题进行测试,这与语言模型聊天助手的典型用例不符。

为弥补这一空白,在本次排行榜更新中,除了聊天机器人竞技场Elo系统,我们还新增了一个基准测试:MT-Bench。

  • MT-bench是一个精心策划的多轮对话质量基准测试,设计用于评估模型在多轮对话中的会话流程和遵循指令的能力。您可以在这里查看MT-bench的示例问题和回答。

  • 聊天机器人竞技场是一个众包的对战平台,用户可以在上面询问聊天机器人任意问题并选择自己偏好的回答进行投票。

这两个基准测试都以人类偏好作为主要指标。

为什么选择MT-Bench?

MT-Bench是一个精心策划的基准测试,包含80个高质量的多轮对话问题。这些问题经过精心设计,旨在评估模型在多轮对话中的会话流程和遵循指令的能力。它既包含了常见的用例,也包含了用于区分聊天机器人的挑战性指令。MT-Bench作为我们基于众包的评估方式——聊天机器人竞技场的一个质量控制的补充。

通过运行聊天机器人竞技场两个月并分析用户的提示,我们确定了8个主要的用户提示类别:写作、角色扮演、推理、数学、编码、提取、STEM和人文社科。我们为每个类别设计了10个多轮对话问题,共计160个问题。下图显示了一些示例问题。更多问题可以在这里找到。

示例问题

图1:MT-Bench的示例问题

但是,如何评判聊天机器人的回答呢?

尽管我们认为人类偏好是黄金标准,但收集人类偏好非常缓慢且昂贵。在我们的第一篇Vicuna博文中,我们探索了一种基于GPT-4的自动化评估流程。这种方法随后在几项同期和后续工作中广泛采用。

在我们最新的论文《判断LLM充当评委》中,我们进行了系统研究,以回答这些LLM评委有多可靠。这里我们简要概述结论,建议阅读全文以了解更多细节。

我们首先承认LLM评委可能存在的局限性:

  • 位置偏见,LLM评委可能偏向比较中的第一个回答
  • 冗长偏见,LLM评委可能偏向更长的回答,不考虑质量
  • 自我增强偏见,LLM评委可能偏向自己的回答
  • 有限的推理能力,指LLM评委在评判数学和推理问题时的可能缺陷

然后我们探索了如何通过少射判断、思路评判、基准评判和微调评判来缓解这些局限性。

在实施部分解决方案后,我们发现尽管存在局限性,强大的LLM评委如GPT-4可以与受控和众包的人类偏好实现非常好的一致性,达到80%以上的一致率。这一程度的一致性与两个不同人类评委之间的一致性相当。因此,如果谨慎使用,LLM评委可以作为人类偏好的一个可扩展和可解释的近似。

我们还发现,基于GPT-4的单回答评分,不需要成对比较,也可以有效对模型进行排名并与人类偏好匹配得很好。在表1中,我们以MT-Bench的得分形式呈现排行榜的一列。

结果与分析

MT-Bench有效区分不同聊天机器人

表1详细列出了增强后的基准测试排行榜,我们对28个流行的指令调优模型进行了全面评估。我们观察到聊天机器人具有不同能力的明显区分,分数与聊天机器人竞技场Elo评分高度相关。特别是,MT-Bench揭示了GPT-4与GPT-3.5/Claude之间以及开源和专有模型之间的明显性能差距。

为深入了解聊天机器人之间的区别因素,我们选择了一些代表性聊天机器人,在图2中按类别细分了其表现。与GPT-3.5/Claude相比,GPT-4在编码和推理方面的表现更优,而Vicuna-13B在几个特定类别中表现明显落后:提取、编码和数学。这表明开源模型还有很大的改进空间。

各模型能力比较

图2: 6个代表性大语言模型在8个类别中的能力比较:写作、角色扮演、推理、数学、编码、提取、客观规律、人文

多轮对话能力

我们接下来分析了选定模型的多轮得分,如表2所示。

表2. 不同LLM在MT-bench中第一轮和第二轮对话的得分明细。满分为10。

模型第一轮平均得分第二轮平均得分得分差值
GPT-48.969.030.07
Claude-v18.157.65-0.50
GPT-3.5-turbo8.087.81-0.26
Vicuna-33B7.466.79-0.67
WizardLM-30B7.136.89-0.24
WizardLM-13B7.125.59-1.53
Guanaco-33B6.886.18-0.71
Vicuna-13B6.815.96-0.85
PaLM2-Chat-Bison6.716.09-0.63
Vicuna-7B6.695.30-1.39
Koala-13B6.084.63-1.45
MPT-7B-Chat5.854.99-0.86
Falcon-40B-instruct5.814.53-1.29
H2OGPT-Oasst-Open-LLaMA-13B5.513.74-1.78

MT-bench在设计中包含了具有挑战性的后续问题。对于开源模型,从第一轮到第二轮表现明显下降(例如Vicuna-7B、WizardLM-13B),而强大的专有模型能够保持一致性。我们还注意到基于LLaMA的模型与许可较宽松的模型(MPT-7B、Falcon-40B和指令调优的Open-LLaMA)之间存在显著的表现差距。

LLM评委的解释性

另一个LLM评委的优势在于它们可以提供可解释的评估。图3展示了GPT-4对MT-bench问题的判断示例,其中alpaca-13b和gpt-3.5-turbo的回答。GPT-4提供了逻辑完整的反馈来支持其判断。我们的研究发现,这些评论有助于引导人类做出更明智的决定(请参阅4.2节了解更多细节)。所有GPT-4判断可以在我们的演示网站上找到。

解释性示例

图3:MT-bench在评估LLM的人类偏好时提供了更多的解释性

总之,我们已经展示了MT-Bench可以有效区分不同能力的聊天机器人。它是可扩展的,通过类别细分提供了有价值的见解,并为人类评委提供解释以核实。但是,LLM评委应谨慎使用。在评判数学/推理问题时,它仍可能出错。

如何在MT-Bench上评估新模型

在MT-bench上评估模型非常简单快速。我们的脚本支持所有huggingface模型,并提供了详细的说明,您可以生成模型对MT-bench问题的回答及其GPT-4判断。您还可以在我们的gradio浏览演示中检查回答和评论。

后续工作

  • 发布对话数据

    我们正在准备向更广泛的研究社区发布聊天机器人竞技场对话数据。敬请期待更新!

  • MT-bench-1K

    MT-Bench目前包含80个精心策划的高质量问题。我们正在积极扩展问题集到MT-Bench-1K,方法是整合来自聊天机器人竞技场的高质量提示并使用LLM自动生成新提示。如果您有任何好的想法,我们很乐意倾听。

  • 合作邀请

    我们正在与各种组织接洽,探讨在大规模标准化评估人类对LLM偏好的可能性。如果您对此感兴趣,请随时联系我们。

相关工作

在研究如何评估人类偏好和如何利用强大的LLM充当评委进行评估方面,已经进行了大量有趣的工作。欢迎查看他们的作品并了解这个主题的更多观点:

  • Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
  • Can foundation models label data like humans?
  • How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
  • The False Promise of Imitating Proprietary LLMs
  • AlpacaEval and AlpacaFarm
  • Large Language Models are not Fair Evaluators

链接

以下是运行MT-bench和本博文中使用的其他指标的可用工具和代码:

  • MT-bench使用fastchat.llm_judge
  • 竞技场Elo计算器
  • MMLU基于InstructEval和Chain-of-Thought Hub

如果你希望在排行榜上看到更多模型,我们邀请你贡献FastChat或联系我们提供API访问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69067.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

magento|stripe信用卡支付对接中出现的问题

最近领导让测试一个新的信用卡通道,https://stripe.com/,stripe信用卡通道。这个支付之前在另外一个站上用过,但是就一个插件装上就ok了,配上pk_test和sk_test即可。但在这次使用的时候依旧出现了问题。 出现的问题是在结账页总是…

信用卡交易欺诈数据检测

背景 目标 案例流程 方案一:下采样 方案二:采用SMOTE 技术来处理数据不平衡问题,SMOTE (Synthetic Minority Over-sampling Technique),即:合成少数样本过采样技术 (1) 从少数类样本中,随机选择一个样本A…

银联支付出现这个错误Invalid request.

更换新的服务器后,银联出现这个问题: 银联支付出现这个错误Invalid request. 解决办法,重新配置网银支付的参数

信用卡交易数据异常检测

目录 一、案例背景以及数据集 二、代码 1、导入库,导入数据集。 2、数据标准化 3、下采样 4、划分训练集、测试集 5、建立模型,交叉验证 6、原始训练集预测效果 7、下采样训练集预测效果 8、绘制混淆矩阵 9、predict_proba自定义阈值 10、SM…

最近接触的几种APP支付方式——信用卡支付AuthorizeNet

同样基于.net core webapi ,对外暴露支付接口 1.nuget添加引用:AuthorizeNet 里面的方法大家不妨都了解下,方便自己功能调用。 核心代码直接贴出,仅供参考 var transactionRequestType new transactionRequestType { poNumber $&…

信用卡欺诈检测

信用卡欺诈检测 信用卡欺诈检测是kaggle上一个项目,数据来源是2013年欧洲持有信用卡的交易数据,详细内容见https://www.kaggle.com/mlg-ulb/creditcardfraud 这个项目所要实现的目标是对一个交易预测它是否存在信用卡欺诈,和大部分机器学习项…

Thinkphp使用Authorize.Net实现VISA信用卡支付

官方网站:https://developer.authorize.net/ 开发者文档:https://developer.authorize.net/api/reference/index.html 一、注册沙箱账号进行调试 注册成功之后会弹出你的沙箱账号信息 API LOGIN ID 48h4xxxxxePS TRANSACTION KEY 4S9xxxxxxxxxx8Aq K…

4款好用的PC端电子书阅读软件,千万别错过

分享4款好用的电子书阅读软件,支持多种电子书格式阅读,并且阅读界面舒适可随意调整,大家快去试试吧! 1、百度阅读器精简版 支持阅读的格式:TXT、PDF 一个百度推出的电子书阅读软件,简单小巧,…

GitBook制作epub电子书,并上传到微信读书

目标:将一本 GitBook(SpringBoot2 中文参考指南)转换为 epub 电子书,放到微信读书里。 准备工作:Windows 10 X64,NodeJS及版本管理工具nvm、Chrome浏览器 步骤一:打开 https://jack80342.gitbo…

学生党福音 电子教材下载网站推荐

还在购买电子教材?这几个电子教材下载网站可以免费下载下载教材,一起来看看吧。 1.中小学数字教材一站式下载 一个包含小学和中学教科书的网站。从小学一年级到高中三年级的教科书均包括在内。支持在线查看和下载,下载格式为PDF。我们可以滑…

信息时代,为什么还读纸质书

后人进步,是因为脚踩先人的脚印,这是知识进步最重要的途径之一。 唐僧取经,历经千山万水也要把真经取回来,取回来,再翻译,再传播;中国古代四大发明之造纸术、印刷术,承载了古代劳动…

Kindle下线在即 使用cpolar建立自己的电子书图书馆

在电子书风靡的时期,大部分人都购买了一本电子书,虽然这本电子书更多的时候是被搁置在储物架上吃灰,或者成为盖泡面的神器,但当亚马逊发布消息将放弃电子书在中国的服务时,还是有些令人惋惜,毕竟谁也不想大…

推荐一些可以获取免费的国外的原版书籍(电子版)网站

Z-library 推荐指数:★★★★★ 网站:https://z-lib.org/ 这个网站据称是世界最大的电子图书馆,收藏的资源包含725万本书、8075万的文献条目,可以说是相当丰富了。 网站支持中文搜索,不过注册登录就可以直接下载电子书…

彻底凉了!全球最大电子书网站遭封站

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 前几天,号称是世界上最大的免费电子图书馆 Z-Library,被美国查封,相关的数个域名全部无法访问! 根据 DNS 记录和其他信息显示&#x…

2023年最值得关注的十大科技趋势,这些技术将迎来爆发,把握住风口和掘金机会!

1 月 11 日,InfoQ获悉,达摩院 2023 十大科技趋势发布,生成式 AI、Chiplet 模块化设计封装、全新云计算体系架构等技术入选。 达摩院发布十大科技趋势 达摩院认为,全球科技日趋显现出交叉融合发展的新态势,尤其在信息与…

爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长

机器之心报道 机器之心编辑部 《西部世界》的游戏逐渐走进现实。 我们能否创造一个世界?在那个世界里,机器人能够像人类一样生活、工作、社交,去复刻人类社会的方方面面。 这种想象,曾在影视作品《西部世界》的设定中被完美地还原…

Android 添加App快捷方式到桌面

原创文章,如有转载,请注明出处:http://blog.csdn.net/myth13141314/article/details/68926849 主要原理是通过向系统发送创建快捷方式的广播 设置Intent,传递快捷方式的信息,名字和图标等 Intent shortcut new Int…

如何把一个网页设置快捷方式放到桌面上去,或者手机桌面当App一样使用

分别讲电脑端和手机端: 电脑端: 在尝试好几种方式后,还是觉得最最简单的方法,还是用电脑自带的方式不借助任何外力方便,利用谷歌的方式也讲一下哈(利用谷歌会有自己的图标这点不错); 其他方式: https://zh.wikihow.com/%E6%8A%8A%E7%BD%91%E7%AB%99%E7%9A%84%E5%BF%AB%E6%8D…

给你的AppImage创建桌面快捷方式

运行环境:Ubuntu 22.04 LTS 1.首先准备好AppImage文件并放在一个你知道的地方 2.打开终端,在/usr/share/applications下新建APP.desktop文件(APP可以改成你的应用名称) cd /usr/share/applications sudo touch APP.desktop 3. root模式下使用vi编辑qi编辑APP.deskto…

iPhone苹果手机如何将百度小程序添加到手机桌面方便使用?

苹果iPhone手机将百度小程序添加到手机桌面后,下次使用直接可以在iPhone苹果手机桌面找到像APP一样的图标,点击直接打开百度小程序方便使用; 如何将百度小程序添加到手机桌面方便使用? 1、打开手机百度APP,搜索要添加…