大模型battle?LLM排行榜出炉,清华竟位列第五!

fbcc1c078d5b3e033c361e7d6557d18a.gif

【CSDN 编者按】自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布 Elo 等级排行榜,排行榜至现在仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!

作者 |LMSYS 组织

译者|陈静琳 责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

开源大模型太多?

LMSYS Org 直接建立了一个竞技场,以众包方式让他们匿名、随机的进行对抗,形成排行榜。并邀请整个社区加入这项工作,贡献新模型,所有人都可以参与提问和投票来评估它们,到底谁是你心目中的 NO.1 !

大模型们直接进行比拼(图1),就像下图中,模型 B 完美说出正确答案,而模型 A 牛头不对马嘴,遗憾出局。

7074e57e3eb7a31ec55eb85fa4015973.png

图 1. 并排聊天和投票界面 

根据大数据分享的4.7K投票数据计算 Elo 评分,得出表 1 排行榜。vicuna 以 1169 分稳居榜首,遥遥领先第二名 koala,他们都是 130 亿参数,而来自清华大学的 chatglm 只有 60 亿参数还仍在前五的序列,相比而言,有强大基础的 llama 就落后许多,已经排到第八位了,stablem 的大模型排名最后,与前一名相差近百分。

表 1. 开源大型语言模型排行榜

序号

模型

Elo等级

描述

1

 vicuna-13b

1169

LLaMA 对 LMSYS 的用户共享对话进行微调的聊天助手

2

koala-13b

1082

BAIR 的学术研究对话模型

3

oast-pythia-12b 

1065

LAION 人人可用的开放助手

4

alpaca-13b

1008

LLaMA 在斯坦福的指令遵循演示中微调的模型

5

chatglm-6b

985

清华大学开放式双语对话语言模型

6

fastchat-t5-3b

951

LMSYS 从 FLAN-T5 微调的聊天助手

7

dolly-v2-12

944

Databricks 的指令调优开放大型语言模型

8

llama-13b

932

Meta 开放高效的基础语言模型

9

stablem-tuned-alpha-7b

858

稳定性 AI 语言模型

98fedec3e7463069d79e609b4d6b5d51.png

  怎样评估大模型们?

https://arena.lmsys.org 这里就是大模型们的竞技场啦!

LMSYS 组织在这里进行数据收集。

  • 当用户进入竞技场时,他们可以与两个并排的匿名模型聊天,如图1所示。

  • 在得到两个模型的回应后,用户可以继续聊天或为他们认为更好的模型投票。

  • 一旦提交投票,模特的名字就会被披露。用户可以继续聊天或与两个新的随机选择的匿名模特重新开始新的战斗。

  • 在他们的分析中,只使用模型名称被隐藏时的投票,这个竞技场记录了所有用户的互动。

竞技场大约在一周前就推出了,现已经收集了4.7万张有效的匿名投票,LMSYS 组织分享了一些探索性的分析,并在此提出一个简短的总结。

7471c682925f7f5e5d056d636edae958.png

           图 2:每个模型组合的战斗计数

图 2 显示了每个模型组合的战斗计数,最初发起比赛时,LMSYS 组织根据他们的基准来配对模型,优先考虑他们认为会是强配对的东西,然后再改用均匀采样来获得更好的排名整体覆盖。最后,在比赛接近尾声时 LMSYS 组织还推出了一种新模型 fastchat-t5-3b ,这样就形成了不均匀的模型频率。

9cddc753d67bffbc528bd589af305324.png

图 3:前 15 种语言的战斗计数

还有,在所有数据中描绘了语言分布,显示大多数用户提示都是英语。

059671342009e7ccb4d6f116ae4e77ca.png

测试模型面临巨大挑战

随着 ChatGPT 的巨大成功,经过微调以遵循指令的开源大型语言模型激增,这些模型能够针对用户的问题/提示提供有价值的帮助。例如,基于 LLaMA 的 Alpaca 和 Vicuna,以及基于 Pythia 的 OpenAssistant 和 Dolly。

尽管每周都会不断发布新模型,但社区在对 LLM 助手进行基准测试极具挑战,因为问题可以是开放式的,响应质量很难评估。在这种情况下,我们通常不得不求助于基于成对比较的人工评估,也是基于成对比较的良好基准系统有一些所需的属性:

  • 可扩展性:当无法为所有可能的模型对收集足够的数据时,系统应该扩展到大量模型。

  • 增量性:该系统应该能够使用相对较少的试验来评估新模型。

  • 独特的秩序:系统应该为所有模型提供唯一的顺序。给定任何两个模型,应该能够分辨出哪个排名更高或者它们是否并列。

但是,其实现有的 LLM 基准系统很少满足所有这些属性。

经典的 LLM 基准框架,例如 HELM 和 lm-evaluation-harness ,为学术研究中常用的任务提供多指标测量。但是,它们不是基于成对比较,所以不能有效地评估开放式问题。OpenAI 也推出了 evals 项目来收集更好的问题,但这个项目不提供所有参与模型的排名机制。LMSYS 组织推出 Vicuna 模型时,他们使用了基于 GPT-4 的评估管道,但它没有提供可扩展和增量评级的解决方案。

Elo 评级系统有望提供上述所需的所有属性!

Chatbot Arena 是一个以众包方式提供匿名随机战斗的 LLM 基准平台。采用 Elo 评分系统,这是一种在国际象棋和其他竞技游戏中广泛使用的评分系统。

为了收集数据,LMSYS 组织在一周前推出了几个流行的开源 LLM 的竞技场。在竞技场中,用户可以与两个匿名模特并排聊天,并投票选出哪个更好。

HELM / lm-评估-线束

HELM / lm-evaluation-harness

OpenAI/eval

Alpaca Evaluation

Vicuna Evaluation

Chatbot Arena

题源

学术数据集

混合

自指导评估集

GPT-4 生成

用户提示

评估员

程序

程序/模型

人类

GPT-4

用户

指标

基本指标

基本指标

赢率

赢率

Elo 评级

14e743bf6be6c7447599a5d34964375f.png

Elo评级系统

LMSYS 组织根据Elo评分系统来计算玩家相对技能水平,这种方法现已广泛应用于竞技游戏和体育运动中。两名球员之间的评分差异可以预测比赛的结果。

如果玩家 A 的评分为 Ra ,玩家 B 的评分为 Rb ,则玩家 A 获胜概率的确切公式(使用以 10 为底的逻辑曲线)为:

69cd5026018cd30b763b68ee4dfa2544.png

玩家的评分可以在每场战斗后线性更新。假设玩家 A(具有 Rating Ra)被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是:

070b14395fb6fdf8c7a82a73a7839815.png

使用收集到的数据,计算了该笔记本中模型的 Elo 评分,并将主要结果放在表 1 中。欢迎大家自己尝试使用投票数据来计算评分。并且,数据只包含投票结果,没有对话历史,因为公开对话历史会引起隐私和病毒等担忧。

34756b677714599ce70c99f1e8fc8308.png

双赢率

作为校准的基础,LMSYS 组织还展示了锦标赛中每个模型的成对获胜率(图 4)以及使用 Elo 评级估算的预测成对获胜率(图 5)。通过比较数据,发现 Elo 评级可以相对较好地预测胜率。

17e0284236743cde401d3c47eb2e6675.png

      图 4:模型 A 在所有非平局 A 与 B 战斗中获胜的比例。

bc7e6e7ec36b23c83940ad8f647b2c68.png

     图 5:在 A 对 B 战斗中使用模型 A 的 Elo 评级预测胜率

5d0c9c5bb95d1ed0ebd7a507e90592fa.png

未来的计划

LMSYS 组织计划在以下项目上开展工作:

  • 添加更多闭源模型(ChatGPT-3.5 现已在匿名竞技场可用)

  • 添加更多开源模型

  • 发布定期更新的排行榜(例如,每月)

  • 实施更好的采样算法、锦标赛机制和服务系统以支持更多模型

  • 提供不同任务类型的细粒度排名。

希望所有用户能进行反馈,以使竞技场变得更好。

LMSYS 组织邀请整个社区通过贡献各自的模型并为能提供更好答案的匿名模型投票来加入这项基准测试工作。参与者可以访问 https://arena.lmsys.org 为更好的模型投票。如果想在竞技场中查看特定模型,可以按照指南(https://github.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。

  • 演示:https: //arena.lmsys.org

  • 排行榜:https: //leaderboard.lmsys.org

  • GitHub: https://github.com/lm-sys/FastChat

  • Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

推荐阅读:

▶谷歌全面反攻 ChatGPT!PaLM 2、Gemini 双杀,Bard 正式开放

▶OpenAI 最新“神”操作:让 GPT-4 去解释 GPT-2 的行为!

▶阿里巴巴集团告别 CTO?

32f355cc26fbc6046a878550bc8f16cb.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26922.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手教你写个扫雷(插旗,及展开图解与实现)

学习了二维数组以后,不仅可以写个三子棋,我们也可以更近一步,来写个扫雷玩玩? 编写程序的时候,一定要先做好构思与大体思路步骤,扫雷的基本运行逻辑其实并不算非常复杂,我们只需要把每一步捋顺…

四步手把手教你实现扫雷游戏(c语言)

七步手把手教你实现扫雷游戏 c语言实现扫雷游戏一. 整体思路二. 设计棋盘以及初始化三. 埋雷四. 扫雷 c语言实现扫雷游戏 一. 整体思路 和上一篇文章的三子棋一样 第一步咱们创建三个工程文件 game.c 文件 用来实现游戏的函数定义 game.h 文件 用来声明函数以及需要的头文件 …

C/【扫雷】

**本文是用C语言写的扫雷小游戏———一个C语言前期寓教于乐的小游戏。 🌱博客主页:大寄一场. 🌱系列专栏:C语言学习笔记 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注 目录 一.游戏菜单的创建 二.游戏实现…

扫雷游戏-C实现

扫雷游戏 纯C,运用数组,循环实现,基础巩固 注:本篇将重心放在思路以及核心步骤讲解,重要的不是将每一部分代码记下了,而是将核心思路和代码实现理解透彻。如果你对本篇一些内容跳转,细节表示茫然…

ChatGPT 速通手册——ChatGPT 的自我介绍

从 ChatGPT 的名字就可以看出,它的最核心功能就是 Chat(聊天)。那么,我们就以聊天的形式,开始本书的内容。 先让 ChatGPT 自己做一次自我介绍。既可以展现 ChatGPT 的产品使用形式,也可以快速了解 ChatGPT 的技术概念:…

VUE svg图标 报错

:咱前端用到svg的地方多了去了 这可得会 目录 下载安装 svg 配置config文件 在vue.config.js 创建icon文件夹,存放svg格式图片 icon/index.js 创建组件components ---> SvgIcon src/utils/validate.js 在main.js引入 下载安装 svg npm ins…

可以微调类ChatGPT模型啦!开源Alpaca-LoRA+RTX 4090就能搞定

源 | 机器之心 Alpaca-LoRA 将微调类 ChatGPT 模型的算力需求降到了消费级,训练个自己的中文对话模型真就没那么难了。 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大,但 OpenAI…

如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?

要使用OpenAI的微调技术来训练自己的专有模型,您需要遵循以下步骤: 获取和准备数据集:首先,您需要准备自己的数据集。可以使用公共数据集,也可以使用自己的数据集。数据集需要以特定格式(如JSONL)进行存储,并且需要经过清洗和预处理。 选择合适的模型和超参数:根据您…

一觉睡醒,ChatGPT 竟然被淘汰了?

转自机器之心 编辑:杜伟、陈萍 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始…

ChatGPT实现stackoverflow 解释

stackoverflow 解释 ChatGPT 公开服务以来,程序员们无疑是最早深入体验和"测试"的一批人。出色的效果也引发了一系列知识产权上的争议。著名的 stackoverflow 网站,就宣布禁止用户使用 ChatGPT 生成的内容来回答问题,一经发现&…

ChatGPT疯狂生成「辣鸡」内容,Stack Overflow气急,连夜封杀!

时下爆火的ChatGPT,被网友们用来生成海量答案。而Stack Overflow已经不堪其扰,发起「追杀」:应封尽封! OpenAI的新模型ChatGPT才诞生没几天,已经成为广大网友的「装逼利器」。 它的回答不说正确不正确,乍一…

轻松掌握RecyclerView缓存机制

在 Android 应用程序中,RecyclerView 是一个非常重要的控件。它被广泛使用,因为它可以帮助我们展示大量的数据,同时也能够提供流畅的滑动体验。然而,如果我们不小心处理好 RecyclerView 的缓存机制,就可能会导致性能下…

chatgpt赋能python:Python内存管理:如何清理内存

Python内存管理:如何清理内存 Python作为一种高级编程语言,在各种应用领域都得到了广泛的应用。作为一种解释型语言,Python有着自动垃圾回收器的优点,但在长时间运行的应用程序中,Python可能会占用大量内存&#xff0…

[chat-GPT]解决OpenAI‘s services are not available in your country问题

OpenAI‘s services are not available in your country 按照网上的教程一步步配置chat-GPT,一直换不同国家的梯子也无济于事,各种搜索尝试,终于解决 解决方法 1.换浏览器 我换了firefox 一开始用的谷歌浏览器 2.清楚当前使用的浏览器所有…

最新版ui成语填空答题,成语接龙小程序源码,修复登录接口问题

这类的成语接龙填词游戏,之前我就见过朋友在玩,自带裂变属性,引流、广告效果都是一绝。强制分享广告,可拆随机金额红包,广告配置、激励配置等都在后台即可配置管理,无需翻改代码。朋友运营过的东西&#xf…

小程序“成语猜题”部分答案

哀哀父母可哀呀可哀,我的父母啊!原指古时在暴政下人民终年在外服劳役,对父母病痛、老死不能照料而悲哀。哀哀欲绝绝:断气,死。形容极其悲痛。哀兵必胜原意是力量相当的两军对阵,悲愤的一方获得胜利。后指受…

chatgpt赋能python:Python怎样模拟成语填空游戏

Python怎样模拟成语填空游戏 成语填空游戏是一种非常受欢迎的智力游戏。在这个游戏中,玩家需要根据提示,在给出的空格中填入对应的成语。而Python是一个功能强大的编程语言,用起来十分简单。在本文中,我们将介绍如何使用Python来…

看图猜成语小程序设计与实现(小程序+PHP)

目 录 摘 要 I Abstract II 1 绪论 1 1.1 研究背景 1 1.2 国内外研究现状 1 1.2.1 国内研究现状 1 1.2.2 国外研究现状 2 1.3 论文组织结构 3 2 相关技术 4 2.1微信小程序介绍 4 2.1.1微信介绍 4 2.1.2微信小程序简介 4 2.1.3微信小程序基本功能 5 2.2开发技术的介绍 6 2.2.1 P…

12月编程语言排行榜:前三终于变了,Java跌出前三?它居然首次进前三!

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:爆火的ChatGPT太强了!写代码、改bug,网友&…

C++ 涨幅依旧亮眼,Visual Basic 一降再降!TIOBE 5 月榜单发布

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 作为编程语言排行榜领域最权威的组织之一,今天 TIOBE 最新发布了 5 月榜单,快让我们看看这个月编程语言的流行趋势有何变化吧! C 涨幅依旧亮眼,Visual …