AI2:仅凭开源数据,可达ChatGPT 83%表现

夕小瑶科技说 原创
作者 | Python

ChatGPT强大的性能让人爱不释手,ChatGPT迟迟不开源让人恨得牙根痒痒。那仅通过开源数据,能够取得怎样的效果呢?近期,AI2的一篇论文显示,最好的65B规模的模型能够达到ChatGPT表现的83%,能够达到GPT-4表现的68%。让我们一起来看看他们是怎么做的。

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

论文题目:

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

论文链接:

https://arxiv.org/pdf/2306.04751.pdf

项目链接:

https://github.com/allenai/open-instruct

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

开源资源使用

ChatGPT等大规模语言模型(简称大模型)的训练主要分成两个阶段:语言模型训练与指令精调。对语言模型训练,该文主要探索了不同规模3种预训练模型:LLaMa、OPT和Pythia。下图展示了不同模型的参数规模及预训练时的数据规模。

而在第二步的指令精调中,该文探索了如下12个开源的指令精调数据集。这些数据集的构建思路主要包括5个方向:

  1. 通过现有的NLP数据集构建
  2. 人类从头写
  3. 通过GPT4等特定模型生成
  4. 人类写的prompt+模型生成补全
  5. 通过思维链(CoT)、代码补全等特定形式构建

图中, N r o u n d s N_{rounds} Nrounds为对话的平均轮数,后两列为用户prompt与生成内容的平均长度。

作者还构建了2个混合数据源的训练集,包括:

  • Human data mixture:含有人类标注的数据集(FLAN V2, CoT, Dolly, 和 Open Assistant 1)
  • Human+GPT data mix:进一步增加模型生成的数据集(GPT4-Alpaca, Code-Alpaca, and ShareGPT)

评价方式

如何评估大模型的好坏也是个复杂的问题。该文采用了包括自动评价和人工评价的方式,包括:

  • 事实知识:Massive Multitask Language Understanding dataset (MMLU)。以单选题的形式,涵盖了57个学科,从入门级到专业级难度的都有。
  • 推理:Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是小学难度的数学题;而BBH包含了23种较难的推理任务,比如日期理解、影评、逻辑归纳、目标计数等。
  • 多语言能力:基于TyDiQA,段落级抽取式阅读理解数据集,包含11种不同形式的语言。
  • 编程:基于HumanEval数据集,基于文档的函数级变成能力(为避免混淆,这里改称为Codex-Eval)。
  • 基于模型的评价方式:参考AlpacaFarm的设置,选取805个开放式指令。让Davinci-003生成长度不超过2048的回复作为基准,并让GPT-4来做排序比较。
  • 人工评价:考虑了332个指令(源于Self-Instruct 和Vicuna)。指标包括:
    • 二分类地去判断每个回复是否可以接受
    • 5分类地两两比较模型输出结果

实验结果

结论1:不同的Instruction Tuning数据集,会给模型带来不同方面的优势。

结论2:混合多种Instruction Tuning数据集效果会更好。

这两条结论很容易从下图中看出。比如MMLU上,用Flan V2最好,GSM上,用CoT最好,在Codex-Eval上用Code-Alpaca最好。Instruction Turing数据和下游任务一致性越高,表现就越好。而看均值的话,混合最多数据集的Human+GPT data mix最好。

接下来,使用Human+GPT data mix,检验参数量相当的的Pythia(300B)、OPT(180B)和LLAMA(1.0T)模型的表现,如下图所示,发现表现与预训练时使用的数据规模一致。

结论3:参数规模相同时,backbone模型预训练数据量越大表现越好。

后文将在Human+GPT data mix上调整过的LLAMA模型称作TÜLU。下图印证了几个比较常规的结论:参数越多表现越好;Instruction Tuning对所有参数规模的模型都有效;参数规模越小提升越大。以及:

结论4:TÜLU 65B同ChatGPT相比还有差距,表现达到ChatGPT的83%,GPT-4的68%。

具体的人类评价结果如下图所示,可以看到 TÜLU 65B 和 ChatGPT 相比仍有较大差距。(下图左是是否接受的0-1评分,下图右为两两比较评分)

总结

OpenAI的ChatGPT等模型不开源,给学术界相关研究提出了很大的挑战。本文系统地探索了开源数据集上Instructiong Tuning的结果,并同ChatGPT于GPT-4的结果系统比较,对相关研究具有较好的参考价值。

此外,对比本文于OpenAI的论文也可以看出,OpenAI真的是什么训练细节都不讲。且不说GPT-4的技术报告中没有涉及任何技术细节,就连最近被大家夸赞开源了数据集的文章verify step by step中透露的技术细节也远少于本文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8925.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt中的强化学习 PPO

PPO? 强化学习 基本概念 强化学习五要素:智能体、行为、环境、状态、奖励。 先直接将五个要素映射到文本生成任务上: 智能体:生成模型。 行为: 获取当前step token的概率分布,并选取其中一个作为生成的token。 环…

ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》(2018)

论文总结 以下是我阅读完整篇论文做的个人总结,基本包含了ChatGPT1设计的完整框架思路,可以仅看【论文总结】章节。 在GPT1实现的核心架构中,包含两个阶段。 第一阶段 在第一阶段基于一个包含7000本书籍内容的海量未标注文本数据集进行无…

投资者必读:巴菲特2023致股东信全文

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告合集 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 ChatGPT使用总结:150个ChatGPT提示此模板 ChatGPT数据集之谜 …

翻译: 比尔·盖茨 人工智能与手机和互联网一样具有革命性 人工智能时代已经开始

在我的一生中,我看到了两次技术演示,让我感到革命性。 第一次是在 1980 年,当时我接触到了图形用户界面,这是包括 Windows 在内的所有现代操作系统的前身。我和给我看演示的人坐在一起,一位名叫Charles Simonyi的杰出…

面对职业焦虑,我们需要做些什么?

目录 大环境分析:AI 发展汹涌而上 温水煮青蛙:那些“被替代”的“我们” 码农“分类”:程序员都在做些什么? 码农黑暗季:失业潮原因分析 程序员短期真的可替代吗? AI 发展来势汹汹,如何顺势…

AI 正在杀死旧 Web?

编译 | 苏宓 出品 | CSDN(ID:CSDNnews) 随着 OpenAI 的 ChatGPT、Google 的 Bard 等 AIGC 工具的出现,由 AI 驱动的内容、信息、机器人已经在过去一年中迅速融入了 Web 网站之中。 然而,在这些工具带来极大便利、提升效…

ChatGPT + 大模型 = 王炸!!

最近,总在业内传着一股风,那就是:大模型时代将会有大量的程序员被淘汰,可谓人心惶惶。但真实情况,真的是这样吗?我不这样认为。 大模型时代下,或将催化更多的程序员,有更多人成为程序…

有哪些值得推荐的数据可视化工具?

作者:文兄 链接:https://www.zhihu.com/question/19929609/answer/133825589 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 谢邀。本答案提要:1.plotly 2.R ggplot23.无需编程语言…

chatgpt赋能python:如何用Python做动画

如何用Python做动画 Python 是一门强大的编程语言,它不仅可以用于常规软件开发,还可以用于动画制作。在本文中,我们将介绍如何使用 Python 来制作动画并为其优化搜索引擎的内容。让我们开始吧! 什么是动画? 在我们深…

chatgpt赋能Python-python_mime

Python MIME:理解和使用 Python MIME 是一个用于处理电子邮件和其他多媒体内容的 Python 库。 MIME 是一种在因特网上常用的协议,它允许通过电子邮件、web 浏览器和其他方式发送多媒体内容,包括文本、图像、音频和视频。本文将介绍 Python M…

chatgpt赋能Python-python_gensim

Python Gensim: 一款高效的自然语言处理工具 自然语言处理(NLP)是目前人工智能领域最受青睐和广泛应用的一个领域。Python Gensim是一款用于实现NLP任务的高效工具,可以用于词向量表示、语料库建模、主题建模、相似性计算等各种自然语言处理…

chatgpt赋能Python-pythoninfo

Python:一款强大的编程语言 Python是一款广泛应用于全球计算机科学领域的软件编程语言。在过去的10年中,Python已经成为最受欢迎的编程语言之一。Python具有简单易学、可移植性强、高效、可扩展、可嵌入、多功能、跨平台等优点,因此越来越多…

chatgpt赋能Python-python_piano

Python Piano: 打造全新的音乐创作体验 简介 Python Piano是一个基于Python编程语言开发的音乐创作工具,它提供了简单易用的界面和多样化的音色库,使得音乐创作变得更加的直观和有趣。Python Piano可以作为一个独立的应用程序,也可以作为Py…

chatgpt赋能python:Python大屏:完美的数据可视化工具

Python大屏:完美的数据可视化工具 在今天的数字时代,数据越来越成为了每个企业和组织日常业务运营的核心。为了更好地理解和管理这些数据,数据可视化的重要性也随之凸显出来。Python大屏作为一款高效、快速、方便的数据可视化工具&#xff0…

chatgpt赋能python:Python将图片生成二维码——方便快捷的二维码生产工具

Python将图片生成二维码——方便快捷的二维码生产工具 现今,随着移动互联网的快速发展,二维码已经成为了一种广泛运用的数据传输方式。对于许多企业或者个人而言,不少网站或者广告上多会以二维码的方式展示宣传信息或者数据链接。因此&#…

chatgpt赋能python:Python建JSON文件的方法及应用

Python建JSON文件的方法及应用 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,已被广泛采用。而Python具有简洁、高效、易用等特点,可以很容易地通过Python来生成和解析JSON数据。本文将介绍Python中如何建立JSON…

chatgpt赋能python:Python嵌入C:一个高效的编程技巧

Python嵌入C:一个高效的编程技巧 作为一名有10年Python编程经验的工程师,我发现在某些情况下,Python嵌入C是一种高效的编程技巧。这种技巧可以使您利用Python的简洁性和高级功能,同时仍然保持程序的执行速度。在本文中&#xff0…

chatgpt赋能python:Python信息隐藏:掩耳盗铃的神奇技巧

Python信息隐藏:掩耳盗铃的神奇技巧 在现代社会中,保护信息资产安全已经变得至关重要。信息隐藏(steganography)是一种将秘密信息嵌入到其他无关数据中以便于传输的技术。Python作为一种易学易用,而且功能强大的编程语…

chatgpt赋能python:Python代码清空方法:如何让你的代码更易于阅读和维护?

Python代码清空方法:如何让你的代码更易于阅读和维护? 在编写长期项目时,随着时间的推移,代码库变得越来越大和复杂。当开发人员需要添加新功能或修改现有功能时,他们越来越难以了解整个代码项目,其代码可…

chatgpt赋能python:Python自动生成代码:提高效率,优化开发

Python自动生成代码:提高效率,优化开发 在现代软件开发的过程中,代码自动生成已经成为了一种趋势,Python同样不例外。Python自动生成代码可以大大提高程序员的效率,降低设计和开发复杂任务的风险。 什么是Python自动…