[论文] LIMA: Less Is More for Alignment

文章目录

  • 概要内容
  • 关键方法
    • 高质量样本获取
    • 模型评估方法
  • 结论
  • 思考

Meta新模型LIMA,基于LLaMa-65B,精选1000个微调样本进行训练,对比GPT-4/Bard/DaVinci003,表现出强大的性能。
结果表明,大语言模型中的几乎所有知识都是在预训练过程中学习得到,在指令调整阶段,仅需要有限的多样化、高质量样本便可使模型生成结果得到提升。

地址:https://arxiv.org/abs/2305.11206

概要内容

大型语言模型通常分两阶段进行训练:(1)对海量原始文本进行无监督预训练,学习通用表征;(2)指令微调和强化学习,更好地适应最终任务和对齐用户偏好。

该论文通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,在没有任何强化学习或人类偏好建模的情况下,只对1000个精心策划的prompts和responses进行了标准监督损失的微调。

LIMA表现出了非常强大的性能,只从训练数据中的少数几个例子中学习到了特定的响应格式,包括一些复杂的查询。此外,模型对训练数据中的未见过的数据也能有较好的泛化。

在一项对照研究中,LIMA给出的结果43%的情况等同于或优于GPT-4,与Bard相比这一数据为58%,与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。

实验结果强烈表明,大型语言模型中的几乎所有知识都是在预训练过程中学习的,只需要有限的指令调整数据便可以教会模型产生高质量的输出。

关键方法

高质量样本获取

从社区论坛StackExchange和wikiHow筛选750例热门问题答案,样例筛选要保证质量和多样性。在质量和多样性方面,作者针对不同的论文数据做了大量筛选工作,包括不同主题、最佳回答、长度控制等,具体见文章章节Aligment Data。

论文作者手动撰写了250个prompts和对应答案,同时保证了样例多样性和回答风格的一致性。
在这里插入图片描述
论文提出「表面对齐假设Superficial Alignment Hypothesis」:假设大模型的知识和能力主要是在预训练阶段学习到的,对齐只是教会模型在与用户交互时应该使用哪种格式的子分布(疑惑?)。如果该假设正确,那么对齐在很大程度上是关于学习风格的,人们可以用一组相当小的样本便可充分调动激活预训练语言模型的能力。

模型评估方法

将LIMA与其他模型进行比较,对每个测试prompt生成一个响应,然后要求工作人员将LIMA输出与基线模型输出进行比较,标记他们喜欢的模型结果。
在这里插入图片描述

LIMA与5个基准模型进行对比测试结果如下,LIMA给出的结果43%的情况等同于或优于GPT-4,与Bard相比这一数据为58%,与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。作者还同时使用GPT-4做为评判员(右图),可以看出,和人工评判结果的表现基本一致。
在这里插入图片描述

结论

作者通过消融实验研究了微调训练数据的多样性、质量和数量对生成结果的影响。结论是微调样本的多样性和质量对结果具有可衡量的积极影响,而仅扩大微调样本数量可能并不会产生良性影响。
对未经筛选和经过筛选的Stack Exchange 2000样本数据,微调训练模型结果对比,在生成结果质量评估上二者相差0.5分。设置指数增长的训练集,当训练样本数量倍增时生成结果的质量并没有提升,这一结果表明对齐的比例定律(scaling laws)不仅取决于数量,而在于保证质量的同时提高prompt的多样性。
在这里插入图片描述

思考

大模型预训练阶段获得的能力决定了模型能力的上限,通常来说,在同级别海量语料和相同网络架构下,模型参数越多模型能力越强。在微调训练阶段,只是在进一步激活模型的潜在性能,通过本论文可以看到,微调样本量对生成结果质量并不是关键因素,在微调阶段,更应该关注于微调样本的多样性和数据质量。

基于GPT的生成式大语言模型,在预训练阶段通过对海量数据的无监督学习,得到语言生成能力和对世界知识的存储能力,这一步相当于是在「练内功」,预训练之后的微调和对齐训练是对语言模型能力的挖掘和激活,引入各种任务数据进行微调训练,相当于是「练招式」,只有内功强大,才能更好凸现武术招式的厉害。反过来,如果没有强大的内功再精彩的招式也是花拳绣腿,缺乏实战和落地能力。

再回顾一下chatGPT大模型的一些关键要点[2]:

  • 语言生成能力、基础世界知识、上下文学习能力来自于预训练语言模型(GPT3+)
  • 存储大量知识的能力来自于千亿级的参数量
  • 执行复杂推理的能力很可能来自于代码的训练
  • 指令微调不会为模型注入新的能力
  • 指令微调通过牺牲性能换取与人类的对齐(alignment tax)
  • 生成中立、客观的能力,安全和翔实的答案来自与人类的对齐(RLHF)

参考

  1. https://mp.weixin.qq.com/s/sbIa-fIHvMlp-2aYtCtVLQ
  2. https://www.cnblogs.com/LittleHann/p/17303550.html#_lab2_1_3

---------END---------

同步更新到:AI加油站

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16738.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGpt万能公式以及详细使用方法(实时更新最新方法)

万能公式: 1. 我希望你 / 我想让你 充当 / 担任 / 扮演( 设定角色) 2. 我将为你提供 (关键信息) 3. 你的工作 / 任务是 (工作内容) 4. 我的第一个要求是(输出目标) 例如: 我希望你充当一名广告商。您将创建…

九类AI应用和五个简单LLM的Prompt技巧

文章目录 一、九类AI应用二、五个提示词技巧三、MidJourney的prompt使用举例Reference 一、九类AI应用 AI艺术:造梦日记、MidJourney、Stable Diffusion、Adobe、Stability、Remove AI聊天:ChatGPT、Discord、文心一言、Google Bard、星火、Character.…

使用 ChatGPT 和 React 创建一个惊艳的3D卡片(二)

在上一篇文章中,我们一起使用 ChatGPT 和 React 构建了一个基本的卡片布局,效果如下图所示。如果您还没有看过上一篇文章,可以通过这个链接快速查看《使用 ChatGPT 和 React 创建一个惊艳的3D卡片(一)》。 在此基础上&…

【Figma技巧】根据JSON文件自动生成色标图例

最近工作中有个需求,就是根据json文件里的参数,在figma中做出色标图例。 由于要素很多,不同的要素的色标配置文件都不同,如果手动一个颜色一个颜色去复制粘贴很费时间,所以我让chatGPT去帮我实现。但是我用的是GPT-3&…

ChatGPT加持下的微软New Bing 错误频出,别只骂谷歌的Bard了

文|李星漩、丁博生、赵若辰、谢耀赓、邴立东 源|机器之心 这些天看下来,在与谷歌 Bard 加持的搜索引擎较量中,微软基于 ChatGPT 的新必应似乎完全占据了上风。但仍不禁要问,新必应的搜索结果真的无懈可击吗&#xff1f…

ChatGPT时代情感分析还存在吗?一份真实调查

深度学习自然语言处理 原创作者:qazw 引言 最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用…

【精妙绝伦】写出查询所有用户的第2笔订单sql!!!

叹为观止的sql语句 SELECT user_id, order_id, order_date, amount FROM orders WHERE (SELECT COUNT(*) FROM orders o WHERE o.user_id orders.user_id AND o.order_date < orders.order_date ) 1 ORDER BY user_id, order_date阿里渣渣研发组群主分享

chatgpt赋能python:探索Python:如何找出大于5的数

探索Python&#xff1a;如何找出大于5的数 在Python编程中&#xff0c;我们常常需要对一系列数字进行操作和筛选。例如&#xff0c;我们需要找出一个列表中所有大于5的数字。本文将详细说明如何使用Python找出大于5的数&#xff0c;并讨论在实际应用中可能遇到的问题和解决方案…

利用chatgpt+低代码技术搭建进销存系统

1 前言 在当今数字化时代&#xff0c;企业管理系统已经成为各行各业不可或缺的一部分。而进销存系统更是企业管理中的重要组成部分&#xff0c;它可以帮助企业实现产品库存管理、采购管理、销售管理等多个方面的自动化管理。 然而&#xff0c;搭建一个高质量的进销存系统需要…

吴恩达联手OpenAI的免费课程笔记—面向开发人员的 ChatGPT 提示工程

目录 前言一、大语言模型介绍二、提示指南2-0、导入API key和相关的python库2-1、写清楚的、具体的提示2-1-1、使用分隔符清楚的指示输入的不同部分2-1-2、要求结构化的输出2-1-3、按照指定的条件输出2-1-4、少样本学习 2-2、给模型时间去思考2-2-1、指定完成任务所需要的具体步…

我用ChatGPT 7分钟生成一个Spring Boot博客项目,有点瑟瑟发抖!

我的《用ChatGPT生成一个SpringBoot应用》保姆级教程上线了。教程的核心是&#xff1a;思路和ChatGPT提示语&#xff0c;已经更新到我的知识星球专栏&#xff0c;目前已经累计实战项目60&#xff0c;目标500 看看ChatGPT生成的项目&#xff0c;Maven结构完整&#xff0c;可正常…

ChatGPT快速搞定前后端开发、测试、运维项目实战,一点代码都不用写!

《面向ChatGPT全栈开发实战》专栏上线了&#xff0c;写这个专栏的过程中&#xff0c;我真有点恐慌&#xff0c;感觉我得失业&#xff0c;因为ChatGPT实在太牛逼了。 注意&#xff1a;由于账号越来难注册&#xff0c;仅限前200名送ChatGPT独立账号&#xff0c;没有的抓紧了。 Ch…

使用机器学习预测股价

股票价格预测有助于确定未来几天或几周内股票的走势&#xff0c;或者至少显示趋势。股票价格取决于多种因素&#xff0c;例如&#xff1a; 基本因素&#xff1a;收入&#xff0c;利润&#xff0c;市场份额&#xff0c;业务的潜在增长前景 外部因素&#xff1a;大流行病&#…

[股票预测]股票历史数据获取

目 录 一、编程环境准备 第一步&#xff1a;安装Anaconda3 第二步&#xff1a;安装工具包Pandas、tushare 第三步&#xff1a;查看Pandas、tushare版本 二、股票历史行情数据提取 2.1获取近3年个股日线交易数据 2.1.1 个股交易接口函数get_hist_data() 2.1.2兴蓉环境(…

股票预测数据与真实数据对比图(八)2021/07/16

重点在于echarts的option 经过查阅文档可以知道&#xff0c;对于echarts的使用&#xff0c;对于图表要绘制的内容是填写在option这一选项&#xff0c;并通过 charts.setOption(option,true); 这条命令来达到刷新图表内容的作用&#xff0c;因此在已经监听了绘制图表类型的基础…

解读:通过挖掘股票内在特征预测股票趋势

写在前面 下面这篇文章的内容主要是来自发表于KDD2019的一篇文章《Investment Behaviors Can Tell What Inside: Exploring Stock Intrinsic Properties for Stock Trend Prediction》。这篇文章发现&#xff0c;职业基金经理们对于股票的共同投资行为可以反应股票的内在属性&a…

使用DeepAR实现股价预测

使用DeepAR实现股价预测 文章目录 使用DeepAR实现股价预测获取股票列表从众多股票中采样100支日期处理函数拉取等长度的股票&#xff0c;并保存 各指标解释预测区间长度及上下文选取给这78支股票所在行业进行归类 目标变量处理协变量处理协变量归一化操作 训练、测试数据划分训…

基于tushare的股票评级与预测

本文内容 股票评级思路&#xff08;一&#xff09; 用百度得到的股票评级六大要素进行股票评分&#xff0c;并用后面的数据对其进行正确性检测。股票评级思路&#xff08;二&#xff09; 在思路一的基础上加入大盘历史的涨跌数据&#xff0c;对评分进行了优化&#xff0c;也进…

python采集往期股票数据进行分析预测

前言 嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! 准备工作 既然要去赚马内&#xff0c;咱们首先要获取往期的数据来进行分析&#xff0c; 通过往期的规律来对当前进行预测&#xff0c;准不准我不知道&#xff0c;反正比人预测的准&#xff0c; 不准也不要喷我&#xff0…

[ChatGPT最强竞品]爆火,不限量不要钱不用魔法免费注册!

1免责声明 本公众号所发布的文章及工具只限交流学习&#xff0c;本公众号不承担任何责任&#xff01;如有侵权&#xff0c;请告知我们立即删除。 原文地址&#xff1a;[ChatGPT最强竞品]爆火&#xff0c;不限量不要钱不用魔法免费注册&#xff01; 2Claude 介绍 Claude 是下一代…