【NLP】稍微读一下LIMA: Less Is More for Alignment

稍微机翻一下最近火的一个有关小数据集fine-tune大模型?的文 如有误请见谅斧正 如您认为此文侵犯了您的权益 请联系我 我会删除ASAP https://arxiv.org/abs/2305.11206

    • 1 引言
    • 2 如何生成精干的 Alignment Data※
    • 3 训练
    • 4 人工评估
      • 4.1 实验设置
        • 基线
        • 内容生成
        • 方法论
        • Inter-Annotator Agreement
      • 4.2 结果
      • 4.3 分析
        • 结果
        • 分布外的实例
        • 安全性
    • 5 为什么说Less More?关于数据多样性、质量和数量的消融研究
      • 5.1 实验设置
      • 5.2 多样性diversity
      • 5.3 质量quality
      • 5.4 数量quantity
    • 6 多回合对话
    • 7 总结

https://arxiv.org/abs/2305.11206
)

1 引言

作者认为大模型训练分为两个阶段:(1)原始文本的无监督预训练 (2)针对特定需求和任务的大规模指令调优和强化学习。作者使用LIMA——65B参数的LLaMa语言模型,并只使用1000个精心策划的prompt和response进行了微调。LIMA从小数据集的fine-tune中学习了response的样式并且展示了很好的性能与较强泛化能力。因此作者认为大型语言模型中的几乎所有知识都是在预训练acquire的,有限的fine-tune数据Alignment足以使模型产生高质量的输出。

2 如何生成精干的 Alignment Data※

作者定义Superficial Alignment Hypothesis(暂译表面对齐假设): A model’s knowledge and capabilities are learnt almost entirely during pretraining, while alignment teaches it which subdistribution of formats should be used when interacting with users. (模型知识是从pretraining获得的,而格式的子分布通过alignment学习。)
手工写或从各大社区收集(收集后处理)1000对问答,它们的prompt不同但response风格一致。

  1. 在Stack Exchange的选材过程中根据subject进行分类(STEM主题;其他主题;小众主题放弃)。条件为temperature(https://zhuanlan.zhihu.com/p/615675305) τ=3 在各主题内进行均匀采样。
    为每个问题挑选最佳答案的要求:
    1)去掉太短——少于1200字母的
    2)去掉太长——多于4096字母的
    3)去掉第一人称陈述的
    4)去掉援引其他材料(包括站内或站外)
    5)清洗掉response中的超链接、图片、HTML tag;保留了代码及列表。

  2. 在wikiHow的选材过程中选择19 category中选出200个文章以保证diversity。
    使用文章标题的问句作为prompt,把文章内容格式修改为response形式,以“The following answer…”开头。清洗掉部分段落、超链接、图片。

  3. 在The Pushshift Reddit Dataset的选材过程中限定, r/AskReddit 和r/WritingPrompts子集,前者甄选70个自描述的题目(也就是问题)作为验证集,后者甄选150对sf故事情诗等等加入训练集。

  4. 人工撰写的素材
    作者为了增加diversity,指定两组作者A组和B组,每组写250个prompt,灵感来自他们或他们朋友的兴趣。从A组中选择200个prompt作训练集,50个留出作为开发集。B组中剩余的230条prompt在过滤掉部分有问题的prompt后,用于测试集。除了200个训练用prompt外,还自主编写相应的高质量答案。编写答案遵循一种模式——在回答问题时先认知问题,然后再回答问题。这种一致的格式总体提高了模型性能(可能有利于形成思考链chain of thought)。
    训练集中的13个prompt和测试集中的30个训练集中的13个prompt和是toxic prompt,对于这些prompt精心撰写了对应的拒绝回答的response并给出理由。
    从《超自然指令》(Super-Natural Instructions [Wang et al., 2022b].)中抽取了50个自然语言生成任务,如总结、释义和风格转换,并从每个任务中随机选择一个例子。稍微编辑了一些例子,以符合200个手写例的风格。虽然用户可能给出的prompt distribution可能与超自然指令中的任务不同,作者直觉认为词句增加diversity和鲁棒性。这个过程很费功夫,但是近期的的一些研究通过distillation等自动化手段 [Honovich et al.,2022, Wang et al., 2022a, Taori et al., 2023, Chiang et al., 2023, Sun et al., 2023],可以扩增数量。

3 训练

从LLaMa 65B [Touvron等人,2023]开始,作者对1000个样本的对齐训练集进行微调。引入了一个特殊的回合结束标记(EOT),在每个话语的末尾区分每个说话者(用户和bot); 该令牌与EOS停止生成的作用相同,但避免与预训练模型可能注入到预先存在的EOS令牌中的任何其他含义合并 (本句及下段机翻)。
遵循标准微调超参数:作者使用AdamW [Loshchilov and Hutter, 2017]微调15个epoch, β= 0.9, β2 = 0.95,权重衰减为0.1。在没有warm up步骤的情况下,作者将初始学习率设置为-5,并在训练结束时线性衰减到- 6。批处理大小设置为32个examples(较小的模型为64个),并且trim超过2048个token的文本。与规范的一个显著偏差是使用残差;作者遵循欧阳等人[2022]的方法,在剩余连接上应用dropout,从底层的pa= 0.0开始,并在最后一层将比率线性提高到pa=0.3(对于较小的模型,pa= 0.2)。作者发现困惑度与生成质量无关,因此使用50个示例开发集手动选择第5和第10个epoch之间的检查点。

4 人工评估

作者通过将LIMA与最先进的语言模型进行比较评估,并发现它优于OpenAI基于RLHF的DaVinci003和经过52,000个示例训练的65B参数的Alpaca,并且通常产生比GPT-4更好或相同的响应。对LIMA生成内容的分析发现,其50%的产出被认为是优秀的。在如此少的样本进行简单的微调,得到足以与目前的技术水平相媲美的结果,这有力地支持了表面对齐假设,它证明了预训练的力量及其相对于大规模指令tuning和强化学习方法的重要性。

4.1 实验设置

基线

为每个prompt生成一个response后,要求crowd workers 将LIMA输出与每个baseline进行比较,并标记他们更喜欢的response。重复这个实验,用GPT-4代替人类的crowd workers,结果具有人类评价相似的一致性。将LIMA与五个baseline进行比较:

  1. Alpaca 65B [Taori等,2023]-作者在Alpaca训练集中的52,000个示例上对LLaMa 65B [Touvron等,2023]进行fine-tune[Taori等,2023];
  2. OpenAI的DaVinci003,一个通过人类反馈强化学习(RLHF)调整的NLP大模型[Ouyang等,2022];
  3. 谷歌的Bard,基于PaLM [Chowdhery et al., 2022];
  4. Anthropic的Claude,一个52B参数模型,经过人工智能的强化学习训练
  5. OpenAI的GPT-4 [OpenAI, 2023],一个用RLHF训练的大模型,目前被认为最先进的.

内容生成

(机翻)对于每个提示,使用核采样[Holtzman et al., 2019]从每个baseline模型生成单个响应,p=0.9,温度t=0.7。作者使用超参数1.2对先前生成的token进行重复惩罚[Keskar et al., 2019]。作者将最大token长度限制为2048。

方法论

在每个步骤中,作者向注释者提供一个prompt和两个由不同的模型生成的response。注释者标注哪个回答更好,或者两个回答都没有明显好于另一个; 作者通过向GPT-4提供完全相同的指令和数据来收集并行注释。

Inter-Annotator Agreement

使用 tie-discounted accuracy来计算Inter-Annotator Agreement:如果两个注释者达成共识,给1分;如果2个中的一个注释者(不是两个都)标记为平局,计0.5分;否则计0分。

通过50个相同的标注例子(1个prompt,来自两个模型的随机选择的response)来衡量一致性,比较来自作者、crowd和GPT-4的注释。

人类注释者的一致性:crowd-crowd82%,crowd-作者81%,作者-作者78%。
尽管一定程度的主观性存在,但人类注释者之间存在相当一致的意见。

GPT-4和人类之间的一致性:crowd- gpt 78%,作者- gpt 79%(使用随机参数的情况下GPT-4人能保持与自身意见一致)。数字表明GPT-4与人类注释者的水平相当,基本上通过了该任务的Turking Test[Efrat和Levy, 2020]。

4.2 结果

人类和GPT-4的评价
上面两图人类和GPT-4的评价。GPT-4与人类结果分布类似,以所以人类研究的结果为主。观察结果如下:

  1. 尽管Alpaca 65B训练集大小是LIMA的52倍,产生的response却不如LIMA好。DaVinci003类似但没有那么严重; 尽管DaVinci003是用公认更好的RLHF训练的。震惊!
  2. Bard表现与DaVinci003相反,在42%的情况下产生比LIMA更好的response。也即58%的LIMA response至少和Bard一样好。
  3. 虽然Claude和GPT-4通常比LIMA表现得更好,但LIMA在某些情况下确实产生了更好的response。讽刺的是,即使GPT-4也有19%的时间更喜欢LIMA输出而不是自己的输出。

4.3 分析

作者重申目前根据最先进的模型来评估LIMA,这些比较对象中的一些基线实际上能已经暴露在数百万个真实用户对话中被狠狠tune过了,可能这个过程中火的了很高的bar。
因此,作者手动分析50个随机用例提供了一个绝对评估。每个用例分为三个评估级别:失败:response不符合提示的要求;通过:response符合prompt要求;优秀:模型对prompt作出了很好的response。

结果

50测试prompt给出的response的3个评估级别分布
Figure 3显示,50%的LIMA答案被认为是优秀级别,50个分析提示中的6个是通过级别。失败案例中没有观察出趋势。Figure 4显示了用于育儿建议和生成食谱的示例LIMA输出。

分布外的实例

在50个用例中,有43个是格式方面的训练例(例如,问答、建议、写信等)。作者分析了13个额外的out-of-distribution examples分布外示例(总共20个分布外示例),发现20%的response不合格,35%通过,45%优秀。虽然这是一个小样本,但LIMA似乎在其训练分布之外也能够获得类似的绝对性能统计数据,说明它能够很好地泛化。Figure 4显示了LIMA在被要求写standup或订购披萨时的反应。

安全性

最后,作者分析了在训练集中使用少量安全性相关用例(只有13个;参见2.2节)。检查了LIMA对测试集中30个可能sensitive的prompt 的response,发现LIMA对其中80%的prompt (包括10个带有恶意意图的提示中的6个)能生成安全的response。在某些情况下,LIMA直接拒绝执行任务(如当被要求提供名人的地址时),但是当恶意意图是隐式的,LIMA更有可能提供不安全的响应,如图4所示。
Figure

5 为什么说Less More?关于数据多样性、质量和数量的消融研究

作者消融研究了训练数据多样性、质量和数量的影响。
观察到,为了校准,扩大投入多样性和产出质量具有可衡量的积极影响,而单独扩大数量可能没有。

5.1 实验设置

作者在不同的数据集上微调了一个7B参数的LLaMa模型[Touvron等,2023],控制了相同的超参数(第3节)。然后,作者为每个测试集提示抽取5个回答,并通过要求ChatGPT (GPT-3.5 Turbo)在a 1-6 likert scale上对回答的有用性进行评分来评估回答质量(参见附录D)。得分以p= 0.95的双侧置信区间计。

5.2 多样性diversity

为了测试提升prompt多样性的效果,在控制质量和数量的同时,作者比较了1)针对数据集质量筛选的且具有异构prompt和优秀的response的Stack Exchange数据的训练效果; 2)和具有同质提示和优秀的响应的wikiHow数据训练效果。虽然作者将Stack Exchange与wikiHow作为多样性比较双方,但作者承认从两个不同的来源采样数据时可能存在其他导致混淆的因素。从每个源抽取2000个训练样例(遵循与2.1节相同的过程)。图5显示,Stack Exchange数据越多样化,性能就越高。

5.3 质量quality

为了测试response质量的效果,从Stack Exchange中抽取了2000个样本,没有经过任何质量或风格过滤,并将在此数据集上训练的模型与有过滤过程的数据集上训练的模型进行比较。图5显示,在过滤数据源和未过滤数据源上训练的模型之间存在显著的0.5点差异。
在这里插入图片描述

5.4 数量quantity

大家都喜欢大数量的数据集来提高模型表现。实验设置从Stack Exchange中抽取大小指数增长的训练集。图6显示,惊!训练集加倍并没有提高响应质量。这一结果,以及我们在本节中的其他发现,表明alignment任务的scaling laws效果更多指向数据集的diversity而不是quantity。
在这里插入图片描述

6 多回合对话

这1000个用例都是单回合对话,那么多回合又如何呢?在10个对话中测试LIMA任然用不及格、通过或优秀三评价级别(见第4.3节)。对于zero-shot聊天bot来说,LIMA响应的一致性很好,它引用了对话中前面步骤的信息。但很明显,这种多回合模式是在数据集分布之外的;在6 / 10的对话中,LIMA在3次互动中没有遵循prompt。

为了提高它的对话能力,作者收集了30组多回合对话。其中,10个对话是由作者写的,而其余20个是bot风格化编辑过的Stack Exchange的评论串。我们使用组合的1,030个(原始1k+30组多回合对话)用例对预训练的LLaMa模型的新版本LIMA进行微调,并使用与zero-shot相同的prompt进行10次对话。图8显示了这些对话的摘录。

图7显示了response质量的分布。在数据集中增加多伦多华对话大大提高了生成质量,将优秀回复的比例从45.2%提高到76.1%。此外,失败率从每42回合15次失败(zero-shot)下降到每46回合1次失败(微调后)。我们进一步比较了整个对话的质量,发现微调模型在10个对话中有7个明显更好,在3个对话中与零射击模型持平。这种能力提升仅仅新增了30个训练例子,加上zero-shot模型完全可以进行多回合对话的实时,强化证明了这样的假设——这种能力是在预训练中学习的,并且可以通过fine-tune阶段少量的支援用例进一步提升。
在这里插入图片描述
在这里插入图片描述

7 总结

虽然数据集的生成经过大量人力劳动处理提高了质量,不过鉴于在如此小的样本下fine-tune一个强大的底模最后形成了非常好的效果(尽管比较而言没有那么robust;有时一些揭短的例子会产生weak response),还是可以结论为通过简单的alignment方法解决复杂问题是有潜力的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19928.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

母婴市场进入增长寒冬,AIGC能否为孩子王“供暖”?

文|螳螂观察 作者| 青月 人口负增长这件事,已经使母婴行业成了首批受到冲击的板块之一。用「母婴行业观察」的话来概括,就是“母婴行业正在进入销量低增长甚至零增长、营收利润低增长的挤压式竞争新阶段,并且已经开始了”。 行业内的玩家&…

ChatYuan - 国内首个开源对话大模型的体验和评测

★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>> ChatYuan: 元语功能型对话大模型 这个模型可以用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于P…

LLaMA以及其扩展模型总结(一)

自从ChatGPT发布以来,人们看到了AGI时代的曙光,但是由于ChatGPT是闭源的,只能在官网体验和使用API进行访问,据OpenAI CEO说是出于AGI的安全性考虑,这样大大限制了很多研究人员和机构对于AGI的研究进展。Meta公司反其道…

在生成式AI的崛起中,百度“先下一城”

年初,李彦宏在一封内部信中预言:“AI技术已经发展到一个临界点,各行各业都不可避免地被改变,中国AI市场即将迎来爆发性的需求增长。” 而几个小时前,百度正式启动产品测评的“文心一言” 全新一代知识增强大语言模型&…

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一 文章目录 Part 1. 众多LLM排行榜Part 2. AlpacaEval 技术细节2.1 AlpacaEval 评估效果2.2 如何使用AlpacaEval评估模型 Part 3. 微软 WizardLM 登顶开源模型第一3.1 关于 WizadLM 与 Evol-Instruc…

AI职场汇报智能办公文案写作效率提升视频教程

一、视频教程地址 点我访问完整版视频教程 二、你将收获 ChatGPT文本创作,一键生成办公文案AI智能写作,轻松搞定多场景文案写作智能美化PPT,用AI为职场汇报加速AI神器联动,十倍提升视频创作效率 三、结合chatgpt提问快速提升办公文案协作…

chatgpt赋能Python-pythonboard

Pythonboard - 简单、快速、灵活的Python开发平台 在当今数字化时代,软件开发已经成为现代企业的必备工具。为了满足客户高质量和定制化的需求,现代应用程序开发需要更多的灵活性以及可扩展性。Python是一种强大的编程语言,尤其在数据科学和…

chatgpt赋能Python-pythonabc

PythonABC:学习Python编程的最佳选择 在当今数字化时代,Python编程已经成为了一种非常重要的技能。它在许多领域得到了广泛的应用,例如数据科学、机器学习、网站开发等。如果你想学习Python编程,PythonABC是一个不错的选择。 Py…

chatgpt赋能Python-pythonjam

PythonJam:您学习Python编程的最佳选择 作为新兴的编程语言,Python在业界受到越来越多的关注。它的简洁、可读性和拥有强大的资源库,使得Python成为了很多领域的首选编程语言。如果您是一位想要进入编程领域的新手,那么学习Pytho…

chatgpt赋能Python-pythonwarnings

Python Warnings: 了解Python中的警告 Python是一种广泛使用的编程语言,它有许多机制用于帮助开发人员尽可能地减少错误。其中一个机制是Python警告。本篇文章将重点介绍Python中的警告,并为您提供一些使用Python警告的最佳实践。 Python Warnings是什…

chatgpt赋能Python-pythonandor

Pythonandor:探索Python的异步编程方式 如果您是一个Python工程师,你可能已经听过Pythonandor。Pythonandor是一个Python异步框架,能够让你更高效地处理请求,并且提高应用程序的响应速度。 什么是Pythonandor? Pythonandor实际…

chatgpt赋能Python-pythontotur

Pythontutor:帮助你更好地理解Python编程语言 介绍 Python是当今最受欢迎的编程语言之一,它是一种易于学习和使用的编程语言,拥有可读性强、简洁明了的语法风格。不管是初学者还是有着多年编程经验的专业开发人员,Python都是一个…

chatgpt赋能Python-pythonrender

Pythonrender: 一个强大的Python渲染框架 Pythonrender是一个强大的Python渲染框架,独立于任何特定的渲染引擎,如OpenGL、DirectX等。这意味着你可以使用Pythonrender来实现多种不同的画面效果和渲染效果,而且无需更改代码。 为什么选择Pyt…

chatgpt赋能Python-pythonupper

Pythonupper——提高Python编程效率的利器 Python是一种高级编程语言,以其易读易写、简洁优美、功能强大而备受欢迎。在现代软件开发中,Python已经成为非常流行的编程语言之一。而Pythonupper则是提高Python编程效率的利器。 什么是Pythonupper&#x…

chatgpt赋能Python-pythonmiddles

PythonMiddles:提高Python开发技能的最佳资源 作为一名有10年Python编程经验的工程师,我可以肯定的说,Python是现代编程领域最受欢迎的语言之一。为了更好地利用Python的强大功能和灵活性,开发人员需要时刻保持学习和提高自己的技…

chatgpt赋能Python-pythonterminal

PythonTerminal:你的终极命令行工具 介绍 PythonTerminal是一个强大的命令行工具,用于在Python语言中管理和执行命令行任务。它的设计旨在使Python编程方便且易于使用,同时保留终端命令行的灵活性和可扩展性。 与传统的终端命令行工具不同…

chatgpt智能提效职场办公-ppt怎么做才好看又快

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 制作ppt有几个方面可以考虑,以实现既好看又快速的目的: 使用模板:使用ppt模板可以更快速地制作出一…

chatgpt智能提效职场办公-ppt怎么插音乐上去

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 在 PowerPoint 中插入音乐,可以按照以下步骤操作: 找到要插入音乐的幻灯片,点击“插入”选项卡在选…

chatgpt智能提效职场办公-ppt怎么设置背景图片

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 在 Microsoft PowerPoint 中,可以按照以下步骤设置背景图片: 打开 PowerPoint 文档并进入“设计”选项卡。 在…

chatgpt智能提效职场办公-ppt怎么全屏

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 在PowerPoint中,可以通过以下几种方法将演示文稿切换到全屏模式: 方法1:按F5键 在编辑演示文稿的状…