Meta发布LLaMA 2:分析及解读

Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。

我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在,OpenAI和LLaMA都将成为微软产品系列的一部分。

新内容

将包含预训练模型和会话微调版本的模型权重和起始代码。

这意味着不再需要去4chan获取权重并构建自己的模型。这个模型的架构和模型权重都可以免费用于商业目的。

该模型有3个版本 — LLaMA-2–7B LLaMA-2–13B LLaMA-2–70B 所有这些模型都将作为基础模型和相应的CHAT模型发布。因此,总共将会在六个月内发布。

最小的7B和13B版本应该适合现代消费级GPU,而较大的70B版本应该适合A100 GPU。

默认情况下,上下文长度为4096,但可以增加。

该模型训练了2万亿个标记。

7B和13B的架构与它们的旧版本类似,但70B是一个新发布的版本。

该模型经过针对Chat使用场景的微调,并使用了100,000个样本和超过一百万人类偏好进行了监督式微调。

性能:

这个模型应该与大多数开源模型不相上下。特别是与Falcon-40B(目前的冠军)相比,该模型在所有任务上表现明显更好。

标准测试

人工评估结果

人工评估员在约4,000个提示上对模型的不同版本进行了比较,其中包括单一回合和多回合的提示。该评估的95%置信区间在1%到2%之间。在审查这些结果时,需要注意人工评估可能存在噪音,这是由于提示集的限制、评估准则的主观性、个体评估员的主观性以及比较不同版本的固有难度所导致的。

GPT-4基于的安全性评估

为了补充人工评估,我们使用GPT-4对LLaMA-2进行了比较。绿色区域表示根据GPT-4的评估,我们的模型表现更优。为了排除平局,我们使用胜利次数/总数。为了减轻偏见,模型响应的展示顺序被随机交换。

安全性评价

Llama 2-Chat 与其他开源和闭源模型相比的安全评估结果。

.

评估员对大约2,000个敌对性提示的模型生成结果进行了安全性违规的判断,其中包括单一回合和多回合的提示。需要注意,这些安全性结果可能存在来自LLM评估固有偏见的限制,这是由于提示集的限制、评估准则的主观性和个体评估员的主观性所导致的。此外,这些安全性评估是使用可能偏向Llama 2-Chat模型的内容标准进行的。

训练方案

Llama 2-Chat 的训练

  • 预训练:该过程从使用公开可用的在线资源对Llama 2进行预训练开始。 监督式微调:通过应用监督式微调创建Llama 2-Chat的初始版本。 强化学习:随后,使用强化学习与人类反馈(RLHF)方法对模型进行迭代优化,具体包括拒绝抽样和近端策略优化(PPO)。在整个RLHF阶段,累积迭代奖励建模数据与模型增强并行进行是至关重要的,以确保奖励模型保持在分布范围内。

训练时间

训练一个规模是原来的10倍,模型成本是线性的(GPU小时和碳足迹均为1,720,320/184,320)。然而,在各个任务领域中的改进幅度从14%(常识推理)到130%(编码)不等。训练一个规模是原来的10倍大的模型主要集中在编码任务、数学问题和AGI评估方面获得了显著提升。而在常识推理、世界知识和阅读理解方面的改进最小。在模型尺寸扩大10倍的情况下,MMLU(平均最小路径长度)和BBH(平均宽度平衡高度)得分有了适度的提升。

这个模型发布了所有关于训练、微调、安全调优、碳足迹等方面的细节。这个模型很可能在新通过的欧盟合规要求上得分更高。

输出模型

采用提示(包括上下文)和模型生成输出的配对。这对配对根据响应的质量得分,包括对响应生成的有用性和安全性的评分。这与OpenAI对GPT-3、3.5和4所做的练习相同。虽然没有明确说明,但我怀疑用于评定LLaMA-2生成的响应的方法也是相同的。这是一种强化学习的类型,但是训练的决策空间更加集中和受限。这也被称为RLHF(Reinforcement Learning with Human Feedback),旨在更好地训练模型与人类偏好相一致。

输出模型的人工偏好数据统计。

输出模型使用了开源和内部收集的人工偏好数据,上面已列出。二元人工偏好比较包含2个响应(选择和拒绝),它们共享相同的提示,包括先前对话的上下文。否则,所有示例都由一个提示(包括先前对话,如果有的话)和一个响应组成,这是输出模型的输入。

用于输出模型的两个算法:

  1. 近端策略优化(Proximal Policy Optimization,PPO)(Schulman等人,2017),是RLHF文献中的标准算法。
  2. Rejection Sampling fine-tuning:这涉及模型生成的K个样本输出,选择最佳候选者,然后使用选定的输出进行梯度更新。获得最高奖励分数的样本被视为黄金标准。

这两个算法在以下方面不同:

  1. 广度 — 一个样本输出与多个样本输出和抽样
  2. 深度 — 在拒绝抽样微调中,只使用选定的样本来更新模型的梯度。

增量强化学习与人工反馈(Incremental RLHF)的收益

强化学习与人工反馈(RLHF)通过5个步骤(分别标记为RLHF-V1、V2,...,RLHF-V5)进行,逐步使用更多的可用样本,结果逐渐改善,显示了更多微调数据的重要性。

人工评估

Llama 2-Chat模型与开源和闭源模型在约4,000个有益提示上进行了人工评估,每个提示有三个评估者。

其中最重要的部分是与ChatGPT-0301(基于GPT-3和3 turbo的ChatGPT的三月发布版本)的比较,70B参数模型以微弱优势击败了它。

安全性

虽然安全性可能不是一个令人激动的话题,但我们还是要谈谈它。该模型已经采取了一些措施来解决模型安全性问题。Meta在训练这些模型时没有使用用户数据,该模型还试图解决代词、身份(宗教、性别、国籍、种族和民族)、以及人口统计偏见等问题。

该模型已经进行了真实性、有害性和偏见的基准测试,其得分优于以往所有开源模型的版本。较大的模型表现比较小的模型更好。安全性微调使用了监督式安全微调、强化学习与人类反馈和上下文蒸馏。上下文蒸馏是通过在提示前加入安全性预先提示“您是一个安全和负责任的助理”来生成更安全的模型响应。

安全性强化学习与人类反馈(RLHF)的影响通过奖励模型分数分布来衡量。左图:Meta安全测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图:Meta有益性测试集上生成结果的有益性奖励模型分数。

随着数据量的增加,安全性普遍得到改善。

安全性RLHF的影响通过奖励模型分数分布来衡量。左图:Meta安全性测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图:Meta有益性测试集上生成结果的有益性奖励模型分数。

总体而言,随着数据量的增加,安全性有所提升。

上图:上下文蒸馏分析。左图:基础模型中安全RM分数的分布,添加通用预提示后的分数,以及基于风险类别的、带有定制答案模板的预提示的分数。尽管通用预提示可以提高安全RM分数,但带有定制答案模板的预提示效果更好。右图:上下文蒸馏显著提高了初始得分较低样本的RM分数,但对初始得分较高的样本可能产生不利影响。因此,我们仅在能够提高RM分数的有针对性样本上应用上下文蒸馏。

需要注意的是,上下文蒸馏可能降低奖励模型的分数。因此,我们采用了选择性的上下文蒸馏(只在RM分数较低且能提高有效RM分数时应用)。

左图:不论模型规模,Llama 2-Chat的违规百分比都较低。右图:不论模型规模,Llama 2-Chat的安全性和有益性平均评分都较高。

单匝和多匝违规百分比

每个风险类别的违规百分比
必须注意的是,这些分类是基于审稿人以及审稿人的差异及其主观解释。

总结

总结思考

LLaMA是比早期版本更为先进的一步。通过为商业用途提供权重,Meta真正支持了创新者和开发者社区。此外,这是首次发布提供了有关模型、代码、架构、策略、规划、功耗和其他训练成本的所有细节。我希望能看到最后缺失的推理引擎和其碳足迹的信息。增加这一点可以使这篇论文成为一个几乎完美的模型发布示例,希望OpenAI、Microsoft可以向Meta学习,并实现透明化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47503.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用Rword2vec告诉你券商的推荐买股票是否靠谱

最近国内A股走势不错,又有听到周边有不少同事打算入市了。那么咱们IT人员如果相关金融知识不多,又不想买基金交管费的话,跟着券商的推荐买行不行呢? 如果是零基础的朋友请参考https://blog.csdn.net/BEYONDMA/article/details/879…

音频合并的软件有哪些?这几个软件分享给你

我们平时听过的歌曲串烧,是由多首歌曲拼接起来的。如果大家不想在听音乐时手动切换歌曲的话,不妨试试使用软件,将歌曲剪辑拼接起来。但是作为剪辑小白,不知道音频拼接软件哪个好用。没关系,下面给你们分享几款手残党也…

语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载&a…

如何进行音频合并?很简单,只需三步骤

大家有没有经常在短视频上刷到一些歌曲串烧,他们将很多歌曲结合在一起居然毫无违和感,但其实像这样的歌曲合并呀,或者说是音频合并到一块的操作其实是非常简单的,仅需几分钟就能轻松上手,你们也可以像那些短视频的up主…

计算机弹音乐百度百科,电子音乐合成器

电子音乐合成器又简称电子合成器,是由电子设备代替乐队进行演奏和进行自动化编曲的一种电子化设备。用合成器制作声音的方法很多,起先是把若干个正弦波振荡器连在一起,改变各自的频率、振幅,就可以产生不同音色。后来,…

【音乐合成】基于FPGA的音乐合成系统verilog实现

1.软件版本 matlab2013b,quartusii12.1 2.系统FPGA实现 2.1频率选择 音乐的合成主要有几种频率,这里设置如下几组频率,在实际情况下,可以进行扩充。 Fc 261.63; %C Fd 293.66; %D Fe 329.63; %E Ff 349.23; %F Fg 3…

怎么把两个mp3音频合成一个?

怎么把两个mp3音频合成一个?如何合并两个MP3文件为一个音乐文件?两个MP3格式如何合并,两个MP3格式合并方法?这是我最近收到的最多的问题了,而且问这些的多是我们的新手小白,因为专业的人不需要问&#xff0…

java 合并两个音频_如何利用音乐合成软件将多段音频合并为一段?快速合并音频的方法...

在之前的文章中小编介绍了使用音乐剪切工具在一个音频文件中分割出多个音频的片段的方法,然后有小伙伴就问如何利用音乐合成软件将多段音频合并为一段?其实合并音频的方法和分割音频的方法大体上是相同的,如果还有不会编辑音频的小伙伴可以跟…

计算机合成音乐的交换标准,音乐合成器

简介 音乐合成器(Musical Synthesizer) 用来产生并修改正弦波形并叠加,然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。 C机声卡上的音乐合成器能合成音乐,可模仿许多乐器的演奏效果,音乐合成器的功能是将MIDI消息转换为…

音乐合成软件哪个好用?快把这些软件收好

小伙伴们平时有听过一些由很多歌曲串在一起的歌吗?一般这种歌我们都称为歌曲串烧,有些歌曲串的好的话,会给人在听感上别有一番体验。听到这些歌后,会不会激发起你们把自己喜欢的歌串在一起的想法呢?其实歌曲串烧很容易…

不懂怎么写辞职报告的看这里,教你们一个办法

今天,我有一个朋友告诉我说,他要辞职了,要写辞职报告,不懂怎么去措辞。然后我突然就想到一个办法,给他看之后,他直呼“牛x”!!! 所以,辞职报告不知道怎么写的…

GPT-3杀入漫威宇宙!二次元小伙用它生成蜘蛛侠续集

转自:新智元 既然GPT-3能循理路精炼总结语料文本,写诗可以、写rap歌词可以,那么照猫画虎写小剧本,也不是不可以的……吧? 其实真是可以的,而且有人已经如此操作了。 AI新玩法:生成蜘蛛侠电影剧本…

马斯克点赞!DeepMind神AI编剧,一句话生成几万字剧本

视学算法报道 编辑:David 昕朋 【导读】当够了画家、剪辑和在线客服,人工智能的接下来要征服的,是编剧。DeepMind推出的AI写作模型Dramatron,只需一句故事梗概,就能创作万字剧本! 你有灵光乍现的时刻吗&a…

景区旅游剧本杀体验打卡小程序开发

景区旅游剧本杀体验打卡软件的主要功能包括: 景区介绍:提供详细的景区介绍和地图信息,使用户能够更好地了解景区的背景、特色和各个景点的位置。 任务列表:提供任务列表和任务说明,让用户能够了解每个任务的目…

旅游景区AR剧本杀打卡软件

旅游景区AR剧本杀打卡软件的主要功能包括: 景区介绍:提供详细的景区介绍和地图信息,使用户能够更好地了解景区的背景、特色和各个景点的位置。 AR技术:使用AR技术实现虚拟现实场景和任务的展示,增强用户的游戏…

浅谈数字图书馆智能推荐系统的发展趋势

利用citespace对近十年来的相关中英文文献关键词进行突现分析,结果分别如下图所示: (y[0,1]0.6, Minimum Duration1) (y[0,1]0.8, Minimum Duration1) 关键词突现是指在短时间内发表文章中出现频次极高的关键词,从关键词突现开始至突现结束形…

chatgpt赋能Python-python_chm

Python chm:为你的Python学习之旅提供便利 如果你正在学习Python编程语言,你可能会遇到需要参考文档的情况,这时候,Python chm可能就是你的救星。Python chm是Python的 Windows 帮助文件格式,通常用于Windows上的Pyth…

chatgpt赋能python:Python实现数字颠倒技巧

Python实现数字颠倒技巧 在日常的程序开发中,数字颠倒(reverse integer)是一个常见而又实用的技巧,特别是在数据处理和算法设计方面。Python语言作为一门优秀的编程语言,自然也提供了多种实现数字颠倒的方案。本文主要…

chatgpt赋能Python-python_1_4

Python 1%4:提高Python编程效率的秘诀 Python是一种高级编程语言,因其简单易学、充满灵活性和适用性被广泛应用于各种领域。但是随着Python项目的复杂度增加,代码变得越来越长、难以维护,这会极大地影响开发效率。那么&#xff0…

chatgpt赋能Python-pythontutor怎么用

PythonTutor是什么?方法和用途 什么是PythonTutor? PythonTutor是一种在线程序可视化工具,旨在帮助初学者和专业人士更好地理解Python程序的工作原理。该工具通过交互式地显示变量、堆栈和函数的值来展示Python代码的执行过程。 PythonTut…