LLaMA 羊驼系大语言模型的前世今生

关于 LLaMA

LLaMA是由Meta AI发布的大语言系列模型,完整的名字是Large Language Model Meta AI,直译:大语言模型元AI。Llama这个单词本身是指美洲大羊驼,所以社区也将这个系列的模型昵称为羊驼系模型

Llama、Llama2 和 Llama3 是一系列由 Meta AI 开发的开源大型语言模型(LLMs)。

LLaMA

LLaMA是Meta AI公司于2023年2月发布的大型语言模型。作为该系列的初代模型,Llama 是一个纯粹的基座语言模型,设计目标是提供一个开放且高效的通用语言理解与生成平台。共有 7B13B33B65B(650 亿)四种版本。

关于训练集,其来源都是公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中,LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token 上训练的,而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。

关于模型性能,LLaMA 的性能非常优异:具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。虽然其他强大的大语言模型通常只能通过有限的API访问,但Meta在非商业许可的情况下发布了LLaMA的模型权重,供研究人员参考和使用。

LLaMA2

2023年7月,Facebook母公司Meta推出了LLaMA2,在人工智能 (AI) 行业掀起波澜,LLaMA2是一种开源大语言模型 (LLM),旨在挑战大型科技竞争对手的限制性做法。Meta免费发布 LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格一直直言不讳地强调开源软件对于刺激创新的重要性。

Meta 训练并发布了三种模型大小的 Llama 2:70、130 和 700 亿个参数。模型架构与 Llama 1 模型基本保持不变,但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有 34B 参数的模型,该模型可能在未来满足安全目标后发布。

Llama 2 包括基础模型和针对对话进行微调的模型,称为 Llama 2 - 聊天。与 Llama 1 进一步不同的是,所有模型都附带权重,并且对于许多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议组织(以维护开源定义而闻名)的争议。

Llama2 是 Llama 系列的下一代版本,标志着对初代模型的重要升级。以下是一些关键特性:

  1. SOTA 性能:Llama2 被描述为新的 state-of-the-art(SOTA)开源大型语言模型,意味着在发布时其性能在相关基准测试或实际应用中处于业界领先水平。
  2. 商业许可证:Llama2 附带商业许可证,这表明虽然它是开源的,但使用它可能需要遵循特定的许可条款,可能是为了确保模型的合理使用并保护知识产权。
  3. 模型规模:Llama2 的最大模型版本拥有约 700 亿个参数,展示了其在模型复杂度和潜在能力上的提升。
  4. 训练数据:Llama2 的训练数据规模显著增加,使用的 token 数量翻倍至 2 万亿,这增强了模型对广泛语言现象的理解和生成能力。
  5. 模型结构:虽然具体架构细节未给出,但提到的 MHA(多头注意力机制)、MQA(多查询注意力)、GQA(全局查询注意力)等组件可能暗示着 Llama2 在 Transformer 解码器部分采用了创新的设计,以提高模型的信息捕获和推理能力。

LLaMA3

Llama3 是 Llama 系列的最新迭代,展现了显著的技术进步和战略意义:

  1. 发布与时间节点:Llama3 于2024年4月18日发布,距离 Llama2 的发布仅过去了9个月,表明Meta AI 在短时间内快速推进了技术研发。
  2. 模型规模与性能
    • 参数数量:Llama3 提供了不同规模的版本,包括最小的 80 亿参数版本和最大规划中的 4050 亿参数版本。即使最小版本与 Llama2 最大版本(700亿参数)的性能处于同一量级,显示出Llama3在模型效率上的提升。
    • 性能对比:Llama3 的性能被描述为直逼 GPT-4,这暗示其在某些任务上可能与 OpenAI 的旗舰模型相当甚至有所超越,体现了其在语言理解和生成领域的强大竞争力。
  3. 训练数据与效率
    • 数据规模:Llama3 基于超过 15 万亿个 token 的公开数据预训练,数据量是 Llama2 的七倍,反映了 Meta AI 对于大规模数据驱动模型性能提升的重视。
    • 训练效率:Llama3 的训练效率相较于 Llama2 提升了三倍,这可能得益于算法优化、硬件加速或分布式训练策略的进步,使得在相同时间内能够完成更多的训练迭代或处理更大规模的数据。
  4. 集成与应用
    • 虚拟助手:Llama3 将被整合到 Meta 的虚拟助手服务中,使其成为 Facebook、Instagram、WhatsApp、Messenger 等平台上免费使用的最先进 AI 应用程序之一,增强了这些社交平台的智能化交互体验。
    • 云服务支持:亚马逊云科技(Amazon Web Services, AWS)官方博客提供了在 SageMaker Studio 中使用 Llama3 的详细指南,说明该模型得到了主流云服务商的支持,便于开发者和研究人员便捷地部署和利用。

综上所述,Llama、Llama2 和 Llama3 代表了 Meta AI 在大型语言模型开发上的连续创新与进步。从Llama到Llama2,再到Llama3,这一系列模型不仅在模型规模、训练数据量和训练效率上不断突破,而且在架构设计、许可策略以及实际应用场景中均展现出显著的迭代与升级。Llama3作为最新版本,以其逼近 GPT-4 的性能、大规模数据驱动的学习以及高效训练流程,巩固了 Meta 在开源大模型领域的领先地位,并推动了人工智能在社交、商业和其他领域的广泛应用。


欢迎关注微信公众号:大数据AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/325536.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端笔记-day02

文章目录 01-无序列表02-有序列表03-定义列表04-表格06-表格-合并单元格07-表单-input08-表单-input占位文本09-表单-单选框10-表单-上传多个文件11-表单-多选框12-表单-下拉菜单13-表单-文本域14-表单-label标签15-表单-按钮16-无语义-span和div17-字体实体19-注册登录页面 01…

2024中国(重庆)无人机展览会8月在重庆举办

2024中国(重庆)无人机展览会8月在重庆举办 邀请函 主办单位: 中国航空学会 重庆市南岸区人民政府 招商执行单位: 重庆港华展览有限公司 报名:【交易会I 59交易会2351交易会9466】 展会背景: 为更好的培养航空航天产业和无人…

基于STM32的IIC通信

IIC通信 • I2C(Inter IC Bus)是由Philips公司开发的一种通用数据总线 • 两根通信线:SCL(串行时钟线)、SDA(串行数据线) • 同步,半双工 • 带数据应答 • 支持总线挂载多…

maven远程仓库访问顺序

首先需要了解一下各个配置文件,主要分为三类: 全局配置文件(${maven.home}/conf/settings.xml),maven安装路径下的/conf/settings.xml用户配置文件(%USER_HOME%/.m2/settings.xml),windows用户文件夹下项目配置文件:p…

不错的招聘时候要注意的知识

来自《行为心理学在团队管理中的应用》行为心理学在团队管理中的应用_哔哩哔哩_bilibili

Docker 怎么将映射出的路径设置为非root用户权限

在Docker中,容器的根文件系统默认是由root用户拥有的。如果想要在映射到宿主机的路径时设置为非root用户权限,可以通过以下几种方式来实现: 1. 使用具有特定UID和GID的非root用户运行容器: 在运行容器时,你可以使用-u…

基于ChatGLM+Langchain离线搭建本地知识库(免费)

目录 简介 服务部署 实现本地知识库 测试 番外 简介 ChatGLM-6B是清华大学发布的一个开源的中英双语对话机器人。基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT…

【C/C++】内存分布

本文第一部分主要介绍了程序内存区域的划分以及数据的存储。第二部分有一段代码和一些题目,全面直观得分析了程序中的数组在内存中的存储。 因为不同的数据有不同的存储需求,各区域满足不同的需求,所以程序内存会有区域的划分。 根据需求的不…

【活动】如何通过AI技术提升内容生产的效率与质量

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 如何通过AI技术提升内容生产的效率与质量引言一、自然语言处理(NLP&…

Java设计模式 _结构型模式_外观模式

一、外观模式 1、外观模式 外观模式(Facade Pattern)是一种结构型模式。主要特点为隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口。这有助于降低系统的复杂性,提高可维护性。当客户端与多个子系统之间存在大量…

Golang | Leetcode Golang题解之第78题子集

题目: 题解: func subsets(nums []int) (ans [][]int) {set : []int{}var dfs func(int)dfs func(cur int) {if cur len(nums) {ans append(ans, append([]int(nil), set...))return}set append(set, nums[cur])dfs(cur 1)set set[:len(set)-1]df…

SpringAMQP Work Queue 工作队列

消息模型: 代码模拟: 相较于之前的基础队列,该队列新增了消费者 不再是一个,所以我们通过代码模拟出两个consumer消费者。在原来的消费者类里写两个方法 其中消费者1效率高 消费者2效率低 RabbitListener(queues "simple.queue")public voi…

Java设计模式-工厂

Java设计模式中,工厂模式主要包括普通工厂模式以及抽象工厂模式,普通工厂模式是用于制造输出不同类型的对象,抽象工厂模式是用于制造输出不同类型的普通工厂,本文主要描述工厂模式的基本用法。 如上所示,使用普通工厂模…

某票星球网图标点选验证码YOLOV8识别案例

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 图标点选验证码大家都不陌生了,我们来看下数据集 引言与个人想法 先说结论,本文采用的方法能够达到99的准确率,效果图如下 做图标点选其实方法有很多,有的…

鸿蒙 @builder 使用中的问题

在所有条件都相同的情况下,点击左边的 list更新右侧的list 方案一 使用builder ,右侧 list不会更新 方案二 直接写 list UI,右侧list会更新 所以,builder中的数据,无法双向绑定么 BuildergetTreeItemLayout(currentL…

智慧法治:AI技术如何赋能法律行业创新

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

环形链表(给定一个链表的头节点 head ,返回链表开始入环的第一个节点)的原理讲解

一:题目 二:原理讲解 解决这个题目 ,我们得先理解它的原理。 1: 首先假设两个指针,一个快指针fast,一个慢指针slow,fast一次移动两个节点,slow一次移动一个节点。(前面…

全学科知网普刊征稿中!即日提交,月内即可见刊!

在当前的学术环境下,论文发表的压力日益增大。当您需要评职称、申请学位、结项课题或完成其他有期限的学术要求时,快速发表普刊能够确保您及时满足这些需求,提升您的职业竞争力,为您的职业发展需求打下坚实基础。 我处普刊现积极…

操作系统基础之磁盘

概述 基本概念 磁盘有正反两个盘面,每个盘面有多个同心圆,每个同心圆是一个磁道,每个同心圆又被划分为多个扇区,数据就被存在扇区中。 磁头首先寻找到对应磁道,然后等到磁盘进行周期旋转到指定的扇区,才…

Word应用:一键提取手写签名

1、将带有签名的图片插入到word文档中,裁剪出签名部分; 2、点击“格式-颜色”,选择“重新着色”中的“黑白50%”; 3、“格式-颜色”,设置透明色; 4、选择“文件”选项卡,选择打开“选项”,点击“…