LLaMA-META发布单卡就能跑的大模型

2023年2月25日,Meta使用2048张A100 GPU,花费21天训练的Transformer大模型LLaMA开源了。

1.4T tokenstakes approximately 21 days

以下是觉得论文中重要的一些要点

1)相对较小的模型也可以获得不错的性能

研究者发现在给定计算能力限制的情况下,最好的性能并不是来源于更大的模型,而是来源于相对较小模型在更多的数据上进行训练。LLaMA就采用了这种策略,LLaMA模型,模型参数从7B到65B不等,13B版本性能优于GPT-3(175B),65B版本获得相比目前最好模型差不多的性能。目前大家公认的大模型openai的GPT3系列,参数量大约175B。LLaMA相比GPT-3,在获得接近性能的前提下,将参数量降低了一个数量级,模型可在当前单卡GPU上部署。

2)不一定要专业语料,精细处理的开源语料也可以

LLaMA使用CommonCrawl、C4、Wikipedia、Books等语料,并且引入了Github、XrXiv、StackExchange等开源专业语料,模型也具备了不错的写代码、处理数据公式和推理的能力。

 3)各种稳定模型训练的优化技术必不可少

LLaMA基于Transformer模型架构,并且应用了各种优化技术以加速和稳定模型的训练过程。

参考GPT3的训练经验,使用RMSNorm标准化每个transformer block输入,标准化输入能提高训练的稳定性。

参考PaLM经验,使用SwiGLU激活函数替代ReLU激活函数。

参考GPTNeo,使用RoPE位置编码替代原来的绝对位置编码。

同时LLaMA引入causal multi-head attention以减少计算和存储开销,重写了transformer的backward以减少冗余计算,同时考虑GPU的计算和通信的重叠加速训练。

LLaMA使用AdamW优化器,并采用warmup技巧。其实我觉得AdaMax可能会更好些,AdaMax在Speech上相比AdamW更稳定,当然Speech数据和文本数据还是有较大差别的。

4)LLaMA的模型的结果还是可以的

LLaMA在多个指标上同样获得了不错的性能,获得和GPT3差不多的性能。

类似于GPT-3,LLaMA也能没经过调优直接应用到下游任务,具体为zero-shot task和few-shot task。

zero-shot不给参考例子,在给定q时直接让模型生成回答a。few-shot则类似于给出参考例子,给出1、5或64个qa对作为参考,然后在给定同类型的q让模型生成回答a。以下是一个one-shot的例子。

 在zero-shot和few-shot类任务中LLaMA获得不错的性能,并不比更大的模型差(分数越高越好)。

 

同当前大模型GPT-3,Gopher、Chinchilla、PaLM相比,LLaMA在多个指标上获得明显的性能提升,并且LLaMA在数学推理任务上获得更好的性能,数学推理据说在chatGPT上栽了跟头。

虽然LLaMA在保证回答正确、没有偏见和对人类有用上花费了很多优化,但正如论文所说,由于预训练语料中的一些偏见,模型可能会产生一些匪夷所思的答案。模型要真正服务人类,可能还是需要使用RLHF,使用人类反馈指导模型对问题回答的选择。

---

[1] LLaMA. llama/MODEL_CARD.md at main · facebookresearch/llama · GitHub

[2] LLaMA: Open and Efficient Foundation Language Models. https://scontent-xsp1-1.xx.fbcdn.net/v/t39.8562-6/333078981_693988129081760_4712707815225756708_n.pdf?_nc_cat=108&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=ov6yTHfLfNQAX_ixTyd&_nc_ht=scontent-xsp1-1.xx&oh=00_AfDnH5IYrqTcFoOpLmrskeR_kQUe4To1BWUk-ZLv5unymg&oe=6401C9E2

[3] Illustrating Reinforcement Learning from Human Feedback (RLHF). Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31002.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 实时盯盘并在股价突破时通过微信通知(tushare的使用)

新年伊始,国家鼓励居民资产配置像权益类资产转移。首个交易日新发基金一日售罄,大量资金进入二级市场。本韭菜也不甘寂寞,再次进入股市为国接盘。 由于一直盯盘太浪费精力,所以想着通过Python来监控股价波动,并在触发…

2019网络钓鱼邮件翻倍,如何预防鱼叉式钓鱼邮件攻击?

根据微软数据,与网络钓鱼相关的电子邮件百分比,从2018年9月的0.31%上升至2019年9月的0.62%。微软对2018年每月4700亿封电子邮件的分析发现,网络钓鱼信息增加了250%。 如今,鱼叉式网络钓鱼和企业电子邮件泄露(business …

关于钓鱼攻击和防范这些事

本文将从攻击、检测处置和防范三个维度,分别介绍钓鱼攻击方式、钓鱼邮件安全事件运营及防范措施。 1、钓鱼攻击矩阵 1.1 钓鱼攻击概述 利用社会工程学进行攻击,是实战攻击中出现率非常高的手法之一。 使用钓鱼的方式突破边界,也是实战…

[Qt] 基于Tcp协议的聊天室实现(Chat Room 局域网通信)

时间:2016年12月11日 一、写在前面: 平时做图形学的东西多一些,虽然一直对网络编程很感兴趣,但是没有什么机会去尝试一下。最近正好赶上期末的课程实习,然后就参考Qt官方的 Network Programming References&#xff0c…

【C语言】实现简易网络聊天室

项目: 制作一个简易的聊天室,实现实时非单机聊天 知识点: 总体框架: socket() 创造套接字函数: 然后设置 bind() ,调整 IP 参数: 然后设置 listen() : 然后设置 accept() &#…

从一篇防范钓鱼邮件的通知说起

文章目录 1. 网络防骗无小事2. 安全需求很多,怎么办?3. 方案还是有的4. 不仅仅只是好用 1. 网络防骗无小事 网络冲浪一时爽, 网上翻车遭大殃。 网络安全无小事, 时时刻刻记心上。 当今社会,互联网把偌大的地球变成了一个地球村。…

【C++简单项目】基于socket实现的聊天室Chat_Room

一、需求分析 聊天室中如果有人说话,服务器将内容传送给聊天室的其他人。 那么就需要客户端和服务端两个程序,一个人发送一个消息,服务器向所有人发送一遍消息,所有人的客户端接收消息,也就是说客户端负责发送和接受消…

基于TCP的网络聊天室实现(C语言)

基于TCP的网络聊天室实现(C语言) 一、网络聊天室的功能二、网络聊天室的结果展示三、实现思路及流程四、代码及说明1.LinkList.h2.LinkList.c3.client.c4.server.c 一、网络聊天室的功能 有新用户登录,其他在线的用户可以收到登录信息 有用户…

CobaltStrike(钓鱼攻击工具)

一、介绍 1、CobaltStrike是一款渗透测试软件,分为客户端与服务端,可以进行团队分布式操作,服务端:1个,客户端:N个,被业界人称为CS神器。 2、CobaltStrike集成了端口转发、服务扫描,自动化溢出,…

Discord 私信钓鱼手法分析

事件背景 5 月 16 日凌晨,当我在寻找家人的时候,从项目官网的邀请链接加入了官方的 Discord 服务器。在我加入服务器后立刻就有一个"机器人"(Captcha.bot)发来私信要我进行人机验证。这一切看起来相当的合理。我也点击了这个验证链接进行查看。…

154.网络安全渗透测试—[Cobalt Strike系列]—[钓鱼攻击/鱼叉钓鱼]

我认为,无论是学习安全还是从事安全的人多多少少都有些许的情怀和使命感!!! 文章目录 一、钓鱼攻击和鱼叉钓鱼简介1、钓鱼攻击简介2、钓鱼攻击模块:6个3、鱼叉钓鱼简介4、鱼叉钓鱼示例:邮件钓鱼 二、钓鱼攻…

个人年终述职报告PPT怎么做?

适用于职场工作汇报、述职报告、岗位竞聘的PPT模板 这套微粒体风格的述职报告PPT模板采用了立体的几何图形设计,以白色、橙色、深蓝色为主,整体设计简约大气高端。其中还结合了时间轴、流程图、脑图等PPT素材,可以更直观展现工作述职报告的内…

计算机机房防雷接地标准,机房防雷接地规范与防雷接地方式,你知道吗?

雷电的描述 雷电是由天空中云层间的相互高速运动、剧烈磨擦,使高端云层和低端云层带上相反电荷。此时,低端云层在其下面的大地上也感应出大量的异种电荷,形成一个极大的电容,当其场强达到一定强度时,就会产生对地放电&…

地凯模块化机房防雷接地防雷工程设计方案

智能微模块的防雷接地系统由防雷方案和接地方案组成。 防雷方案:智能微模块主要有以下防雷工程方案。 SPD(surge protection device)浪涌保护器的安装符合以下要求:SPD 安装在被保护设备 的前端,SPD 的连接导线应尽可…

防雷工程中防雷等级的意义

在现代社会中,各种电子设备和通信系统已经成为我们生活中不可或缺的一部分。然而,雷击是这些设备和系统的一个常见问题,不仅会导致设备损坏,还可能对人们的生命财产造成威胁。因此,防雷措施变得尤为重要。 为了保护设…

防雷接地的施工工艺与防雷施工方案

雷电是自然界的一种强大而危险的自然现象,经常造成重大财产损失和人员伤亡。为了保护建筑物和人员免受雷电的危害,防雷接地系统的设计和施工至关重要。本文将介绍防雷接地的施工工艺和防雷施工方案,强调专业和符合国家标准的方法,…

防雷知识:什么是雷电浪涌

浪涌是突然发生并超过典型工作电压的过电压。一般来说,浪涌是电路中短暂的电流、电压或功率波。今天我们就来科普一下什么是雷电浪涌。 什么是浪涌? 浪涌,顾名思义,是一种突然发生并超过典型工作电压的过电压。一般来说&#xf…

单位、家庭建筑物电气、电子设备防雷举措

前 言 在现实的学习、工作、生活中,有时会面对自然灾害、重特大事故、环境公害及人为破坏等突发事件,为了控制事故的发展,就不得不需要事先制定应急预案。那要怎么制定科学的应急预案呢﹖下面是小编为大家整理的单位、住宅建筑物、电子电气防…

科学防雷接地和雷电防护方案

说到防雷,可能不少人首先会想到避雷针,而“避雷针”这一概念,很容易让大家对防雷的概念造成误解。 误解1: 避雷针是用来“避雷”的。 其实,避雷针的学名叫“接闪器”,不是用来“避开雷击”的,而是用来“迎…

通信基站防雷接地方案

由于各基站的环境和建设方式不同,所以对基站防雷接地不能一概而论,应根据具体情况采取防雷与接地措施, 因地制宜实施防雷接地工程,将基站接地系统按照均压等电位的原理进行设计和改造,即通信设备的工作地、保护地、防雷…