单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等

Pine 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT的热度稍有平息,蛰伏已久的Meta就迅速放出“大招”:

一次性发布四种尺寸的大语言模型LLaMA:7B、13B、33B和65B,用小杯、中杯、大杯和超大杯来解释很形象了有木有(Doge)。

还声称,效果好过GPT,偏向性更低,更重要的是所有尺寸均开源,甚至13B的LLaMA在单个GPU上就能运行。

消息一出,直接在网上掀起一阵热度,不到一天时间,相关推文的浏览量就已经快破百万。

aba3a57fa4a3a7795d785e0d38671f08.png

同在Meta的LeCun当然也得为这次大模型的热度“添油加柴”,LLaMA直接给他写了段“AI”Rap:

We gotta think about the future, it’s gonna be here soon
Maybe we can even put some AI in the moon
Think about the children, think about the next generation
Let’s make sure we put the right systems in their foundation

(不得不说效果不错,还双押了,skr~)

13cf9e5ff23e10a2c632c74ed50cdcf9.png

不过话说回来,这次Meta的LLaMA模型到底如何?

一起来一探究竟。

数学编程写求职信统统都能拿下

Meta发布的LLaMA是通用大语言模型,原理就不多赘述,和以往的大语言模型一样:

将一系列单词作为输入,并预测下一个单词以递归生成文本。

这次,Meta之所以一次给出不同大小的LLaMA模型,论文中给出了这样的解释:

近来的研究表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由基于更多数据训练更小的模型实现的。

6d2573d8626840360e437c6b854ed7a0.png

也就是说,较小的模型规模加上比较大的数据集,获得的性能可能会比更大规模模型的要好很多。

一方面,小规模模型需要的计算能力和资源相对来说都会少很多,另一方面,它还能基于更多数据集训练更多token,更容易针对特定的潜在产品用例进行重新训练和微调。

除了一把给出四种尺寸的LLaMA,Meta这次还直接开源了这个大语言模型。

更重要的是,Meta为了让自己的工作与开源兼容,使用的都是公开的数据。

972259f6cd5a885dfe37cadc3ba7ee42.png

而这把开源,也不只利好开发人员,同样也利好Meta。

LLaMA模型也有着其他大语言模型的通病:会产生偏见性、有毒或者虚假的内容。开源吸引来的更多的研究可以帮助解决这个问题。

不过讲了这么多,Meta的这个LLaMA模型到底能做啥?

扎克伯格直接在Facebook放出豪言,这是AI大语言模型里的新SOTA:

生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等它都能干。

9b5e093f09e26e712e13c530863a585e.png

论文的最后也给出了一些栗子fc9a53aa84b2a32c7ad0dc58df570db8.png

比如说,给出几个数字,它直接就能找出其中的规律并续写,还balabala解释了一大通。

5326b34ca4ea908070ca1e1fb065755f.png

ChatGPT之前擅长写的求职信LLaMA也能轻松拿下。

58234d8b73dfd763c10562b601dd0aee.png

编程、写小说也是分分钟的事儿:

5e9cb383733b5c92686c1074e761f0d3.png
152a5859bb7ddc5d2bafc9821a8168a4.png

效果超越GPT-3

当然按照惯例,在最后LLaMA还是得和其他大模型做做比较(是骡子是马,咱得拉出来遛遛)。

其中,大家比较熟悉的就是GPT-3,直接看看它们俩之间的效果比较:

相较于有1750亿参数的GPT-3,最多只有650亿参数LLaMA赢麻了:它在大多数基准上都要优于GPT-3。

比如说常识推理:

4b76184e77fcd10b2516454af3376239.png

或者说一些基础问题的解决:

97e57b2caab684489d540075f5018657.png

又比如说阅读理解:

616a33f2fb94bebaf6290263c9a6084b.png

甚至,研究人员还提供了一组评估模型偏见性和毒性的基准,得分越高,偏见就越大:

LLaMA以66.6分险胜,偏见性略低于GPT-3。

18a9951c4855dcabf97149043801dd89.png

你对Meta这次的LLaMA怎么看呢?如果还想了解更多可以戳文末链接~

论文地址:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
参考链接:
[1] https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[2] https://twitter.com/GuillaumeLample/status/1629151231800115202
[3] https://twitter.com/ylecun/status/1629243179068268548

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。

5dce8d9105f629ee68e5848632b770ca.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26672.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js 解密

Ai - Chat (sbaliyun.com) 在分析接口的时候,我们看到请求做了加密 查看事件我们发信啊了方法 callCHATGPT() 得到 callCHATGPT()的代码 async function callCHATGPT() {var responseText1 document.getElementById("chatgpt-response");responseText1.i…

基数树简介

文章目录 1.简介2.为什么要设计基数树?3.应用4.操作插入删除查找 5.小结参考文献 1.简介 基数树(Radix Trie)也叫基数特里树或压缩前缀树,是一种多叉树,一种更节省空间的 Trie(前缀树)。 基数…

0101代理模式详解-设计模式-spring

1 概述 代理模式是一种结构型设计模式,它通过提供一个代理对象来控制对另一个对象的访问。在代理模式中,代理对象充当原始对象的接口,客户端可以通过代理对象来访问原始对象,代理对象则可以控制对原始对象的访问,并在…

chatgpt赋能python:Python中的按位取反

Python中的按位取反 Python中的按位取反是一种常见的操作,它可以让我们快速地对二进制的数字进行取反操作。在本文中,我们将介绍Python中的按位取反操作,并探讨它的用途和示例。 什么是按位取反 按位取反是一种将二进制数中的每一位进行反…

HDBits刷题2: Circuit

1.combinational logic: 组合逻辑 1.1 basic gates: 基本逻辑门 wire 解答: module top_module (input in,output out);assign out in; endmodule GND 解答: module top_module (output out);assign out 1b0; endmodule NOR 解答: module top_module (input in1,input in2,ou…

stm32f103rct6使用内部晶振作为时钟源

目录 正点原子库函数1.void SystemInit(void)2.FLASH3.宏定义4.查看5.延时6.最终结果7.精准延时尝试(失败) HAL库函数1 宏定义2 时钟配置3 main函数中调用4 例子代码 寄存器版本(跑通串口)代码示波器查看波特率 正点原子库函数 s…

Esight | 类比ChatGPT的AI助理

很多行业内的小伙伴都在使用我们的低功耗分析设备mPower1203,它为大家在产品功耗的分析评估和优化上提供了很大的帮助,也为产品的工厂自动化提供了便捷的应用。为了更好的服务于研发工程师,配套的上位机工具Esight集成了ChatGPT【AI助理】的功…

0101壳-手写springboot-springboot系列

文章目录 1 前言1 创建我们自己的pringboot模块1.1 引入相关依赖1.1 启动类注解1.2 启动类 2 测试模块3 启动测试结语 1 前言 springboot有以下作用: 简化配置:Spring Boot提供了一组预定义的自动配置选项,可以快速地配置应用程序&#xff…

网络:chrome抓包

Network面板 按F12或者CTRLSHIFTI就可以召唤出这个面板 控制器:控制面板的外观和功能过滤器:过滤请求列表中显示的资源概览:显示HTTP请求、响应的时间轴请求列表:默认按照请求的先后时间排序,每选择一个请求还会跳出…

用ChatGPT高效学习:7天入门Python网络爬虫

以前不懂编程,但经常要从互联网上批量下载一些文件图片视频、收集整理数据等,手工操作耗时耗力。用ChatGPT入门了Python编程后,就寻思着可以再利用ChatGPT入门网络爬虫。 先让ChatGPT给我列出一个学习计划: 我有一些Python编程基…

Oracle 发力 MySQL,MariaDB 成功上市,大规模融资锐减 | 解读数据库的 2022

又一年过去了,生活还在继续,现在是反思去年数据库世界所发生事件的绝佳时机。 链接:https://ottertune.com/blog/2022-databases-retrospective/ 声明:本文为 CSDN 翻译,未经允许禁止转载。 作者 | Andy Pavlo 译者 | …

【GPT-4 ChatGPT】第 2 章 :深入了解GPT-4 和 ChatGPT API

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

Python基于Oxford-IIIT Pet Dataset实现宠物识别系统

先看效果: Oxford-IIIT Pet Dataset是一个不错的数据集,牛津官方整理出来的一个关于各种猫和狗的数据集,可以很方便被我们用来做图像识别或者是图像分割类型的任务,这里我们主要是做图像识别的应用。 官方介绍如下所示&#xff1a…

Python用户管理系统,宠物管理系统

用户管理系统 surface """ #三引号是Python的注释符号,但也可以作为字符串输出 **************************************** 用户管理系统 **************************************** 1、注册新用户 2、用户登录 3、用户注销 4、用户信息显示 5、退…

基于涂鸦智能的宠物喂食器

基于涂鸦智能的宠物喂食器 一、开发计划二、涂鸦三明治开发套件涂鸦三明治 Wi-Fi MCU 通信板喇叭涂鸦三明治H桥直流电机驱动功能板涂鸦三明治直流供电电源板MCU主控板 三、产品开发1、产品创建进入涂鸦IoT平台创建产品选择对应的功能点和设备面板下载SDK 2、MCU SDK移植对串口寄…

宠物领养平台的分析与实现

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、掘金特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、毕业设计、简历模板、学习资料、面试题库、技术互助 文末获取源码 项目编号:BS-PT-052 运行环…

智能宠物项圈app开发解决方案

智能宠物项圈app开发解决方案,今天主要介绍的就是智能宠物项圈app开发方案中的功能。它的功能主要有多重定位,实时定位、出入范围提醒,踪迹随时可寻、远程呼唤、电子围栏、活动监测等,接下来我就来全面的介绍一下。 智能宠物项圈a…

宠物店会员管理系统| 宠物店小程序

国内养宠家庭非常多,推动着国内宠物市场发展,而围绕宠物的细分行业,如宠物食品、宠物用品/医疗/美容/婚介/殡葬等,2019年我国宠物市场规模达2024亿元,预计2023年,市场规模将突破4000亿元左右。 未来的宠物市…

智能宠物饲养系统设计

word完整版可点击如下下载>>>>>>>> 智能宠物饲养系统设计.rar-其它文档类资源-CSDN下载1、资源内容:毕业设计lun-wenword版10000字;开题报告,任务书2、学习目标:快速更多下载资源、学习资料请访问CSDN下…

宠物服务App功能简介

随着时代的变革与发展人们的生活变得越来越好,也变的越来越多样化。物质生活的满足后,人们开始找寻其他的一些兴趣爱好,让自己的生活变的更加多彩,有人种花、有人养鸟、有人养猫、有人养狗等等。不管是养什么都是需要细心照顾才能…