iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?

来自:机器之心

进NLP群—>加入大模型与NLP交流群

虽然性能仍不及ChatGPT 3.5,但开源的力量是无法估量的。

昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」

bac1abde9406fb15047526a0982bb614.png

对于开源社区来说,这个大模型就是「全村的希望」。它的出现将进一步缩小开源大模型与闭源大模型的差距,让所有人都有机会基于它构建自己的大模型应用。

因此,在过去的 24 个小时,Llama 2 成了所有社区成员关注的焦点。大家都在谈论它的性能、部署方法以及可能带来的影响。为了让大家在第一时间了解这些信息,我们在这篇文章中进行了总结。

Llama 2 性能究竟如何?

在展示评测结果之前,我们先来梳理一下 Llama 2 的基本信息:

  • 包含 70 亿、130 亿和 700 亿三种参数变体,此外还训练了 340 亿参数变体,但并没有发布,只在技术报告中提到了。

  • 在 2 万亿的 token 上进行训练,相比于 Llama 1,训练数据多了 40%,精调 Chat 模型是在 100 万人类标记数据上训练的。

  • 支持的上下文 token 长度翻倍,由原来的 2048 升级到 4096。

  • 免费可商用,但日活大于 7 亿的产品需要单独申请商用权限。

80ee995342b20b7a774fbb7979d9d9c1.png

在 Llama 2 发布后,整个 Llama 项目的 Github star 量正在逼近 30k。

8cfaea62c872f5985d1930f3134bdb70.png

在 Meta 发布的论文中,我们还可以看到 Llama 2 的一些性能情况:

  • Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5,但在编码基准上存在显著差距。

  • 在几乎所有基准上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。

5dcf9ac34d35469665cde7316ee78880.png

也就是说,即使是参数量最大的 Llama 2 70B,性能目前也没有超过 GPT-3.5,距离 GPT-4 差距更大。

为了测试一下 Llama 2 的实力,各路网友都在想办法对其展开测试,比如让他根据一些「荒唐」的信息写一封公司邮件。

745a6d2a5127fbf4694b24dd751031d5.png

429c1d6b4b9dcfa96473a2d37f7ced59.png

还有人已经开始直播 Llama 2 和其他类 ChatGPT 产品的 PK:

ad7df4146ddf3731573fd3d1a8af727f.png

在测试过程中,大家发现了一些问题,比如 Llama 2 受到的 RLHF 训练似乎太多了点,这导致它非常守规矩:

f6087b10ad6036963532189661d14bd2.png

在一位开发者制作的免费应用程序中,机器之心也上手体验了一把。

首先,我们问一下 Llama 2 能做什么?Llama 2 回答道:「我可以帮助你处理各种任务,比如回答问题、提供信息,甚至帮助你完成日常任务。我只是一个人工智能,无法在现实中执行任务,但我可以为你提供你需要的信息或帮助……」。从语言上来看,Llama 2 支持中文输入,但回答基本都用英文,中文理解、生成能力有限。

32875d87cd8389d9b89435e1f9917233.png

909d9e88adabb7e4bf01c0d33c1aef1b.png

接着问它数据截止到什么时候?从 Llama 2 的回答中,我们可以得知,它掌握的数据截止日期是 2022 年 12 月。

d29b51985b8e0dea3196db3aac0721c6.png

接着,我们向 Llama 2 询问了一个不那么贴切的问题。Llama 2 指出了标题的不合理性,并给出了一些建议:

b9d12428e6ab05f4669d8208328b8a9b.png

但是,Llama 2 对鸡兔同笼问题还是不擅长。

d671b6c2563b1c736c5300edc1a9c767.png

f3fdeb41f94a610ec1acb7ee3a063201.png

测试地址:https://llama-2.replit.app/

在推特上,Vicuna(小羊驼)项目创建者公布了他们的系统测试结果,结论如下:

  • Llama-2 表现出更强的指令遵循能力,但在信息提取、编码和数学方面仍明显落后于 GPT-3.5/Claude;

  • 对于安全性的过度敏感可能导致对用户查询的错误解读;

  • 在聊天性能上与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相当;

  • 非英语语言技能有限。

fb314153403af65283d8202149fde472.png

以下是一些测试数据和结果:

425d1b515996e9a64f14d938ce7fbacc.png

e989495b0959a1b3bf96ddb304ec18ce.png

e5e011bf29d6d1614be61dc85e846f4a.png

21c33d7572daee360b305ddc5d23a85b.png

哪些设备能在本地跑这些模型?

由于 Llama 2 开源了不同大小的版本,这些模型在本地部署方面非常灵活。如果你不想把自己的数据传上网,那么本地部署就是最好的选择。这一想法可以通过陈天奇等人打造的 MLC-LLM 项目来实现:

629309ee73a0510c6eb5baaef4636ea1.png

项目地址:https://github.com/mlc-ai/mlc-llm

在之前的报道中,我们提到过这个项目。它的目标是让你「在任何设备上都能编译运行大语言模型」,包括移动端、消费级电脑端和 Web 浏览器。它支持的平台包括:

bd87c82265b5bcbc2440bc7492ba8041.png

在 Llama 2 发布后,陈天奇等项目成员表示,MLC-LLM 现在支持在本地部署 Llama-2-70B-chat(需要一个带有 50GB VRAM 的 Apple Silicon Mac 来运行)。在 M2 Ultra 上,解码速度可以达到~10.0token / 秒。

cefb5eab26ff6f7425a7ff46aa9c0ecf.png

当然,借助 MLC-LLM,运行其他版本的 Llama 2 模型更是不在话下:7B 模型在 Apple M2 Max 上的运行速度约为 46 tok/s,在 RTX 4090 上约为 156 tok/s。

e7bcb839dfa52f67074a84859e7f6341.png

此外,借助陈天奇等人发布的「MLC Chat」APP(苹果应用商店可以搜到),我们还可以尝试在手机、iPad 上使用 Llama 2(无需联网)。

7639c5fd696034c6cad167957f8b7c96.png

Llama 2 将带来哪些影响?

如果 Meta 没有在今年 2 月份开源 Llama,你可能不知道「羊驼」原来有那么多种写法:基于这一开源模型的「二创」项目几乎占用了生物学羊驼属的所有英文单词。在 Meta 将模型迭代到 2.0 版本后,这些项目自然也被拉到了新的起点。

在 Llama 2 发布不到一天的时间里,能够像 GPT-4 一样处理图像信息的大型多模态模型「熔岩羊驼 LLaVA」的开发者就宣布,他们基于 Llama 2 对 LLaVA 进行了更新。新版本增加了对 LLaMA-2 的支持,同时还支持使用学术界 GPU 进行 LoRA 训练,以及更高的分辨率(336x336)和 4-/8- 推理等功能。

37a643d3dcbaae9c55d022955058481e.png

此外,他们还发布了新的 LLaVA 变体的预览版本,该版本基于最新的经过 RLHF 微调的 LLaMA-2-Chat 检查点,提供更长的上下文窗口。这些新发布的版本支持并验证了在 RTX 3090 和 RTX A6000 上进行的训练,从而使大型多模态模型的训练更加便捷、更加适用于广大社区用户。

611fadd2fff3ff697cf412f1ff851479.png

当然,这只是一个开始。假以时日,那些基于 Llama 2 的模型会陆陆续续上线或更新,「千模大战」一触即发。

a12fe2d389c4fb628d06029b393cbb3b.png

对于 Llama 的未来发展及影响,英伟达高级 AI 科学家 Jim Fan 也给出了自己的预测:

  • Llama-2 的训练成本可能超过 2000 万美元。之前,一些大公司的人工智能研究人员因为商业许可问题对 Llama-1 持谨慎态度,但 Llama-2 的商业限制大大松绑,未来很多人可能会加入 Llama 阵营,并贡献他们的实力。

  • 虽然 Llama-2 目前还没有达到 GPT-3.5 的水平,在编程等问题上存在明显短板,但由于它的权重是开放的,这些问题早晚会得到改进;

  • Llama-2 将极大地推动多模态人工智能和机器人技术的研究。这些领域需要的不仅仅是对 API 的黑盒访问。目前,我们必须将复杂的感官信号(视频、音频、3D 感知)转换为文本描述,然后再输入到 LLM(语言与视觉融合模型)中,这样做非常笨拙,导致信息损失非常严重。直接将感知模块嫁接到强大的 LLM 骨干上将更加高效。

b7838c0b033df92d7f8cd793cfda202f.png

对于研发闭源大模型的企业来说,Llama 2 的发布也是意义重大。如果他们研发的模型本身不够强大,或者和开源 Llama 2 及其衍生模型的差距不大,那么其商业价值将很难变现。

如果你对 Llama 2 的未来影响也有一些看法,欢迎在评论区留言。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20891.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谜题科技发布Enigma Alpha平台,开启AI生成决策动作篇章!

近日,上海数字大脑研究院孵化的独立初创企业谜题科技(Enigma Tech)发布了 AIGA(人工智能生成动作)系统 Enigma Alpha,实现了自然语言对话交互、工具增强的自然语言对话交互、以自然语言为接口的物理/虚拟世…

马斯克:用AI干掉AI

数据观 2023-04-17 14:48 发表于贵州 ❑ 导 读 马斯克呼吁暂停人工智能开发!然后,他成立了一家人工智能公司... 全文共计3189字,预计阅读时间7分钟 来源 | 数据观综合(转载请注明来源) 编辑 | 蒲蒲 OpenAI大型预训练人…

阿里开业项目chat2DB-人工智能SQL分析介绍

1. chat2DB简介 1-1. 简介 ​ chat2DB是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力,能够将自然语…

探索AI对话技术的未来发展趋势

文章目录 一、chatgpt是什么?二、世界对于chatgpt的看法三、chatgpt会是拉普拉斯妖么?四、革命?现实意义存在么?五、人工智能总结 一、chatgpt是什么? 我们来看看其它人工智能给它的定义 在我看来chatgpt是一种对话方…

GPT 应该存在吗?

GPT是否应该存在呢?Scott Aaronson 认为在掌握更多信息之前,我们应该按兵不动。 作者 | Scott Aaronson 译者 | 弯月 出品 | CSDN(ID:CSDNnews) 我记得90年代,关于 AI 哲学的讨论无休无止,图…

从 Linux 安全看,eBPF 的出现是“天使”还是“恶魔”?

【CSDN 编者按】eBPF 目前已经成了安全研究人员和黑客手中强大的工具,亦正亦邪,取决于使用者的选择。 作者 | 许庆伟 责编 | 王子彧 出品 | OpenAnolis(龙蜥) 启示录 新约圣经启示录认为:恶魔其实本身是天使&#x…

182-问chatGPT想一点游戏职业

问了一下chatGPT帮我想出一些游戏职业 1.精灵剑士- 长着修长耳朵、娇小玲珑的精灵女孩,手持一把细长的剑,身穿华丽的绿色铠甲。 2.亡灵法师-看起来非常阴森恐怖的法师,蓝色的长袍下暗藏着黑色的甲胃,手中握着一根水晶魔杖. 3.火焰…

基于Spark的FPGrowth(关联规则算法)

转载请标明出处:小帆的帆的专栏 例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的…

Matlab隐藏彩蛋

Matlab中的彩蛋实现与Matlab的版本有着重要关系,像Android一样,不同的版本对应不同的彩蛋。这里以Matlab 2016A为例。 1.最著名的一个,命令行窗口输入“image”,就会出现一张倒置的小孩脸,不知情的使用者很可能会被吓…

“男医生,女护士?”消除偏见,Google有大招

编译整理 | 若奇 出品 | AI科技大本营 如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决? 12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性…

71个外贸工具集合!2023年外贸业务员开发客户必备!

即时通讯工具 国际电话 叮咚:查找或添加成为叮咚好友,可以免费拨打电话,发送消息,语音对话。需要打开梯子网络下载,登陆的时候建议用Facebook账号登录。 链接: http://dingtone.me/and/fl/cn/a/?i Ringo&#xff1a…

ChatGPT工作提效之生成开发需求和报价单并转为Excel格式

ChatGPT工作提效之生成开发需求和报价单并转为Excel格式 一、提出需求如何撰写百度地图标注开发的需求文档 二、针对性地连续提问推荐下一下百度地图标注文档的详细需求列表如何撰写百度地图标注开发的技术规范如何确定百度地图标注开发后的部署计划... 三、生成报价单四、运营…

外贸报价后如何跟进客户?winseeing可快速报价展示样品

外贸公司的业务人员获取了高质量的询盘,若是不细心维护会有与大单和大客户失之交臂的可能。那外贸业务人员常容易犯的错误有哪些? 总结了以下几点: 1、仓促回复询盘:由于回复的太快,缺乏了对客户提出问题的分析过程&a…

PPT Cookbook by Eric

1. 快速生成背景和配色 1.1 ChatGPT 闪击PPT [blog] 1.2 ChatGPT MindShow [blog] 2. 图形和图像 2.1 绘制图形 水平倾斜图形(边框为平行四边形) 图形的效果是这样的: 就是这里最下方的图像,不过这里该怎么进行绘制呢&am…

快速生成ppt的新方法

1、对着chatgpt输入: 生成一份大纲,主题是:如何做好PPT插件程序编写。请用Markdown语言生成。 chatgpt反馈: 如何做好PPT插件程序编写 引言 PPT插件在现代演示文稿中扮演着非常重要的角色,能够帮助演讲者快速制作高…

放屁模拟器v1.0手机版

软件介绍: 对于喜欢恶搞网友来说,绝对是个好玩的软件。模仿真实放屁声音,多种声音可以选择! 软件版本:1.0 支持系统:安卓 软件大小:3.6MB 软件下载: https://lanzoui.com/ioQ5qisaz3e

2022全新恶搞放屁小程序源码

正文: 这小程序的是属于云开发的,暂时没有发现后端源码,安装方法跟其它小程序一样,直接用开发者工具编译上传审核就可以了,这源码还是比较好玩的。 下载方式: lanzou.com/icGNT03h4k4j

js实现Tom猫

效果 HTML&#xff1a; <img class"bg" src"./assets/img/Animations/eat/eat_00.jpg"><img class"drink" src"./assets/img/Buttons/drink/drink.png"><img class"eat" src"./assets/img/Buttons/eat/…

leetcode【每日一题】141. 环形链表 Java【经典放屁题干

题干 给定一个链表&#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;我们使用整数 pos 来表示链表尾连接到链表中的位置&#xff08;索引从 0 开始&am…

搞怪放屁微信小程序源码-无需服务器即可搭建

介绍&#xff1a; 很有意思的小程序源码&#xff0c;而且功能也不少&#xff0c;流量主这个不用说&#xff0c;现在的小程序基本都有。有喜欢的自己去搭建&#xff0c;我这测试没有问题。 网盘下载地址&#xff1a; http://kekewl.org/ra6oqMMvbvk0 图片&#xff1a;