刷屏的Llama 2性能究竟如何?

 Datawhale干货 

大模型:Llama 2, 来源:机器之心

虽然性能仍不及ChatGPT 3.5,但开源的力量是无法估量的。

相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」

969b1281dfec1e076c9ed25eafeeb71d.png

对于开源社区来说,这个大模型就是「全村的希望」。它的出现将进一步缩小开源大模型与闭源大模型的差距,让所有人都有机会基于它构建自己的大模型应用。

因此,在过去的 24 个小时,Llama 2 成了所有社区成员关注的焦点。大家都在谈论它的性能、部署方法以及可能带来的影响。为了让大家在第一时间了解这些信息,我们在这篇文章中进行了总结。

Llama 2 性能究竟如何?

在展示评测结果之前,我们先来梳理一下 Llama 2 的基本信息:

  • 包含 70 亿、130 亿和 700 亿三种参数变体,此外还训练了 340 亿参数变体,但并没有发布,只在技术报告中提到了。

  • 在 2 万亿的 token 上进行训练,相比于 Llama 1,训练数据多了 40%,精调 Chat 模型是在 100 万人类标记数据上训练的。

  • 支持的上下文 token 长度翻倍,由原来的 2048 升级到 4096。

  • 免费可商用,但日活大于 7 亿的产品需要单独申请商用权限。

5269b1c68f5ea426565eadefd801c42a.png

在 Llama 2 发布后,整个 Llama 项目的 Github star 量正在逼近 30k。

a03d97dd38dd8ea2405762093afc3903.png

在 Meta 发布的论文中,我们还可以看到 Llama 2 的一些性能情况:

  • Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5,但在编码基准上存在显著差距。

  • 在几乎所有基准上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。

e07e10405c62795f6cde144fc9717bef.png

也就是说,即使是参数量最大的 Llama 2 70B,性能目前也没有超过 GPT-3.5,距离 GPT-4 差距更大。

为了测试一下 Llama 2 的实力,各路网友都在想办法对其展开测试,比如让他根据一些「荒唐」的信息写一封公司邮件。

34c309166d94de2bebcfa599d37b6e3e.png

0d307d41b5be2154c69426d3fe1e7de6.png

还有人已经开始直播 Llama 2 和其他类 ChatGPT 产品的 PK:

522656549436bdd06b436d8c2760e17a.png

在测试过程中,大家发现了一些问题,比如 Llama 2 受到的 RLHF 训练似乎太多了点,这导致它非常守规矩:

b5a7a428bbe6bcb46839528ed85b0b9d.png

在一位开发者制作的免费应用程序中,机器之心也上手体验了一把。

首先,我们问一下 Llama 2 能做什么?Llama 2 回答道:「我可以帮助你处理各种任务,比如回答问题、提供信息,甚至帮助你完成日常任务。我只是一个人工智能,无法在现实中执行任务,但我可以为你提供你需要的信息或帮助……」。从语言上来看,Llama 2 支持中文输入,但回答基本都用英文,中文理解、生成能力有限。

807d2a3b993f21c274c13981976f071f.png

70015c60f434c39fd80ab32f64da5a1c.png

接着问它数据截止到什么时候?从 Llama 2 的回答中,我们可以得知,它掌握的数据截止日期是 2022 年 12 月。

adc7bdde9d37756a64ca53fa6a232ace.png

接着,我们向 Llama 2 询问了一个不那么贴切的问题。Llama 2 指出了标题的不合理性,并给出了一些建议:

0e4989256551fe15d15faae36cd9688b.png

但是,Llama 2 对鸡兔同笼问题还是不擅长。

c097e58f3ad356f21c050f681324fb11.png

88e1bb77c2063d248c65bcf4a3cb8c40.png

测试地址:https://llama-2.replit.app/

在推特上,Vicuna(小羊驼)项目创建者公布了他们的系统测试结果,结论如下:

  • Llama-2 表现出更强的指令遵循能力,但在信息提取、编码和数学方面仍明显落后于 GPT-3.5/Claude;

  • 对于安全性的过度敏感可能导致对用户查询的错误解读;

  • 在聊天性能上与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相当;

  • 非英语语言技能有限。

4a27ebfe02ec60062939f529ca12802a.png

以下是一些测试数据和结果:

43dfed34a8983b2ec194db9e7ffac575.png

a10e792f24bed4f4d26e1e6661bfc9bf.png

922b0f1b4991dfe96108e1de48bd2792.png

d5430a1872e2c36fdac471f4dc9ba048.png

哪些设备能在本地跑这些模型?

由于 Llama 2 开源了不同大小的版本,这些模型在本地部署方面非常灵活。如果你不想把自己的数据传上网,那么本地部署就是最好的选择。这一想法可以通过陈天奇等人打造的 MLC-LLM 项目来实现:

7059600e2da912eeb9eb28180d40035c.png

项目地址:https://github.com/mlc-ai/mlc-llm

在之前的报道中,我们提到过这个项目。它的目标是让你「在任何设备上都能编译运行大语言模型」,包括移动端、消费级电脑端和 Web 浏览器。它支持的平台包括:

bf35b531ba31e172a29330dc59112680.png

在 Llama 2 发布后,陈天奇等项目成员表示,MLC-LLM 现在支持在本地部署 Llama-2-70B-chat(需要一个带有 50GB VRAM 的 Apple Silicon Mac 来运行)。在 M2 Ultra 上,解码速度可以达到~10.0token / 秒。

02585917f976e33d3a24639c77c3776f.png

当然,借助 MLC-LLM,运行其他版本的 Llama 2 模型更是不在话下:7B 模型在 Apple M2 Max 上的运行速度约为 46 tok/s,在 RTX 4090 上约为 156 tok/s。

e46193d6862c11d10af285325e36b29f.png

此外,借助陈天奇等人发布的「MLC Chat」APP(苹果应用商店可以搜到),我们还可以尝试在手机、iPad 上使用 Llama 2(无需联网)。

c5ad9632effe197c96f27aca30aa6bb6.png

Llama 2 将带来哪些影响?

如果 Meta 没有在今年 2 月份开源 Llama,你可能不知道「羊驼」原来有那么多种写法:基于这一开源模型的「二创」项目几乎占用了生物学羊驼属的所有英文单词。在 Meta 将模型迭代到 2.0 版本后,这些项目自然也被拉到了新的起点。

在 Llama 2 发布不到一天的时间里,能够像 GPT-4 一样处理图像信息的大型多模态模型「熔岩羊驼 LLaVA」的开发者就宣布,他们基于 Llama 2 对 LLaVA 进行了更新。新版本增加了对 LLaMA-2 的支持,同时还支持使用学术界 GPU 进行 LoRA 训练,以及更高的分辨率(336x336)和 4-/8- 推理等功能。

b17c044a13d89d329a4230d3a1cf63b8.png

此外,他们还发布了新的 LLaVA 变体的预览版本,该版本基于最新的经过 RLHF 微调的 LLaMA-2-Chat 检查点,提供更长的上下文窗口。这些新发布的版本支持并验证了在 RTX 3090 和 RTX A6000 上进行的训练,从而使大型多模态模型的训练更加便捷、更加适用于广大社区用户。

63863b1e5020e8431bdc548679a86032.png

当然,这只是一个开始。假以时日,那些基于 Llama 2 的模型会陆陆续续上线或更新,「千模大战」一触即发。

afbc41237759872c380fcc807dc556d2.png

对于 Llama 的未来发展及影响,英伟达高级 AI 科学家 Jim Fan 也给出了自己的预测:

  • Llama-2 的训练成本可能超过 2000 万美元。之前,一些大公司的人工智能研究人员因为商业许可问题对 Llama-1 持谨慎态度,但 Llama-2 的商业限制大大松绑,未来很多人可能会加入 Llama 阵营,并贡献他们的实力。

  • 虽然 Llama-2 目前还没有达到 GPT-3.5 的水平,在编程等问题上存在明显短板,但由于它的权重是开放的,这些问题早晚会得到改进;

  • Llama-2 将极大地推动多模态人工智能和机器人技术的研究。这些领域需要的不仅仅是对 API 的黑盒访问。目前,我们必须将复杂的感官信号(视频、音频、3D 感知)转换为文本描述,然后再输入到 LLM(语言与视觉融合模型)中,这样做非常笨拙,导致信息损失非常严重。直接将感知模块嫁接到强大的 LLM 骨干上将更加高效。

d0edcc6778c86d9845c9b33d484848c6.png

对于研发闭源大模型的企业来说,Llama 2 的发布也是意义重大。如果他们研发的模型本身不够强大,或者和开源 Llama 2 及其衍生模型的差距不大,那么其商业价值将很难变现。

如果你对 Llama 2 的未来影响也有一些看法,欢迎在评论区留言。

0594555bd8c72de961ac8d2039ee9bbb.png干货学习,三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62879.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ESP8266用点灯app接入小爱同学

ESP8266接入小爱同学—智能LED台灯或风扇 首先用的是arduino IDE对esp8266进行的编译,arduino对8266编译环境的具体配置可参考 1.利用WiFiManager库实现自动配网,亦能够满足在不同WiFi下可以不用更改程序即可链接不同的WiFi 2.利用esp8266 OTA功能实现应…

2023年,TO B投资巨轮驶向何处?

冰点市场中,危与机也往往同在,能够在这次疫情长跑竞赛中抓得住火花的企业,也一定将会在接下来的2023年走出庭院、走向更多产业场景,和更大的世界。 作者|斗斗 编辑|皮爷 出品|产业家 融资事件减少58%、融资金额减少37%、平…

使用CSS提高网站性能的30种方法

根据httparchive.org的页面重量报告,CSS在平均70个请求和2MB的网页上占7个HTTP请求和70Kb的代码。这并不是网站性能糟糕的最坏原因(我正看着你呢,JavaScript),但CSS面临着特定的挑战: CSS会阻止渲染&#x…

都抢发AI大模型,谁关注模型安全?

如果要给4月定一个主题,“大模型”应该当仁不让。 从4月7日阿里突然放出“通义千问”内测开始;8日,华为放出盘古大模型;10日,商汤推出类ChatGPT产品“商量SenseChat”;之后,11日的阿里云峰会&am…

刘慈欣谈AI:人类若生活在科技的安乐窝里,终将会被“消灭”

“如果人类把社会运作的权力交给人工智能,选择生活在科技的安乐窝里,丧失活力和开拓性。那么,人类最终会被人工智能消灭。”面对突飞猛进的人工智能,中国科幻作家刘慈欣这样说道。 以ChatGPT为代表的生成式人工智能,凭…

Python电影推荐系统

Python实现基于皮尔森系数的协同过滤电影推荐。 爬虫获取用户数据 # -*- coding: utf-8 -*- """ 爬取豆瓣某影视的评分前100个用户,将他们的影评信息抓取下来作为movie.json 为了保证数据的可靠性,选择豆瓣电影top250 No.1的【肖申克的…

基于python的电影推荐系统

摘 要 本论文主要论述了如何使用Django框架开发一个电影推荐系统 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述电影推荐系统的当前背景以及系统开发的目的&a…

chatgpt赋能python:让Python帮你推荐电影:使用Python电影推荐算法

让Python帮你推荐电影:使用Python电影推荐算法 在当今互联网日益发展的世界里,我们的生活变得越来越数字化,并且受到大数据的驱动。而在这样的时代,我们每天都被不同数量和类型的内容包围着,包括电影和电视节目等。如…

生活小剧场30天吸粉44w,小红书最受欢迎的笔记长这样

前有劳动节等宣传节点,后有618大促,承上启下的5月里,小红书上的达人和品牌都是如何实现内容种草的呢? 为洞察平台的品牌营销策略及内容趋势,新红推出5月月度榜单,从品牌投放、内容创作等方面入手&#xff0…

pgAdmin怎么转换成中文界面

点击File下拉选项,点击Preferences选项,打开Preferences对话框。点击对话框中Miscellaneous下拉选项,点击User language。在右侧的User language下拉选择框中选择Chinese(Simplicied)中文简体,点击Save即可。若没有变换成中文建议…

只需几步打造属于自己的私有聊天系统

为什么选择私有化产品 在微信、QQ等聊天工具统治的时代,即时通讯工具早已成为人们沟通的一大重要途径,每个人对自己的隐私问题越来越关注,不只是个人,企业也不例外。 聊天过程中产生的聊天记录、传送的文件存在一定的泄露风险。 …

私聊模式的设计与实现

文章目录 1 私聊模式的设计与实现1.1 设计分析1.2 代码实现 1 私聊模式的设计与实现 1.1 设计分析 私聊模式: 用户在聊天时能够指定消息的接收者。 对聊天界面进行如下改动: 简单的看一下Qt中的列表类QListWidget: 我们需要增加USER消息…

web聊天室实现

后端: package com.jsx.chat;import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.HashMap; import java.util.Map; import java.util.concurrent.CopyOnWriteArraySet;import javax.websocket.OnClose; imp…

网上聊天室开发思路

网上聊天室设计思路 平时经常性的使用聊天软件如QQ,微信,或是游戏里各个区的公共频道,于是突发奇想,想要自己搞一个简易版聊天项目,所以现在开搞起来。 需求分析 1.想要进行聊天,势必需要有人才能聊起来&…

教你从零开始用WebSocket打造一个IM聊天室

之前我们在 IM即时聊天室(一):WebSocket 和 IM即时聊天室(二): Socket.io Node.js 两篇文章中介绍了搭建一个IM的所需的技术栈和通信原理。那在这篇文章里我们就来详细说一下具体的应用并提供完整源码。 个人Blog地址…

Thinkphp 使用Workerman 聊天室

1、下载Workerman插件 composer require topthink/think-worker 2、示例代码 后端 2.1 下载之后会得到这俩个文件 2.2 这个文件对应上面的worker_class 的地址 2.3.worker.php示例代码 <?php namespace app\http; use think\facade\Db; use think\worker\Server; use Wo…

仿微信的网络聊天室项目开发【完整源码讲解】

目录 总体开发思路 服务器端 服务器界面设计 建立TCP服务器端通信 建立服务器消息发送输出流 建立服务器消息接收输入流 建立服务器实时消息通信线程 设置服务器通信自由断开 客户端 客户端界面设计 建立TCP客户端通信 建立客户端消息发出输出流 建立客户端消息接…

手把手教你React Native接入聊天IM即时通讯功能-源码分享

本文介绍如何基于React Native使用 IM即时通讯SDK- ZIM SDK 快速实现同腾讯微信消息收发聊天交友功能。实现React Native混合移动框架开发多端应用&#xff0c;节省开发成本。 1 IM即时通讯SDK接入方案介绍 ZIM SDK IM即时通讯SDK提供了如下接入方案&#xff1a; 在此方案中…

(附源码)vue3.0+.NET6实现聊天室(实时聊天SignalR)

参考文章 搭建文章 gitte源码 在线体验 可以注册两个号来测试 演示图&#xff1a; 一. 整体介绍 介绍SignalR一种通讯模型Hub(中心模型&#xff0c;或者叫集线器模型)&#xff0c;调用这个模型写好的方法&#xff0c;去发送消息。 内容有&#xff1a; ①&#xff1a;Hub模型…

A股全市场股票历史行情Level2快照高频数据

A股全市场股票Level2快照高频数据(2010年开始) 快照行情又称切片(snapshot)行情&#xff0c;如其名&#xff0c;是对tick行情数据的某一个时刻的切片数据。例如现在常见的期货500ms一笔的行情&#xff0c;就是每500ms&#xff0c;在这时间段内的最高价、最低价、成交量等汇总成…