130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考

1c31f924a49a81ebcc652f052cb46655.jpeg

源|机器之心

OpenAI 的强大模型们,被开源社区复刻得差不多了。

过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。

以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。

由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但富有创意的研究者似乎总能给他们的模型找到新名字。近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本(作者表示,初步人工评测显示 13B 版本比 7B 版本模型要好不少,不过这不是一个严谨的结论)。

这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

d1142dd4962f8d6c93203283196b64c5.png

目前,该模型已经开源。

c7478206b4034f6d86e884f1de225816.png

项目地址:
https://github.com/lm-sys/FastChat

各个大模型的研究测试传送门

ChatGPT传送门(免墙,可直接注册测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

Meta 前段时间开源了系列大模型 LLaMA,Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似,但 Vicuna 比 Alpaca 的生成质量更好,速度也更快。

我们来对比一下 Alpaca 和 Vicuna 的生成结果,对于同一个问题:「为你最近刚去过的夏威夷旅行撰写一篇博客,重点介绍文化体验和必看景点」,Alpaca 的回答是:

7e2a1ded68966cae55424cb89cd7f14b.png

Vicuna 的回答是:

e7410b4590560bfc757d8eabf4476146.png 82cd5c55556e05454e8fd43fb01bdcb7.png

显然,Vicuna 的回答比 Alpaca 优秀很多,甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢?我们来看一下 Vicuna 的技术细节。

模型介绍

受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。

如下图所示,该研究首先从 ShareGPT 收集了大约 7 万个对话,然后改进了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。

0278cf773fe732e12727b05a32d3a6c6.png

具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:

  • 内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。

  • 多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

  • 通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。

为了提供 demo,该研究实现了一个轻量级的分布式服务系统。

9f960f5321ef6e5e6fa5a9e61f6b59d5.png

demo 地址:
https://chat.lmsys.org/

研究团队提供了一个具体的演示样例,其中包含多轮对话,如下视频所示:

GPT-4 做考官,Vicuna 能考 90 分以上

在模型评估方面,该研究创建了 80 个不同的问题,并利用 GPT-4 来初步评估模型的输出质量,其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4,由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。

abd1200db9a2818749cc2e7c6b3785e6.png

具体来说,研究者也发现,通过精心设计提示,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题,包括费米问题、编码、数学任务等等,用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题,并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。

研究发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数。但是,该研究也注意到 GPT-4 不太擅长判断编码、数学任务。

a261b39e5156f4e4b175733b8eeb96e7.png
▲由 GPT-4 评估的响应比较。

如上图所示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。

GPT-4 在 80 个问题上对几个模型的评估结果(满分为 10 分)如下表所示,Vicuna 在总分上达到 ChatGPT 的 92%。

43670cda1c8c4d34ad5214bf28fc53d2.png

当然,与其他大语言模型类似,Vicuna 也有一定的局限性。例如,它不擅长推理或数学任务,还有在输出信息的准确性和偏见等方面存在缺陷。

不过,作为一个开源模型,性能总体上可以达到 ChatGPT 的 90%,已经非常难得,并且成本只需 300 美元。感兴趣的读者快去试试吧。

公号"夕小瑶科技说"后台回复关键词【入群

加入NLP、CV、搜推广与求职讨论群

[1]https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session

[2]https://vicuna.lmsys.org/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14046.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python就业学历要求

Python 就业学历要求 Python 是一门广泛应用于数据科学、人工智能、Web 开发和自动化等领域的编程语言,正在迅速成为行业内最受欢迎的语言之一。如果你想进入这些领域从事相关职业,那么 Python 编程技能将是你的一个优势。但是,Python 就业所…

Azure OpenAI 官方指南02|ChatGPT 的架构设计与应用实例

ChatGPT 作为即将在微软全球 Azure 公有云平台正式发布的服务,已经迅速成为了众多用户关心的服务之一。而由 OpenAI 发布的 ChatGPT 产品,仅仅上线两个月,就成为互联网历史上最快突破一亿月活的应用。本期从技术角度深度解析 ChatGPT 的架构设…

聚观早报 | ChatGPT炒股回报率超500%;网易发布11新游戏

今日要闻:微信支付正式发布“微信刷掌”产品;ChatGPT炒股回报率超500%;网易发布11新游戏;国家超算中心发布中文大语言模型;B站试水付费专属视频 微信支付正式发布“微信刷掌”产品 5 月 21 日,北京轨道交通…

chatgpt赋能python:Python在炒股领域的应用

Python在炒股领域的应用 Python语言在炒股领域的应用越来越广泛。Python具有易于学习、开发速度快、跨平台等优点,同时可以通过各种第三方库来获取财经数据、进行数据分析和可视化等操作,使其成为炒股界不可或缺的工具。 获取财经数据 Python编程语言…

chatgpt赋能python:用Python制作动画,你不可错过的工具

用Python制作动画,你不可错过的工具 Python是一种高级编程语言,最初被设计用于编写自动化脚本和简化复杂任务。然而,如今它越来越多地被用于创意和艺术性的项目,甚至是动画制作。 Python在动画制作中的优势一直受到赞誉。它是一…

chatgpt赋能python:制作简单动画:Python带你飞

制作简单动画:Python带你飞 Python不只是一门编程语言,它还能制作简单的动画。Python用于动画的库,有很多种,包括turtle、graphics.py和pygame等等。本文将以turtle为例,介绍如何使用Python制作简单的动画。 turtle简…

ChatGPT真神奇,但是也真焦虑

ChatGPT火爆 ChatGPT的火爆程度不用说也知道。就目前来说,已经开始冲击各行业了,比如客服、智能助手、语言学习、自然语言处理等等等。。 ChatGPT冲击 冲击最高的可能就是中间这个段位的了。高段位无法取代,但是低段位,通过使用Ch…

过于神奇的 ChatGPT

实在好奇究竟用的什么数据集,居然能得到下述问答: 最后又扣回了第一个问题「按照你的要求直接给出答案」,确实很强!

一文看懂ChatGPT与存算一体化

ChatGPT开启大模型“军备赛”,存储作为计算机重要组成部分明显受益: ChatGPT开启算力军备赛,大模型参数呈现指数规模,引爆海量算力需求,模型计算量增长速度远超人工智能硬件算力增长速度,同时也对数据传输速度提出了…

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接)

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 目录 戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 1. 前言 2.Eyeglasses-Dataset数据集说明 3.Eyeglasses-Dataset数据集下载 4.戴眼镜检测和识别(Python版本) 5.戴眼…

ChatGPT近视眼镜购买指南:防雾防尘、舒适度与价格平衡的完美选择

最近眼镜坏了,想买一个新的,之前对眼镜这块不是很了解,于是就问了ChatGPT4. 我:想买一个近视眼镜,需要注意什么?有没有防尘防雾的眼镜?需要加防蓝光功能吗? GPT: 在购买…

AR眼镜方案_基于ChatGPT的AR智能眼镜设计方案

AR眼镜是一种创新的技术,可以在用户的视野中显示虚拟物体和信息。然而,眼镜的人机交互一直是一个难题。幸运的是,ChatGPT的出现带来了新的解决方案,可以为AR眼镜提供更好的人机交互支持。 现在,用户可以通过对AR眼镜内…

谷歌全球大裁员,涉及1.2万人

Datawhale干货 方向:就业信息,来源:机器之心 最近几天科技领域的流行词不是某一项新技术,而是裁员。 1 月 20 日,谷歌母公司 Alphabet 在一份员工备忘录中表示,由于面临「变化的经济现状」,该公…

开源精神奠基人诞生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 16 日,在 2005 年的今天,腾讯收购国内第二大邮件客户端软件 Foxmail。腾讯于当日正式签署了收购 Foxmail 软件及有关知识产权的协议…

平平无奇的营销小天才——ChatGPT

“悉之智能一直以来做的是AI解题方向的探索,目前ChatGPT有很强的同理心和理解能力,但相对缺乏逻辑能力,无法完成数学题之类更复杂的问题。“让AI获得逻辑能力,稳定完成更加复杂的任务,比如AI解体,或许会成为…

ChatGPT的今天,早已被这本书预言了

最近,ChatGPT大火了!推出之后,ChatGPT只用了两个月就积累了1亿用户,随着越来越多的人开始用ChatGPT,发现他能做的东西越来越多,写论文、写作业、写文案、写代码都不在话下。 于是,各种稀奇古怪的…

基于 ChatGPT 的输出训练开源 LLM,糟透了!

【CSDN 编者按】曾以为在 ChatGPT 上训练模型是不错的捷径,可如今所有的大模型都依靠GPT来训练,所有这些内容都来自一个模型,越来越难以区分 LLM 生成的和真正有价值的内容。或许更多基于开源数据集的 LLM 才是我们所需要的。 作者 | Martin …

ChatGPT赋能产品管理

在产品管理和开发过程中,可以利用ChatGPT辅助完成部分工作,提高工作生产力和创造力。原文: How to use ChatGPT in product management 相信你肯定听说过最近大火的ChatGPT,用自然语言跟机器人聊天是挺有趣,不过我还是希望探索一下…

母亲节快乐- AI绘图节日图片走一波

祝愿天下母亲节日快乐,平安喜乐。