「原驼」炸场：跑分达ChatGPT的99%，人类难以分辨！

「原驼」炸场：跑分达ChatGPT的99%，人类难以分辨！

news/2025/1/10 21:29:21/文章来源:https://blog.csdn.net/Kaiyuan_sjtu/article/details/130896317

源 | 量子位

大家好，这里是 NewBeeNLP。羊驼家族又出新品，直接炸场！自动测试分数达到ChatGPT的99.3%，人类难以分辨两者的回答……

这是开源大模型最新成果，来自羊驼家族的又一重磅成员——华盛顿大学原驼（Guanaco）。

更关键的是，与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。

开源社区直接开始狂欢，相关论文成为24小时内关注度最高的AI论文。

以Meta的美洲驼LLaMA为基础，得到原驼650亿参数版只需要48GB显存单卡微调24小时，330亿参数版只需要24GB显存单卡微调12小时。

24GB显存，也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示，更喜欢它而不是ChatGPT。

英伟达科学家Jim Fan博士对此评价为：大模型小型化的又一里程碑。

先扩大规模再缩小，将成为开源AI社区的节奏。

而新的高效微调方法QLoRA迅速被开源社区接受，HuggingFace也在第一时间整合上线了相关代码。

GPT-4做裁判，原驼得分达到ChatGPT的99.3%

论文中，团队对原驼总共做了三项测试，自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判，对不同模型的回答进行打分，以ChatGPT（GPT3.5）的成绩作为100%。

最终原驼650亿版得分达到ChatGPT的99.3%，而GPT-4自己的得分是114.5%，谷歌Bard是94.8%。

随机匹配，采用棋类专业比赛和电子竞技同款的Elo记分机制，由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT（GPT3.5）。

人类评估，则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起，人类来盲选哪个最好。

论文共同一作表示，研究团队里的人都很难分辨出来，并把测试做成了一个小游戏放在Colab上，开放给大家挑战。

这里节选其中一个问题（附中文翻译），你能分辨出哪个是ChatGPT回答的吗？

问题：How can I improve my time management skills?（如何提高时间管理技能？）

（完整测试地址在文末）

总的来说，原驼的优势在于不容易被问题中的错误信息误导，比如能指出地球从来没有被科学界认为是平的。

以及擅长心智理论（Theory of Mind），也就是能推测理解他人的心理状态。

但原驼也并非没有弱点，团队发发现它不太擅长数学，以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

也有网友表示，虽然一个模型能在某个数据集上无限接近ChatGPT，但像ChatGPT那样通用还是很难的。

全新方法QLoRA，iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA。

其中Q代表量化（Quantization），用低精度数据类型去逼近神经网络中的高精度浮点数，以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应（Low-Rank Adaptation）高效微调方法，LoRA后来被移植到AI绘画领域更被大众熟知，但最早其实就是用于大语言模型的。

通常来说，LoRA微调与全量微调相比效果会更差，但团队将LoRA添加到所有的线性层解决了这个问题。

具体来说，QLoRA结合了4-bit量化和LoRA，以及团队新创的三个技巧：新数据类型4-bit NormalFloat、分页优化器（Paged Optimizers）和双重量化（Double Quantization）。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能。

QLoRA的高效率，让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出，成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION（训练Stable Diffusion的数据集也来自这里），虽然只有9000个样本但质量很高，经过开源社区的人工仔细验证。

这9000条样本用于微调大模型，比100万条指令微调（Instruction Finetune）样本的谷歌FLAN v2效果还好。

研究团队也据此提出两个关键结论：

数据质量 >> 数据数量
指令微调有利于推理，但不利于聊天

最后，QLoRA的高效率，还意味着可以用在手机上，论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着，很快手机上的每个App都能用上专用大模型。

论文：
https://arxiv.org/abs/2305.14314

GitHub：
https://github.com/artidoro/qlora

与ChatGPT对比测试：
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩：
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接：
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定o要备注信息才能通过）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/5912.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《用ChatGPT自学的正确打开方式》

《用ChatGPT自学的正确打开方式》

丰色发自凹非寺量子位 | 公众号 QbitAI 这两天，一个用ChatGPT进行自学的免费工具火了： 它叫AIbus，主界面是一块白板，只需写下你想探索的任何主题，比如“傅立叶变换”，它就会在几秒之内给出n个建议。然后…

阅读更多...

「实战」将多种AI工具整合到游戏开发工作流；AI应用推荐writeout；ControlNet新手实操流程图；ChatGPT复现之路 | ShowMeAI日报

「实战」将多种AI工具整合到游戏开发工作流；AI应用推荐writeout；ControlNet新手实操流程图；ChatGPT复现之路 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！ 🤖 『Notion AI 这波大赚』一个月内， AI 为 Notion 带来至少1000万美金ARR 作为最早一批接入 ChatGPT 的产品，Not…

阅读更多...

从ChatGPT到Auto-GPT，自主人工智能真的要来了吗？

从ChatGPT到Auto-GPT，自主人工智能真的要来了吗？

随着ChatGPT的持续爆火，人们在使用ChatGPT的时也发现了它的局限性，就是需要使用者自己来给GPT提示（prompt）。如果你想感受ChatGPT强大，又没有OpenAI账号，可以关注《可立AI科技》这个微信公众号&#xff0c…

阅读更多...

编辑部已成羊村，这几天幸亏有ChatGPT（doge）

编辑部已成羊村，这几天幸亏有ChatGPT（doge）

梦晨羿阁发自凹非寺量子位 | 公众号 QbitAI 坏事了，AI真的来抢饭碗了。还是我的饭碗！ 这两天你们看的推送，有些标题是AI帮忙取的，有些文章甚至由AI完成了主要工作。我呢？我不过是打打下手，加些过渡句&…

阅读更多...

我用 ChatGPT 学设计模式之访问者模式

我用 ChatGPT 学设计模式之访问者模式

作者：明明如月学长， CSDN 博客专家，蚂蚁集团高级 Java 工程师，《性能优化方法论》作者、《解锁大厂思维：剖析《阿里巴巴Java开发手册》》、《再学经典：《EffectiveJava》独家解析》专栏作者。热门文章推荐…

阅读更多...

Spring Cloud Gateway路由到Amazon S3签名失败处理

Spring Cloud Gateway路由到Amazon S3签名失败处理

Spring Cloud Gateway路由到Amazon S3签名失败处理背景最近在预研统一存储网关，想到就是使用Spring Cloud Gateway作为网关的入口，再反向代理到S3对象存储服务器。软件版本网关：Spring Cloud Gateway 3.1.2 s3对象存储：m…

阅读更多...

基于java(springboot)和go-cqhttp实现QQ机器人

基于java(springboot)和go-cqhttp实现QQ机器人

目录 yh-qqrobot机器人简介go-cqhttp搭建1.下载应用2.生成bat文件3. 初始化项目4. 配置5. 运行项目 yh-qqrobot搭建搭建后端1. 导入sql文件2. 配置文件3. 导入到idea 搭建前端 yh-qqrobot机器人简介 yh-qqrobot是一个基于若依框和go-cqhttp集成的系统，一开始我只是揣…

阅读更多...

【基于Flink的城市交通实时监控平台】需求一：卡口车辆超速情况检测

【基于Flink的城市交通实时监控平台】需求一：卡口车辆超速情况检测

案例需求： 从kafka的topic-car中读取卡口数据，将超速车辆写入mysql的select * from t_speeding_info表，当通过卡口的车速超过60就认定为超速卡口数据格式： action_time long --摄像头拍摄时间戳，精确到秒, monitor…

阅读更多...

chatgpt赋能python：Python下载工具：提高工作效率的不二之选

chatgpt赋能python：Python下载工具：提高工作效率的不二之选

Python下载工具：提高工作效率的不二之选作为一名有10年Python编程经验的工程师，我深知一款好用的下载工具对于我们的工作效率有多么重要。因此，在众多Python工具中，我多次选用了一些好用的下载工具，并且对它们进行了…

阅读更多...

将 ChatGLM2-6B 部署成 OpenAI API 服务

将 ChatGLM2-6B 部署成 OpenAI API 服务

将 ChatGLM2-6B 部署成 OpenAI API 服务 0. 背景1. FastChat 部署使用 ChatGLM2-6B1-1. 创建虚拟环境1-2. 克隆代码1-3. 安装依赖库1-4. 使用 UI 进行推理1-5. 使用 OpenAI API 方式进行推理 0. 背景最近一直在使用 OpenAI 的 API 做一些学习和调研。使用 OpenAI 的 API&…

阅读更多...

chatgpt赋能Python-python_downloader

chatgpt赋能Python-python_downloader

优秀Python下载器的重要性在今天的数字化世界中，下载器是一个极其重要的工具。随着互联网速度的不断提升和存储设备的容量的增加，大量的数据和文件需要及时下载到本地计算机或存储设备中。许多编程语言都提供了相应的下载库，但Python是其中…

阅读更多...

免费使用GPT-4的N种方法

免费使用GPT-4的N种方法

很多朋友因为各种限制无法开通#ChatGPT Plus，而申请OpenAI的GPT-4 API也要慢慢排队（我的也还没下来）。于是在这里我搜集了X个可以免费使用的方法。注：哪有什么真正免费，只不过有人在替你付钱。因此下述的方法都有限制，也有些可能会很快失效。新方法随时更新。方法一： …

阅读更多...

ChatGPT 拓展资料：ChatGPT插件系统上线卷众生入局，燃天地斗气！

ChatGPT 拓展资料：ChatGPT插件系统上线卷众生入局，燃天地斗气！

ChatGPT 拓展资料：ChatGPT插件系统上线卷众生入局，燃天地斗气！ ChatGPT 插件我们已经在 ChatGPT 中实现了对插件的初步支持。插件是专门为以安全为核心原则的语言模型设计的工具，可帮助 ChatGPT 访问最新信息、运行计算或使用第三方服务。根据我们的迭代部署理念，我们…

阅读更多...

ChatGPT开始联网，最后的封印解除了

ChatGPT开始联网，最后的封印解除了

省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2023年2月份热门报告合集最新亲测国内可用ChatGPT使用教程（3分钟搞定） 文心一言、GPT3.5及GPT4应用测评对比报告 ChatGPT团队背景研究报告 ChatGPT的…

阅读更多...

chatgpt最大的竞争对手-claude

chatgpt最大的竞争对手-claude

介绍 Claude是Anthropic公司开发的AI聊天机器人，与ChatGPT类似，由OpenAI前副总裁创办。和虽然比不上GPT4，但在连续对话能力、写小说、编写代码、解释概念等方面表现出色。 Claude是Anthropic公司开发的大语言模型(LLM)，主要特点…

阅读更多...

巧用 ChatGPT，让开发者的学习和工作更轻松

巧用 ChatGPT，让开发者的学习和工作更轻松

引言随着人工智能技术的快速发展和广泛应用，ChatGPT 作为一种新兴的自然语言处理模型，近期备受瞩目，引发了广泛讨论。 ChatGPT 具有多种应用场景，既可以用作聊天机器人，实现智能问答和自然语言交互，也可…

阅读更多...

【promptulate专栏】使用ChatGPT和XMind快速构建思维导图

【promptulate专栏】使用ChatGPT和XMind快速构建思维导图

本文节选自笔者博客：https://www.blog.zeeland.cn/archives/ao302950h3j 💖 作者简介：大家好，我是Zeeland，全栈领域优质创作者。📝 CSDN主页：Zeeland🔥📣 我的博客&#…

阅读更多...

ChatGPT常用的指令（prompts）系列十——职业顾问、私人教练、心理健康顾问

ChatGPT常用的指令（prompts）系列十——职业顾问、私人教练、心理健康顾问

系列文章目录内容翻译自：https://github.com/f/awesome-chatgpt-prompts，并加入自己的实践内容 1、 ChatGPT常用的提示语（prompts）系列一 2、 ChatGPT常用的提示语（prompts）系列二 3、 ChatGPT常用的提示语…

阅读更多...

ChatGPT为什么能够火出圈

ChatGPT为什么能够火出圈

最近ChatGPT可以说是火遍了全世界，作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型，他的核心在于能够理解人类的自然语言，并使用贴近人类语言风格的方式来进行回复。模型开放使用以来，在人工智能领…

阅读更多...

ChatGPT为什么会一本正经胡说八道？我们如何改进它？| 文内附有代码

ChatGPT为什么会一本正经胡说八道？我们如何改进它？| 文内附有代码

ChatGPT为什么会一本正经胡说八道？我们如何改进它？| 文内附有代码众所周知，在OpenAI平台上的ChatGPT模型目前有两大痛点：1. 它所学习的数据资料都是截止到2021年为止的，因此无法给出2022年之后的发生的事情。2. 有些时…

阅读更多...

最新文章

推荐文章