「原驼」炸场:跑分达ChatGPT的99%,人类难以分辨!

d40856c5fd018b49f4d51b870f6e8020.png

源 | 量子位

大家好,这里是 NewBeeNLP。羊驼家族又出新品,直接炸场!自动测试分数达到ChatGPT的99.3%人类难以分辨两者的回答……

这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。

5108a4345950efe4d7e8ccf5e34bb418.png

更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB

开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。

0ff1d94bb576aa68e397d29402865bb4.png

以Meta的美洲驼LLaMA为基础,得到原驼650亿参数版只需要48GB显存单卡微调24小时330亿参数版只需要24GB显存单卡微调12小时

24GB显存,也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示,更喜欢它而不是ChatGPT。

c3240f3c5245ae8dcb7be87f79378aac.png

英伟达科学家Jim Fan博士对此评价为:大模型小型化的又一里程碑。

先扩大规模再缩小,将成为开源AI社区的节奏。

db8f45b78ea26dca250aa1cce445db7b.png

而新的高效微调方法QLoRA迅速被开源社区接受,HuggingFace也在第一时间整合上线了相关代码。

fc7210ecacf227728a52c2eca9058b18.png

GPT-4做裁判,原驼得分达到ChatGPT的99.3%

论文中,团队对原驼总共做了三项测试,自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判,对不同模型的回答进行打分,以ChatGPT(GPT3.5)的成绩作为100%。

最终原驼650亿版得分达到ChatGPT的99.3%,而GPT-4自己的得分是114.5%,谷歌Bard是94.8%。

6d79f03330580d081dd41e2b135f7664.png

随机匹配,采用棋类专业比赛和电子竞技同款的Elo记分机制,由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT(GPT3.5)。

22f5ecb2ec35f024cd2340fccd924a47.png

人类评估,则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起,人类来盲选哪个最好。

论文共同一作表示,研究团队里的人都很难分辨出来,并把测试做成了一个小游戏放在Colab上,开放给大家挑战。

0570afaae215740c8b640e4298913ca0.png

这里节选其中一个问题(附中文翻译),你能分辨出哪个是ChatGPT回答的吗?

问题:How can I improve my time management skills?(如何提高时间管理技能?)

8cd8f81638d044ecaa6e27756b328bd9.png

3ea5e002fdda0ed6f4e3c1ac62818fd7.png

(完整测试地址在文末)

总的来说,原驼的优势在于不容易被问题中的错误信息误导,比如能指出地球从来没有被科学界认为是平的。

dca073de43ca4819024bb5686821dedd.png

以及擅长心智理论(Theory of Mind),也就是能推测理解他人的心理状态

d2175696187bac9d91e4af9bc4d567c3.png

但原驼也并非没有弱点,团队发发现它不太擅长数学,以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

99291edefbb5cdf41e21ca0ed21c0ed3.png

也有网友表示,虽然一个模型能在某个数据集上无限接近ChatGPT,但像ChatGPT那样通用还是很难的。

e8de893cdfeb7b205a23d2b574298ec3.png

全新方法QLoRA,iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA

其中Q代表量化(Quantization),用低精度数据类型去逼近神经网络中的高精度浮点数,以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应(Low-Rank Adaptation)高效微调方法,LoRA后来被移植到AI绘画领域更被大众熟知,但最早其实就是用于大语言模型的。

通常来说,LoRA微调与全量微调相比效果会更差,但团队将LoRA添加到所有的线性层解决了这个问题。

f7e71bcc44efc4205c96cb74f27e2c26.png

具体来说,QLoRA结合了4-bit量化和LoRA,以及团队新创的三个技巧:新数据类型4-bit NormalFloat分页优化器(Paged Optimizers)和双重量化(Double Quantization)。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能

779777909a96aef8e68726a72e6d77ef.png

QLoRA的高效率,让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出,成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION(训练Stable Diffusion的数据集也来自这里),虽然只有9000个样本但质量很高,经过开源社区的人工仔细验证。

这9000条样本用于微调大模型,比100万条指令微调(Instruction Finetune)样本的谷歌FLAN v2效果还好。

研究团队也据此提出两个关键结论:

  • 数据质量 >> 数据数量

  • 指令微调有利于推理,但不利于聊天

最后,QLoRA的高效率,还意味着可以用在手机上,论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着,很快手机上的每个App都能用上专用大模型。

ae947a4630c60fdfd53e86e1c921dd89.png

论文:
https://arxiv.org/abs/2305.14314

GitHub:
https://github.com/artidoro/qlora

与ChatGPT对比测试:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接:
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

c38e28d4e2a6fd62d6579d455fff5c7f.png

1d337344829015d6ac4913ea2c1279ec.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5912.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《用ChatGPT自学的正确打开方式》

丰色 发自 凹非寺量子位 | 公众号 QbitAI 这两天&#xff0c;一个用ChatGPT进行自学的免费工具火了&#xff1a; 它叫AIbus&#xff0c;主界面是一块白板&#xff0c;只需写下你想探索的任何主题&#xff0c;比如“傅立叶变换”&#xff0c;它就会在几秒之内给出n个建议。 然后…

「实战」将多种AI工具整合到游戏开发工作流;AI应用推荐writeout;ControlNet新手实操流程图;ChatGPT复现之路 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 『Notion AI 这波大赚』一个月内&#xff0c; AI 为 Notion 带来至少1000万美金ARR 作为最早一批接入 ChatGPT 的产品&#xff0c;Not…

从ChatGPT到Auto-GPT,自主人工智能真的要来了吗?

随着ChatGPT的持续爆火&#xff0c;人们在使用ChatGPT的时也发现了它的局限性&#xff0c;就是需要使用者自己来给GPT提示&#xff08;prompt&#xff09;。 如果你想感受ChatGPT强大&#xff0c;又没有OpenAI账号&#xff0c;可以关注《可立AI科技》这个微信公众号&#xff0c…

编辑部已成羊村,这几天幸亏有ChatGPT(doge)

梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI 坏事了&#xff0c;AI真的来抢饭碗了。 还是我的饭碗&#xff01; 这两天你们看的推送&#xff0c;有些标题是AI帮忙取的&#xff0c;有些文章甚至由AI完成了主要工作。 我呢&#xff1f;我不过是打打下手&#xff0c;加些过渡句&…

我用 ChatGPT 学设计模式之访问者模式

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;蚂蚁集团高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《EffectiveJava》独家解析》专栏作者。 热门文章推荐…

Spring Cloud Gateway路由到Amazon S3签名失败处理

Spring Cloud Gateway路由到Amazon S3签名失败处理 背景 最近在预研统一存储网关&#xff0c;想到就是使用Spring Cloud Gateway作为网关的入口&#xff0c;再反向代理到S3对象存储服务器。 软件版本 网关&#xff1a;Spring Cloud Gateway 3.1.2 s3对象存储&#xff1a;m…

基于java(springboot)和go-cqhttp实现QQ机器人

目录 yh-qqrobot机器人简介go-cqhttp搭建1.下载应用2.生成bat文件3. 初始化项目4. 配置5. 运行项目 yh-qqrobot搭建搭建后端1. 导入sql文件2. 配置文件3. 导入到idea 搭建前端 yh-qqrobot机器人简介 yh-qqrobot是一个基于若依框和go-cqhttp集成的系统&#xff0c;一开始我只是揣…

【基于Flink的城市交通实时监控平台】需求一:卡口车辆超速情况检测

案例需求&#xff1a; 从kafka的topic-car中读取卡口数据&#xff0c;将超速车辆写入mysql的select * from t_speeding_info表&#xff0c;当通过卡口的车速超过60就认定为超速 卡口数据格式&#xff1a; action_time long --摄像头拍摄时间戳&#xff0c;精确到秒, monitor…

chatgpt赋能python:Python下载工具:提高工作效率的不二之选

Python下载工具&#xff1a;提高工作效率的不二之选 作为一名有10年Python编程经验的工程师&#xff0c;我深知一款好用的下载工具对于我们的工作效率有多么重要。因此&#xff0c;在众多Python工具中&#xff0c;我多次选用了一些好用的下载工具&#xff0c;并且对它们进行了…

将 ChatGLM2-6B 部署成 OpenAI API 服务

将 ChatGLM2-6B 部署成 OpenAI API 服务 0. 背景1. FastChat 部署使用 ChatGLM2-6B1-1. 创建虚拟环境1-2. 克隆代码1-3. 安装依赖库1-4. 使用 UI 进行推理1-5. 使用 OpenAI API 方式进行推理 0. 背景 最近一直在使用 OpenAI 的 API 做一些学习和调研。使用 OpenAI 的 API&…

chatgpt赋能Python-python_downloader

优秀Python下载器的重要性 在今天的数字化世界中&#xff0c;下载器是一个极其重要的工具。随着互联网速度的不断提升和存储设备的容量的增加&#xff0c;大量的数据和文件需要及时下载到本地计算机或存储设备中。许多编程语言都提供了相应的下载库&#xff0c;但Python是其中…

免费使用GPT-4的N种方法

很多朋友因为各种限制无法开通#ChatGPT Plus,而申请OpenAI的GPT-4 API也要慢慢排队(我的也还没下来)。于是在这里我搜集了X个可以免费使用的方法。 注:哪有什么真正免费,只不过有人在替你付钱。因此下述的方法都有限制,也有些可能会很快失效。新方法随时更新。 方法一: …

ChatGPT 拓展资料:ChatGPT插件系统上线 卷众生入局,燃天地斗气!

ChatGPT 拓展资料:ChatGPT插件系统上线 卷众生入局,燃天地斗气! ChatGPT 插件 我们已经在 ChatGPT 中实现了对插件的初步支持。插件是专门为以安全为核心原则的语言模型设计的工具,可帮助 ChatGPT 访问最新信息、运行计算或使用第三方服务。 根据我们的迭代部署理念,我们…

ChatGPT开始联网,最后的封印解除了

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 最新亲测国内可用ChatGPT使用教程&#xff08;3分钟搞定&#xff09; 文心一言、GPT3.5及GPT4应用测评对比报告 ChatGPT团队背景研究报告 ChatGPT的…

chatgpt最大的竞争对手-claude

介绍 Claude是Anthropic公司开发的AI聊天机器人&#xff0c;与ChatGPT类似&#xff0c;由OpenAI前副总裁创办。和虽然比不上GPT4&#xff0c;但在连续对话能力、写小说、编写代码、解释概念等方面表现出色。 Claude是Anthropic公司开发的大语言模型(LLM)&#xff0c;主要特点…

巧用 ChatGPT,让开发者的学习和工作更轻松

引言 随着人工智能技术的快速发展和广泛应用&#xff0c;ChatGPT 作为一种新兴的自然语言处理模型&#xff0c;近期备受瞩目&#xff0c;引发了广泛讨论。 ChatGPT 具有多种应用场景&#xff0c;既可以用作聊天机器人&#xff0c;实现智能问答和自然语言交互&#xff0c;也可…

【promptulate专栏】使用ChatGPT和XMind快速构建思维导图

本文节选自笔者博客&#xff1a;https://www.blog.zeeland.cn/archives/ao302950h3j &#x1f496; 作者简介&#xff1a;大家好&#xff0c;我是Zeeland&#xff0c;全栈领域优质创作者。&#x1f4dd; CSDN主页&#xff1a;Zeeland&#x1f525;&#x1f4e3; 我的博客&#…

ChatGPT常用的指令(prompts)系列十——职业顾问、私人教练、心理健康顾问

系列文章目录 内容翻译自&#xff1a;https://github.com/f/awesome-chatgpt-prompts&#xff0c;并加入自己的实践内容 1、 ChatGPT常用的提示语&#xff08;prompts&#xff09;系列一 2、 ChatGPT常用的提示语&#xff08;prompts&#xff09;系列二 3、 ChatGPT常用的提示语…

ChatGPT为什么能够火出圈

最近ChatGPT可以说是火遍了全世界&#xff0c;作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型&#xff0c;他的核心在于能够理解人类的自然语言&#xff0c;并使用贴近人类语言风格的方式来进行回复。模型开放使用以来&#xff0c;在人工智能领…

ChatGPT为什么会一本正经胡说八道?我们如何改进它?| 文内附有代码

ChatGPT为什么会一本正经胡说八道&#xff1f;我们如何改进它&#xff1f;| 文内附有代码 众所周知&#xff0c;在OpenAI平台上的ChatGPT模型目前有两大痛点&#xff1a;1. 它所学习的数据资料都是截止到2021年为止的&#xff0c;因此无法给出2022年之后的发生的事情。2. 有些时…