跑分达ChatGPT的99%,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了

来源 | 量子位 | 公众号 QbitAI

自动测试分数达到ChatGPT的99.3%人类难以分辨两者的回答……

这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。

更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB

开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。

以Meta的美洲驼LLaMA为基础,得到原驼650亿参数版只需要48GB显存单卡微调24小时330亿参数版只需要24GB显存单卡微调12小时

24GB显存,也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示,更喜欢它而不是ChatGPT。

英伟达科学家Jim Fan博士对此评价为:大模型小型化的又一里程碑。

先扩大规模再缩小,将成为开源AI社区的节奏。

而新的高效微调方法QLoRA迅速被开源社区接受,HuggingFace也在第一时间整合上线了相关代码。

GPT-4做裁判,原驼得分达到ChatGPT的99.3%

论文中,团队对原驼总共做了三项测试,自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判,对不同模型的回答进行打分,以ChatGPT(GPT3.5)的成绩作为100%。

最终原驼650亿版得分达到ChatGPT的99.3%,而GPT-4自己的得分是114.5%,谷歌Bard是94.8%。

随机匹配,采用棋类专业比赛和电子竞技同款的Elo记分机制,由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT(GPT3.5)。

人类评估,则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起,人类来盲选哪个最好。

论文共同一作表示,研究团队里的人都很难分辨出来,并把测试做成了一个小游戏放在Colab上,开放给大家挑战。

这里节选其中一个问题(附中文翻译),你能分辨出哪个是ChatGPT回答的吗?

问题:How can I improve my time management skills?(如何提高时间管理技能?)

(完整测试地址在文末)

总的来说,原驼的优势在于不容易被问题中的错误信息误导,比如能指出地球从来没有被科学界认为是平的。

以及擅长心智理论(Theory of Mind),也就是能推测理解他人的心理状态

但原驼也并非没有弱点,团队发发现它不太擅长数学,以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

也有网友表示,虽然一个模型能在某个数据集上无限接近ChatGPT,但像ChatGPT那样通用还是很难的。

全新方法QLoRA,iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA

其中Q代表量化(Quantization),用低精度数据类型去逼近神经网络中的高精度浮点数,以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应(Low-Rank Adaptation)高效微调方法,LoRA后来被移植到AI绘画领域更被大众熟知,但最早其实就是用于大语言模型的。

通常来说,LoRA微调与全量微调相比效果会更差,但团队将LoRA添加到所有的线性层解决了这个问题。

具体来说,QLoRA结合了4-bit量化和LoRA,以及团队新创的三个技巧:新数据类型4-bit NormalFloat分页优化器(Paged Optimizers)和双重量化(Double Quantization)。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能

QLoRA的高效率,让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出,成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION(训练Stable Diffusion的数据集也来自这里),虽然只有9000个样本但质量很高,经过开源社区的人工仔细验证。

这9000条样本用于微调大模型,比100万条指令微调(Instruction Finetune)样本的谷歌FLAN v2效果还好。

研究团队也据此提出两个关键结论:

  • 数据质量 >> 数据数量

  • 指令微调有利于推理,但不利于聊天

最后,QLoRA的高效率,还意味着可以用在手机上,论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着,很快手机上的每个App都能用上专用大模型。

论文:
https://arxiv.org/abs/2305.14314

GitHub:
https://github.com/artidoro/qlora

与ChatGPT对比测试:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接:
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一键让ChatGPT教出新模型!100美元单卡炼出平替「白泽」,数据集权重代码都开源...

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 炼ChatGPT需要高质量对话数据。 在以前这可是稀缺资源&#xff0c;但自从有了ChatGPT&#xff0c;时代就变了。 加州大学圣迭戈分校&#xff08;UCSD&#xff09;与中山大学、MSRA合作团队提出最新方法&#xff1a; 使用少量“种子问题…

爆火ChatGPT代码解释器食用指南,来了

丰色 发自 凹非寺 ChatGPT推出至今最强最有用的功能是什么&#xff1f; 可能要非代码解释器&#xff08;Code Interpreter&#xff09;莫属了。 这项功能下周才会正式向所有Plus用户开放&#xff0c;但不少提前进行测试的网友都不约而同地发现&#xff1a; 它的潜力实在太太太深…

烧掉300亿美元,小扎和元宇宙说再见!Meta转投AIGC,制定搞钱时间表

视学算法报道 编辑&#xff1a;Aeneas 好困 【导读】Meta已经成立机构&#xff0c;专门研究生成式AI&#xff0c;并计划今年12月前完成商业化。看到小扎终于不在元宇宙上一条路走到黑&#xff0c;Meta的投资人们总算要松一口气了吧。 所以&#xff0c;小扎决定抛弃元宇宙了&a…

jQuery快速入门

前言 在二次开发人脸识别来进行注册登录时&#xff0c;卡在了前端上传图片到后端这一步&#xff0c;莫得办法&#xff0c;只得来学习前端的jQuery和AJAX看看能不能解决问题 大致思路分为系统性学习和情境性学习&#xff0c;前期以系统性学习为主&#xff0c;跟着视频进行快速入…

运营策略:影响内容病毒式传播的 8 个维度

目录 01 第一个影响要素就是内容的类型 02 第二个要素时内容的长度 03 第三个要素是要唤起正确的情感 04 第四个是利用趋势&#xff0c;也就是热点问题或事件 05 第五个是视觉效果 06 第六个是增加作者署 07 第七个是在正确的时间发布内容 08 第八个是影响者的力量 病毒…

拼多多解散了在应用中加入恶意功能的团队;苹果首款混合现实头显即将亮相;Pandas 2.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&#…

自行车+ChatGPT主打“陪伴”?感觉哪里怪怪的

强大的ChatGPT引得各行各业的产品经理两眼放光&#xff0c;抓住机会就想“”一把。智能汽车GPT不新鲜了&#xff0c;自行车来了。 几天前&#xff0c;名为Urtopia的电助力单车&#xff08;E-Bike&#xff09;品牌发布了世界上首款搭载的ChatGPT的自行车。利用蓝牙音箱当“嘴替…

ChatGPT:DevSecOps 落地实践的最后一公里

DevSecOps 背后的三个逻辑 复杂性&#xff1a;让安全从 “幕后” 走向 “台前” 安全并不是一个新鲜的话题&#xff0c;自软件诞生以来&#xff0c;安全就一路伴随&#xff0c;但是近几年安全似乎又到了一个新的 “热度” 与 “高度”。 一些企业、组织都在探讨软件供应链安全…

ChatGPT背后的打工人:你不干,有的是AI干

AI“出圈” 如今&#xff0c;数字技术发展速度惊人&#xff0c;AI提高了社会生产效率&#xff0c;更真切地冲击到原有的生产秩序。 年初AI技术的爆发&#xff0c;让国内看到了进一步降本增效的希望。 国内多家互联网企业相继推出类ChatGPT产品&#xff0c;复旦大学邱锡鹏教授…

杀入GPT战场,「两翼齐飞」的360胜算有几分?|内测体验

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 360&#xff0c;正站在GPT风口浪尖迎来新一春。 在透露相关计划后2个月内&#xff0c;360快速给出了类ChatGPT产品。公开展示后半个月&#xff0c;就在昨天&#xff0c;360大模型进入落地加速期&#xff1a; 基于360GPT开发的“360智脑…

GPT-4再次引爆科技圈?

北京时间3月15日凌晨&#xff0c; Open AI如期发布最新的大模型GPT-4&#xff0c;众多亮点功能直接引爆了科技圈。科技板块头条被GPT-4的发布会占据&#xff0c;朋友圈里面也被发布霸屏&#xff0c;满满的全员围观即视感。 Open ai在官网上放出了发布会的全部内容&#xff0c;…

Java音视频处理——JavaCV

目录 简介 Maven 软件环境 JavaCV-Examples OpenCV Cookbook Examples 概述 示例 OpenCV文档 如何使用JavaCV示例 示例代码的组织结构 示例列表 Why Scala? 学习地址 图像简单处理代码示例 1.打开保存一张图 2.画直线 3.画圆圈 4.画折现 5.添加文字水印 6.裁…

大模型与AIGC峰会!知名专家学者现场论道!

6月30日-7月1日&#xff0c;在由稀土掘金开发者社区主办的稀土开发者大会上&#xff0c;邀你与专业前沿的嘉宾面对面交流&#xff01;6月30日上午的主会场&#xff0c;北京大学王选计算机研究所教授、CCF 自然语言处理专委会秘书长万小军&#xff0c;会带来关于AIGC的重磅分享。…

第三周C++与PCL的学习(3.13-3.19)

目录 第一天3.13 星期一 Qt安装于简单应用 第二天3.14 星期二 ui闪退的解决、PCL的pri文件配置 第三天3.15 星期三 百度地图api的调用以及在Qt中的配置 第四天3.16 星期四 PCM软件的学习 第五天3.17 星期五 数据库的建立和使用 第六天3.18 星期六 Kinect融合、时…

利用微软Bing进行AI绘画

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 Link: http://bing.com/create

为什么说买彩票是交智商税?

很多人都有一夜暴富的幻想&#xff0c;梦想着好运来临&#xff0c;从此咸鱼翻身&#xff0c;这种心态可以理解&#xff0c;现在经济不景气&#xff0c;工作又辛苦&#xff0c;钱越来越难赚&#xff0c;想来想去能够实现财富自由最轻松的方式就是买彩票了。 我以前也经常买彩票…

腾讯领投英国金融科技创企True Layer 4000万美元融资

【TechWeb】6月4日消息&#xff0c;据国外媒体报道&#xff0c;腾讯将向一家成立5年的英国金融科技初创企业注资数千万美元&#xff0c;这笔投资将进一步提振伦敦的金融科技行业。 据业内人士透露&#xff0c;腾讯领投True Layer 4000万美元融资。新加坡主权财富基金淡马锡也可…

比起商汤IPO,我们更关心那1亿美金和C轮融资的背后大料

昨日&#xff08;11月23日&#xff09;&#xff0c;营长的朋友圈被《商汤科技计划IPO 并将在美设立研发中心》刷屏了。甚至有媒体曝“商汤科技最早明年进行IPO”。 这条新闻最早由路透社爆出来。对此&#xff0c;AI科技大本营向商汤科技官方求证是否已经开始为IPO做相关准备&a…

信音电子在创业板IPO:募资约9亿元,预计上半年收入约4.3亿元

7月17日&#xff0c;信音电子&#xff08;中国&#xff09;股份有限公司&#xff08;下称“信音电子”&#xff0c;SZ:301329&#xff09;在深圳证券交易所创业板上市。本次上市&#xff0c;信音电子的发行价为21.00元/股&#xff0c;发行数量为为4300万股&#xff0c;募资总额…

【金猿投融展】GrowingIO——一站式数据增长引擎整体方案服务商

投融资项目GrowingIO 本项目由GrowingIO投递并参与“数据猿年度金猿策划活动——2021大数据产业最具投资价值榜单及奖项”评选。 数据智能产业创新服务媒体 ——聚焦数智 改变商业 GrowingIO 创立于2015年5月&#xff0c;是国内领先的一站式数据增长引擎方案服务商&#xff0c…