得分逼近ChatGPT,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了

梦晨 发自 凹非寺
来源 | 量子位 QbitAI

自动测试分数达到ChatGPT的99.3%人类难以分辨两者的回答……

这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。

f3c57e18c1d2c6d0c1005d6437b60a41.png

更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB

开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。

715d2b68074dcfcd8c446a95ebe04931.png

以Meta的美洲驼LLaMA为基础,得到原驼650亿参数版只需要48GB显存单卡微调24小时330亿参数版只需要24GB显存单卡微调12小时

24GB显存,也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示,更喜欢它而不是ChatGPT。

24450abd0e1a19d7fc8847814c275e26.png

英伟达科学家Jim Fan博士对此评价为:大模型小型化的又一里程碑。

先扩大规模再缩小,将成为开源AI社区的节奏。

a34638945be84e2f9d3b5373bc63af1b.png

而新的高效微调方法QLoRA迅速被开源社区接受,HuggingFace也在第一时间整合上线了相关代码。

44200fd8c2c597c057c8f5c0badd0ac2.png

GPT-4做裁判,原驼得分达到ChatGPT的99.3%

论文中,团队对原驼总共做了三项测试,自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判,对不同模型的回答进行打分,以ChatGPT(GPT3.5)的成绩作为100%。

最终原驼650亿版得分达到ChatGPT的99.3%,而GPT-4自己的得分是114.5%,谷歌Bard是94.8%。

9e58046ce2cdec007ba612e45a587579.png

随机匹配,采用棋类专业比赛和电子竞技同款的Elo记分机制,由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT(GPT3.5)。

f6bb2848ae85899989cb5039c6a527b2.png

人类评估,则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起,人类来盲选哪个最好。

论文共同一作表示,研究团队里的人都很难分辨出来,并把测试做成了一个小游戏放在Colab上,开放给大家挑战。

8bb987bcf53b766cc09c447c6837084d.png

这里节选其中一个问题(附中文翻译),你能分辨出哪个是ChatGPT回答的吗?

问题:How can I improve my time management skills?(如何提高时间管理技能?)

aedf4371390700dfdaeb42c6bf336796.png

83046b6e1e4d770d549f78bb98e69eef.png

(完整测试地址在文末)

总的来说,原驼的优势在于不容易被问题中的错误信息误导,比如能指出地球从来没有被科学界认为是平的。

e2f40a2e0a033645f1bd5bc2c681e1c0.png

以及擅长心智理论(Theory of Mind),也就是能推测理解他人的心理状态

d2000b58cee493af49a16897e1d2a865.png

但原驼也并非没有弱点,团队发发现它不太擅长数学,以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

440a29db3da70f26361f95767e2d5eaf.png

也有网友表示,虽然一个模型能在某个数据集上无限接近ChatGPT,但像ChatGPT那样通用还是很难的。

d7b6147bd707b79e91028c1f6486d1e0.png

全新方法QLoRA,iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA

其中Q代表量化(Quantization),用低精度数据类型去逼近神经网络中的高精度浮点数,以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应(Low-Rank Adaptation)高效微调方法,LoRA后来被移植到AI绘画领域更被大众熟知,但最早其实就是用于大语言模型的。

通常来说,LoRA微调与全量微调相比效果会更差,但团队将LoRA添加到所有的线性层解决了这个问题。

64fc87e29db48452d3055846615a9ad5.png

具体来说,QLoRA结合了4-bit量化和LoRA,以及团队新创的三个技巧:新数据类型4-bit NormalFloat分页优化器(Paged Optimizers)和双重量化(Double Quantization)。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能

7718287af973d476f69b62439306c588.png

QLoRA的高效率,让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出,成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION(训练Stable Diffusion的数据集也来自这里),虽然只有9000个样本但质量很高,经过开源社区的人工仔细验证。

这9000条样本用于微调大模型,比100万条指令微调(Instruction Finetune)样本的谷歌FLAN v2效果还好。

研究团队也据此提出两个关键结论:

  • 数据质量 >> 数据数量

  • 指令微调有利于推理,但不利于聊天

最后,QLoRA的高效率,还意味着可以用在手机上,论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着,很快手机上的每个App都能用上专用大模型。

6a5cbdb5f0e2969200f1b89e03378f40.png

论文:
https://arxiv.org/abs/2305.14314

GitHub:
https://github.com/artidoro/qlora

与ChatGPT对比测试:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接:
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

cb3d4d3a69bf1e39339919f4eb32e4ad.gif


分享

收藏

点赞

在看

810962138f963b85403ab7fadacabc98.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53391.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享基个珍藏已久的良心网站,个个都很好用

推荐一&#xff1a;Poki 这几天4399要实名制了。玩起来挺麻烦的&#xff0c;还是换成Poki吧。也是一个收集游戏的网游网站&#xff0c;种类很多&#xff0c;有军事游戏&#xff0c;有动作游戏&#xff0c;有冒险游戏等等&#xff0c;我最喜欢的是公主换装游戏。 感觉瞬间回到…

GPT 4.0 你知道的和你不知道的?

GPT 4.0 人工智能聊天机器人 介绍GPT 4.0之前&#xff0c;先给大家介绍一下整理的一个类ChatGPT相关的工具&#xff0c;有可以总结论文的、微软作图的、反ChatGPT检测的、数据标注的等等工具&#xff0c;感兴趣的小伙伴可以访问&#xff1a;github链接 言归正传 今天我们主要…

【OpenAI 多模态预训练】VideoGPT?微软透露GPT-4或将在下周发布

【多模态预训练】VideoGPT&#xff1f;微软透露GPT-4或将在下周发布 先让我猜个名字&#xff0c;VideoGPT&#xff1f; 太绝了&#xff01;看完ChatGPT之后就感觉OpenAI正在做多模态的预训练语言模型。万万没想到来的这么快。据介绍&#xff0c;GPT-4或将为多模态大模型&#…

趣链科技获数亿元C轮融资,晋升区块链核心技术独角兽

近日&#xff0c;区块链明星企业趣链科技官方宣布完成数亿元C轮融资&#xff0c;本轮融资由知名基金易方达资本领投、龚虹嘉带领的银宏基金跟投。相关报道显示&#xff0c;趣链科技这笔融资是今年以来国内区块链企业融资额最高的一起&#xff0c;公司整体估值达到10亿美元&…

Ayar Labs 在 C 轮融资中筹集了 1.3 亿美元

Boardman Bay Capital Management 领投&#xff0c;惠普企业和 NVIDIA 共同推动 Ayar 光学 I/O 的商业化 Ayar Labs 已获得由 Boardman Bay Capital Management 牵头的 1.3 亿美元额外融资。这笔资金用于推动 Ayar 光学 I/O 解决方案的商业化&#xff0c;该解决方案基于专利方…

Anthropic完成4.5亿美元C系列轮融资:Spark Capital领投

雷递网 乐天 5月28日 生成式AI公司Anthropic日前完成C系列轮4.5亿美元融资&#xff0c;由Spark Capital领投&#xff0c;估值可能超过41亿美元。 Anthropic其他投资方包括谷歌、Salesforce、Zoom、Sound Ventures、Menlo Ventures。 Anthropic首席执行官Dario Amodei说&#xf…

C轮累积融资1亿美金 禾多科技如何靠自我造血能力赢得资本青睐?

自动驾驶当前在全球范围内受到广泛关注&#xff0c;是汽车行业正在集中力量攻克的新领域。据英特尔预计&#xff0c;2050年仅自动驾驶汽车的市场规模将达到7万亿美元。引得资本和科技巨头们纷纷“下注”。 近日&#xff0c;全栈自动驾驶科技公司禾多科技宣布&#xff0c;已完成…

神策数据获 3000 万美元 C+ 轮融资,A、B、C 轮资方全部跟投

5 月 19 日&#xff0c;神策数据 5 周年产品暨融资线上发布会正式召开。神策数据创始人 & CEO 桑文锋在发布会上宣布重磅融资信息&#xff0c;即获得由襄禾资本领投&#xff0c;晨兴资本、DCM 资本、华平投资、红杉资本中国基金、线性资本、明势资本跟投的共计 3000 万美元…

第四范式完成C+轮融资,投后估值约20亿美元

相关阅读&#xff1a; 数据猿专访丨第四范式胡时伟&#xff1a;AI的商业化才刚刚开始&#xff0c;谈“收割”尚早【视频版点这里】 大数据产业创新服务媒体 ——聚焦数据 改变商业 数据猿报道 第四范式近期宣布完成C轮融资&#xff0c;C轮总计融资金额达2.3亿美元&#xff0c;…

神策数据获3000万美元C+轮融资,A、B、C轮资方全部跟投

“5月19日&#xff0c;神策数据5周年产品暨融资线上发布会正式召开。神策数据创始人 & CEO 桑文锋在发布会上宣布重磅融资信息&#xff0c;即获得由襄禾资本领投&#xff0c;晨兴资本、DCM 资本、华平投资、红杉资本中国基金、线性资本、明势资本跟投的共计 3000 万美元的 …

Hugging Face官宣1亿美元C轮融资,估值20亿美元

对于机器学习领域的开发者而言&#xff0c;上图中的笑脸应该不陌生了。 这是AI社区 Hugging Face 的标志之一。这家成立于 2016 年的公司&#xff0c;随着机器学习的发展而进入越来越多人的视野之中&#xff0c;也被许多人视为是“机器学习的 GitHub”。 今天 Hugging Face 宣…

校招——测试开发工程师岗位面试问题

怎么理解测试 软件测试其实包括测试&#xff08;Testing&#xff09;和检验&#xff08;Checking&#xff09;两部分&#xff0c;我们通常所理解的测试可能仅仅是检验。不论是自动化测试也好&#xff0c;还是手工执行测试用例也好&#xff0c;只要是基于预先设定的可断言的脚本…

ChatGPT助力校招----面试问题分享(八)

1 ChatGPT每日一题&#xff1a;有源和无源滤波器 问题&#xff1a;有源和无源滤波器的区别 ChatGPT&#xff1a;有源滤波器和无源滤波器是指使用不同的电路元件来实现滤波功能的电路 有源滤波器使用了一个或多个有源元件&#xff0c;例如晶体管、运算放大器等&#xff0c;以…

通信工程博保研面试常见问题-高频

电子线路分析基础 高频电路的负载为选频网络串联谐振时、电感和电容两端电压模值相同&#xff08;为电源电压的Q倍&#xff09;&#xff0c;符号相反谐振时电容和电感的总瞬时储能是一个不变的常数&#xff0c;说明电感和电容不消耗外加电动势的能量&#xff0c;能量只在两者之…

【学习记录】HT32F52352舵机控制

前言 本文章仅作为我学习的一次记录&#xff0c;本人的技术还不够成熟&#xff0c;可能无法对工程技术上做太多指导。 工程为基于HT32F52352的智能物联网宠物喂食机系统&#xff0c;通过HT32控制舵机工作&#xff0c;完成饲料的投喂。 一、舵机介绍 1、舵机的分类 按照舵机…

视频剪辑软件,AI智能合并随机生成新视频,并设置视频数量以及时长

最近有很多人在问&#xff0c;怎么随机生成多个视频最快&#xff0c;其实你离成为剪辑达人就只差一个剪辑方法&#xff0c;今天小编就给大家分享一个新的技巧&#xff0c;下面就以快速智能合并&#xff0c;随机生成多个新视频为例&#xff0c;一起来学习一下。 所需工具 多段视…

手机如何一键智能自动剪辑短视频

手机如何一键智能自动剪辑短视频&#xff0c;首先我们在手机上安装并打开“王者剪辑app”&#xff0c;进入智能创作模块中的“创作机器人”&#xff0c; 接着导入视频源素材&#xff0c;输入视频文案内容&#xff0c;配置相关参数和配音类型&#xff0c;然后点击界面右上角的…

深度揭秘,Android应用是如何安装到手机上的

/ 今日科技快讯 / ChatGPT 的横空出世&#xff0c;在业界掀起了惊涛骇浪。专家表示&#xff0c;ChatGPT 和相关人工智能技术可能会威胁到一些工作岗位&#xff0c;尤其是白领工作。 自去年11月发布以来&#xff0c;新型聊天机器人模型 ChatGPT 已经被用于各种各样的工作&am…

chatgpt赋能python:Python模拟点击安卓屏幕完整教程

Python模拟点击安卓屏幕完整教程 随着移动设备的日益普及&#xff0c;安卓系统成为了全球最受欢迎的操作系统之一。而在开发安卓应用时&#xff0c;我们经常需要模拟点击安卓屏幕进行测试和调试。本文将详细介绍如何使用Python模拟点击安卓屏幕。 1. 安装ADB工具 ADB&#x…

必看!TIKTOK TSP跨境服务商入驻详细流程

TIKTOK TSP跨境服务商如何赚钱&#xff1f;需要哪些资质和能力&#xff1f; 跨境电商领域近期最热门的话题&#xff0c;离不开在海外大火的TIKTOK。相较于国内抖音已经相当成熟的电商板块&#xff0c;海外TIKTOK电商直播才刚刚起步&#xff0c;所以&#xff0c;申请找专业团队&…