得分逼近ChatGPT，人类难以分辨！开源「原驼」爆火，iPhone都能微调大模型了

得分逼近ChatGPT，人类难以分辨！开源「原驼」爆火，iPhone都能微调大模型了

news/2025/1/1 8:49:18/文章来源:https://blog.csdn.net/weixin_40920183/article/details/130878215

梦晨发自凹非寺
来源 | 量子位 QbitAI

自动测试分数达到ChatGPT的99.3%，人类难以分辨两者的回答……

这是开源大模型最新成果，来自羊驼家族的又一重磅成员——华盛顿大学原驼（Guanaco）。

更关键的是，与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。

开源社区直接开始狂欢，相关论文成为24小时内关注度最高的AI论文。

以Meta的美洲驼LLaMA为基础，得到原驼650亿参数版只需要48GB显存单卡微调24小时，330亿参数版只需要24GB显存单卡微调12小时。

24GB显存，也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示，更喜欢它而不是ChatGPT。

英伟达科学家Jim Fan博士对此评价为：大模型小型化的又一里程碑。

先扩大规模再缩小，将成为开源AI社区的节奏。

而新的高效微调方法QLoRA迅速被开源社区接受，HuggingFace也在第一时间整合上线了相关代码。

GPT-4做裁判，原驼得分达到ChatGPT的99.3%

论文中，团队对原驼总共做了三项测试，自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判，对不同模型的回答进行打分，以ChatGPT（GPT3.5）的成绩作为100%。

最终原驼650亿版得分达到ChatGPT的99.3%，而GPT-4自己的得分是114.5%，谷歌Bard是94.8%。

随机匹配，采用棋类专业比赛和电子竞技同款的Elo记分机制，由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT（GPT3.5）。

人类评估，则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起，人类来盲选哪个最好。

论文共同一作表示，研究团队里的人都很难分辨出来，并把测试做成了一个小游戏放在Colab上，开放给大家挑战。

这里节选其中一个问题（附中文翻译），你能分辨出哪个是ChatGPT回答的吗？

问题：How can I improve my time management skills?（如何提高时间管理技能？）

（完整测试地址在文末）

总的来说，原驼的优势在于不容易被问题中的错误信息误导，比如能指出地球从来没有被科学界认为是平的。

以及擅长心智理论（Theory of Mind），也就是能推测理解他人的心理状态。

但原驼也并非没有弱点，团队发发现它不太擅长数学，以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

也有网友表示，虽然一个模型能在某个数据集上无限接近ChatGPT，但像ChatGPT那样通用还是很难的。

全新方法QLoRA，iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA。

其中Q代表量化（Quantization），用低精度数据类型去逼近神经网络中的高精度浮点数，以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应（Low-Rank Adaptation）高效微调方法，LoRA后来被移植到AI绘画领域更被大众熟知，但最早其实就是用于大语言模型的。

通常来说，LoRA微调与全量微调相比效果会更差，但团队将LoRA添加到所有的线性层解决了这个问题。

具体来说，QLoRA结合了4-bit量化和LoRA，以及团队新创的三个技巧：新数据类型4-bit NormalFloat、分页优化器（Paged Optimizers）和双重量化（Double Quantization）。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能。

QLoRA的高效率，让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出，成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION（训练Stable Diffusion的数据集也来自这里），虽然只有9000个样本但质量很高，经过开源社区的人工仔细验证。

这9000条样本用于微调大模型，比100万条指令微调（Instruction Finetune）样本的谷歌FLAN v2效果还好。

研究团队也据此提出两个关键结论：

数据质量 >> 数据数量
指令微调有利于推理，但不利于聊天

最后，QLoRA的高效率，还意味着可以用在手机上，论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着，很快手机上的每个App都能用上专用大模型。

论文：
https://arxiv.org/abs/2305.14314

GitHub：
https://github.com/artidoro/qlora

与ChatGPT对比测试：
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩：
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接：
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

— 完 —

分享

收藏

点赞

在看

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/53391.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

分享基个珍藏已久的良心网站，个个都很好用

分享基个珍藏已久的良心网站，个个都很好用

推荐一：Poki 这几天4399要实名制了。玩起来挺麻烦的，还是换成Poki吧。也是一个收集游戏的网游网站，种类很多，有军事游戏，有动作游戏，有冒险游戏等等，我最喜欢的是公主换装游戏。感觉瞬间回到…

阅读更多...

GPT 4.0 你知道的和你不知道的？

GPT 4.0 你知道的和你不知道的？

GPT 4.0 人工智能聊天机器人介绍GPT 4.0之前，先给大家介绍一下整理的一个类ChatGPT相关的工具，有可以总结论文的、微软作图的、反ChatGPT检测的、数据标注的等等工具，感兴趣的小伙伴可以访问：github链接言归正传今天我们主要…

阅读更多...

【OpenAI 多模态预训练】VideoGPT？微软透露GPT-4或将在下周发布

【OpenAI 多模态预训练】VideoGPT？微软透露GPT-4或将在下周发布

【多模态预训练】VideoGPT？微软透露GPT-4或将在下周发布先让我猜个名字，VideoGPT？ 太绝了！看完ChatGPT之后就感觉OpenAI正在做多模态的预训练语言模型。万万没想到来的这么快。据介绍，GPT-4或将为多模态大模型&#…

阅读更多...

趣链科技获数亿元C轮融资，晋升区块链核心技术独角兽

趣链科技获数亿元C轮融资，晋升区块链核心技术独角兽

近日，区块链明星企业趣链科技官方宣布完成数亿元C轮融资，本轮融资由知名基金易方达资本领投、龚虹嘉带领的银宏基金跟投。相关报道显示，趣链科技这笔融资是今年以来国内区块链企业融资额最高的一起，公司整体估值达到10亿美元&…

阅读更多...

Ayar Labs 在 C 轮融资中筹集了 1.3 亿美元

Ayar Labs 在 C 轮融资中筹集了 1.3 亿美元

Boardman Bay Capital Management 领投，惠普企业和 NVIDIA 共同推动 Ayar 光学 I/O 的商业化 Ayar Labs 已获得由 Boardman Bay Capital Management 牵头的 1.3 亿美元额外融资。这笔资金用于推动 Ayar 光学 I/O 解决方案的商业化，该解决方案基于专利方…

阅读更多...

Anthropic完成4.5亿美元C系列轮融资：Spark Capital领投

Anthropic完成4.5亿美元C系列轮融资：Spark Capital领投

雷递网乐天 5月28日生成式AI公司Anthropic日前完成C系列轮4.5亿美元融资，由Spark Capital领投，估值可能超过41亿美元。 Anthropic其他投资方包括谷歌、Salesforce、Zoom、Sound Ventures、Menlo Ventures。 Anthropic首席执行官Dario Amodei说&#xf…

阅读更多...

C轮累积融资1亿美金禾多科技如何靠自我造血能力赢得资本青睐？

C轮累积融资1亿美金禾多科技如何靠自我造血能力赢得资本青睐？

自动驾驶当前在全球范围内受到广泛关注，是汽车行业正在集中力量攻克的新领域。据英特尔预计，2050年仅自动驾驶汽车的市场规模将达到7万亿美元。引得资本和科技巨头们纷纷“下注”。近日，全栈自动驾驶科技公司禾多科技宣布，已完成…

阅读更多...

神策数据获 3000 万美元 C+ 轮融资，A、B、C 轮资方全部跟投

神策数据获 3000 万美元 C+ 轮融资，A、B、C 轮资方全部跟投

5 月 19 日，神策数据 5 周年产品暨融资线上发布会正式召开。神策数据创始人 & CEO 桑文锋在发布会上宣布重磅融资信息，即获得由襄禾资本领投，晨兴资本、DCM 资本、华平投资、红杉资本中国基金、线性资本、明势资本跟投的共计 3000 万美元…

阅读更多...

第四范式完成C+轮融资，投后估值约20亿美元

第四范式完成C+轮融资，投后估值约20亿美元

相关阅读： 数据猿专访丨第四范式胡时伟：AI的商业化才刚刚开始，谈“收割”尚早【视频版点这里】大数据产业创新服务媒体 ——聚焦数据改变商业数据猿报道第四范式近期宣布完成C轮融资，C轮总计融资金额达2.3亿美元，…

阅读更多...

神策数据获3000万美元C+轮融资，A、B、C轮资方全部跟投

神策数据获3000万美元C+轮融资，A、B、C轮资方全部跟投

“5月19日，神策数据5周年产品暨融资线上发布会正式召开。神策数据创始人 & CEO 桑文锋在发布会上宣布重磅融资信息，即获得由襄禾资本领投，晨兴资本、DCM 资本、华平投资、红杉资本中国基金、线性资本、明势资本跟投的共计 3000 万美元的 …

阅读更多...

Hugging Face官宣1亿美元C轮融资，估值20亿美元

Hugging Face官宣1亿美元C轮融资，估值20亿美元

对于机器学习领域的开发者而言，上图中的笑脸应该不陌生了。这是AI社区 Hugging Face 的标志之一。这家成立于 2016 年的公司，随着机器学习的发展而进入越来越多人的视野之中，也被许多人视为是“机器学习的 GitHub”。今天 Hugging Face 宣…

阅读更多...

校招——测试开发工程师岗位面试问题

校招——测试开发工程师岗位面试问题

怎么理解测试软件测试其实包括测试（Testing）和检验（Checking）两部分，我们通常所理解的测试可能仅仅是检验。不论是自动化测试也好，还是手工执行测试用例也好，只要是基于预先设定的可断言的脚本…

阅读更多...

ChatGPT助力校招----面试问题分享(八)

ChatGPT助力校招----面试问题分享(八)

1 ChatGPT每日一题：有源和无源滤波器问题：有源和无源滤波器的区别 ChatGPT：有源滤波器和无源滤波器是指使用不同的电路元件来实现滤波功能的电路有源滤波器使用了一个或多个有源元件，例如晶体管、运算放大器等，以…

阅读更多...

$通信工程博保研面试常见问题-高频$

通信工程博保研面试常见问题-高频

电子线路分析基础高频电路的负载为选频网络串联谐振时、电感和电容两端电压模值相同（为电源电压的Q倍），符号相反谐振时电容和电感的总瞬时储能是一个不变的常数，说明电感和电容不消耗外加电动势的能量，能量只在两者之…

阅读更多...

【学习记录】HT32F52352舵机控制

【学习记录】HT32F52352舵机控制

前言本文章仅作为我学习的一次记录，本人的技术还不够成熟，可能无法对工程技术上做太多指导。工程为基于HT32F52352的智能物联网宠物喂食机系统，通过HT32控制舵机工作，完成饲料的投喂。一、舵机介绍 1、舵机的分类按照舵机…

阅读更多...

视频剪辑软件，AI智能合并随机生成新视频，并设置视频数量以及时长

视频剪辑软件，AI智能合并随机生成新视频，并设置视频数量以及时长

最近有很多人在问，怎么随机生成多个视频最快，其实你离成为剪辑达人就只差一个剪辑方法，今天小编就给大家分享一个新的技巧，下面就以快速智能合并，随机生成多个新视频为例，一起来学习一下。所需工具多段视…

阅读更多...

手机如何一键智能自动剪辑短视频

手机如何一键智能自动剪辑短视频

手机如何一键智能自动剪辑短视频，首先我们在手机上安装并打开“王者剪辑app”，进入智能创作模块中的“创作机器人”， 接着导入视频源素材，输入视频文案内容，配置相关参数和配音类型，然后点击界面右上角的…

阅读更多...

深度揭秘，Android应用是如何安装到手机上的

深度揭秘，Android应用是如何安装到手机上的

/ 今日科技快讯 / ChatGPT 的横空出世，在业界掀起了惊涛骇浪。专家表示，ChatGPT 和相关人工智能技术可能会威胁到一些工作岗位，尤其是白领工作。自去年11月发布以来，新型聊天机器人模型 ChatGPT 已经被用于各种各样的工作&am…

阅读更多...

chatgpt赋能python：Python模拟点击安卓屏幕完整教程

chatgpt赋能python：Python模拟点击安卓屏幕完整教程

Python模拟点击安卓屏幕完整教程随着移动设备的日益普及，安卓系统成为了全球最受欢迎的操作系统之一。而在开发安卓应用时，我们经常需要模拟点击安卓屏幕进行测试和调试。本文将详细介绍如何使用Python模拟点击安卓屏幕。 1. 安装ADB工具 ADB&#x…

阅读更多...

必看！TIKTOK TSP跨境服务商入驻详细流程

必看！TIKTOK TSP跨境服务商入驻详细流程

TIKTOK TSP跨境服务商如何赚钱？需要哪些资质和能力？ 跨境电商领域近期最热门的话题，离不开在海外大火的TIKTOK。相较于国内抖音已经相当成熟的电商板块，海外TIKTOK电商直播才刚刚起步，所以，申请找专业团队&…

阅读更多...

最新文章

推荐文章