斯坦福发布大模型Alpaca:A100上训3小时,性能比较GPT-3.5,被挤爆!

6f41d73dfba0b0be7da9b08d9758b9d7.png

源|新智元

Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。今天,斯坦福发布了一个由LLaMA 7B微调的模型Alpaca,训练3小时,性能比肩GPT-3.5。

一觉醒来,斯坦福大模型Alpaca(草泥马)火了。

b95a3bc1e7ee6362a0d1b18a815d3476.png

没错,Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。

关键是训练成本奇低,不到600美元。具体花费如下:

在8个80GB A100上训练了3个小时,不到100美元;

生成数据使用OpenAI的API,500美元。

fe30be8f8b8781f2ccdad457a3d9db33.png

斯坦福大学计算机科学副教授Percy Liang称,

由于缺乏透明度/无法完全访问像GPT 3.5这样的有能力的指令模型,进而限制了这一重要领域的学术研究。我们在 Alpaca (LLaMA 7B + text-davinci-003)上迈出了一小步。

73b6a939f98a413d701ff7ac402cd128.png

看到又有人在自家大模型上取得了新的成果,Yann LeCun疯狂转发(宣传要到位)。

342448331587662dca7db3f1405a2b0d.png 1ec1e693d4c3851de93723c9614cd805.png

3小时微调70亿参数,600美元搞定

话不多说,先试用一波。

问:告诉我一些关于羊驼的事情。

答:羊驼是来自南美洲的骆驼品种,与美洲驼和骆驼有关。它们通常因其纤维而被饲养,用于制造奢侈品,如毛衣和毛毯。由于羊驼的温柔和友好的天性,它们也是很受欢迎的宠物。

034c448de96cd2bbbdbede2a36be4fd2.png

体验链接:
https://crfm.stanford.edu/alpaca/

4f4d1c545d381da8b9ddf30fbcf7cfaf.png

对于斯坦福的团队来说,想要在预算内训练一个高质量的指令遵循模型,就必须面临2个重要的挑战:要有一个强大的预训练语言模型,以及一个高质量的指令遵循数据。

恰恰,提供给学术研究人员使用的LLaMA模型搞定了第一个问题。

对于第二个挑战,「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启发,即使用现有的强语言模型来自动生成指令数据。

然而,LLaMA模型最大的弱点是缺乏指令微调。OpenAI最大的创新之一就是将指令调优用在了GPT-3上。

对此,斯坦福使用了现有的大语言模型,来自动生成遵循指令演示。

14baa91ab804c9fa7b1adfade2bf83ee.png

首先从自生成指令种子集中的175个人工编写的「指令-输出」对开始,然后,提示text-davinci-003使用种子集作为上下文示例来生成更多指令。

通过简化生成管道改进了自生成指令的方法,这样大大降低了成本。在数据生成过程中,产生了52K个独特指令和相应的输出,使用OpenAI API的成本不到500美元。

有了这个指令遵循的数据集,研究人员利用Hugging Face的训练框架对LLaMA模型进行微调,利用了完全分片数据并行(FSDP)和混合精度训练等技术。

33aa890ab18d60028f99550f2a891aa2.png

另外,微调一个7B的LLaMA模型在8个80GB的A100上花了3个多小时,在大多数云计算供应商那里的成本不到100美元。

约等于GPT-3.5

为了评估Alpaca,斯坦福研究人员对自生成指令评价集的输入进行了人工评估(由5位学生作者进行)。

这个评价集是由自生成指令作者收集的,涵盖了多样化的面向用户的指令,包括电子邮件写作、社交媒体和生产力工具等。

他们对GPT-3.5(text-davinci-003)和Alpaca 7B进行了比较,发现这两个模型的性能非常相似。Alpaca在与GPT-3.5的比较中,获胜次数为90对89。

鉴于模型规模较小,且指令数据量不大,取得这个结果已经是相当惊人了。

除了利用这个静态评估集,他们还对Alpaca模型进行了交互式测试,发现Alpaca在各种输入上的表现往往与GPT-3.5相似。

斯坦福用Alpaca进行的演示:

演示一让Alpaca来谈谈自己和LLaMA的区别。

59563ad3c640268a936f1358afc4a93a.png

演示二让Alpaca写了一封邮件,内容简洁明了,格式也很标准。

3896c23712960854cee18e0d0a13cced.png

上述例子可以看出,Alpaca的输出结果一般都写得不错,而且答案通常比ChatGPT简短,体现了GPT-3.5较短输出的风格。

当然了,Alpaca表现出语言模型常见的缺陷。

比如,将坦桑尼亚的首都说成了达累斯萨拉姆。实则,1974年之后,多多马是坦桑尼亚的新首都了,达累斯萨拉姆只是坦桑尼亚最大的城市。

c7788c94b0aaac1aa0acbad04862d7dc.png

撰写周详的论文摘要时,Alpaca传播了错误的信息。

c8962b1461cfb9b27ddbdda337729bbf.png

另外,Alpaca可能还存在许多与底层语言模型和指令微调数据相关的局限。然而,Alpaca为我们提供了一个相对轻量级的模型,它可以成为未来研究大模型重要缺陷的基础。

目前,斯坦福仅公布了Alpaca的训练方法和数据,并打算在未来发布模型的权重。

但是,Alpaca是不能用于商业用途,只能用于学术研究。具体原因有三:

  1. LLaMA是一个非商业许可的模型,Alpaca是基于该模型生成的;

  2. 指令数据是基于OpenAI的text-davinci-003,其使用条款禁止开发与OpenAI竞争的模型;

  3. 没有设计足够多的安全措施,所以Alpaca还没有做好广泛使用的准备

除此之外,斯坦福研究人员总结了Alpaca未来研究会有三个方向。

  • 评估:

从HELM(语言模型的整体评估)开始捕捉更多的生成性、遵循指令的场景。

  • 安全:

进一步研究Alpaca的风险,并使用自动红队分组、审计和适应性测试等方法提高其安全性。

  • 理解:

希望能更好地理解模型能力是如何从训练方法中产生的。需要基础模型的什么属性?扩大模型规模时会发生什么?需要指令数据的什么属性?在GPT-3.5上,除了使用自生成指令,还有什么替代方法?

大模型的Stable Diffusion

现在,斯坦福「羊驼」直接被网友奉为「文本大模型的Stable Diffusion」。

Meta的LLaMA模型可以免费给研究人员使用(当然需要申请后)简直利好AI圈友们。

自ChatGPT横空出世以来,让许多人对AI模型的内置限制感到沮丧。这些限制阻止ChatGPT讨论OpenAI认为敏感的话题。

48c1068c5e43f14a0f08282aa604d632.png

因此,AI社区便希望能够有一个开源大语言模型(LLM),任何人都可以在本地运行而无需审查,也无需向OpenAI支付API费用。

要说这样开源大模型现在也有,比如GPT-J,但美中不足的是需要大量的GPU内存和存储空间。

另一方面,其他开源平替版无法在现成的消费级硬件上拥有GPT-3级别的性能。

2月底,Meta推出了最新的语言模型LLaMA,参数量分别是70亿(7B)、130亿(13B)、330亿(33B)和650亿(65B)。评测结果显示,其13B版本便可以与GPT-3相媲美。

b83e4c35391508661b7788e313d1e8a7.png

论文地址:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

虽然Meta向通过申请的研究人员开放源代码,但没想到网友最先在GitHub上泄漏了LLaMA的权重。

自此,围绕LLaMA语言模型的发展呈爆炸式增长。

通常,运行GPT-3需要多个数据中心级A100 GPU,再加上GPT-3的权重不是公开的。

网友纷纷自己「操刀」运行LLaMA模型一时引起了轰动。

通过量化技术对模型大小进行优化,LLaMA现在可以在M1 Mac、较小Nvidia消费者GPU、Pixel 6手机、甚至是树莓派上运行。

网友总结了,从LLaMA的发布到现在,大家利用LLaMA做出的一些成果:

975c5c400475689a0c0616c2eb3ff333.png

2月24日,LLaMA发布,并在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者;

3月2日,4chan网友泄露了全部的LLaMA模型;

3月10日,Georgi Gerganov创建了llama.cpp工具,可以在搭载M1/M2芯片的Mac上运行LLaMA;

3月11日:通过llama.cpp可以在4GB RaspberryPi上运行7B模型,但速度比较慢,只有10秒/token;

3月12日:LLaMA 7B在一个node.js执行工具NPX上成功运行;

3月13日:llama.cpp可以在Pixel 6手机上运行;

而现在,斯坦福Alpaca「羊驼」发布。

One More Thing

项目没放出多久,Alpaca火爆到直接不能用了....

d5e87cf189996ffc5c8c49775a130de9.png

许多网友吵吵,点「生成」没反应,还有的在排队等玩儿。

6c95b1f1c4c9dcc2e71567e5d9ec2a01.png

520b76fb54e416fad1ce2dfc70dc1c5a.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 a7d0439acdc36b697ee98a60d871427d.png

[1]https://simonwillison.net/2023/Mar/13/alpaca/

[2]https://crfm.stanford.edu/2023/03/13/alpaca.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48664.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数控数据采集跨平台免授权扎克(mazak)西门子(Siemens)海德汉(heidenhain)广数(GSK)、凯恩帝(knd)、三菱、海德汉、兄弟、哈斯、宝元、新代、发那科(Fanuc)、华中

目录 前言 一、各类数控机床采集方案 1.Fanuc发那科数控 2.广数数控 3.西门子数控 4.MAZAK马扎克数控 5.HASS哈斯数控 6.新代数控 7.KND凯恩帝数控 8.Brother兄弟数控 9.HNC华中数控 10.三菱数控 11.台湾LNC宝元数控 12.HEIDENHAIN 海德汉数控 13.行业数控系统数…

思科(Netacad)账号注册教学,完美解决登录时找不到该账号的问题,亲身实测可用。最新最详细

学习Cisco.Packet.Tracer思科模拟器的时候需要登录思科网络学院的账号,注册步骤如下: 步骤一、 在浏览器中打开 Cisco Networking Academy Builds IT Skills & Education For Future Careers 思科的官网后,点击登录 步骤二、 点完登录…

2023 最新大猿人中控充值系统源码 免授权

支持公众号H5 分销等功能 大猿人中控系统目前是市面上用的最多的电话费充值中控系统,支持代理分销、公众号H5、API接口对接等功能,也是目前最完善的一款中控系统,前端全开源,已破解免授权! 配置环境:php7…

高速AD采集项目JESD204B采集卡详细上板教程

本文为明德扬原创文章,转载请注明出处! 明德扬通过JESD204B协议等完成此高速AD采集工程。综合上板后,可以使用上位机通过千兆网来配置AD9144和AD9516板卡,实现高速ad采集。最终可以在示波器和上位机上采集到,设定的频率…

CUAV RTK初步使用体验和感受

记录使用RTK进行无人机定位并操作的使用体验 一. RTK定位设置 使用的是CUAV制作发售的RTK,型号为C9P,目前该产品已经下架,上新了C9PS。 并不需要太多的设置,在飞控接入RTK后(也包括普通的GPS模块)&#xff…

有人正利用ChatGPT争取实现财务自由提前退休?看下他们是怎么做的

如果你想要大幅提高收入,达成提前退休的目标,不妨参考如何借助ChatGPT。 一、开展咨询副业 如果你在某个领域拥有专业知识,请考虑开展咨询业务,以加速实现早期退休。过程中当然需要核实ChatGPT生成的文本。它能帮助你生成具有会…

商业分析师必备技能之行业研究

小飞象交流会 你我都没有资格去轻视每一个无论身处何种困境都秉持赤子之心努力前行的人。 内部交流│21期 商业分析师必备技能之 行业研究 data analysis ●●●● 分享人:萨缪尔 ‍ 行业研究分析,是帮助我们解决问题的手段。大到给老板做宏观经济分析&a…

刷课会被检测出来吗?_知网查重系统检测出来的结果准确吗?

绝大多数高校都是使用知网论文检测系统,尤其是硕士论文的检测。将近90%的高校都是使用知网检测系统软件。那知网检测出来的重复率准确吗? 很多研究生在毕业前都会忙着处理即将离校的事情,但他们又不得不为自己的论文焦灼。因为论文…

知网html阅读需要花钱么,自己花钱怎么在知网上查重

自己花钱怎么在知网上查重 主题:知网 版权: 本站原创 更新时间:2021/06/01 阅读量:2666 本文是和花钱有关知识,在这里免费阅读,为您的知网查重要钱吗提供帮助了解. 有些学生因为第一次接触知网查重系统,所以往往会将资源进行滥用.…

知网计算机论文查重查代码,知网查重会查代码么?

知网查重会查代码么?答案是肯定的。往往论文中有程序代码查重率都很高!因为最新的系统版本新增了源代码数据库,所以代码被查重要想办法避免。如果大家代码被查重检测到,建议大家修改否则查重率会很高的。那么,知网查重…

知网期刊论文检测系统介绍

对于杂志社来说,国内大部分还是使用的知网论文查重系统,杂志社使用的是知网期刊AMLC/SMLC的系统,专门用于发表的文献抄袭度检测。当然有些个别的杂志社使用万方或者维普,需要根据具体情况来选择。下面就如何检测知网期刊系统以及检…

linux版本的caj,同方知网文献阅读器CAJViewer for Linux版本安装说明

同方知网旗下文献阅读器CAJViewer提供有for Linux版本,它支持的平台有:Ubuntu 16.04,Ubuntu 18.04,CentOS 7,UbuntuKylin 19.10,大多数其他常见x86_64架构的Linux桌面系统、银河麒麟系统飞腾CPU、中标系统龙…

java 知网爬虫_怎样抓取中国知网数据

2,快捷采集的使用方法:如何使用快捷采集 在中国知网通过高级检索,输入关键词后抓取相关文章的标题、作者、摘要、关键词等信息。但是中国知网在输入关键词搜索后网址并不会发生变化,所以在抓取的时候我们需要爬虫自动输入目标关键词搜索后,开始抓取数据。 要抓取到标题、作…

Zotero批量下载知网文献

问题:zotero在知网文献的详情页可以自动下载文献(如下图1),但在知网文献的搜索页无法批量下载文献(如下图2) 解决办法:到zotero translators下载知网研学插件CNKI.js GitHub - l0o0/translators…

知网的html查重报告看不了,知网查重没有报告单怎么办?

知网查重没有报告单说明系统还在检测,还未生成查重结果!建议大家,在耐心等待一会时间即可。如果查重结果好,大家通过交易的订单号查询并下载检测报告即可。值得注意的是,报告单内容比较丰富解读起来会比较困难。那么&a…

基于《知网》的词汇语义相似度计算以及复现

基于《知网》的词汇语义相似度计算复现源码:点击下载 源来自gittub:https://github.com/daishengdong/WordSimilarity 问题描述: “西红柿”和“茄子”这两个词,基于字面检测相似度为0,但是我们都知道它是一个东西&…

知网的html查重报告看不了,知网查重报告单怎么看

当我们使用 一、 知网查重报告单是以网页形式(或PDF,PDF还是网页,知网论文检测系统随机)呈现的。报告初稿知网论文检测系统有1-2份;定稿知网论文检测系统有四份,这四份检测报告分别从4个角度来呈现检测结果,如下图所示…

知网查重报告html乱码,知网查重报告出现乱码怎么办

在提交知网查重后,知网系统完成检测,将提示详细的知网查重报告,小伙伴拿到知网查重报告后,可以打开查阅报告,同时根据报告里的内容进行有针对性的修改和降低重复率。 不过有的小伙伴也会碰到一些问题,比如知…

知网海外版(硕博论文pdf下载方式)

CNKIhttps://oversea.cnki.net/index/进入该网站后输入要下载的硕博论文名,即可下载到pdf格式的文件。

中国知网系统的结构服务器,中国知网数据库网络版和本地镜像的不同之处

通常,CNKI数据库中的学生可能会在生活中多听一些,但是CNKI数据库的子网版本和镜像版本可能不太清楚,或者他们可能不知道镜像版本是什么,所以今天小编会给你带来一个具体的理解。 镜像知网查重数据库和本地映像有什么区别&#xff…