2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载

鱼羊 编辑整理
量子位 | 公众号 QbitAI

2000块,调教出一个达到ChatGPT九成功力的开源大模型

还是被GPT-4亲自盖章认证实力的那种。

11fb6231929bf3fdda3cb3b567cd0b2e.png

这事儿,一群主要来自加州大学伯克利分校的研究人员做到了。

如图中所见,这个模型名叫Vicuna (小羊驼)。

没错,熟悉的配方,熟悉的味道a00e7da982dc3d05339039ad25cde366.png。Vicuna同样是基于Meta开源的LLaMA大模型(大羊驼)微调而来。

与此前斯坦福大学基于LLaMA的Alpaca(还是羊驼)不同的是,尽管也薅了ChatGPT羊毛——用了ChatGPT生成的数据,但Vicuna所用的数据来自ShareGPT,而不是直接用OpenAI的API生成。

ShareGPT是一个分享ChatGPT对话的谷歌插件,目前拥有超过11万对话数量。

更为特别的是,这一次,研究人员直接请来GPT-4本尊,给新模型“打分”。

他们还提到:

相比于Alpaca-13B等模型,GPT-4在绝大多数问题上偏向于Vicuna。

6b8ad81959b51271a5a0319ea3d27bcf.png

此模型一出,就吸引了不少网友的关注。

f6e4e98bd8b3c8e08bdea68d5537b81b.png

就有网友认为:这类工作证明,对于个人用户而言,大语言模型并不是那么遥不可及。

be2f442dd2be7cb5cdbe00b46c966125.png

量子位最新获悉,目前,Vicuna的权重已经完全开放。

a783579ae037c5bea77d81937a4ce9b3.png

还可在线体验:https://chat.lmsys.org

谁是GPT-4更爱的模型?

具体的打分过程,咱们一起来看看具体示例。

首先,同时抛给Alpaca和Vicuna这样一个问题:

写一篇关于最近去夏威夷旅行的旅游博客,强调文化体验和必看景点。
Compose an engaging travel blog post about a recent trip to Hawaii, highlighting cultural experiences and must-see attractions.

Vicuna的回答如下,可以说是要素齐全,并且带有较强的感情色彩。

647467e9b8aa9e7a26803950f19f12d0.png
翻译来自谷歌翻译

相比之下,Alpaca的回答就简短得多。

66542f28a66bc35cf1a325651df60add.png

然后,把这两个答案都丢给GPT-4,让它按10分制分别给打个分。

这一步,需要设置好prompt,研究人员用到的提示词是这样的:

We would like to request your feedback on the performance of two AI assistants in response to the user question displayed above. 

Please rate the helpfulness, relevance, accuracy, level of details of their responses. Each assistant receives an overall score on a scale of 1 to 10, where a higher score indicates better overall performance. 

Please first output a single line containing only two values indicating the scores for Assistant 1 and 2, respectively. The two scores are separated by a space. 

In the subsequent line, please provide a comprehensive explanation of your evaluation, avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment.

其中的技巧在于:

  1. 首先完整陈述任务:(1)需要写的是反馈;(2)评价对象是两个AI助手;(3)评价内容是它们的回答表现;(4)回复的对象是上面列着的用户的问题。

  2. 给出评价的标准:(1)有帮助(不是车轱辘话,且考虑回复的对象是人类用户,生成的回答要让人类可以理解);(2)相关(不能偏题);(3)准确(不能胡说八道);(4)详尽(不能太空太高或者回避细节)。

  3. 给出评分范围:1-10。

  4. 给出评分的意义:越高代表综合表现越好。

  5. 给出评分的第一行输出格式:必须在第一行输出两个数字,分别代表给两个AI助手的评分。用空格分隔评分。

  6. 给出评分的其余行输出:要求提供一个详尽的分析。

  7. 给出更多评分限定条件:避免任何偏见;避免回答顺序影响结果。

于是,对于上面这两篇《夏威夷游记》,GPT-4给Vicuna打了10分,给Alpaca打了7分

理由是:

助手1没有按要求实际撰写博客,只是提供了简要概述,因此得分较低。而助手2则针对近期的一次夏威夷之旅,撰写了一篇详细且引人入胜的旅游博客,重点介绍了文化体验和必游景点,充分满足了用户需求,获得了较高的分数。

9ca50cdbffa32f3335af9bdf04382541.png

研究人员还用同样的方法对比评估了LLaMA-13B、ChatGPT-3.5和Vicuna之间的差异。

对于ChatGPT vs Vicuna,GPT-4给出的评价是:各有千秋,都打9分。

2fe62a4e0c50de8e0b1a09a41a32690b.png

研究人员提到,整个评测过程依然是human-in-the-loop。他们会查看GPT-4的评估是否有道理,并总结各个模型的优缺点。

这种人机协作的方式,比人类直接生成评估更高效。并且“虽然无法科学地证实这一点,但是可以感觉到GPT-4对不少答案的评估结果要好于一般人类”。

基于这样的方法,研究人员最后把Vicuna和其他模型的回答以匿名的方式抛给了GPT-4。

GPT-4最终的打分结果显示,在130亿参数LLaMA基础上微调而来的Vicuna,达到了ChatGPT(GPT-3.5)性能的90%,超过了LLaMA-13B本身和斯坦福的Alpaca。

c41e7d637af2be88264f7cbf7bfcdcca.png

胜率图也显示,在与LLaMA-13B和Alpaca-13B的比较中,裁判GPT-4明显偏爱Vicuna。Vicuna还和谷歌的Bard打了个有来有回。

6274d58a92636330665b67f5a6562d2e.png

训练细节

Vicuna的不俗表现背后,是来自ShareGPT的大约7万条对话数据。

为了确保数据质量,研究人员把HTML转成了markdown,过滤掉了低质量样本,还对过长的对话进行了切分,以适应模型的最大上下文长度。

另外,研究人员也借助了Alpaca的肩膀:增强了Alpaca提供的训练脚本,以更好地处理多轮对话和长序列。具体包括:

  • 内存优化:Vicuna的最大上下文长度为2048(Alpaca为512),对GPU内存要求更高。研究人员利用梯度检查点和内存注意力来解决内存压力。

  • 多轮对话:调整训练损失来适应多轮对话任务,并仅根据聊天机器人的输出计算微调损失。

  • 降低成本:研究人员使用SkyPilot managed spot来降低成本。该解决方案将70亿参数模型的训练成本从500美元降低至140美元左右。将130亿参数模型的训练成本从1000美元降低至300美元(约合人民币2068元)。

整个Vicuna的训练,用到了8张A100 GPU,训练时间是一天。

c40790adb61d5c448e0c03991f866ad8.png

One More Thing

说起来,Vicuna这个开源大模型,从里到外都挺AI的。

比如LOGO,就是用Stable Diffusion 2.1生成的。

e14c4646e844bcc994141f63a23cb94a.png

有意思的一件事是,作者们是自己想出了“Vicuna”这个羊驼系的名字,但他们也就取名问题问了问GPT-4。

而GPT-4跟他们英雄所见略同了:

你们可以管它叫“Vicuña”。

84e8dd6f4846490c70556206d8dc9b81.png
图源:知乎@SIY.Z

最后的最后,提醒一句,Vicuna只能用于非商业用途哟~

参考链接:
[1]https://vicuna.lmsys.org/
[2]https://zhuanlan.zhihu.com/p/618389519
[3]https://github.com/lm-sys/FastChat

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

a327619d9dcca226ac58769d6832ae65.jpeg

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37313.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python处理雷达基数据:从入门到实践

Python处理雷达基数据:从入门到实践 随着气象技术的不断发展,雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据,因其包含大量天气信息,不仅在天气预报、天气预警等方面…

推演语言模型的大小与计算开销

2020年,OpenAI提出了在增加模型尺寸与提高模型性能之间的扩展定律,指出人们应该将大部分预算用于扩大模型规模。这篇论文直接推动了增大模型规模的浪潮。然而,在预算和内存有限的情况下,盲目扩大模型规模并不是提升模型性能的最佳…

codesblocks头文件的正确使用

之前对头文件如何引用一直百思不得其解,现在弄懂了,来复盘一下。关键点在于要建立工程文件。 下面以一个长度转换的程序来简单说明。 第一步,建立C语言项目。 在新建项目点击Console applicaton,接着打上名称,默认设置…

jdbc工具类的定义和使用

DBUtils的定义 导入3个jar包 代码实现 public class DBUtils {//1.配置数据库连接信息(MySQL)//数据库驱动private static final String DRIVER "com.mysql.jdbc.Driver";//数据库名private static final String DATABASE "test_db&q…

Servlet的介绍与使用

Servlet简介 servlet是运行在服务器上的应用程序, 它的作用是实现前端与后台的数据交互。 Servlet生命周期 三个方法 init():初始化 service():处理客户端请求 destroy():终止 工作原理 客户端向服务器发送一个http请求服务器…

python破解md5_python怎么使用md5加密解密

python采用hashlib这个标准库实现MD5加密解密。方法是:1、updata传数据;2、利用hexdigest进行16进制转换; update(arg)传入arg对象来更新hash的对象。必须注意的是,该方法只接受byte类型,否则会报错。这就是要在参数前添加b来转换类型的原因。 同时要注意,重复调用update…

分布式任务调度平台XXL-JOB的简单使用

推荐使用xxl2.2.0版本 参考地址: 分布式任务调度平台XXL-JOB xxl-job安装到本地打开项目工程对yml配置文件进行修改 主要修改数据库地址和告警邮件地址 将服务注册到xxl-job -如果在xxl里配置了accessToken 服务里就需要使用同样的Token 注册到xxl-job-admin之后打开xxl可视…

selenium获取页面数据入数据库

Selenium是一个用于Web应用程序测试的工具,但是也可以爬取页面中的数据。 开发环境是内网(局域网),项目工程是web项目,jdk使用的1.8,tomcat使用的 8。 web项目: 启动时使用tomcat,…

ChatGPT 教我用 200 行代码写一个简版 Vue 框架 - OpenTiny

AI 是未来最好的老师 最近,我正在准备一份关于 Vue 基础的学习材料。期间我突发奇想:能否利用现在热门的 ChatGPT 帮我创建学习内容?其实 Vue 本身不难学,特别是基础用法,但是,如果你想深入掌握 Vue&#…

阿里云AliGenie开发天猫语音功能-入门篇

文章目录结构如下 登录应用开发平台 创建语音技能 云开发部署后端技能服务 语音技能测试 下线不必要的应用 一、登录应用开发平台 1.登录云开发平台。打开网址 https://workbench.aliyun.com/,使用阿里云账号登录,按照提示创建团队,点…

ESP8266对接天猫精灵-多路继电器控制

上面是我的微信和QQ群,欢迎新朋友的加入。 资源和烧录我就不管了,和https://blog.csdn.net/Jun626/article/details/109150006一模一样 把那个kaiguan的lua改一下代码 DEVICEID "19539" APIKEY "17aaa8a16" INPUTID "…

php对接AliGenie天猫精灵服务器控制智能硬件esp8266③ 渗入熟悉AliGenie 对接协议,揭开第三方云平台是如何让天猫精灵是发送消息到私有服务器的!

本系列博客学习由非官方人员 半颗心脏 潜心所力所写,仅仅做个人技术交流分享,不做任何商业用途。如有不对之处,请留言,本人及时更改。 1、 php对接AliGenie天猫精灵服务器控制智能硬件esp8266① 在阿里云购买搭建私有云服务器&…

智能家居领域小米,涂鸦,天猫精灵的 “中台之战”

深圳是跨境电商之都,仅一个华南城就云集了不少了全球排名前五十的亚马逊大卖家。总部不在深圳的跨境电商通常都会在深圳设立主抓供应链的分部。在今年这样疫情叠加外部环境不确定性的当下,大卖家们的日子按道理说不会好过,然而事实却大大出乎…

ESP8266-天猫精灵(智能家居)

本次更新与2018年10月2日 (弊端:wifi的配置在程序里边,设备更换所连接的wifi,还需要重新烧录初始化程序)——问题已解决,更新于博客最下方。 1:使用器材 天猫精灵、esp8266、LED(继电器) &am…

六级备考23天|CET-6|写作技巧1|开头段模版

目录 1 考前注意事项 2 真题参考 3 六级作文三段式 第一段 第二段 第三段 4 名言解释型作文 5 开头段的模版 why 型 6 选择型开头模版 7 国内学校/出国读书 8 团队精神和交流 9 作业 10 抽象意志品质类开头 ​ 11 信任的重要性​ 1 考前注意事项 定位错误 常识干扰 拼凑…

雅思英语作文计算机和历史,雅思考试|历史真题帮你搞定雅思写作3大高频话题-科技篇...

科技类 题目1 计算机让人们在家工作学习的利弊 Computers enable people to be able to work at home and children to study at home. Some people believe that it is convenient and cost-saving. Do you think the phenomenon positive or negative? 题目解读:…

六级备考21天|CET-6|写作技巧2|13:00~14:40

目录 【一】写作技巧1的作业 [1]Creativity [2]谚语:值得做的就值得做得好 [3]Star chasing 追星​ [4]team spirit&communication 团队精神和交流 [5]谚语:理解​ 【二】谚语重要性开头模版 [1]谚语:Understand 理解 【三】社会…

通过python批量获取阿里云账号余额并发送到钉钉群

脚本执行结果如下图 亲测可用 首先更新安装python版本 默认2.7.5太低无法使用 这里使用3.7.9版本 安装编译插件 yum install -y gcc patch libffi-devel python-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel…

【python】使用apikey查询OpenAi可用余额

2023.04.02似乎官方禁用了之前的获取方式,通过https://api.openai.com/dashboard/billing/credit_grants将会得到如下回复 Your request to GET /dashboard/billing/credit_grants must be made with a session key (that is, it can only be made from the browse…

ChatGPT 可能会阻碍网络安全行业的发展

自 2022 年 <> 月推出以来&#xff0c;人工智能 &#xff08;AI&#xff09; 聊天机器人 ChatGPT 因其令人惊讶的人性化和准确的响应而引起了不小的轰动。 自动生成系统在推出仅两个月后就达到了创纪录的 100 亿月活跃用户。然而&#xff0c;虽然它的受欢迎程度持续增长…