低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平

出品 | OSC开源社区(ID:oschina2013)

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持。

根据介绍,通过根据从 ShareGPT.com (一个用户可以分享他们的 ChatGPT 对话的网站) 收集的用户共享对话微调 LLaMA 基础模型,Vicuna-13B 与 Stanford Alpaca 等其他开源模型相比展示了具有竞争力的性能。

以 GPT-4 为评判标准的初步评估显示,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在 90% 以上的情况下超过了 LLaMA 和 Stanford Alpaca 等其他模型的表现。训练 Vicuna-13B 成本约为 300 美元。训练和服务代码,以及在线演示都是公开的,可用于非商业用途。

f78cd713a0ec5088b0f10a47149fa1df.png

为了确保数据质量,Vicuna 团队将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。以及将冗长的对话分成更小的部分,以适应模型的最大上下文长度。其训练方法建立在 Stanford Alpaca 的基础上,并进行了以下改进:

  • 内存优化:为了使 Vicuna 能够理解长上下文,开发团队将最大上下文长度从 Alpaca 中的 512 扩展到 2048,大大增加了 GPU 内存需求。通过利用 utilizing gradient checkpointing 和 flash attention 来解决内存压力。

  • 多轮对话:调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

  • 通过 Spot 实例降低成本:40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。Vicuna 团队使用 SkyPilot managed spot 来降低成本,方法是利用更便宜的 spot 实例以及自动恢复抢占和自动区域切换。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

Vicuna 团队构建了一个服务系统,该系统能够使用分布式 workers 为多个模型提供服务;它支持来自本地集群和云的 GPU worker 的灵活插件。通过利用 SkyPilot 中的容错控制器和 managed spot 功能,该服务系统可以很好地与来自多个云的更便宜的 spot 实例一起工作,以降低服务成本。它目前是一个轻量级的实现,未来将努力将集成更多的最新研究成果。

具体来说,开发团队首先从 ShareGPT.com 收集了大约 7 万个对话,然后增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列;训练在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成。为了提供演示服务,他们还实现了一个轻量级的分布式服务系统。通过创建一组 80 个不同的问题并利用 GPT-4 来判断模型输出,对模型质量进行了初步评估。为了比较两个不同的模型,团队成员将每个模型的输出组合成每个问题的单个提示。然后将提示发送到 GPT-4,GPT-4 评估哪个模型提供更好的响应。

5e7cd6766fac96f837b53a58505b906a.png

LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细对比如下:

0fbd3a1c0ca92b37da50dec16269417e.png

Vicun 团队展示了 Alpaca 和 Vicuna 对基准问题的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调后,其发现与 Alpaca 相比,Vicuna 能够生成更详细、结构更合理的答案,并且质量与 ChatGPT 相当。

例如,在要求 “撰写一篇引人入胜的旅游博文,介绍最近的夏威夷之行,突出文化体验和必去的景点” 时,GPT-4 的评价得分为:Alpaca-13b 7/10,Vicuna-13b 10/10。并阐述理由称,Alpaca 提供了旅行博文的简要概述,但没有按照要求实际撰写博文,导致得分较低。Vicuna-13b 则就最近的夏威夷之行撰写了一篇详细而有吸引力的旅游博文,强调了文化体验和必看的景点,完全满足了用户的要求,因此获得了较高的分数。

与此同时,Vicun 的初步发现表明,在比较聊天机器人的答案时,GPT-4 可以产生高度一致的等级和详细的评估。下图中总结的基于 GPT-4 的初步评估显示,Vicuna 达到了 Bard/ChatGPT 的 90% 能力。不过总的来说,为聊天机器人建立一个评估系统仍是一个需要进一步研究的开放式问题。

b291be7abc934ca753fd4b23ef312508.png

Vicun 团队提出了一个基于 GPT-4 的评估框架来自动评估聊天机器人的性能。设计了八个问题类别,以测试聊天机器人性能的各个方面。并基于每个类别选择十个问题,分别由 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 生成答案,然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估答案质量。结果发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数(详细示例链接)。但在判断编码 / 数学任务方面,GPT-4 则不太擅长。

72cec2fb050bdf23d2bfcf83b8706e09.png

数据表明在超过 90% 的问题中,相较 LLaMA、Alpaca 等,GPT-4 更倾向 Vicuna 生成的答案,并且它实现了可与专有模型(ChatGPT、Bard)竞争的性能。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为优于或等于 ChatGPT 的回答。

0999af00add2520db2f77ed4cad0b3a7.png

总的来说,虽然最近行业发展如火如荼,但事实上聊天机器人仍然面临局限性,例如难以解决基本的数学问题或编码能力有限。且为聊天机器人开发一个全面、标准化的评估系统,也是一个需要进一步研究的悬而未决的问题。

开发团队承认,Vicuna 不擅长涉及推理或数学的任务,并且在准确识别自己或确保其输出的事实准确性方面可能存在局限性。此外,它还没有得到充分优化以保证安全性或减轻潜在的毒性或偏见。为了解决安全问题,他们使用 OpenAI moderation API 来过滤掉在线演示中不适当的用户输入。

相关链接:https://twitter.com/lmsysorg/status/1641529839038640128

------

我们创建了一个高质量的技术交流群,与优秀的人在一起,自己也会优秀起来,赶紧点击加群,享受一起成长的快乐。另外,如果你最近想跳槽的话,年前我花了2周时间收集了一波大厂面经,节后准备跳槽的可以点击这里领取!

推荐阅读

  • ChatGPT大封号,注册功能关闭!

  • Twitter推荐算法开源,GitHub Star飙升至 42.9K !

  • 用 Copliot 帮你搞定 Java 样板代码

··································

你好,我是程序猿DD,10年开发老司机、阿里云MVP、腾讯云TVP、出过书创过业、国企4年互联网6年。从普通开发到架构师、再到合伙人。一路过来,给我最深的感受就是一定要不断学习并关注前沿。只要你能坚持下来,多思考、少抱怨、勤动手,就很容易实现弯道超车!所以,不要问我现在干什么是否来得及。如果你看好一个事情,一定是坚持了才能看到希望,而不是看到希望才去坚持。相信我,只要坚持下来,你一定比现在更好!如果你还没什么方向,可以先关注我,这里会经常分享一些前沿资讯,帮你积累弯道超车的资本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37476.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看看你经常是穷人的思维还是富人的思维:

1、自我认知 穷人:很少想到如何去赚钱和如何才能赚到钱,认为自己一辈子就该这样,不相信会有什么改变。 富人:骨子里就深信自己生下来不是要做穷人,而是要做富人,他有强烈的赚钱意识,这也是他血液…

如何解决电脑所有浏览器都访问不了,但是微信qq都能上的问题

微信能上,但是浏览器用不了, 什么原因呢,一开始以为是学校检测到自己的路由器了,然后开始疯狂倒腾路由器,不断重启,不断重置密码,后来发现都不起作用....................... 从一开始自己就没有想到是配置的问题,因为浏览器是突然就不能用的,自己又没动过电脑的设置,避开了这…

网络正常,qq、微信等其他能正常使用但浏览器无法打开网页

最近遇到电脑网络正常,除了所有浏览器(360、ie、chrome、搜狗等等)无法打开网页,qq、微信以及爱奇艺等其他连网软件都可以正常使用。 如图: 这样的原因一般是你之前使用了代理服务器了,比如使用电脑开wifi、墙了。之后电脑没有自动修改回来,所以才导致这样。 解决方法…

Chrome无法访问网页(在此情况下,Firefox可以访问网页,QQ可以上网)

Chrome无法访问网页 已尝试以下方法: 重置Chrome,恢复原始设置(有些插件可能会导致无法正常打开网页,类似各种梯子),无效在cmd上使用netsh winsock reset,重启电脑,无效使用QQ管家修复功能&am…

qq、微信能打开,网页打不开的解决办法。

昨天下载了VS2022之后。就一直打不开B站,坚信是我自己的我问题。今早还打不开,然后搜了很多办法,原理是那个原理,但是奈何无法成功实践,请教了实验室同学后,终于解决。具体流程如下: 我是 win1…

电脑能打开微信,但是访问不了百度,打不开网页,打不开浏览器!

电脑能打开微信,但是访问不了百度,打不开网页,打不开浏览器! 返回导航页问题现象:解决方案:方案一:方案二: 返回导航页 返回导航页 问题现象: 电脑能打开微信&#xff…

QQ、微信可以正常访问通讯,浏览器无法打开网页

问题描述 电脑网络异常,除了浏览器(360、chrome、搜狗等等)无法打开网页,qq、微信等其他连网软件都可以正常使用。 问题分析 出现这样的原因一般是之前设置了代理服务器,后续没有关闭,导致浏览器还是走代…

大模型新势力:IDEA研究院张家兴入局创业,沈向洋任顾问,首轮估值20亿

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 大模型创业江湖,又来了两位重磅大牛。 张家兴,粤港澳大湾区数字经济研究院(IDEA研究院)讲席科学家、认知计算与自然语言中心负责人,被曝已经启动了创业项目,而他站…

大模型新势力入局:IDEA研究院首席科学家创业,沈向洋院士任顾问,首轮估值20亿...

来源:量子位 大模型创业江湖,又来了两位重磅大牛。 张家兴,粤港澳大湾区数字经济研究院(IDEA研究院)讲席科学家、认知计算与自然语言中心负责人,被曝已经启动了创业项目,而他站在他身后&#xf…

预计欧元近期将“绝境大反攻”

纽约汇市11日,美元全线下滑,兑欧元和日圆触及七周低点,因避险需求降温,美元在稳步走强数月后投资人开始在年底前锁定获利。 美元兑其他主要货币自12月起便一路下滑,主要是受年末特有的低水平流动性以及年末清仓操作影响…

彻底弄懂 https 原理本质(三)加密漏洞

一、https加密🔐过程,上期知识回顾 小明👦和小花👧为了安全高效的发情书,采用对称加密方式。聪明的老王🐶盗取对称加密的密钥S🔑 。小明👦想到了非对称加密方式,于是就生…

通过爱情故事,彻底弄懂 https 原理本质(二)加密过程

一、加密知识回顾 单向加密 不可逆,只要输入的内容一样,输出的密文一定是一样的,有任何修改, 产生的密文都是不同的。例如,md5。 对称加密 加密和解密使用同一把密钥,加密解密速度特别快。例如,…

中国广电即将放号,或代表着中国移动反攻,联通先慌了

近期中国四大运营商之一的中国联通被用户指责乱扣费,这或许是这家企业面对着一个新对手即将开展移动通信业务引发慌乱导致的后果。中国广电即将在517后开始放号,目前正紧锣密鼓的准备当中,由于它与中国移动共建700MHz 5G网络,同时…

日产开始反攻…因疫情遭受打击,裁员令人担忧。

日产汽车2021年3月期的纯损益预计将连续两年陷入6700亿日元(约为人民币406亿人民币)规模的赤字。这是因为,为了修改前总裁卡洛斯•戈恩推进的扩大路线,结构改革费用不断增加,再加上新型冠状病毒感染的扩大,…

华为鸿蒙将删除谷歌代码,证明它真是自主研发,反攻安卓系统

据悉华为即将推出的鸿蒙3.0系统将彻底删除谷歌的代码,如此将证明它属于完全自主研发的国产操作系统,不仅如此它还将进一步抢占市场,反攻安卓系统,谷歌已后悔不已。 早期鸿蒙系统刚推出的时候,由于缺乏APP,无…

詹克团反攻比特大陆:一场失去人心的自我挽留

詹克团出局是因为失去了人心。在人心没有朝向他的时候,再多的动作,也只是自我感动和自我挽留罢了。 作者:江小渔 编辑:黑土 出品:碳链价值(ID:cc-value) 在吴忌寒重掌比特大陆大权后…

诺曼底登陆后,联想手机如何反攻?

文章经授权转载自深响(ID:deep-echo) 三星Note 9、iPhone XS系列、华为Mate 20系列、小米Mix 3、荣耀Magic 2……一连串的明星机型争相亮相,联想也继上半年的“新国民旗舰”联想Z5、10月中旬的“偶像级自拍利器”联想S5Pro之后&am…

智能电动渗透率突破50%!BBA「反攻」与新势力「下沉」

2022年,30万元以上乘用车品牌(不含进出口,下同)格局在中国市场出现了更加明显的分化。在传统燃油车细分赛道,BBA、沃尔沃、凯迪拉克、林肯仍然无人可敌;而在新能源车赛道,特斯拉、蔚来、理想、极…

基辛格带领英特尔发起大反攻,以开源生态驱动异构计算

在被英特尔 CEO 帕特基辛格定位为转折之年的 2021 年里,英特尔以超高频率发布多个重磅举措。在近日举办的英特尔 On 技术创新峰会(Intel Innovation)期间,英特尔宣布重新拥抱广大开发者,强调开发者至上的理念以及对开放…

天载股票资讯白酒等抱团股反攻

到收盘,上证指数涨0.51%,报3463.07点,深证成指涨1.12%,报13963.92点,创业板指涨1.65%,报2748.73点。 指数早盘震动走高,午后横盘震动为主,创业板指、深成指收涨逾1%,医美…