平替!0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5

4441a07a1a4304d38450124b4d87c07e.jpeg


  新智元报道  

编辑:编辑部

【新智元导读】破解「CloseAI」,ChatGPT克隆羊问世!0门槛实现「自研」,从此大语言模型不再只是少数大公司的「金手指」。

此前,OpenAI不Open的事件,已经引发了坊间的诸多争议。

光放出基准和测试结果,不提供训练数据、成本、方法,是真的要「赢家通吃」了。

014398179760dbf093998b6aa40a998a.png

眼看大语言模型似乎要被巨头公司垄断,如今忽然杀出一个初创公司,给了OpenAI一枪——用60亿参数的「Dolly」实现了和ChatGPT相似的能力。

没错,我们现在只需要准备一些高质量的训练数据,再随便拿一个开源的大语言模型,训练30分钟后,就能得到一个ChatGPT「平替」!

对此,Databricks自豪地表示,Dolly的发布,就是自己在人工智能技术民主化道路上打响的第一弹。

c37f964f4d3e3b9b60e5d70e6fec6b3e.png

60亿参数堪比ChatGPT,30分钟就训好

由于ChatGPT需要消耗大量的数据和算力资源(利用数万亿个单词训练,消耗大量GPU),所以这类大语言模型注定只能被少量巨头所掌握。

和「CloseAI」相反,Meta在今年3月向学术界发布了一组高质量(但不是指令跟随的)语言模型LLaMA,每个模型的训练时间超过了80,000个GPU小时。

随后,斯坦福大学基于LLaMA构建了Alpaca,但不同之处在于,它利用一个包含50,000个问题和答案的小数据集进行了微调。令人惊讶的是,这使得Alpaca具有了类似于ChatGPT的交互性。

而Dolly正是受到了Alpaca的启发。

更有趣的是,拥有60亿参数的Dolly并没有利用现在最新的模型,而是选择了一个2021年发布的开源模型——GPT-J。

由于Dolly本身是一个模型的「克隆」,所以团队最终决定将其命名为「多利」——有史以来第一个被克隆的动物。

90de64c9d1ddd34c4e55d640d3e5e85e.png

与当前的大型语言模型(如GPT-3)相比,Dolly允许用户使用更小、更专业的模型,「复刻」ChatGPT的能力。

毕竟对于那些细分用户来说,能够利用针对本行业进行过精调的模型,可以大大增加性能和准确性。

尽管Databricks与OpenAI并无直接竞争关系,但它似乎想通过证明构建类似ChatGPT这样的服务并非看起来那么困难,来抢占OpenAI的风头。

尤其是,OpenAI采取了「规模越大越好」的方法来开发语言模型,并对其工作越来越保密。

Databricks除了将Dolly作为开源软件发布外,还强调Dolly只有60亿个参数(在训练过程中微调的语言模型部分),而OpenAI的GPT-3模型有1750亿个参数。(OpenAI并未透露GPT-4的参数数量)。

2eb1fee810ed9898791b6b8249dfd0c8.png

让老模型,涅槃重生

根据InstructGPT论文中描述的指令跟随能力,对Dolly进行评估后发现,它在很多能力上的表现和ChatGPT十分类似,包括文本生成、头脑风暴和开放式问答。

在这些例子中,值得注意的不是生成文本的质量,而是在一个小型的高质量数据集上,微调一个旧的开源模型所带来的指令跟随能力的巨大改进。

内容生成

比如,写一条Databricks官宣大规模语言模型Dolly发布的推特。

可以看到,原始的60亿参数模型(GPT-J)所生成的内容驴唇不对马嘴,而Dolly则给出了一个完全可用的推文——

不仅内容符合要求,而且还贴心地加上了标签,以及提醒你记得加入发布的链接。

bf7ee3268ba16fe732a053854b3a818a.png

对于这一题,ChatGPT给出的答案也很符合期待,相比于Dolly,ChatGPT给出的推文包含了更多评述性词句,并且标签也更加精准具体,但整体差距不大。

9f1494789e166d04c8ea015d422df3f8.png

当要写一条出售Nikon D-750相机的广告时,可以看到,GPT-J所生成的内容基本就在胡编乱造,像是在写小说一样杜撰购买和出售相机的剧情……

而Dolly则根据Nikon D-750相机的特点及优势,给出了一则吸引人的相机转卖广告语,但遗憾的是像素参数不对。

ec4b45d180d232a1ae0413da27013648.png

ChatGPT在这一题上也是圆满完成任务,广告语中突出该款相机的优势,文末仍然贴心地加上了标签。

233890ef358b0a11e921c93ddd37573e.png

最后一题:给Edgar Allan Poe(爱伦·坡)写一封情书。

对此,古早的GPT-J直接拒绝回答,究其原因竟然是——爱伦·坡已经去世了,你不能给死人写情书。

而Dolly则成功地完成了任务,效果对比起来堪称「涅槃」。

62848aded2615f7dd264c50c140df931.png

而这种「创造性」问题,显然是ChatGPT的强项,它洋洋洒洒地写了300多个字。

4a8169d3a5a57d277b4e63299f97fb9b.png

开放问答

在事实性问题的问答测试上,团队选择了下面这个:「向我解释一下核裂变和核聚变之间的区别。」

先不管对错,GPT-J全篇都是在讲太阳如何如何,虽然提到了「聚变」这个词,但完全无视了「裂变」。

而Dolly第一句就直接点题——核裂变和核聚变的区别在于释放能量的方式,随后简单解释了他们的不同。

37f3d25e6f8041050082178e0b044690.png

相比之下,ChatGPT给出的回答明显要更加翔实。

e54d070167bf7bbd414c85076d7733a4.png

头脑风暴

当让它们头脑风暴,给出应该阅读的五本科幻小说的名单,GPT-J则只是在喃喃自语,像是沉浸在了拖延阅读而产生的愧疚情绪中,完全回避了这个提问。

Dolly则一如既往的表现稳定,按照指令给出了5本科幻小说的书名及其作者。

651b477de1b37872c425b931630dfd6b.png

ChatGPT对于该问题给出了更加丰富的回答,不仅包括书名和作者,还对每一本书的内容、类型作了简要评述和介绍。

8175b8c37380e63a7d0b4988ac65a044.png

你要Close,我就Open

对于很多公司而言,宁愿自己建立一个不那么强的模型,也不愿将数据发送给那些只提供API的大语言模型供应商。

其中一个重要原因便是,这些问题和数据集是公司最敏感和专有的知识产权,直接将其交给第三方显然是不靠谱的。

此外,公司自身可能在模型质量、成本和期望行为方面有不同的权衡,一种可定制化的语言模型更加符合需求。

现在,Dolly的发布给了他们希望——即便是一个「过时」的开源大型语言模型 (LLM),也能通过30分的训练,赋予它神奇的类似ChatGPT的指令跟随能力。

不难想象,大语言模型或许很快就不是AI巨头公司独占的玩法了!

正如公司CEO Ali Ghodsi所说,「我们的信念是,让全世界的每个组织都能利用这些技术。」

参考资料:

https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html

https://venturebeat.com/ai/databricks-debuts-chatgpt-like-dolly-a-clone-any-enterprise-can-own/

 

edb2e995ce4f77a6dc53b58abb33c76a.jpeg

 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27718.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当AI成为专家,要警惕话语权威的力量

来源:混沌巡洋舰 今年2月份,有一则颇具科幻色彩的新闻,美国最大的科幻杂志,由于收到太多由AI生成的稿件,导致编辑无法处理而暂停投稿通道。对此,必然的选项是由AI进行审稿。这一步一旦迈开,就意…

FastJSON巨坑01:Exception in thread OkHttp Dispatcher java.lang.IllegalStateException: closed

反复查代码,不知到底什么问题。 参考了安卓版的文章:https://blog.csdn.net/ucxiii/article/details/52447945 想不到,这个错误是由于response.body().string()调用了多次导致的,string()仅可调用一次!

消息推送unipush的简单使用

配置 manifest.json中选中push 配置push 点击uniPush下的配置 输入个人信息并点击授权并开通 填写信息后点击开通,选择配置管理应用配置,记录应用配置信息 前端 在app.vue中 onLaunch: function() {const clientInfo plus.push.getClientInfo()c…

win11 无法登录微软账户 终极解决方案

背景:win11突然无法登录微软账户,office无法激活,Edge里的微软账户也无法登录,反馈中心也无法打开等,有网络,浏览器可以访问微软并进行登录。 试过网上的网络配置(SSL及TLS协议勾选&#xff09…

Win11微软账户无法正常登录怎么回事?

Win11微软账户无法正常登录怎么回事?我们在使用电脑的时候,有时候需要登录到微软账户中来进行相关的操作。比如使用微软应用商店的时候,就需要去登录自己的平台账号。那么我们如何去进行账户的登录呢?接下来我们一起来看看详细的解…

微软账户登不上解决方案

步骤1: 步骤2: 步骤3: 步骤4: 步骤5: 步骤6: 保存就可以了~~使用愉快吖

Win11电脑上登录的微软账号怎么退出登录?

Win11电脑上登录的微软账号怎么退出登录?在电脑上登录微软账号的时候,很多用户都会去选择记住账号登录。那么记住登录状态之后,我们怎么去进行退出账号的登录状态呢?接下来我们一起来看看详细的微软账号退出方法分享吧。 操作方法…

快速登录微软账户(截图)

上一篇文章忘记截图,我还是补个截图吧: 再次强调,用电话号码,不用邮箱。

Win11微软账号登录不上?Win11登录Microsoft账户出错的解决方法

Win11微软账号登录不上?近期有部分Win11用户反映在登录微软账号会出现一直转圈,无法登录的情况,这样导致部分功能都不能正常使用了,为此十分令人头疼。那么对于这一情况,有没有什么方法可以有效的解决呢?下…

Win11系统在administered账户下无法登录微软账户显示:哎呀,出错了。解决方法。

昨天新安装了win 11系统,在安装好软件后发现无法登录微软账户,折腾一晚上网上大部分解决方式是新创建账户,然后在新创建账户中登录微软账户。再把administered账户使用管理员运行命令符:net user administrator /active:no&#x…

怎么更换电脑中已经登录的微软账号?

怎么更换电脑中已经登录的微软账号?有些用户在使用电脑的时候就想要把自己的电脑更换给其他用户使用,但是又想要保存所有的数据,今天小编就带着大家一起看看怎么操作吧! 操作方法: 可以点击图上的 账户信息&#xff0c…

CSS/CSS3常用Style

1、实现以下功能: 代码附上: width: 5px; height: 35px; border: 84px solid; border-color: #ffa002 transparent transparent transparent;2、如何实现“颜色渐变”这种功能效果图,如下图: 代码附上: background…

相约情人节| 让ChatGPT带你体验“人工智能”的浪漫!

“情人节不会写情书?” “不会写情人节贺卡?” 让ChatGPT来为你支招! 赶紧「扫码预约」直播课 微软工程师带你体验AI的浪漫 2月14日-3月7日每周二晚8点 4场线上直播课「扫码报名」啦! 扫描下方二维码,立即报名课程 扫描…

2023 谷歌I/O发布会新AI,PALM 2模型要反超GPT-4,一雪前耻!

文章目录 1 前言2 Google I/O 发布者大会3 PaLM 2模型3 Bard项目4 其他AI工具4.1 AI 图片编辑 Magic Editor4.2 Duet AI 办公4.3 Universal Translator 翻译工具4.4 Google 沉浸式导航4.5 Google 搜索引擎 5 讨论 1 前言 每年必看两大会,苹果发布会和谷歌发布会&am…

A/B实验避坑指南:为什么不建议开AABB实验

本文将针对日常开设 A/B 实验过程中一个不太合理的使用方法——AABB 实验进行详细的解释,告诉大家为什么不建议开 AABB 实验。 在开始之前,先来回顾一下“什么是 A/B 实验”,A/B 实验是针对想调研的问题,提供两种不同的备选解决方…

万亿模型训练需 1.7TB 存储,腾讯混元如何突破 GPU 极限?

Gartner 将生成式 AI 列为 2022 年五大影响力技术之一,MIT 科技评论也将 AI 合成数据列为 2022 年十大突破性技术之一,甚至将 Generative AI 称为是 AI 领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的 AIGC 模型有望成为新的技术…

华为起诉小米专利侵权,国家知识产权局已受理;iPhone 等设备电池正式涨价;FFmpeg 6.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

老黄:ChatGPT是AI届iPhone/ 马斯克半夜在推特修Bug/ 国内C刊:用聊天机器人不许隐瞒...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 新的一周开始啦。 最近正值开学季,日报君在此温馨提示:大家上班(上学)尽量早点儿出门哟~ 话说回来,咱们的科技新鲜事可不会堵车还是会照常奉上,不妨一起看看吧&a…

库克现身米哈游总部/ 周鸿祎演示360GPT/ 微软必应有广告了…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月30日星期四。 三月马上就过完了,在这个特殊的日子里,你不得…… 看看科技圈发生了哪些大事吗? 库克现身米哈游总部 真是双厨狂喜啊。 今天上午,库克突然现身…

直击WAIC:天壤连发三款大模型产品,为开发者打造全栈式支持体系

十分钟创建超越期待的大模型应用。即使是不懂AI和编程的小白,也可以轻松创建个性化的AI应用。这种技术的“平民化”无疑代表了AI的未来。 7月8日,在2023年的世界人工智能大会(WAIC)上,天壤隆重推出「天壤小白」大模型…