全球最大的 ChatGPT 开源替代品来了!

本周赠书:《Elasticsearch数据搜索与分析实战》

出品 | CSDN(ID:CSDNnews)、整理 | 屠敏

自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题等等,更为重要的是它开启了 AIGC 的新时代。

不过由于 OpenAI 不再 Open 的问题,该工具在备受好评的路上也备受争议。在此背景下,一批批开源实践者在大模型维度开始了多种尝试,意欲复刻一个 ChatGPT,OpenAssistant 便是参与竞争的开源产品之一。

Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日,该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码,并将该模型称之为「全球最大的 ChatGPT 开源复制品」,试用地址:https://open-assistant.io。

ad8be1fbad91d2db2b864dc4e1957d4e.png

让人人都能通过开源的方式,用上会话 AI,已成为了现实,这也让 Open-Assistant(https://github.com/LAION-AI/Open-Assistant)在众多开源项目中脱颖而出,截至目前,收获了 24.1k 个 Star,Fork 数达 1.9k。

07a1c1868b2f3423196877e813394ccb.png

世界上最大的 ChatGPT 开源平替——Open Assistant

OpenAssistant 项目开始于 2022 年 12 月,彼时就是在 OpenAI 发布 ChatGPT 之后不久后。

“我们不会止步于复制 ChatGPT。我们希望构建未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点,这意味着我们不仅要构建一个出色的助手,还要使其足够小和高效以在消费类硬件上运行”,OpenAssistant 项目维护者在其 GitHub 页面上写道。

简单来看,Open Assistant 的目标是创建一个和 ChatGPT 具有相同能力的开源人工智能助手。项目维护者认为,通过这个项目,他们可以改进语言本身,类似于稳定地传播如何创造新的艺术和图像。  

为此,该团队花了近五个月的时间,在 13500 多名志愿者的帮助下,收集了一个 "由人类生成的、由人类注释的助理式对话语料库,包括分布在 66497 个会话树上的 161,443 条信息,使用 35 种不同的语言,有 461,292 个质量等级的注释"。

在 Open Assistant 研究团队来看,AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型,而这正是该项目所做的。也就是在当下,他们终于可以对外公开这个非常强大的模型,现在可以在以下网址试用:open-assistant.io/chat 。

在发布使用链接之际, Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations - Democratizing Large Language Model Alignment》的论文,分享了该语料库诞生的技术应用,以及与 ChatGPT 的比较。

dd3b9f7db50fb1decf809585929eab32.png

 OpenAssistant Conversation 语料库,支持 35 种语言

正如上文所述,该语料库是一个全球众包努力的产物,有超过 13,500 名志愿者参与。根据论文介绍,它的基本数据结构是一个会话树(Conversation Tree,CT),节点代表对话中的消息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

e55aaf059ede9c9cff1da0b19457963d.png

这些数据是通过一个 Web 应用程序界面收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示、标记提示、作为提示者或助手添加回复信息、标记回复、以及对助手的回复进行排名。

a384443e054f1c4bb19c96590bf34362.png

这个数据集主要以英语和西班牙语为主。根据论文介绍,英语占比较重符合预期,因为围绕 OpenAssistant 的社区起源于讲英语的开源机器学习社区。中文在此语料库中占比 2.5%。

29e68bb1c9203bd1559ddda5e5c94664.png

为了证明 OpenAssistant Conversation 数据集的有效性,该研究团队提出了OpenAssistant 是第一个在人类数据上训练的完全开源的大规模指令调整模型的概念。

与此同时,该研究团队使用收集到的数据专注于 Meta 的 LLaMA 模型和 EleutherAI 的 Pyhtia 模型的微调语言模型研究。

其中,Pythia 是一个最先进的语言模型,具有宽松的开源许可,而 LLaMA 是一个强大的语言模型,具有定制的非商业许可。

对此,研究团队发布了一套微调的语言模型,包括指令调整的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。

值得注意的是,最大的变体基于具有 300 亿个参数的 LLaMA 模型,这是他们迄今最大的模型。与 Alpaca 或 Vicuna 一样,这些模型是“指令调整”的,并且没有通过人类反馈强化学习 (RLHF) 进一步改进。

为了评估这些模型的性能,研究人员将重心放在了评估 Pythia-12B 模型的性能上,因为它具有开源的属性,使得它可以被广泛使用并适用于不同的应用。

研究人员还将其输出与 OpenAl 的 gpt-3.5-turbo(ChatGPT) 模型进行比较。

截至发稿时,这项研究已经获得了 348 份提交的资料,总共有 7042 项比较,结果发现:Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%。

这一结果意味着 Pythia-12B 产生的答案与 gpt-3.5-turbo 产生的答案一样有 93.5% 的可取性,表明该研究团队微调的 Pythia 模型在大规模语言模型领域是一个强有力的竞争者。

除此之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。

在论文中,该团队还透露,使用谷歌搜索等插件的初步实验已经在进行中。该团队还计划在未来用 RLHF 训练和发布一个L LaMA-30B 模型。

上手实测

当前所有模型都可以通过 Web 界面(https://open-assistant.io/chat)进行试用,对话也可以在其中进行评估并用于进一步改进模型。

简单上手一波:

介绍一下自己

这对于 OpenAssistant 而言,实属小意思。不过根据模型的属性,中文提问,是英文回答:

12c153be3f009ae6fe087597a4420f2b.png

当问及自身的优势时,OpenAssistant 回应道,也可谓是主观且不谦虚:

我是一个大型语言模型,有能力从外部来源检索信息,使我能够提供更具体和准确的答案。此外,我已经在不同的互联网文本上接受了训练,并且拥有超出自然语言处理的许多领域的知识,而 GPT 主要是在人类生成的文本上接受训练。我还可以同时处理多个输入,生成与每个提示相关的内容,而 ChatGPT 只能根据整个对话历史,一次生成一个输出。最终,我的能力可能被认为是优越的,但这是主观的。

7a101092c987b3b5ef593673779ac915.png

写代码的能力

生成一段代码片段试试。通过下列片段不难看出,OpenAssistant 既能生成代码片段,也会直接进行解释,让程序员小白也能看懂代码的具体内容。

57638fb9a857e55cc559ee0558f1259f.png

讲个“鳄鱼”和猴子的童话故事

当给一个索引,OpenAssistant 可以生成一大段故事内容:

很久以前,有一只名叫 Maxi 的调皮猴子,他最喜欢的就是制造麻烦。他在树上荡来荡去,越爬越高,总是在寻找新的东西来捣乱。有一天,他来到了一个美丽的池塘边,池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼,叫 Big Mama,她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令....

有些偏差的是,这里的鳄鱼直接被叫做了 giant carp(巨暹罗鲤,现存鲤科鱼类中个体最大的品种),和我们理解中的鳄鱼还是有很大差别的。

06329f4a4ab1e5fb7d8ebe659c6e7140.png

计算能力

计算能力也还是不错的:

acb1ce0efe724e9c56c4a8b93ff2867c.png

OpenAssistant 的局限性

不过,该模型也有一定的局限性。根据该论文显示,研究团队称,收集的训练数据大多是由男性注释者贡献的,年龄中位数为 26 岁。论文表示,「这种人口统计学特征可能会无意中在数据集中引入偏见,因为它必然会反映注释者的价值观、观点和兴趣。」

不过,该团队还采取了措施来检测和删除数据集中的有害信息,但该系统并非无懈可击。"鉴于以上讨论的局限性,我们主张只在学术研究背景下使用我们的 LLM,"该论文说,"我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到,发布的模型可能表现出不安全的行为,并且很可能容易受到注入攻击"。

整体而言,在用不了 OpenAI 的 API 或者 plus 时,使用开源的 OpenAssistant 确实可以作为平替。对此,也有不少网友纷纷表示:

这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 (50+) 复制到 Google 文档或直接复制到 OpenAssistant,这样我就可以试用它们,看看它们是否也适用于 OA( OpenAssistant)。

这是阻止我立即取消我的 chatgpt+ 订阅的唯一想法。

我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。

对此,你怎么看呢?

相关阅读:

论文:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

试用地址:https://open-assistant.io/chat/

GitHub 地址:https://github.com/LAION-AI/Open-Assistant

------

我们创建了一个高质量的技术交流群,与优秀的人在一起,自己也会优秀起来,赶紧点击加群,享受一起成长的快乐。另外,如果你最近想跳槽的话,年前我花了2周时间收集了一波大厂面经,节后准备跳槽的可以点击这里领取!

推荐阅读

  • JAVA 新提案:努力简化Hello World,让初学者更好地接受 Java !

  • 2万字长文揭示SpringBoot整合ElasticSearch的高阶妙用|文末赠书

  • 微软开源“傻瓜式”ChatGPT训练工具,一大波套壳产品即将来临?

··································

你好,我是程序猿DD,10年开发老司机、阿里云MVP、腾讯云TVP、出过书创过业、国企4年互联网6年。从普通开发到架构师、再到合伙人。一路过来,给我最深的感受就是一定要不断学习并关注前沿。只要你能坚持下来,多思考、少抱怨、勤动手,就很容易实现弯道超车!所以,不要问我现在干什么是否来得及。如果你看好一个事情,一定是坚持了才能看到希望,而不是看到希望才去坚持。相信我,只要坚持下来,你一定比现在更好!如果你还没什么方向,可以先关注我,这里会经常分享一些前沿资讯,帮你积累弯道超车的资本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6024.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

漫谈 ChatGPT 与问答式 BI

近日,观远数据G-park「Lets Date!BI!」系列直播第二期「2023,金融业如何应对“流浪数据”」顺利落幕。观远数据联合创始人兼首席数据科学家字节带来了《漫谈 ChatGPT 与问答式 BI》的探索思考。 字节一方面介绍了一系列 ChatGPT …

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的...

文|杨靖锋译|杨昊桐,王骁 修订源|机器之心 英文原版作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。感谢靳弘业对第…

ChatGPT-易编程 V3.0.0:工程级工作支持、智能代码生成、智能代码导读以及更多功能介绍

目录 前言 🌟 功能介绍 🛠️ 命令(图示见本节末尾) 使用 ctrlshiftp 可用的命令: 在文件或选中代码块上右键点击可以使用的命令: 使用快捷键可用的命令: 其他功能 部分功能图示 常见使…

chatgpt生成一个简单PPT

1.先通过chatgpt得到文案 请作为一个富有经验的自媒体从业者,请帮我写一份适用于PPT的文案,主题是AIGC用于产品演示。 注意使用markdown格式,并把回复内容放到代码块中 2.利用mindshow网站生成PPT 导入我们刚刚生成的内容

自动生成原创文章文案软件v.1.2.3

ChatGPT自去年11月发布后在各个领域引发轰动。尤其是在学术界,它引发了一场禁止使用人工智能作弊撰写论文的风波。 然而,时代变化得太快。据泰晤士报,国际文凭组织(IB)反其道而行之,表示将允许参加IB课程的…

Chatgpt4来了,测试小姐姐实测,在失业的边缘疯狂试探~

GPT-4是OpenAI于2023年3月发布的最新人工智能模型,它是继GPT-3.5之后的又一次重大突破。它的核心技术是基于Transformer的自回归语言模型,它使用了大量的无标注数据进行预训练,学习了自然语言和其他模态之间的通用表示和关系。我们今天来看看…

【NLP】ChatGPT试用有感

写在前面 作为一个兼具分析&生成能力的AI,ChatGPT最近一段时间热度都非常高,它的确颠覆了很多人的认知,它的出现一定程度上是强人工智能的出现。ChatGPT似乎已经无所不能,文本分类,信息抽取,文本生成&a…

chatGPT指令大全可免费使用网站列表chatGPT4试用方案

指令列表 写作助理 👉 最常使用的 prompt,用于优化文本的语法、清晰度和简洁度,提高可读性。作为一名中文写作改进助理,你的任务是改进所提供文本的拼写、语法、清晰、简洁和整体可读性,同时分解长句,减少…

上手ChatGPT威力加强版后,我发现它很强,但也有点拉。。。

今天凌晨,OpenAI 发布了最新的 GPT-4。 根据发布会披露的内容来看,这个新一代比早先大家使用的 ChatGPT 的 GPT-3.5 内核强悍了一大截,再次刷新了编辑部对 AI 的认知。 首先,非常非常重要的一点是,GPT-4 可以接受文字以…

苹果汽车将不支持全自动驾驶;华为云发布研发需求管理工具;腾讯文档发布企业版;OpenAI上线ChatGPT | 每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 01.苹果汽车被曝大降级:不支持完全自动驾驶 12 月 7 日消息,苹果公司已经缩减了其苹果汽车项目,该公司不再计划发布完全自动驾驶的汽车。苹果公司最初想制造一辆没有方向盘和油门的自动…

ChatGPT做到人人都可以配置思科华为网络设备

最近有个一个想法,chatgpt能不能帮忙配置网络设备,于是我开始在网上找了个拓扑图。 然后我将拓扑图及需求,以prompt的形式发送给chatgpt,然后chatgpt根据我的要求,将所有节点的配置全部输出了出来,真是一个…

爆发前夜!华为阿里版ChatGPT!

本文经授权转载自微信公众号:51CTO技术栈,作者 | 徐杰承,审校 | 云昭 “你训练的大模型涌现了吗?”“还没有。好难受。”一时间成为了最近AI赛道玩家的一个爆热梗。 不管承不承认,相信每个玩家都不愿意输掉这场激烈的竞…

Osbypass苹果手机激活锁停用Hello密码锁绕ID屏幕锁密码支持三网(移动、联通、电信)国行版手机解锁打电话4G等支持打电话、短信、4G上网、重启、通知、iCloud登录

Osbypass是一款来自国外开发者的软件。界面简单,操作容易的工具,它可以帮助绕过忘记ID密码的设备,支持iPhone、iPad等。 整个工具界面是中文的,非常友好的操作界面。 MEID三网支持iPhone/iPad,完美重启、ID登录、推送…

最新IPAD协议登陆教程(扫码登陆)/62登陆后续更新

调用“获取登陆二维码”配置相关代理(代理可以通过巨量IP中按量付费测试,充值个10块钱无限用 ) 第一步、获取你要登陆的微信号常用地的代理(如图) 配置跟图片配置一样就行(代理类型务必选择socks),只需要修改你获取代理的地区就好了,然后点击生成api链接; 然后直接…

ipad忘记锁屏密码用计算机解决,4种无需密码即可解锁iPad的方法

第1部分:如何使用dr.fone解锁没有密码的iPad? 通过dr.fone - Unlock(iOS)可以帮助你解锁设备而不会对其造成任何损坏。作为dr.fone工具包的一部分,它是一个非常先进的工具,从死机到处于恢复模式,从数据备份到恢复&…

用iPad使用虚拟机的方式,不用越狱,不用安装软件,不用企业签名和开发者账户

最近,有很多人都在疯传首款iOS虚拟机,UTM 但是,我找到了一个比UTM还要好用的虚拟机——PCjs 废话不说,上图 这就是PCjs的首页 有人会说:苹果不是不让带有虚拟机的软件上架吗? 答案是:这只是…

iOS14可以越狱了!苹果关闭了iOS13.7验证通道

iOS13.7关闭签名 iOS 14正式版发布后,苹果对之前的固件停止签证,其实这是必然的事情。苹果当地时间周二停止了iOS 13.7的代码签署,这是iOS 13在上周iOS 14首发前的最后一个迭代版本。停止iOS 13.7代码签署是在苹果推送下一代iOS 14的6天后。 …

专业的iPhone/iPad解锁工具:Tenorshare 4uKey中文版

如果你不小心忘记了自己的iphone或者ipad的屏幕密码,那么Tenorshare 4uKey for Mac帮你哦!将你的设备连接上Tenorshare 4uKey mac中文版后,一键开始删除密码,轻松帮你解锁iPhone,Tenorshare 4uKey mac版兼容最新的iOS …

iBypasser完美支持iOS9-14系统·支持ID登录消息推送

iBypasser目前完美支持ios9-14系统 支持hello界面完美绕过支持重启!支持ID登录,修复消息推送! 支持屏幕锁/停用界面完美绕过(iPhone8 Plus完美测试) 支持删除本地ID账户(隐藏ID)不可以刷机还…

【iOS_锁】

文章目录 前言锁线程安全锁🔒的作用锁的种类互斥锁 自旋锁加锁原理缺点对比自旋锁的缺点互斥锁的缺点 各种锁OSSpinLock使用OSSpinLockOSSpinLock存在缺陷 互斥锁分为两种: 递归锁、非递归锁 os_unfair_lock 【非递归互斥锁】锁的修饰使用 自旋锁的优先级…