全球最大的 ChatGPT 开源替代品来了,支持 35 种语言,网友:不用费心买 ChatGPT Plus了!

自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题等等,更为重要的是它开启了 AIGC 的新时代。

不过由于 OpenAI 不再 Open 的问题,该工具在备受好评的路上也备受争议。在此背景下,一批批开源实践者在大模型维度开始了多种尝试,意欲复刻一个 ChatGPT,OpenAssistant 便是参与竞争的开源产品之一。

Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日,该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码,并将该模型称之为「全球最大的 ChatGPT 开源复制品」,试用地址:https://open-assistant.io。

让人人都能通过开源的方式,用上会话 AI,已成为了现实,这也让 Open-Assistant(https://github.com/LAION-AI/Open-Assistant)在众多开源项目中脱颖而出,截至目前,收获了 24.1k 个 Star,Fork 数达 1.9k。

世界上最大的 ChatGPT 开源平替——Open Assistant

OpenAssistant 项目开始于 2022 年 12 月,彼时就是在 OpenAI 发布 ChatGPT 之后不久后。

“我们不会止步于复制 ChatGPT。我们希望构建未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点,这意味着我们不仅要构建一个出色的助手,还要使其足够小和高效以在消费类硬件上运行”,OpenAssistant 项目维护者在其 GitHub 页面上写道。

简单来看,Open Assistant 的目标是创建一个和 ChatGPT 具有相同能力的开源人工智能助手。项目维护者认为,通过这个项目,他们可以改进语言本身,类似于稳定地传播如何创造新的艺术和图像。  

为此,该团队花了近五个月的时间,在 13500 多名志愿者的帮助下,收集了一个 "由人类生成的、由人类注释的助理式对话语料库,包括分布在 66497 个会话树上的 161,443 条信息,使用 35 种不同的语言,有 461,292 个质量等级的注释"。

在 Open Assistant 研究团队来看,AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型,而这正是该项目所做的。也就是在当下,他们终于可以对外公开这个非常强大的模型,现在可以在以下网址试用:open-assistant.io/chat 。

在发布使用链接之际, Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations - Democratizing Large Language Model Alignment》的论文,分享了该语料库诞生的技术应用,以及与 ChatGPT 的比较。

 OpenAssistant Conversation 语料库,支持 35 种语言

正如上文所述,该语料库是一个全球众包努力的产物,有超过 13,500 名志愿者参与。根据论文介绍,它的基本数据结构是一个会话树(Conversation Tree,CT),节点代表对话中的消息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

这些数据是通过一个 Web 应用程序界面收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示、标记提示、作为提示者或助手添加回复信息、标记回复、以及对助手的回复进行排名。

这个数据集主要以英语和西班牙语为主。根据论文介绍,英语占比较重符合预期,因为围绕 OpenAssistant 的社区起源于讲英语的开源机器学习社区。中文在此语料库中占比 2.5%。

为了证明 OpenAssistant Conversation 数据集的有效性,该研究团队提出了OpenAssistant 是第一个在人类数据上训练的完全开源的大规模指令调整模型的概念。

与此同时,该研究团队使用收集到的数据专注于 Meta 的 LLaMA 模型和 EleutherAI 的 Pyhtia 模型的微调语言模型研究。

其中,Pythia 是一个最先进的语言模型,具有宽松的开源许可,而 LLaMA 是一个强大的语言模型,具有定制的非商业许可。

对此,研究团队发布了一套微调的语言模型,包括指令调整的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。

值得注意的是,最大的变体基于具有 300 亿个参数的 LLaMA 模型,这是他们迄今最大的模型。与 Alpaca 或 Vicuna 一样,这些模型是“指令调整”的,并且没有通过人类反馈强化学习 (RLHF) 进一步改进。

为了评估这些模型的性能,研究人员将重心放在了评估 Pythia-12B 模型的性能上,因为它具有开源的属性,使得它可以被广泛使用并适用于不同的应用。

研究人员还将其输出与 OpenAl 的 gpt-3.5-turbo(ChatGPT) 模型进行比较。

截至发稿时,这项研究已经获得了 348 份提交的资料,总共有 7042 项比较,结果发现:Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%。

这一结果意味着 Pythia-12B 产生的答案与 gpt-3.5-turbo 产生的答案一样有 93.5% 的可取性,表明该研究团队微调的 Pythia 模型在大规模语言模型领域是一个强有力的竞争者。

除此之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。

在论文中,该团队还透露,使用谷歌搜索等插件的初步实验已经在进行中。该团队还计划在未来用 RLHF 训练和发布一个L LaMA-30B 模型。

上手实测

当前所有模型都可以通过 Web 界面(https://open-assistant.io/chat)进行试用,对话也可以在其中进行评估并用于进一步改进模型。

简单上手一波:

介绍一下自己

这对于 OpenAssistant 而言,实属小意思。不过根据模型的属性,中文提问,是英文回答:

当问及自身的优势时,OpenAssistant 回应道,也可谓是主观且不谦虚:

我是一个大型语言模型,有能力从外部来源检索信息,使我能够提供更具体和准确的答案。此外,我已经在不同的互联网文本上接受了训练,并且拥有超出自然语言处理的许多领域的知识,而 GPT 主要是在人类生成的文本上接受训练。我还可以同时处理多个输入,生成与每个提示相关的内容,而 ChatGPT 只能根据整个对话历史,一次生成一个输出。最终,我的能力可能被认为是优越的,但这是主观的。

写代码的能力

生成一段代码片段试试。通过下列片段不难看出,OpenAssistant 既能生成代码片段,也会直接进行解释,让程序员小白也能看懂代码的具体内容。

讲个“鳄鱼”和猴子的童话故事

当给一个索引,OpenAssistant 可以生成一大段故事内容:

很久以前,有一只名叫 Maxi 的调皮猴子,他最喜欢的就是制造麻烦。他在树上荡来荡去,越爬越高,总是在寻找新的东西来捣乱。有一天,他来到了一个美丽的池塘边,池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼,叫 Big Mama,她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令....

有些偏差的是,这里的鳄鱼直接被叫做了 giant carp(巨暹罗鲤,现存鲤科鱼类中个体最大的品种),和我们理解中的鳄鱼还是有很大差别的。

计算能力

计算能力也还是不错的:

OpenAssistant 的局限性

不过,该模型也有一定的局限性。根据该论文显示,研究团队称,收集的训练数据大多是由男性注释者贡献的,年龄中位数为 26 岁。论文表示,「这种人口统计学特征可能会无意中在数据集中引入偏见,因为它必然会反映注释者的价值观、观点和兴趣。」

不过,该团队还采取了措施来检测和删除数据集中的有害信息,但该系统并非无懈可击。"鉴于以上讨论的局限性,我们主张只在学术研究背景下使用我们的 LLM,"该论文说,"我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到,发布的模型可能表现出不安全的行为,并且很可能容易受到注入攻击"。

整体而言,在用不了 OpenAI 的 API 或者 plus 时,使用开源的 OpenAssistant 确实可以作为平替。对此,也有不少网友纷纷表示:

这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 (50+) 复制到 Google 文档或直接复制到 OpenAssistant,这样我就可以试用它们,看看它们是否也适用于 OA( OpenAssistant)。

这是阻止我立即取消我的 chatgpt+ 订阅的唯一想法。

我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。

对此,你怎么看呢?

相关阅读:

论文:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

试用地址:https://open-assistant.io/chat/

GitHub 地址:https://github.com/LAION-AI/Open-Assistant

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2477.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用ChatGPT的方法和替代方案

作为互联网应用,ChatGPT也有国内化的替代方案。在国内,一些公司已经开始利用深度学习技术开发本地化的语言模型,例如阿里巴巴的通义千问、华为的盘古大语言模型,以及百度的文心一言等等,这些模型可以完成自然语言处理任…

ChatGPT 正在杀死编程里的乐趣

多年以来,编程一直是我生命最重要的快乐来源之一,我从没细想过这份快乐能伴随我多久。但就在几天前,在观摩了 ChatGPT 替我编写一个 Python 程序的全过程后,我突然有种强烈的感觉:不远的将来,人们能从编程中…

ChatGPT API 正式开放,价格直接打骨折!100万个单词才18元

ChatGPT爆火之后,各种「自制API」层出不穷,中间商们也一个个赚得盆满钵满。 这次,OpenAI终于下定决心——正式开放ChatGPT API! ChatGPT API地址:https://platform.openai.com/docs/guides/chat 现在,不要耗…

ChatGPT微调系列一:微调 流程

文章目录 前言一、啥叫微调二、为啥要微调三、不是所有模型都可以微调的四、总述微调的基本流程,以及涉及的主要函数,参数1. 安装2. 准备训练数据3. openai.api_key os.getenv() 进行一个说明4. 通过API 调用模型 常用函数5. 微调模型 常用函数6. OpenA…

浅谈当下火热的ChatGPT

ChatGPT这个词语从今年初发布以来,一度成为一个火热的概念。包括CSDN也推出了C知道,不少大佬博友纷纷蹭热点,发布了无数关于ChatGPT的技术,使用,技能,展望未来的文档和博文。其实很多文章我都没有看过&…

什么是 tokens,ChatGPT里面的Tokens如何计数?

什么是 tokens,ChatGPT里面的Tokens如何计数? 什么是 tokens? Tokens 可以被认为是词语的片段。在 API 处理提示之前,输入会被分解成 tokens。这些 tokens 并不会精确地在单词的开始或结束处切分 - tokens 可以包含尾随的空格甚…

芯片工程师的ChatGPT初体验(上)

2022年11月30日一定是一个载入人类AI发展史的一天,这一天第一个版本的Chat GPT(全称:Chat Generative Pre-trained Transforme)发布了。毫不夸张地说,chatGPT的发布和用户体验,将整个AI话题推上了一个前作未…

解决微信公众号消息回复五秒限制最好方法

如题 很多朋友发现在消息回复处理业务的时候,可能时间不固定,甚至超过5s,亲测可用 我的办法是不用消息回复接口,全部改用客服消息接口 1.收到消息后,首先回复“处理中,请稍等” 2.直接上代码 ob_start(); h…

2023ChatGPT公众号去授权版源码、扩展+支持AI绘画/一键安装

正文: 2023最新ChatGPT公众号版本源码,该产品支持用户付费套餐,多Key轮询,AI绘画等功能,并且可以免费使用,同时附带详细的教程文档。 程序: wwgheo.lanzouw.com/imFU50uv6cyj 图片:

就挺无语的,这是有脾气的博客

文章目录 前言1. 背景2. 使用3. 公众号体验4. 结束语 前言 ChatGPT已经推出两个多月了,热度已经不减。ChatGPT由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的…

chatgpt赋能python:Python群发微信:快速高效的营销利器

Python 群发微信:快速高效的营销利器 在当今竞争激烈的商业环境中,如何快速地传递信息、推广商品、拓展用户和增加销售收益,成为了每个商家都需要关注的问题。而微信的广泛应用,是商家在进行推广和营销时不可忽视的工具。 但是&…

ChatGPT 之后,再玩玩 Stable-Diffusion

前些天体验的 ChatGPT 主要用来进行文本方面的处理,那么图片生成有没有这样的 AI 工具 呢?答案是肯定的。 例如:和菜头公众号的题图和文章中的插图大多都是使用 Stable-Diffusion 的 AI 图形生成工具创作的。顺着 Stable-Diffusion 搜索了下相…

AI接入微信公众号方法总结

AI挺好用的。但是想用时就得打开网页或者其他工具插件才行?太不方便了。记得有次要给媳妇演示下它的强大,竟没带电脑竟啥事干不成。索性把AI接入微信公众号,这样在公众号聊天窗口里发消息,AI自动给我回复内容,且可以分…

chatgpt赋能python:Python搜题公众号:让搜题更高效

Python搜题公众号:让搜题更高效 随着互联网时代的持续扩张,人们获取知识的方式也在不断变化。特别是在学习方面,人们更喜欢通过互联网进行搜索与学习。因此,搜题已经成为了学生最常用的学习方法之一。 Python搜题公众号应运而生…

微信公众号开发之妙解服务器5s限制

目录 框架选择 内网穿透 微信5s限制 客服回复? 公众平台web回复? msgId唯一! 总结 上年十二月份至今年三月份ChatGpt还是挺火的,很早就想做一个属于自己的微信问答机器人,但是觉得做了自己也不太用,所…

微信公众号支持语音消息向 ChatGPT提问啦!

最近我一直在开发微信公众号对接 ChatGPT ,并且已经实现了很多功能,也得到了 260余位大咖们帮我测试,以便于让它更加趋于完美。 而今天,公众号已经支持语音识别,大家可以通过我的公众号(javastarboy&#…

公众号ChatGPT历史对话记录查看升级完成啦

公众号【javastarboy】已支持 ChatGPT 3.5-turbo 模型, 进入公众号,输入文字消息即可聊天。 今天主要升级了三个内容: 支持“历史对话”查看(一小时内)解决了多人会话 session 隔离问题解决了一些 bug 几个说明&…

杀疯了!ChatGPT火爆全球

ChatGPT是什么? ChatGPT是一种由OpenAI训练的大型语言模型,其目的是能够以自然、人类化的方式与人类进行对话交互。ChatGPT基于深度学习技术,使用了数百万条来自互联网的文本数据进行训练,以便理解和生成自然语言。 ChatGPT可以…

ChatGPT爆火!它如何回答 Python 相关问题

近期OpenAI发布了全新的聊天机器人模型ChatGPT,没想到一经上线,就因其高质量的回答、高效获取信息的方式、以及上瘾式的交互体验而迅速出圈。 不少体验过的人都惊呼,ChatGPT可能一举消灭记者、程序员和搜索引擎。就连马斯克也忍不住发推表示&…

从CHATGPT爆火思考教育的未来

转眼在3月15号,更先进的GPT4就应运而生,通过与当前版本对话后的反馈来看,人工智能的进化速度着实恐怖,甚至让你愿意相信网络的另一端是一位博学的智者,很多问题的回答上已经跟人类无二...... 以ChatGPT为代表的人工智…