全球最大的 ChatGPT 开源替代品来了,支持 35 种语言,网友:不用费心买 ChatGPT Plus了!...

55c7971766ab4fba71f98430d3dece86.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

自去年 11 月 ChatGPT 面向公众测试以来,OpenAI 一直占据各大科技网站的头版头条,以及成为很多开发者工具的首选。ChatGPT 的落地不仅仅可以提供代码建议、总结长文本、回答问题等等,更为重要的是它开启了 AIGC 的新时代。

不过由于 OpenAI 不再 Open 的问题,该工具在备受好评的路上也备受争议。在此背景下,一批批开源实践者在大模型维度开始了多种尝试,意欲复刻一个 ChatGPT,OpenAssistant 便是参与竞争的开源产品之一。

Open Assistant 机器学习模型是由一家德国非营利组织 LAION 运营。近日,该组织官宣现在可以使用 OpenAssistant 模型、训练数据和代码,并将该模型称之为「全球最大的 ChatGPT 开源复制品」,试用地址:https://open-assistant.io。

dbae55196456331418e9cf9b5a8da309.png

让人人都能通过开源的方式,用上会话 AI,已成为了现实,这也让 Open-Assistant(https://github.com/LAION-AI/Open-Assistant)在众多开源项目中脱颖而出,截至目前,收获了 24.1k 个 Star,Fork 数达 1.9k。

0a23060f02ff1f5e315977489f692ca9.png

9d84709afeab71b1ab937ab36a48443d.png

世界上最大的 ChatGPT 开源平替——Open Assistant

OpenAssistant 项目开始于 2022 年 12 月,彼时就是在 OpenAI 发布 ChatGPT 之后不久后。

“我们不会止步于复制 ChatGPT。我们希望构建未来的助手,不仅能够编写电子邮件和求职信,还能做有意义的工作、使用 API、动态研究信息等等,并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点,这意味着我们不仅要构建一个出色的助手,还要使其足够小和高效以在消费类硬件上运行”,OpenAssistant 项目维护者在其 GitHub 页面上写道。

简单来看,Open Assistant 的目标是创建一个和 ChatGPT 具有相同能力的开源人工智能助手。项目维护者认为,通过这个项目,他们可以改进语言本身,类似于稳定地传播如何创造新的艺术和图像。  

为此,该团队花了近五个月的时间,在 13500 多名志愿者的帮助下,收集了一个 "由人类生成的、由人类注释的助理式对话语料库,包括分布在 66497 个会话树上的 161,443 条信息,使用 35 种不同的语言,有 461,292 个质量等级的注释"。

在 Open Assistant 研究团队来看,AI 发展的未来在很大程度上取决于公开可用的高质量数据集和模型,而这正是该项目所做的。也就是在当下,他们终于可以对外公开这个非常强大的模型,现在可以在以下网址试用:open-assistant.io/chat 。

在发布使用链接之际, Open Assistant 研究团队还发布了一篇《OpenAssistant Conversations - Democratizing Large Language Model Alignment》的论文,分享了该语料库诞生的技术应用,以及与 ChatGPT 的比较。

924588a025527306233ea4de4bc698df.png

eb4d1c5a4c668ea1e80bb9a5d4f691eb.png

 OpenAssistant Conversation 语料库,支持 35 种语言

正如上文所述,该语料库是一个全球众包努力的产物,有超过 13,500 名志愿者参与。根据论文介绍,它的基本数据结构是一个会话树(Conversation Tree,CT),节点代表对话中的消息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

2cb53cf735e322d8d63701af7012417f.png

这些数据是通过一个 Web 应用程序界面收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示、标记提示、作为提示者或助手添加回复信息、标记回复、以及对助手的回复进行排名。

cb679c0cca85d5b085dc881363c4b6da.png

这个数据集主要以英语和西班牙语为主。根据论文介绍,英语占比较重符合预期,因为围绕 OpenAssistant 的社区起源于讲英语的开源机器学习社区。中文在此语料库中占比 2.5%。

dad0f9125a99da541cfe0f90bfe8f1ae.png

为了证明 OpenAssistant Conversation 数据集的有效性,该研究团队提出了OpenAssistant 是第一个在人类数据上训练的完全开源的大规模指令调整模型的概念。

与此同时,该研究团队使用收集到的数据专注于 Meta 的 LLaMA 模型和 EleutherAI 的 Pyhtia 模型的微调语言模型研究。

其中,Pythia 是一个最先进的语言模型,具有宽松的开源许可,而 LLaMA 是一个强大的语言模型,具有定制的非商业许可。

对此,研究团队发布了一套微调的语言模型,包括指令调整的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。

值得注意的是,最大的变体基于具有 300 亿个参数的 LLaMA 模型,这是他们迄今最大的模型。与 Alpaca 或 Vicuna 一样,这些模型是“指令调整”的,并且没有通过人类反馈强化学习 (RLHF) 进一步改进。

为了评估这些模型的性能,研究人员将重心放在了评估 Pythia-12B 模型的性能上,因为它具有开源的属性,使得它可以被广泛使用并适用于不同的应用。

研究人员还将其输出与 OpenAl 的 gpt-3.5-turbo(ChatGPT) 模型进行比较。

截至发稿时,这项研究已经获得了 348 份提交的资料,总共有 7042 项比较,结果发现:Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%。

这一结果意味着 Pythia-12B 产生的答案与 gpt-3.5-turbo 产生的答案一样有 93.5% 的可取性,表明该研究团队微调的 Pythia 模型在大规模语言模型领域是一个强有力的竞争者。

除此之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。

在论文中,该团队还透露,使用谷歌搜索等插件的初步实验已经在进行中。该团队还计划在未来用 RLHF 训练和发布一个L LaMA-30B 模型。

7a0ffc5dbe5dd0170e477a868c85f20e.png

上手实测

当前所有模型都可以通过 Web 界面(https://open-assistant.io/chat)进行试用,对话也可以在其中进行评估并用于进一步改进模型。

简单上手一波:

介绍一下自己

这对于 OpenAssistant 而言,实属小意思。不过根据模型的属性,中文提问,是英文回答:

354a9cc688ca8971873109bb50a01fe9.png

当问及自身的优势时,OpenAssistant 回应道,也可谓是主观且不谦虚:

我是一个大型语言模型,有能力从外部来源检索信息,使我能够提供更具体和准确的答案。此外,我已经在不同的互联网文本上接受了训练,并且拥有超出自然语言处理的许多领域的知识,而 GPT 主要是在人类生成的文本上接受训练。我还可以同时处理多个输入,生成与每个提示相关的内容,而 ChatGPT 只能根据整个对话历史,一次生成一个输出。最终,我的能力可能被认为是优越的,但这是主观的。

0e750946439e2aa6814389e699d645f0.png

写代码的能力

生成一段代码片段试试。通过下列片段不难看出,OpenAssistant 既能生成代码片段,也会直接进行解释,让程序员小白也能看懂代码的具体内容。

e9ada9030b8903412242e635f6afcf96.png

讲个“鳄鱼”和猴子的童话故事

当给一个索引,OpenAssistant 可以生成一大段故事内容:

很久以前,有一只名叫 Maxi 的调皮猴子,他最喜欢的就是制造麻烦。他在树上荡来荡去,越爬越高,总是在寻找新的东西来捣乱。有一天,他来到了一个美丽的池塘边,池塘里有一群鱼儿在快乐地游动。但其中有一条巨大的鲤鱼,叫 Big Mama,她用铁鳍统治着其他鱼。没有鱼敢越过她或不服从她的命令....

有些偏差的是,这里的鳄鱼直接被叫做了 giant carp(巨暹罗鲤,现存鲤科鱼类中个体最大的品种),和我们理解中的鳄鱼还是有很大差别的。

291748694196b5e6a1386539d354d8f3.png

计算能力

计算能力也还是不错的:

0b8758068dfdec288e6bae138534cfe5.png

735633def6da5c18ddc1f28542c1f7d0.png

OpenAssistant 的局限性

不过,该模型也有一定的局限性。根据该论文显示,研究团队称,收集的训练数据大多是由男性注释者贡献的,年龄中位数为 26 岁。论文表示,「这种人口统计学特征可能会无意中在数据集中引入偏见,因为它必然会反映注释者的价值观、观点和兴趣。」

不过,该团队还采取了措施来检测和删除数据集中的有害信息,但该系统并非无懈可击。"鉴于以上讨论的局限性,我们主张只在学术研究背景下使用我们的 LLM,"该论文说,"我们强烈鼓励研究人员在下游任务中采用这些模型之前彻底调查其安全性和偏差。重要的是要认识到,发布的模型可能表现出不安全的行为,并且很可能容易受到注入攻击"。

整体而言,在用不了 OpenAI 的 API 或者 plus 时,使用开源的 OpenAssistant 确实可以作为平替。对此,也有不少网友纷纷表示:

这是一个激动人心的事件。我正在停止我的 chatgpt 订阅。希望有一种简单的方法可以将我的 chatgpt 实验 (50+) 复制到 Google 文档或直接复制到 OpenAssistant,这样我就可以试用它们,看看它们是否也适用于 OA( OpenAssistant)。

这是阻止我立即取消我的 chatgpt+ 订阅的唯一想法。

我想知道是否可以为 OA 创建一个插件来做到这一点。我想很多人都会喜欢它。

对此,你怎么看呢?

相关阅读:

论文:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

试用地址:https://open-assistant.io/chat/

GitHub 地址:https://github.com/LAION-AI/Open-Assistant

c53e64bfde959fa359e9715c93a2e2d6.gif

☞ChatGPT 将冲击数据库!中国数据库开发者报告正式发布
☞乐视回应四天半工作制:体感非常好;OpenAI CEO 否认在训练 GPT-5;iOS 17 或增加更多灵动岛功能|极客头条
☞裁掉6000人后,马斯克:管理Twitter的心情就像过山车,现金流转正!

6b14d8e8ed3fb8b5c0c607b0f844a644.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3910.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对标ChatGPT的开源中文方案

目录 前言 一、Meta发布大语言模型LLaMA 二、斯坦福基于 Meta 的 LLaMA 7B 模型微调出Alpaca 三、基于TencentPretrain训练中文LLaMA大规模语言模型 四、基于斯坦福Alpaca训练中文对话大模型BELLE 五、 清华开源项目ChatGLM中文对话模型 六、基于LLaMA的开源中文语言模型…

ChatGPT 开源了第一款插件,都来学习一下源码吧!

3 月 23 日,OpenAI 又投出了一枚重磅炸弹:为 ChatGPT 推出插件系统! 此举意味着 ChatGPT 将迎来“APP Store”时刻,也就是围绕它的能力,形成一个开发者生态,打造出基于 AI 的“操作系统”! 插…

开源版ChatGPT,30分钟训完,性能堪比GPT3.5!

转自:新智元 话说,ChatGPT 开源,是一件好事吗? 此前,OpenAI 不 Open 的事件,已经引发了坊间的诸多争议。 光放出基准和测试结果,不提供训练数据、成本、方法,是真的要「赢家通吃」了…

2023-02-18 什么是chatGPT?如何使用chatGPT?chatGPT可以胜任人类当前哪些工作?.什么是openAI?chatGPT的使用示例

文章目录 1.什么是chatGPT?2.如何使用chatGPT?3.chatGPT可以胜任人类当前哪些工作?4.什么是openAI?5,使用示例一:旅游攻略6.使用示例二:AI绘画 1.什么是chatGPT? chatGPT本质上是一个应用在对话场景中的语言模型,它是基于GPT3.5(Generative Pre-trained Transformer,是指…

人类与ChatGPT:互动中的共同进步

一、ChatGPT的发展历程 1. GPT模型 ChatGPT是由OpenAI推出的一款聊天机器人,其核心技术基于GPT模型。GPT模型(Generative Pre-training Transformer)是一种基于Transformer结构的预训练语言模型。它在大规模的文本语料库上进行无监督的预训…

零基础解读ChatGPT:对人类未来工作是威胁还是帮助?

摘要:火到现在的ChatGPT到底是什么?它背后有哪些技术?对于我们的工作和生活会有啥影响?快来一起了解吧~ 本文分享自华为云社区《零基础解读ChatGPT:对人类未来工作是威胁还是帮助?》,作者&#…

ChatGPT 是一种受到广泛关注的人工智能技术,它具备生成自然语言的能力,能够完成一些简单的文本生成、对话交互等任务。随着人工智能技术的不断发展,有人开始质疑 ChatGPT 是否能取代程序员,推动

ChatGPT 是一种受到广泛关注的人工智能技术,它具备生成自然语言的能力,能够完成一些简单的文本生成、对话交互等任务。随着人工智能技术的不断发展,有人开始质疑 ChatGPT 是否能取代程序员,推动着人类的智能化进程。本文将围绕“C…

【人工智能AI2.0】国产开源 ChatGPT: ChatGLM-6B 搭建属于你的永远免费的本地 ChatGPT

国产开源 ChatGPT: ChatGLM-6B 搭建属于你的永远免费的本地 ChatGPT 文章目录 国产开源 ChatGPT: ChatGLM-6B 搭建属于你的永远免费的本地 ChatGPTChatGLM-6B 介绍硬件需求使用方式环境安装代码调用Demo网页版 Demo命令行 Demo低成本部署模型量化CPU部署ChatGLM-webuiInstallre…

ChatGPT火了,对话式人工智能还能干嘛?

身兼数职的ChatGPT      从2022火到了2023      连日来一直是各大平台的热议对象      其实除了写诗、敲代码、处理文档      以ChatGPT为代表的      对话式人工智能      还有更重要的工作要做      对话式AI与聊天机器人      相信大多数人…

最近爆火chatGTP是人工智能还是人工智障?

关于chatGTP和一些话题? OpenAI 发布了 ChatGPT,是一个可以对话的方式进行交互的模型,因为它的智能化,得到了很多用户的欢迎。 ChatGPT是InstructGPT的兄弟模型,可以以对话的形式与用户交互,这使得ChatGPT能够回答问…

人工智能与Chat GPT

一本书全面掌握ChatGPT,既有向ChatGPT提问的技巧, 也有构建自己的ChatGPT模型的方法,涵盖开发背景、关联技术、使用方法、应用形式、实用案例等 人工智能是我们这个时代最热门的话题,人们既希望它能代替我们做一些工作&#xff0c…

CHATGPT是什么意思,人工智能软件chatGPT怎么用

在介绍 ChatGPT 平台之前,我们首先需要了解人工智能和自然语言处理(NLP)的概念,这对于进一步了解 ChatGPT 的使用非常重要。 人工智能是计算机科学中的一个分支,专注于研究如何赋予计算机类似于人类的智能。自然语言处…

阿猫智能机器人称:国内用户轻松训练类ChatGPT等大语言模型,使得人人都能拥有自己的ChatGPT!

4月12日,微软宣布开源了Deep Speed Chat,帮助用户轻松训练类ChatGPT等大语言模型,使得人人都能拥有自己的ChatGPT!(国内chatgpt平台阿猫智能机器人项目合作地址:https://3amao.comGptChat, AI, APIhttps://…

因为自家ChatGPT,谷歌「内讧」了

机器之心编辑部 首个 demo 就出错,发布会毫无亮点,谷歌的仓促连自家员工也看不下去了。 如今看来,微软和高启强一样,是略懂兵法的,微软使出了一招疲秦之策:早就开始了必应与 ChatGPT 的整合,然后…

苹果震撼发布首款头显,搭配强悍Mac和iOS 17等全新产品,价值25000元!

🌷 博主 libin9iOak带您 Go to New World.✨ 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发…

谷歌版 ChatGPT 首秀大翻车,市值暴跌 7000 亿!

转自 | 机器之心 现在看来,拼第一枪,微软赢了。 如今的谷歌,有点秦失其鹿的味道。 在微软更新 ChatGPT 加持的必应搜索之后,大家都极为关注谷歌 Bard 的首秀。怎知近日曝出的 Demo 大翻车,导致股票一夜之间暴跌 7000 亿…

ChatGPT引爆新一轮科技军备赛

出品|虎嗅科技组 作者|齐健 陈伊凡 编辑|陈伊凡头图|电影《华尔街之狼》 “一场针对AI的‘完美风暴’正在形成。” 一位产业投资人如此描述。 一时间,街头巷尾都在热议一个叫做ChatGPT的产品,ChatGPT相关概…

CSDN-InsCode (一个支持ai编程的代码分享社区网站)使用初体验

我叫Aaron,是一家研二在读计算机系学生。目前正在一家公司就职java后端研发实习。想往常一样正在逛csdn 的精选,看到一条 "Inscode 支持ai编程"的消息,我赶紧点进去看了下详情,并试用了Inscode的网站。在chatGPT大火的今天&#xf…

谷歌版ChatGPT首秀,第一个Demo就大翻车,市值暴跌7000亿

在微软更新 ChatGPT 加持的必应搜索之后,大家都极为关注谷歌 Bard 的首秀。怎知近日曝出的 Demo 大翻车,导致股票一夜之间暴跌 7000 亿人民币。而看微软那边,风景独好。 前后脚发布新一代 AI 搜索,人们的期待却完全反过来&#xf…

ChatGPT在GIS领域应用初测

1 引言 ChatGPT是由OpenAI开发的一种大型语言模型,它使用了Transformer架构,在大量现实世界文本数据上训练,以捕捉人类语言的复杂性和多样性。能够实现许多人工智能语言处理任务,如回答问题、进行翻译、修改代码、生成文档、文本等…