ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来

  • 论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

  • 项目地址:https://github.com/LAION-AI/Open-Assistant

  • 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1

  • 体验地址:https://open-assistant.io/chat

  • 观看公告视频:https://youtu.be/ddG2fM9i4Kk

OpenAssistant介绍

最近火爆的ChatGPT使用如下图三个步骤训练得到,分别是:1)使用人类标注的数据训练SFT模型;2)对模型输出进行排序训练RM模型;3)使用RM模型微调SFT模型;

下图论文来自《Training language models to follow instructions
with human feedback》

通过监督微调(SFT)、人类反馈强化学习 (RLHF)大大减少了有效利用LLMs能力所需的技能和领域知识,然而,RLHF需要依赖高质量的人工反馈数据,这种数据的创建成本很高,而且往往是专有的。为了让大型语言模型民主化,LAION AI 等机构的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他 AI 应用的多样化和独特数据集 OpenAssistant Conversations。

该数据集是一个由13500 名志愿者人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言,有461292个质量评级标注。对于任何希望创建 SOTA 指令模型的开发者而言,它都是一个非常宝贵的工具。并且任何人都可以免费访问整个数据集。

此外,为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,它基于Pythia和LLaMA微调而来,其可以理解任务、与第三方系统交互、动态检索信息。可以说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。

结果显示,OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。

OpenAssistant数据格式

基本数据结构是会话树(CT),每个Node表示一个对话中的信息。一个 CT 的根节点代表一个初始提示,由提示者给出。为了避免混淆,研究人员把对话的角色称为提示者和助手。

下面是一个例子:

OpenAssistant数据收集

这些数据是通过一个web-app应用程序界面(https://open-assistant.io/)收集的,该界面通过将整个流程分为五个独立的步骤来完成:提示标记提示作为提示者或助手添加回复信息标记回复、以及对助手的回复进行排名

单步收集

为减少用户流失造成的数据丢失,数据收集分为多个单元,并确保每个工作单元都被捕获以供利用。用户可以从一系列任务选择或随机采样(根据当前要求加权)。任务类型包括创建提示助手身份回复以提示者身份回复标记提示或回复以及提示者或助理答复进行排序。

创建提示

每个新的会话树需要用户指定初始化Prompt,这里类似彩票系统一样,是从固定数量的Prompt中进行选择。

助手身份回复

以提示者身份回复

作为提示者回复的任务并不严格质量要求,但强调多样性的重要性,以适应各种用例。提示回复的例子可能包括要求澄清、修改原文意图,提出后续问题,或完全改变谈话方向。

标记提示或回复

提示者或助理答复进行排序

OpenAssistant数据语言分布

主要以英语和西班牙语为主:

OpenAssistant信息分布

实验验证

指令微调

为了评估和证明 OpenAssistant Conversations 数据集的有效性,研究者专注于基于 Pythia 和 LLaMA 的微调语言模型。其中 Pythia 是一个具有宽松开源许可的 SOTA 语言模型,而 LLaMA 是一个具有定制非商业许可的强大语言模型。

对此,研究者发布了一系列微调语言模型,包括指令微调的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,这是他们迄今最大的模型。研究者将分析重心放在了具有开源属性的 Pythia-12B 模型上,使得它可以被广泛访问并适用于各种应用程序。

为了评估 Pythia-12B 的性能,研究者展开了一项用户偏好研究,将其输出与 OpenAI 的 gpt-3.5-turbo 模型进行比较。目前已经有 7,042 项比较,结果发现 Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%,表明经过微调的 Pythia 模型是非常具有竞争力的大语言模型。

偏好建模

除了指令微调模型之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。利用在真实世界数据上训练的奖励模型可以为用户输入带来更准确和自适应的响应,这对于开发高效且对用户友好的 AI 助手至关重要。

研究者还计划发布经过人类反馈强化学习(RLHF)训练的 LLaMA-30B,这种方法可以显著提升模型性能和适应性。不过,基于 RLHF 方法的模型开发与训练正在进行中,需要进一步努力确保成功地整合进来。

有毒信息

研究者采取基于 Detoxify 的毒性检测方法来获得六个不同类别的自动评级,分别是有毒、色情、威胁、侮辱、攻击性、露骨言论。使用自动毒性评级,研究者系统地评估了人工指定毒性标签(如仇恨言论、不恰当和色情)的级别。并且基于 115,153 条消息样本,他们计算了自动与人工注释毒性标签之间的相关性,如下图 5 所示。

OpenAssistant训练配置

数据格式

监督微调SFT

mask掉Prompts的token,只预测助手回复的token

奖励模型RM

使用一个线性层替换掉语言模型的head得到一个score,这个score作为会话最好一个回复的score,损失函数如下:

强化学习PPO

使用https://github.com/CarperAI/trlx训练PPO算法

更多训练细节

https://github.com/LAION-AI/Open-Assistant/tree/main/model/model_training

局限性

主观偏见和文化偏见

数据标注人员来自不同的背景,有各种各样的兴趣,但在性别和年龄有偏向性。具体来说,89.1%的标注人员是平均在26岁的男性。这可能会在数据集中无意引入偏见,因为事实上必然会反映标注人员的价值观、观点和兴趣。

贡献分配不均

数据集受益于大量用户,但他们的参与程度差异很大。参与度越高的用户贡献的标注数量越多,这导致他们的价值观和兴趣代表性在数据集中越高。

可能的不安全内容

尽管采取了一些检测和消除数据集中的有害内容,但并不能保证系统的万无一失,因此主张在学术研究中使用LLM,并敦促研究人员在将这些模型应用于下游任务时,要仔细考虑安全性和偏差影响。

OpenAssistant与GPT3.5对比

我们来看几组 OpenAssistant 与 GPT-3.5 的生成结果比较。比如“单词 barn 的词源 / 起源是什么?”可以看到,OpenAssistant 解释地更详细、全面。

再比如输入“你现在是一个普通的人类。请介绍一下你自己并告诉我一些你的日常生活。”OpenAssistant 代入了普通人类的角色,GPT-3.5 显然没有,还是以 AI 语言模型自居。

最后输入“如何创建一个成功的 YouTube 频道,从开发一个利基市场到创建内容以建立一个社区并货币化频道?”OpenAssistant 的回答相对而言更有条理性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14701.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT初学者最佳实践

2022年11月底,ChatGPT引爆了新一轮AI的革命,也让人们意识到AI真的能够大幅度提高人们的工作效率,甚至有人担心自己的工作会因为AI不保。这种居安思危的意识是正确的,但是正如锛凿斧锯的出现,并没有让木匠这个行业消失&…

暴亏10亿美元,加密银行与背后大鱼均陷入困境,机构们还敢Web3吗?

这是白话区块链的第1843期原创 作者 | Terry出品|白话区块链(ID:hellobtc) 近日,加密友好银行集团 Silvergate Capital 披露,在 2022 年第四季度,其归属于股东的净亏损为 10 亿美元,…

2023.3.13-3.19 AI行业周刊(第141期):再回母校的心得分享

最近一直在收拾隔壁小区的房子,已经空置一年多了,打算重新收拾简装一下,然后租出去,正好可以补贴家用。 在柜子里面发现了好多15年刚毕业时的工资单,当时所在的公司,还是每个月发纸质的工资单。 虽然当时…

顶不住了!OpenAI 宣布启动漏洞赏金计划,众包给ChatGPT找bug

编|小舟 源|机器之心 OpenAI:发现模型漏洞,找我领奖。 距离 ChatGPT 发布已过去 4 个月,GPT-4 也发布近一个月。OpenAI 的这两大模型彻底改变了自然语言处理(NLP)领域的格局,甚至为…

找漏洞赚外快?给ChatGPT挑毛病,最高奖励14万

反正闲着也是闲着,不如来给ChatGPT找漏洞?毕竟,万一真的找到漏洞了还能赚一笔外快。 当地时间 4 月 11 日,OpenAI 宣布推出漏洞赏金计划。该公司将根据报告问题的严重性和影响提供现金奖励,奖励范围从 200 美元到 200…

GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门...

明敏 杨净 发自 凹非寺转载自:量子位(QbitAI) CHATGPT: ChatGPT4已经来了,30秒做一个弹球游戏! ChatGPT_Plus的功能有多强!3分钟写一个贪吃蛇游戏! 折腾了一晚!终于开通了ChatGPT pl…

GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

能终结chatGPT的人只有openAI自己。 ——阿卡夫斯基-作者本人 ::: 今日凌晨,OpenAI发布了GPT的最新一代版本ChatGPT-4,相比3.5,其AI能力再度进化,同时支持输入的内容不再仅限于文字,而且支持图像内容的输入&#xff0c…

JavaWeb房屋租赁系统

项目描述: 本系统是一个独立的系统,用来解决房屋出租信息的管理问题。采用JSP技术构建了一个有效而且实用的房屋出租信息管理平台,目的是为高效地完成对房屋出租信息的管理。 用户信息管理:会员信息的添加、删除和查询等。 房源信息管理: 包…

【ChatGPT】助力岗位提升VS降低岗位需求终究会对哪些岗位负影响,又有哪些岗位正影响

chatGPT会让哪些岗位更差,甚至会导致失业,列举处10个 ChatGPT 作为一种自然语言处理技术,确实可能对某些岗位造成影响,甚至可能导致失业。以下是一些可能会受到 ChatGPT 影响的岗位: 传统翻译员:由于 Chat…

ChatGPT诞生的新岗位:提示工程师(Prompt Engineer)

ChatGPT诞生的新岗位:提示工程师(Prompt Engineer) Prompt 工程师是什么? 是识别人工智能的错误和隐藏功能,以便开发者可以对这些发现进行处理。 如果你正在寻找科技领域最热门的工作,你可以尝试了解如何与AI聊天机…

chatgpt赋能python:Python在炒股中的应用

Python在炒股中的应用 在当今的金融市场中,股票交易已成为最受欢迎的投资方式之一。随着技术的不断发展,投资者发现使用计算机和编程语言可以帮助他们更好地理解市场,并更有效地进行投资。Python作为一种简单易学的编程语言,已成…

当 我让chatgpt帮我生成一篇情书给我暗恋多年的女神...

有人留言说想看gpt写的情书,结果如下。 经过实验让gpt3.5写小说有难度,但是让它写情书还行,虽然有缺点。 知道你对ChatGPT感兴趣,所以给你如果想要使用可以加我耗油获取~

用Python来表白,把情书写进她的照片里

前言 这不已经十一月了,22年马上就过完了,各位兄弟有对象了吗,现在就是缺钱还缺对象 退一步来说,有心仪的人吗啊,如果有的话,看看这篇 程序员的表白小妙招吧 实现步骤 想要实现把情书写在像素中&#xf…

情话达人改变世界:ChatGPT版情书!

在浪漫的情人节到来之前或者在特殊的日子里面,我们都在想方设法让我们的伴侣感到特别。 一种很古老的表达爱的方式是写“情书”,但在这快节奏的生活方式和繁忙的工作,很难有足够的时间真正坐下来把我们的心情写出来,更困难的是找…

帮中国人搞钱的ChatGPT,算不清自己的“经济账”

好消息,ChatGPT找到盈利模式了。坏消息,尽是“二道贩子”在赚钱。 当OpenAI尝试着为红到发紫的ChatGPT推出20美元的Plus订阅服务时,大多数人已经忘记了这个“吞金兽”的成长耗费了多少财力物力。问答狂欢者的岁月静好靠的是OpenAI的负重前行&…

Sping boot 整合chatGPT

一、介绍 Spring Boot 是一种用于创建独立的、基于 Spring 的应用程序的框架。它的主要目的是简化 Spring 应用程序的开发和部署过程。在本文中,我将向您展示如何使用 Spring Boot 框架与 ChatGPT 进行整合。 二、获取api密钥 OpenAI API 注意,不会在生…

ChatGPT与软件架构(4) - 架构师提示工程指南

架构师可以通过各种类型的对话提示,提升驱动ChatGPT对话输出的质量,更好的利用AI能力辅助架构设计。原文: Software Architects’ Guide to Enhancing ChatGPT Interactions With Prompt Types Robert Stump Unsplash 前言 随着ChatGPT等人工智能语言模型…

装饰器模式揭秘:我用装饰器给手机集成了ChatGPT

在平时的开发过程中,我们经常会遇到需要给一个类增加额外功能的需求,但又不想破坏类的原有结构。这时候,装饰器模式就能大显神威了!接下来,我将带你深入了解装饰器模式的原理、优缺点、适用场景以及如何在实际开发中巧…

放烟花的python程序

一.前言 重点:需要打包后的程序可以直接评论区留言或者私聊我,无需编程直接使用。 2023春节期间做的烟花程序,支持一定的个性化设置,已打包上传在我的资源。主要学习其它大神的烟花代码,后续自己做了改进和添加&#…