Wombat:93%ChatGPT性能,无需RLHF就能对齐人类的语言模型

eb79a0e99151742675c1cb4b7f937d8e.png

文 | zzy

文章地址:
https://arxiv.org/abs/2304.05302v1

训练代码:
https://github.com/GanjinZero/RRHF

模型权重:
https://huggingface.co/GanjinZero/wombat-7b-delta
 

各个大模型的研究测试传送门

阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为得分模型,开发了语言模型Wombat-7BWombat-7B-GPT4Wombat-7B在Vicuna的部分测试集上(因没有GPT4 API,无法完整测试),可以达到ChatGPT 93% 的性能。其中GPT-4给ChatGPT的回复平均打了8.5分,而给Wombat-7B平均打了7.9分。

OpenAI的chatGPT理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。chatGPT令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。RLHF方法不同于以往传统的监督学习的微调方式,该方法使用强化学习的方式对LLM进行训练。RLHF解锁了语言模型跟从人类指令的能力,并且使得语言模型的能力和人类的需求和价值观对齐。

当前研究RLHF的工作主要使用PPO算法对语言模型进行优化。PPO算法包含有众多的超参数,并且在算法迭代的过程中需要多个独立模型的相互配合,错误的实现细节都会导致不好的训练结果

2962c7725391aa986198a27d1fef962b.png

在和人类对齐的角度上,强化学习算法是不是必须的呢?来自阿里巴巴达摩院的作者们提出了不需要强化学习的基于排序的人类偏好对齐方法,它对不同语言模型生成的回复(可以是ChatGPT、GPT-4或者当前的训练模型)进行评分,并通过排名损失使它们与人类偏好对齐。不同于PPO,RRHF的训练过程可以利用人类专家或者GPT4的输出作为对比。RRHF训练好的模型可以同时作为生成语言模型和奖励模型使用。

Playgound AI的CEO Suhail表示这是最近最令他兴奋的一篇论文。

1b69d1cd0537d084a787c7357b388d76.png

下图中对比了PPO算法和RRHF算法的区别。

048fc185a5e55cb1dafcc83d74585112.png

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 只需要12个模型。相比之下,PPO需要4个模型。

  • 监督微调(SFT)可以看做是他的一种特殊形式,超参数很少

  • 他可以同时直接作为一个语言模型和一个奖励模型使用

  • 他以相当低的训练难度就可以拟合奖励模型的偏好,达到PPO的效果

袋熊Wombat作为新的开源预训练模型可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。作者也在Huggingface放出了WomBat的权重,来供大家尝试。以下是袋熊Wombat给大家的一个自我介绍。

  • Give an introduction of wombat

  • Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.

005bec52fd1c0de5642bcfbf8e295012.png

链接:
https://huggingface.co/GanjinZero/wombat-7b-delta

3d2288a285d56ef47a0ab65f6ed54822.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6475.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史诗级的突破,如何让GPT接口调用能绕过4000 tokens 的长度限制

最近很高兴有机会较为全面深入地研究GPT / ChatGPT这一热门技术,学到了不少东西,当然也遇到不少问题,其中一个问题就是,所有的GPT模型,都会有输入输出长度(加起来)的限制这个问题,就…

小扎、马斯克宣战ChatGPT!Meta和推特组建顶级AI团队,硅谷硝烟四起

【导读】ChatGPT大厂混战,怎能少得了Meta和推特?近日,小扎和马斯克也官宣下场,要做自己的ChatGPT了。 ChatGPT的爆火,直接改变了整个硅谷大厂的格局。 微软的步步出招,倒逼谷歌走出固步自封的境地&#x…

牛逼,玩转 ChatGPT!

ChatGPT是一种由OpenAI开发的人工智能模型,它可以模拟人类的对话交流,对话可以涉及各种话题。使用ChatGPT可以进行各种操作,例如自然语言生成、文本摘要、语言翻译、文本分类、问答系统等。下面是ChatGPT网站的可用链接,由于网络限…

对话冯·诺依曼理论奖得主叶荫宇:ChatGPT于行业智能,更像是全科医生对专科医生|数字思考者50人...

斯坦福大学讲席教授、冯诺依曼理论奖获得者:叶荫宇 ▎ChatGPT包罗万象,更像是一个全科医生,而运筹学以及求解器,则像是专科医生。 作者丨 韩敬娴 本文首发钛媒体APP 国际市场震荡不定,供应链波动剧烈、芯片短缺、碳排限…

开篇词:大模型国内应用落地思考与实践

自从GPT-3发布以来,随着以ChatGPT为首的应用工具一夜爆火,人工智能似乎找到了应用层面的合适出口,让大众、用户和产业,看到了大模型人工智能所具备的应用潜力。 国内外关于大模型的研究层出不群,各大厂都在进行大模型…

关于ChatGPT的一切;CUDA入门之矩阵乘;PyTorch 2.0发布|AI系统前沿动态

1.截止目前,关于ChatGPT的一切 ChatGPT是GPT3的一大飞跃,就像GPT3本身是GPT2的质的飞跃一样。目前,关于ChatGPT的解读内容数量和种类繁多,让人跟上非常困难,容易患错失恐惧症。因此,作者整理了一个笔记&…

ChatGPT也太神奇了

前段时间找了很多chatGPT国内基本上发现都是要收费的,价格贵的太离谱了。好在我再三搜索下找到了一款国内封装过的免费chatGPT,功能还是不错的,就是这回复速度有点慢,其实也不是不能用就是慢

2023财年Q4业绩继续下滑,ChatGPT能驱动英伟达重回巅峰吗?

近年来,全球科创风口不断变换,虚拟货币、元宇宙等轮番登场,不少企业匆忙上台又很快谢幕,但在此期间,有些企业扮演淘金潮中“卖水人”的角色,却也能够见证历史且屹立不倒。不过,这并不意味着其可…

【关于ChatGPT的30个问题】1、ChatGPT是什么?/ By 禅与计算机程序设计艺术

ChatGPT是什么? 目录 ChatGPT是什么? ChatGPT简介及其应用 第一部分:ChatGPT的基本原理

ChatGPT实现原理简析

ChatGPT是OpenAI开发的一款针对对话的语言模型。它的实现原理主要基于Transformer和GPT模型。 Transformer是Google提出的一种注意力机制,它采用Encoder-Decoder结构。Encoder用于对输入的句子进行编码,生成输入的序列表示。Decoder则使用编码序列和目标序列生成的注意力来生成…

ChatGPT批量生成文章软件:创意无限,内容源源不断

ChatGPT是一种基于人工智能技术的自然语言处理模型,它能够生成各种主题的文章。这种软件具有创意无限、内容源源不断的特点,能够满足用户对于大量文章的需求。 方面一:文化艺术 ChatGPT软件可以生成关于文化艺术的文章,包括绘画、…

ChatGPT伪原创文章的应用与发展

ChatGPT是一种基于人工智能技术的自然语言处理模型,它能够生成逼真的、具有上下文连贯性的文本。近年来,ChatGPT在各个领域的应用越来越广泛,其发展潜力也逐渐被人们所认识。本文将从多个方面对ChatGPT的应用与发展进行详细阐述。 ChatGPT在…

ChatGPT原创内容生成器有哪些优缺点

ChatGPT原创内容生成器包括我们的文字、图片和AI视屏生成,原创内容生成器已经在众多行业得到了广泛的使用。随着人工智能技术的发展,原创内容生成器的使用也越来越普及。 ChatGPT原创内容生成器能够自动生成各种形式的文章、报告甚至小说,通…

ChatGPT文章自动发布WordPress

WordPress可以用ChatGPT发文章吗?答案是肯定的,ChatGPT官方有提供api接口,多以目前有很多的SEO工具具有自动文章生成自动发布的功能,使用SEO工具,我们可以通过疑问词和关键词进行文章生成,并定时发布到我们…

chatgpt如何自动发布原创文章(火影智能AI文章伪原创)

ChatGPT作为一个基于 GPT-3.5 接口的AI机器人,并不能自动发布原创文章,它只能在创建和生成文章的过程中提供帮助。 要自动发布原创文章,需要编写脚本或使用可编程自动化工具,将ChatGPT生成的文章与发布平台进行连接。以下是一个简…

ChatGPT自动生成发布原创文章seo营销系统开发

ChatGPT自动生成发布原创文章seo营销系统开发 注:此系统性质为,依据你设置关键词类(你要推广的行业关键词,如我们的关键词可为“小程序开发”),然后系统自动生成发布海量原创文章,以达到搜索引擎收录seo目…

ChatGPT批量生成文章软件:助力创作高效快捷文章

随着人工智能技术的不断发展,ChatGPT批量生成文章软件已经成为了一种强大的创作工具。它能够通过自然语言处理和机器学习算法,快速生成高质量的文章,为创作者提供了高效快捷的创作体验。本文将从随机8-20个方面对ChatGPT批量生成文章软件进行…

Bito:一款 iead/webstorm 神级插件,由 ChatGPT 团队开发,堪称辅助神器

前言: idea(后端),webstorm(前端)中可以用的一款辅助插件:Bito 个人尝试体验效果: 优点是:可以自动完成一些场景代码。 缺点:太慢了,大部分时间一直转圈 摘取文档: 什么是Bito&…

Office如何通过VSTO进行WORD插件开发?

文章目录 0.引言1.工具准备2.WORD外接程序创建和生成3.外接程序生成并使用 0.引言 VSTO(Visual Studio Tools for Office )是VBA的替代,是一套用于创建自定义Office应用程序的Visual Studio工具包。VSTO可以用Visual Basic 或者Visual C#扩展…

7大最常用ChatGPT Excel最佳使用示例(最后附微软官方Excel-ChatGPT插件使用方法)——手把手从0开始教您如何在Excel中使用ChatGPT,附详细指南及教程

目录 前言将ChatGPT 与 Power Query 和 Power Pivot 结合使用使用ChatGPT 生成帐单和模板使用ChatGPT 将 Excel 连接到 SQL 数据库使用ChatGPT 编写 Excel 公式将ChatGPT 用于 Excel VBA 宏和 Excel 脚本利用ChatGPT 合并多个excel文件Excel ChatGPT Add In 插件参考资料其它资…