跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

 Datawhale干货 

论文解读:李沐,来源:机器之心

InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。

在 ChatGPT 走红之后,很多关注技术的同学都在问一个问题:有没有什么学习资料可以让我们系统地了解 ChatGPT 背后的原理?由于 OpenAI 还没有发布 ChatGPT 相关论文,这一问题变得棘手起来。

不过,从 OpenAI 关于 ChatGPT 的博客中我们知道,ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一样,只不过 InstructGPT 是在 GPT-3 上微调的,而 ChatGPT 则是基于 GPT-3.5。在数据收集工作上,二者也存在一些差别。

6d10e39c5abcb87c44ca21869d15a781.png

博客链接:https://openai.com/blog/chatgpt/

InstructGPT 的论文发布于 2022 年 3 月,不过 OpenAI 早在 1 月份就发布了相关博客(参见《GPT-3 胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」》)。当时,OpenAI 明确提到,InstructGPT 利用了人类反馈的强化学习方法(RLHF)对 GPT-3 进行微调,使得该模型的输出更加符合人类偏好,这点在 ChatGPT 的训练中得到了延续。

e82f253ca4b5f9807015abe7e7b0bc46.png

论文链接:https://arxiv.org/pdf/2203.02155.pdf

除此之外,InstructGPT 和 ChatGPT 之间还有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。这也是我们力荐李沐这节精讲课的原因。

5e09ff1bdf1791d06c26c0865e5f4df3.png

课程地址:https://jmq.xet.tech/s/2lec6b  (点击「阅读原文」可直达)

李沐博士是亚马逊的资深首席科学家,之前和 Aston Zhang 等人共同撰写了《动手学深度学习》。最近两年,他一直通过视频向大家介绍各种 AI 知识,制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。

1aed48c3fdfde90c7483229ba6b8bdaa.png

李沐博士在 B 站的账号是「跟李沐学 AI」。

这节针对 InstructGPT 的解读课程总共 67 分钟,基本按照论文撰写的顺序进行介绍。

88cd80bfc2fe64b5ffac9a47cea627ca.png

看过 ChatGPT 博客的同学都知道,它的技术原理基本用一张图就能概括,这也是 InstructGPT 论文中就已经出现的一张图(二者有细微差别)。在解读论文的摘要和引言部分时,李沐详细介绍了图上的三个步骤。

53bd8c7c1a663fcb60ecf1786eae4e7c.pngChatGPT 博客中的技术原理图。

0071fe7570f74707ea57ac6af009804b.png

InstructGPT 论文中的技术原理图。

在论文的第三章,InstructGPT 的作者首先介绍了他们的数据获取方法和过程,李沐也带着大家详细读了一下。这部分在工程方面非常有价值。正如李沐所说,如果你之前没有做过这样的事情(数据标注等),需要找人帮你标数据,那么你可以看它的附录部分,里面有很多模板可以直接拿来用,论文作者甚至描述了他们标注网站的 UI 长什么样,非常值得借鉴。

接下来,李沐重点解读了第三章写到的 3 个模型(见 3.5 Models )——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型,包括这些模型涉及的参数和目标函数等细节。

最后,李沐总结说,从技术上来讲,InstructGPT 还是一个非常实用的技术。它告诉了大家一个方法:给定一个大型语言模型,你怎样通过一些标注数据迅速地提升它在某一个你关心的领域中的性能,使它达到实用的程度。所以,它给想用生成模型做产品的人提供了一个可操作的思路。

当然,正如李沐博士所说,科研工作是循序渐进的,InstructGPT 也是建立在之前研究的基础上,所以想要吃透 ChatGPT 的同学不免还要回头去读更多论文。在之前的课程中,李沐也详细解读过 GPT、GPT-2、GPT-3 的论文:

77fd5d9b7e42806a2e6918cb12265b7b.png

课程地址:https://jmq.xet.tech/s/2lec6b  

e507ff112cfbc87f2da578a6e6284c5d.png干货学习,三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7305.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT之后性能怪兽来了?马库斯7大「黑暗」预测:GPT-4带不来AGI

视学算法报道 编辑:昕朋 好困 【导读】ChatGPT的爆火,点燃了人们对通用人工智能的热情。在全世界对GPT-4翘首以盼时,马库斯却做出7大预测,给大家泼了盆冷水。性能提升却不能理解世界,大型语言模型会是AGI的未来吗&am…

ChatGPT走红| 微软ATP带你开启高校AI人才培育新时代

与传统搜索引擎不同的是,ChatGPT不是机械罗列出相关网页结果,而是将答案进行整理、优化,以对话形式呈现给用户,还能很快根据上下文互动!甚至有人用它辅助自己写论文、完成文字性作业…… ▍抢跑早规划 入门AI不迷茫 AI…

AI 工具大全

文章目录 ChatGPT 聊天绘画与图像文章PPTAdoble语音通话捷径指令 视频音乐小程序帮你阅读 汇集 AI 工具,改变个人办公姿势。拥抱新时代的“通用人工智能”。利用 AI 工具来改造你学习和工作的流程。通过将 AI 嵌入生活和工作的方方面面,你不仅能够获得沉…

如何利用ChatGPT帮助开展日常科研工作?

©作者 | 芯片斯多葛 ChatGPT 可以赋能科研全流程,尤其是对于英语非母语的科研人员,可以极大地提高日常科研工作效率。 论文搜集助理 重要提醒:ChatGPT 可能会编造不存在的论文,而且论文数据库与谷歌学术等平台差距较大&#…

ChatGPT-AI地图

ChatGPT-AI地图 1、AI-对话 应用名称应用地址ChatGPThttps://chat.openai.com/NotionAINotion AIA.I. Data Sidekick:AI工具编写 SQL、文档等的速度提高10倍[AirOpsWritesonic:人工智能写作辅助工具Writesonic - Best AI Writer, Copywriting & Par…

GEEer成长日记二十三:chatGPT可以帮我们提取水体边缘吗?

欢迎关注公众号:GEEer成长日记 目录 01 首先,chatGPT是什么? 02 进入正题,如何进行边缘检测? chatGPT推出之后,引发了激烈的讨论,今天带各位看看它在GEE方面能为我们做什么。原本想着它可以…

Meta AI最新出品,全能的分割模型SAM:掀桌子的Segment Anything,CV届的ChatGPT已经到来!

掀桌子的Segment Anything 本来不打算再发关于分割的相关内容的,但是13小时前,2023年4月5号,Meta AI在Arxiv网站发布了文章《Segment Anything》,并将SAM模型代码和数据开源。作为通用的分割网络,SAM或许将成为&#…

日记20190416

研究生小白虐炼日记20190416 未来学家 科大云炬 2019-04-17 花了一天多时间为明天的组会准备了20页ppt。 阅读 18

【BBuf的CUDA笔记】九,使用newbing(chatgpt)解析oneflow softmax相关的fuse优化

0x0. 背景 随着年纪越来越大,读代码越来越困难,如果你发现看不懂同事写的代码应该怎么办呢?不要担心,大语言模型的时代了来了,chatgpt和gpt4会教会我们怎么读代码。本篇文章就来展示一下使用newbing(chatg…

企业级ChatGPT开发的三大核心内幕及案例实战(二)

2.2 企业级ChatGPT开发的三大核心剖析 Gavin老师:NLP_Matrix_Space 本节讲解LangChain官方提供的一个项目,跟大家展示企业级开发的核心元素,如图2-1所示,是项目的架构示意图。 图2- 1 LangChain项目架构示意图 一个基本原则是你的提示词和模型进行交互,作为和模型交互的…

跟着ChatGPT学PsychoPy编程3:将想要的数据写入数据文件/属性的用处

一:将想要的数据写入数据文件 问题描述: 通常使用组件直接设置的内容可能会被自动写入数据文件,比如键盘组件、图片组件等(具体来说,比如按键的反应时、正确的按键、在组件中添加的变量等)。 然而&#…

我们都被 ChatGPT 给骗了?

引言: 用过 ChatGPT 的人都知道,当你与 chatgpt 对话的时候,它是“逐字输出”的,就像真的有个人在跟你打字一样。其实,这种技术并没有那么神奇,这种技术叫做“实时文本生成”或“逐字输出”技术&#xff0…

将小米SoundMove 无缝接入 ChatGPT

将小米SoundMove 无缝接入 ChatGPT 本教程内容参考 Github 地址(可选)部署查看小米 SoundMove 信息的环境(可选)查看小米 SoundMove 的信息以容器方式部署程序到小米万兆路由器实际效果有待改善点 本教程内容 1 是记录了将小米 SoundMove 接入 ChatGPT 的操作步骤。 2 是将小米…

《2023 ChatGPT for Robotics:Design Principles and Model Abilities》阅读笔记

1 Introduction 自然语言处理(NLP)的快速发展导致了大型语言模型(LLMs)的发展,如BERT[2]、GPT-3[3]和Codex[4],这些模型正在对广泛的应用程序进行革命。这些模型在文本生成、机器翻译和代码合成等各种任务中都取得了显著的效果。这个模型集合的最新成员是…

chatgpt赋能python:Python冒泡排序:理解流程图

Python冒泡排序:理解流程图 当涉及到排序算法时,Python中最流行的算法之一就是冒泡排序。它是一种简单而有效的排列方法,旨在让列表中的元素按升序或降序排列。在此文章中,我们将讨论冒泡排序的流程图,并重点介绍每个…

Itchat 微信聊天机器人

微信聊天机器人(Itchat) 不务正业,想起干点啥有意思的事,于是想起了用聊天机器人去调戏微信好友也许会有点意思吧,于是参照别人写的东西,自己也浅尝一下。基本原理还是很简单的,就是让机器人替你去聊天。 主要有以下…

利用微信API将你的微信变为聊天机器人

想想将个人微信变为一个机器人也是很好玩的,这个项目就教你如何把自己的微信变为一个聊天机器人,嗯~对的,和小冰差不多的感觉吧(哈哈哈~)。 最终效果图: 效果图 原理: 通过微信的Python接口it…

itchat+在线聊天机器人接口实现微信聊天机器人

闲来无事(其实还在期末考试),想着怎么利用手里的服务器搞点事情时,发现了python的itchat库,想着可以再利用网页聊天机器人,做一个自动聊天的微信机器人。 总体思路很简单,用itchat登录微信,接受消息&#…

AI 微信自动聊天机器人

微信聊天机器人 # /usr/bin/env python # -*- coding: utf-8 -*- # Time : 18-5-4 下午23:37 # Author : 杨星星 # Email : yangshilong_liu163.com # File : wechart.py # Software: PyCharm#codingutf8 import requests import itchat import random# KEY 8edce3c…

聊天机器人集成PC端微信

1.PyWeChatSpy 可以操作PC端微信 github地址如下 https://github.com/veikai/PyWeChatSpy 2.chatterbot 可以实现自制语料库的聊天机器人 安装方法 pip install chatterbot训练方法,语料库制作方法 官网上都有 https://chatterbot.readthedocs.io/en/stable/devel…