通俗易懂chatGPT原理

来自:无数据不智能

目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。

  • 训练过程总览

  • 理清演化路径

  • 预训练(pretrain)

    • GPT-3概述

    • GPT 3模型的理念

    • GPT-3如何学习

    • 数据集

  • 指令微调 (Instruction Fine-Tuning,IFT)

  • 有监督微调 (Supervised Fine-tuning, SFT)

  • 人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

  • 其他方法

    • 思维链 (Chain-of-thought,CoT)

  • 与chatGPT类似的工作

  • 引用

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

训练过程总览

OpenAI 使用了 175B参数的大型语言模型(LM) 和 6B参数的奖励模型 (RM)。除预训练之外,训练过程分为三步:

  1. 收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集,并使用这些数据微调预训练的大型语言模型。包括指令微调有监督微调

  2. 从上述数据集中采样,使用大型语言模型生成多个响应,手动对这些响应进行排名,并训练奖励模型 (RM) 以适应人类偏好。

  3. 基于第一阶段的有监督微调模型和第二阶段的奖励模型,使用强化学习算法进一步训练大型语言模型。

outside_default.png
img

理清演化路径

GPT-3.5 参数量仍然为175B,总体进化树如下:

15bc3b7076a9d34079a4c09932a0cb0a.png
img
3c0ff2e36227961fd235036dd3ddb4a6.png
img

预训练(pretrain)

GPT-3概述

30c5b2b87f7fc41a3b4f3a978edb8505.jpeg 60ad4cd821f655d8fadb09ab955076e3.png
  • GPT-3是一种自回归模型,仅使用解码器,训练目标也是预测下一个单词(没有判断下一句任务)。

  • 最大的GPT-3模型有175B参数,是BERT模型大470倍(0.375B)

00d87486b5b2181c087b8efb6c5dbd3e.png
image-20230221144754842

GPT 3模型的理念

  • 不需要接新的模型结构:如bert用于NER任务一般接LSTM+CRF

  • 不需要微调

  • 一个模型解决NLP多种任务

  • NLP任务都可以用生成模型解决

  • 和人类一样,只需要看极少数量的样例就能学会

GPT-3如何学习

  • 零样本学习:提供任务描述、提示

  • 单样本学习:提供任务描述、一个样例、提示

  • 少样本学习:提供任务描述、几个样例、提示

50665215876e69209b199e231f51f4f2.png


数据集

模型发布时间参数量预训练数据量
BERT-large2019 年 3 月3.75 亿约3.3GB
GPT2018 年 6 月1.17 亿约 5GB
GPT-22019 年 2 月15 亿40GB
GPT-32020 年 5 月1,750 亿45TB
  • BERT-large:BooksCorpus 800M words、 English Wikipedia 2.5Bwords

  • GPT:WebText2, BooksCorpus、Wikipedia超过 5GB。

  • GPT-2:WebText2, BooksCorpus、Wikipedia总量达到了40GB。

  • GPT-3:**WebText2, BooksCorpus、Wikipedia、Common Crawl **等数据集45TB数据。

    f24b7264604996269011e2375c492002.png
    image-20230221153905277

指令微调 (Instruction Fine-Tuning,IFT)

收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集。chatGPT使用到的数据集如下:

375dc2201b7a793d887f2241ca81d47a.png
image-20230221113507381

相关的一些论文:

  • Unnatural Instructions (Honovich 等, '22): https://arxiv.org/abs/2212.09689

  • Super-natural instructions (Wang 等, '22): https://arxiv.org/abs/2204.07705

  • Self-Instruct (Wang 等, '22): https://arxiv.org/abs/2212.10560

  • T0 (Sanh 等, '22): https://arxiv.org/abs/2110.08207

  • Natural instructions 数据集 (Mishra 等, '22): https://arxiv.org/abs/2104.08773

  • FLAN LM (Wei 等, '22): https://arxiv.org/abs/2109.01652

  • OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017

有监督微调 (Supervised Fine-tuning, SFT)

此步骤未为了防止遇到敏感话题时,回复【不知道】这种无意义的回答,以加入一些人工标注数据,增加回复安全性,百级别的数据集即可完成。

bc35c516e632633b9947f933e0d17cc0.png

相关的一些论文:

  • Google 的 LaMDA:附录 A https://arxiv.org/abs/2201.08239

  • DeepMind 的 Sparrow: Sparrow :附录 F https://arxiv.org/abs/2209.14375

人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

描述:

  • 策略 (policy) :一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。

  • 行动空间 (action space) :LM 的词表对应的所有词元 (一般在 50k 数量级) ,

  • 观察空间 (observation space) 是可能的输入词元序列,也比较大 (词汇量 ^ 输入标记的数量) 。

  • 奖励函数是偏好模型和策略转变约束 (Policy shift constraint) 的结合。

此过程分为两步

  1. 聚合问答数据并训练一个奖励模型 (Reward Model,RM)

  2. 用强化学习 (RL) 方式微调 LM

开源数据集:

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用户提交的反馈。

d7bfa7352c085459adf4058d1ee66fba.png
image-20230221111329526

其他方法

这部分简单介绍一下和chatGPT使用的微调并列的一些方法

思维链 (Chain-of-thought,CoT)

如下图所示使用一些带有逐步推理的数据集进行微调

橙色是任务描述,粉色是问题和答案,蓝色是推理过程

36c218fce4df15a8589b5ad409384c1e.png

思维链提示 (Wei 等, '22): https://arxiv.org/abs/2201.11903

与chatGPT类似的工作

  • Meta 的 BlenderBot: https://arxiv.org/abs/2208.03188

  • Google 的 LaMDA: https://arxiv.org/abs/2201.08239

  • DeepMind 的 Sparrow: https://arxiv.org/abs/2209.14375

  • Anthropic 的 Assistant: https://arxiv.org/abs/2204.05862

引用

  • TRANSFORMER MODELS: AN INTRODUCTION AND CATALOG

  • WebGPT: Browser-assisted question-answering with human feedback

  • Training language models to follow instructions with human feedback

  • https://mp.weixin.qq.com/s/b0AI01-pUnXVWPPXix-hew

  • https://openai.com/blog/chatgpt/

  • https://mp.weixin.qq.com/s/eYmssaPFODjC7xwh1jHydQ

  • https://mp.weixin.qq.com/s/mXViN_GB9VC1WrXP1Q1iug

  • https://mp.weixin.qq.com/s/y9Jy9AyAyTCgCOKyMgTo3w

  • https://zhuanlan.zhihu.com/p/595891945

  • https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

  • https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

  • https://arxiv.org/pdf/1706.03762.pdf

  • https://arxiv.org/pdf/2005.14165.pdf

  • https://arxiv.org/pdf/1810.04805.pdf


进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息

f19b849de8e43ddbdd4a4747140a1d8a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2653.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新出炉:台大李宏毅老师关于ChatGPT原理剖析的三部曲

李宏毅【生成式AI】ChatGPT 原理剖析 (1/3) — 对ChatGPT的常见误解 李宏毅【生成式AI】ChatGPT 原理剖析 (2/3) — ChatGPT背后的关键技术: 预训练 (Pre-train) 李宏毅【生成式AI】ChatGPT 原理剖析 (3/3) — ChatGPT 所带来的研究问题

ChatGPT原理详解+实操

言 ChatGPT已近火了快大半年了,从去年刚出来的时候小编就关注了一下,也具体的使用过,然后就惊为天人,再然后就没有然后了,因为小编那段时间沉迷于AIGC了。ChatGPT今年开年后更是火的一塌糊涂,无论是行业内…

ChatGPT原理剖析:InstructGPT详解

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

ChatGPT原理简介

承接上文GPT前2代版本简介 GPT3的基本思想 GPT2没有引起多大轰动,真正改变NLP格局的是第三代版本。 GPT3训练的数据包罗万象,上通天文下知地理,所以它会胡说八道,会说的贼离谱,比如让你穿越到唐代跟李白对诗,不在一…

ChatGPT 原理解析:对ChatGPT的常见误解

本文目录: ChatGPT 原理解析:对ChatGPT 的常见误解 ChatGPT 原理解析:对ChatGPT 的常见误解 本文是台大李宏毅教授的深度学习课程的视频笔记。李宏毅教授的机器学习课程内行的都知道,大概是全世界最好、最完整的 Deep Learning 中…

ChatGPT原理简明笔记

学习笔记,以李宏毅的视频讲解为主,chatGPT的官方博客作为补充。 自己在上古时期接触过人工智能相关技术,现在作为一个乐子来玩,错漏之处在所难免。 若有错误,欢迎各位神仙批评指正。 chatGPT的训练分为四个阶段&#x…

ChatGPT原理解读

目录 GPT痛点基于人类反馈的强化学习机制(ChatGPT)step1:Fine-tune SFT模型step2:训练Reward模型step3:强化学习训练PPO模型 一些技术问题猜想ChatGPT的多轮对话能力ChatGPT的交互修正能力 GPT痛点 GPT作为一个通用大…

ChatGPT 基地

大家好,我是贺同学。 一直以来密切关注 ChatGPT 的趋势,最近相关的话题可谓是热度不减,并且相关的付费社群已经有雨后春笋般冒出来很多,但我最近发现一个比较独特的星球。 在这个星球里面,大家不搞噱头,而是…

关于安卓以及微软用户chatgpt上一篇文章如今第五点无法正常进入更新解决方法以及附加本地部署

目录 一、问题出现: 1、问题: 原因: 二、解决办法(本地部署chatgpt) 1、解决(国内网络使用真的chatgpt并非镜像)一次部署终生使用 第一步: ​编辑第二步: 三、实现结…

chatgpt赋能python:Python手机App开发:打包你的Python代码并在Android或iOS上运行

Python 手机App开发:打包你的Python代码并在Android或iOS上运行 Python是当今最受欢迎的编程语言之一,经过了十多年的发展,其用户群体已经非常庞大,和诸多行业广泛应用。从网站开发到机器学习和Data Science,Python都…

ChatGPT:如何使用正在改变一切的 AI 聊天机器人

转载自ChatGPT: How to use the AI tool thats changing everything | Digital Trends DownLoad 个人中心 ChatGPT 继续通过AI 生成的内容让互联网眼花缭乱,从一个新颖的聊天机器人转变为一项推动下一个创新时代的技术。不过,并不是每个人都参与其中&…

谷歌或被抛弃!ChatGPT 引爆手机市场新一轮洗牌:Android 手机销冠三星30亿美元大单欲改投 Bing...

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 整理 | 褚杏娟 核子可乐 今年三月,谷歌员工突遭意外打击:韩国消费电子巨头三星正考虑用微软 Bing 取代谷歌搜索,作为其设备上的默认搜索引擎。 以 New Bing …

利用ChatGPT进行表格的数据分析!

第一步:既然是分析表格数据,我们就先让GPT来生成一组表格数据,提问问题如下,你也可以自己发挥 请给我生成10组表格数据,姓名,年龄,基本工资,全勤奖励,绩效奖金&#xff0…

chatgpt帮你制作excel表格

场景: 让chatgpt帮你制作工作表格方法 输入你的需求,让chatgpt帮你解答逐步添加需求

ChatGPT辅助处理excel表格数据

选择使用方法 找现成的工具。试了两个,有各种问题。比如比如北大团队出品的ChatExcel等。我的表格列比较多,上传文件后需要砍掉一部分。输入几个命令以后就识别不了了。即使识别到了,输出也受限制,还不如手工处理。另外&#xff…

让ChatGPT来制作Excel表格,ChatGPT实现文本和表格的相互转换

Office 三套件可以说是现代办公族必备的办公工具。其中,Excel 因为内置的计算函数、VBA 宏等高级功能又成为了非专业人士最头疼的 Office 组件。非财务专业人士,估计平常会用的 Excel 函数仅限于 SUM(), AVERAGE() 等,甚至这些都是通过界面点…

使用ChatGPT处理Excel表格-终极指南

ChatGPT是由OpenAI开发的人工智能聊天机器人,可用于各种Excel任务,以提高您的办公效率,无论您是会计师、金融分析师、经理、管理员还是其他企业专业人士。 我们将讨论ChatGPT在Excel中可以帮助您的顶级方法。您会惊叹于使用ChatGPT将办公室在…

这么方便吗?用ChatGPT生成Excel(详解步骤)

文章目录 前言使用过 ChatGPT 的人都知道,提示占据非常重要的位置。而 Word,Excel、PPT 这办公三大件中,当属 Excel 最难搞,想要熟练掌握它,需要记住很多公式。但是使用提示就简单多了,和 ChatGPT 聊聊天就…

ChatGPT使用技巧—如何快速制作表格?

一、背景: 在学习或工作中,时常会需要做一些表格进行数据统计、分析,通常我们会用word或者excel做出表格,然后把数据一个个复制进去,非常慢,用了ChatGPT之后,你会发现工作会变得如此简单…

使用ChatGPT做简单Excel表格及数据分析

解锁 ChatGPT 表格能力 如果我们想用ChatGPT做一些简单的表格 或者想让他具备编辑分析能力 只需要在提问的时候告诉 ChatGPT:请以表格的形式展示回复的内容 这么说... 可能有点抽象 下面我们就用一个完整的例子展开学习一下 举例 假如我们拿到了下面这组数据 希望…