总结:一文搞懂chatGPT原理

目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。

  • 训练过程总览

  • 理清演化路径

  • 预训练(pretrain)

    • GPT-3概述

    • GPT 3模型的理念

    • GPT-3如何学习

    • 数据集

  • 指令微调 (Instruction Fine-Tuning,IFT)

  • 有监督微调 (Supervised Fine-tuning, SFT)

  • 人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

  • 其他方法

    • 思维链 (Chain-of-thought,CoT)

  • 与chatGPT类似的工作

训练过程总览

OpenAI 使用了 175B参数的大型语言模型(LM) 和 6B参数的奖励模型 (RM)。除预训练之外,训练过程分为三步:

  1. 收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集,并使用这些数据微调预训练的大型语言模型。包括指令微调有监督微调

  2. 从上述数据集中采样,使用大型语言模型生成多个响应,手动对这些响应进行排名,并训练奖励模型 (RM) 以适应人类偏好。

  3. 基于第一阶段的有监督微调模型和第二阶段的奖励模型,使用强化学习算法进一步训练大型语言模型。

理清演化路径

GPT-3.5 参数量仍然为175B,总体进化树如下:

img

img

预训练(pretrain)

GPT-3概述

  • GPT-3是一种自回归模型,仅使用解码器,训练目标也是预测下一个单词(没有判断下一句任务)。

  • 最大的GPT-3模型有175B参数,是BERT模型大470倍(0.375B)

image-20230221144754842

GPT 3模型的理念

  • 不需要接新的模型结构:如bert用于NER任务一般接LSTM+CRF

  • 不需要微调

  • 一个模型解决NLP多种任务

  • NLP任务都可以用生成模型解决

  • 和人类一样,只需要看极少数量的样例就能学会

GPT-3如何学习

  • 零样本学习:提供任务描述、提示

  • 单样本学习:提供任务描述、一个样例、提示

  • 少样本学习:提供任务描述、几个样例、提示

数据集

模型发布时间参数量预训练数据量
BERT-large2019 年 3 月3.75 亿约3.3GB
GPT2018 年 6 月1.17 亿约 5GB
GPT-22019 年 2 月15 亿40GB
GPT-32020 年 5 月1,750 亿45TB
  • BERT-large:BooksCorpus 800M words、 English Wikipedia 2.5Bwords

  • GPT:WebText2, BooksCorpus、Wikipedia超过 5GB。

  • GPT-2:WebText2, BooksCorpus、Wikipedia总量达到了40GB。

  • GPT-3:**WebText2, BooksCorpus、Wikipedia、Common Crawl **等数据集45TB数据。

    image-20230221153905277

指令微调 (Instruction Fine-Tuning,IFT)

收集NLP各种任务的数据集,加上任务描述和提示组装成新的数据集。chatGPT使用到的数据集如下:

image-20230221113507381

相关的一些论文:

  • Unnatural Instructions (Honovich 等, '22): https://arxiv.org/abs/2212.09689

  • Super-natural instructions (Wang 等, '22): https://arxiv.org/abs/2204.07705

  • Self-Instruct (Wang 等, '22): https://arxiv.org/abs/2212.10560

  • T0 (Sanh 等, '22): https://arxiv.org/abs/2110.08207

  • Natural instructions 数据集 (Mishra 等, '22): https://arxiv.org/abs/2104.08773

  • FLAN LM (Wei 等, '22): https://arxiv.org/abs/2109.01652

  • OPT-IML (Iyer 等, '22): https://arxiv.org/abs/2212.12017

有监督微调 (Supervised Fine-tuning, SFT)

此步骤未为了防止遇到敏感话题时,回复【不知道】这种无意义的回答,以加入一些人工标注数据,增加回复安全性,百级别的数据集即可完成。

相关的一些论文:

  • Google 的 LaMDA:附录 A https://arxiv.org/abs/2201.08239

  • DeepMind 的 Sparrow: Sparrow :附录 F https://arxiv.org/abs/2209.14375

人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)

描述:

  • 策略 (policy) :一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。

  • 行动空间 (action space) :LM 的词表对应的所有词元 (一般在 50k 数量级) ,

  • 观察空间 (observation space) 是可能的输入词元序列,也比较大 (词汇量 ^ 输入标记的数量) 。

  • 奖励函数是偏好模型和策略转变约束 (Policy shift constraint) 的结合。

此过程分为两步

  1. 聚合问答数据并训练一个奖励模型 (Reward Model,RM)

  2. 用强化学习 (RL) 方式微调 LM

开源数据集:

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用户提交的反馈。

image-20230221111329526

其他方法

这部分简单介绍一下和chatGPT使用的微调并列的一些方法

思维链 (Chain-of-thought,CoT)

如下图所示使用一些带有逐步推理的数据集进行微调

橙色是任务描述,粉色是问题和答案,蓝色是推理过程

思维链提示 (Wei 等, '22): https://arxiv.org/abs/2201.11903

与chatGPT类似的工作

  • Meta 的 BlenderBot: https://arxiv.org/abs/2208.03188

  • Google 的 LaMDA: https://arxiv.org/abs/2201.08239

  • DeepMind 的 Sparrow: https://arxiv.org/abs/2209.14375

  • Anthropic 的 Assistant: https://arxiv.org/abs/2204.05862

文章内容来自总结:一文搞懂chatGPT原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19158.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【一文系列】一篇文章记录gpt API的使用过程(python版)

【一文系列】一篇文章记录gpt API的使用过程(python版) “一文系列”目标是仅通过一篇文章来解决一个类别问题,简洁高效,快速获取知识,提升技能。 文章目录 【一文系列】一篇文章记录gpt API的使用过程(pyt…

一个时代彻底结束了。

最近和几个大佬们吃饭,都感慨时间真的好快!85年的,如今都快40岁了。90后,也都快35了。有几个大佬经历了PC互联网时代,移动互联网时代。吃足了红利。如果是2010年开启的是移动互联网时代,那么从18年之后&…

原美团联合创始人欲打造中国版 OpenAI ;ChatGPT 爆红惊动谷歌退隐创始人布林;Gradle 8.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

一个时代彻底结束了!

点击上方“码农突围”,马上关注 这里是码农充电第一站,回复“666”,获取一份专属大礼包 真爱,请设置“星标”或点个“在看 这是【码农突围】的第 439 篇原创分享 作者 l 突围的鱼 来源 l 码农突围(ID:smart…

输出链表(c语言)

输出链表 描述格式样例题解及详细注释 描述 根据给定的数据建立一个由n(n≤1000)个元素组成的链表,然后按逻辑顺序输出其中所有的数据。 每个元素节点由两个域组成:第一个域存储数据,第二个域存储后继元素所在的位置…

【编程实践】Linux / UNIX Shell编程极简教程

不同于一般的介绍Linux Shell 的文章,本文并未花大篇幅去介绍 Shell 语法,而是以面向“对象” 的方式引入大量的实例介绍 Shell 日常操作,“对象” 涵盖数值、逻辑值、字符串、文件、进程、文件系统等。这样有助于学以致用,并在用…

【编程语言】AWK 极简教程

1 概述 AWK 是一种解释执行的编程语言。它非常的强大,被设计用来专门处理文本数据。AWK 的名称是由它们设计者的名字缩写而来 —— Afred Aho, Peter Weinberger 与 Brian Kernighan。 由 GNU/Linux 发布的 AWK 版本通常被称之为 GNU AWK,由自由软件基金( Free Software Fou…

ANTI-PHISHING--如何用OCR检测网站?

一些碎碎念 钓鱼网站有典型的几种特征: 有表单有跳转链接有一些很抓马的关键词巨长巨长的链 通过三种判定条件划分它们的不同类别: 有没有表单有没有跳转链接有没有关键词出现 本菜鸡的思路是,先访问网站获取源码,过滤它有没…

Prompt合集

作者 来自:f Prompt主要内容 我想让你充当「英语翻译员」、「拼写纠正员」和「改进员」。 我会用任何语言与你交谈,你会检测语言,翻译它并用我的文本的更正和改进版本用英语回答。 我希望你用更优美优雅的「高级英语单词」和句子替换我简化…

BFT最前线丨浙江大学和蚂蚁集团合作,成立智能视觉实验室;ChatGPT 对亚洲节点大规模封号;谷歌CEO称将推出Bard升级版

文 | BFT机器人 01 浙江大学和蚂蚁集团合作,成立智能视觉实验室 据消息,浙江大学和蚂蚁集团达成合作成立「智能视觉联合实验室」,旨在推进智能视觉的技术创新和产业应用,重点攻坚包括机器视觉、三维重建、视觉内容生成等人工智能及…

内地见证可以办理哪些香港银行卡?哪家更方便门槛要求更低?

首先给大家打个预防针: 香港不像内地,香港银行大都收管理费、普通转账收费,非交易时间不能转,到账速度很难秒到! 现在不能去香港,那么很多银行是不能办理的,所以下面就只聊聊能内地见证办理的…

WhaleHiking的“三山五岳”第一站:泰山

Datawhale团队 来源:whaleHiking 开场白 大家应该都听说过杜甫的《望岳》——“会当凌绝顶,一览众山小。”,每次看见这句诗的时候,总想去泰山看一看,感受诗中的壮美山河景色! 机不可失时不再来&#xff0c…

玩转 ChatGPT+极狐GitLab|自动化的MR 变更评审来了

本文来自: 尹学峰 极狐(GitLab)高级解决方案架构师 自从 ChatGPT 闪亮登场以来,各种基于它的软件扩展纷至沓来。爱折腾的极狐GitLab 开发者们,也花式玩转起了 ChatGPT 极狐GitLab,让研发工作更高效。 今天,我们来看看…

深度:ChatGPT只是表面的喧嚣,大模型才是那柄尖刀!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 如果把时钟拨到2023年底,当我们回过头来看今年科技界最激动人心的大事件,ChatGPT的横空出世无疑会占据一席之地。就像几年前大家被谷歌AlphaGo点燃对人工智能的热情一样,人们对ChatGPT的热…

GPT-4:我不是来抢你饭碗的,我是来抢你锅的

目录 一、GPT-4,可媲美人类 二、它和ChatGPT 有何差别? 01、处理多达2.5万字的长篇内容 02、分析图像的能力,并具有「幽默感」 03、生成网页 三、题外话 四、小结 GPT-4的闪亮登场,似乎再次惊艳了所有人。 看了GPT-4官方的…

文心一言正式对标GPT-4,是青铜还是王者?

昨天,OpenAI正式发布GPT-4模型 号称史上最先进的AI系统 今天,百度文心一言在万众瞩目中闪亮登场 这款产品被视为中国版ChatGPT 在这一个多月内备受关注 文心一言某种程度上具有了对人类意图的理解能力 回答的准确性、逻辑性、流畅性都逐渐接近人类…

python详解(7)——进阶(1):排序算法

目录 🏆一、前言 🏆二、什么是算法(简单) 🚩1、算法 🚩2、排序算法 🏆三、冒泡排序(中等) 🏆四、快速排序(困难) 🏆五&…

如何解决ChatGPT 的数据保护盲点

自成立以来的短时间内,ChatGPT 和其他生成式 AI 平台理所当然地赢得了终极生产力助推器的声誉。然而,能够按需快速生成高质量文本的技术,可能同时暴露敏感的公司数据。最近发生的一件事,其中东方联盟网络安全研究人员将专有代码粘…

ChatGPT 的数据保护盲点以及安全团队如何解决这些盲点

自成立以来的短时间内,ChatGPT 和其他生成式 AI 平台理所当然地赢得了终极生产力助推器的声誉。 然而,能够按需快速生成高质量文本的技术,可能同时暴露敏感的公司数据。 最近发生的一起事件,三星软件工程师将专有代码粘贴到 ChatG…

ChatGPT 数据泄露的技术细节公开:引用的 Redis 开源客户端导致

出品 | OSC开源社区(ID:oschina2013) 在上周一,ChatGPT 遭遇了一次用户数据泄漏事件,许多 ChatGPT 的用户都在自己的历史对话中看到了其他人的对话记录。不光是对话的历史记录,不少 ChatGPT Plus 用户还在 Reddit 和 T…