台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

  • ChatGPT官方Blog:
  • ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:
    • (1)Chat GPT的學習四階段
      • 1.學習文字接龍
      • 2.人類老師引導文字接龍的方向
      • 3.模仿人類老師的喜好
      • 4.用增強式學習向模擬老師學習
    • (2)ChatGPT仍不是完美的,不足
  • ChatGPT总结:GPT 社會化的過程

  • 台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程报告链接:
    https://www.youtube.com/watch?v=e0aKI2GGZNg
  • 体验ChatGPT的Link:http://chat.openai.com/chat
  • ChatGPT官方Blog:http://openai.com/blog/chatgpt/

补充:

  • 本次报告PPT:ChatGPT (v6).pptx https://docs.google.com/presentation/d/1vDT11ec_nY6P0o–NHq9col5XEE4tHBw/edit#slide=id.p21
  • Instruct GPT 論文連結: https://arxiv.org/abs/2203.02155
  • GPT-3 介紹 – 來自獵人暗黑大陸的模型: https://youtu.be/DOG1L9lvsDY
  • INSIDE 以本影片為基礎撰寫的文章:https://www.inside.com.tw/article/30032-chatgpt-possible-4-steps-training

ChatGPT官方Blog:

  • ChatGPT官方Blog:http://openai.com/blog/chatgpt/
  • OpenAI在2022年11月30日发布:ChatGPT: Optimizing
    Language Models for Dialogue.
    (We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to
    InstructGPT, which is trained to follow aninstruction in a prompt and provide adetailed response.
    我们训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话格式使ChatGPT能够回答后续问题,承认错误,挑战不正确的前提,并拒绝不适当的任务。ChatGPT是InstructGPT的兄弟模型,ChatGPT经过训练可以按照提示执行指令,并提供详细的响应。)ChatGPT可以回答问题(喜欢标号123)、写代码、翻译、帮助改正语法错误
    请添加图片描述
    训练步骤:
  1. 收集演示数据并训练一个受监督的策略。(从prompt数据集中抽取prompt。标签器展示了期望的输出行为。这些数据用于使用监督学习微调gpt-3.5。 )
  2. 收集比较数据并训练一个reward奖励模型。(一个prompt和几个模型输出被采样。标签器将输出从最好到最差进行排序。这些数据被用来训练我们的奖励模型。)
  3. 使用PPO强化学习算法针对奖励模型优化策略。(从数据集中采样一个新的prompt。PPO模型由有监督策略初始化。策略生成一个输出。奖励模型为输出计算奖励。奖励用于使用PPO更新策略。 )

ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:

  • InstructGPT:《Training language models to follow instructions with human feedback》:https://arxiv.org/abs/2203.02155
  • GPT = Generative Pre-trained Transformer

(1)Chat GPT的學習四階段

1.學習文字接龍

GPT输出每一次都是不一样的,有随机性的。
请添加图片描述
请添加图片描述
请添加图片描述
缺点:每次输出都不同,导致后续接的话不符合我们的想法。
请添加图片描述
如何引導GPT產生有用的輸出呢?

2.人類老師引導文字接龍的方向

请添加图片描述
让GPT以後多看這些有益的文句,知道人类思考方向,减少阅读学习網路上的。
GPT不需要窮盡所有的問题·我們只是要告訴GPT人類的偏好,每种类型提供几个范例就足够。

3.模仿人類老師的喜好

公布ChatGPT的API,很多人去使用,可以收集这些问题,让ChatGPT产生问题答案,雇佣人类标注哪些答案好/差,人类老师只需要评价哪个比哪个好。
训练Teacher Model,需要输出分数,目的是:模仿老师评分标准。
请添加图片描述

4.用增強式學習向模擬老師學習

增強式學習:調整參數·得到最大的Reward,目的:希望GPT输出在Teacher Model中给予高分
请添加图片描述
请添加图片描述

(2)ChatGPT仍不是完美的,不足

简单的问题+没用的话。

ChatGPT总结:GPT 社會化的過程

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24092.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用chatgpt生成精美PPT提高工作效率

本教程收集于:AIGC从入门到精通教程 如何快速生成精美PPT提高工作效率 一、ChatGPT生成markdown源代码 二、Mindshow登录/注册 三、导入markd

达摩院榜首模型人脸检测MogFace CVPR论文深入解读

团队模型、论文、博文、直播合集,点击此处浏览 一、开源 1.)论文链接:MogFace: Towards a Deeper Appreciation on Face Detection 2.)模型&代码:https://modelscope.cn/models/damo/cv_resnet101_face-detecti…

GTC 2023 | 「皮衣刀客」黄仁勋畅谈 AI Top 5,科学计算、生成式 AI、Omniverse 榜上有名

内容一览:北京时间 3 月 21 日 23:00,英伟达创始人兼 CEO 黄仁勋在 GTC 2023 上发表主题演讲,介绍了生成式 AI、元宇宙、大语言模型、云计算等领域最新进展。 关键词:英伟达 黄仁勋 GTC 2023 「Don’t Miss This Defining Momen…

《WebRTC系列》实战 Web 端支持 h265 硬解

1、背景 Web 端实时预览 H.265 需求一直存在,但由于之前 Chrome 本身不支持 H.265 硬解,软解性能消耗大,仅能支持一路播放,该需求被搁置。 去年 9 月份,Chrome 发布 M106 版本,默认开启 H.265 硬解&#xf…

极客公园对话 Zilliz 星爵:大模型时代,需要新的「存储基建」

大模型在以「日更」进展的同时,不知不觉也带来一股焦虑情绪:估值 130 亿美元的 AI 写作工具 Grammarly 在 ChatGPT 发布后网站用户直线下降;AI 聊天机器人独角兽公司 Character.AI 的自建大模型在 ChatGPT 进步之下,被质疑能否形成…

云平台的ChatGLM部署

最近ChatGPT很火,国内清华也发布了ChatGLM,于是想在云平台上实现一下小型的ChatGLM。目前准备在趋动云这个平台上试试ChatGLM-6B-int8。 目前ChatGLM-6B-int8显存最少需要10G 可以参考GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialo…

高通Ziad Asghar:AI处理的重心从云端向边缘侧转移,智能手机是最佳平台 | MEET 2023...

萧箫 整理自 MEET 2023量子位 | 公众号 QbitAI 从Stable Diffusion到ChatGPT,这半年AI算法应用可谓突飞猛进。 但对于硬件领域而言,AI计算的下一个突破口或未来趋势究竟是什么? 尤其是AI应用最大的领域之一——移动端,大量AI算法在…

Stable Diffusion免费(三个月)通过阿里云轻松部署服务

温馨提示:划重点,活动入口在这里喔,不要迷路了。 其实我就在AIGC_有没有一种可能,其实你早就在AIGC了?阿里云邀请你,体验一把AIGC级的毕加索、达芬奇、梵高等大师作画的快感。阿里云将提供免费云产品资源&…

如何通过限制 IP 相关信息 | 控制用户访问站点频率

文章目录 通过 IP 限制反爬实验介绍知识点课程环境 IP 限制实战用 Nginx 限制特定 IP关于 allow 和 deny 的使用说明Nginx 限制 IP 访问频率Python Flask 模拟 IP 黑名单 实验总结 通过 IP 限制反爬 实验介绍 在常规的反爬手段中,IP 限制是应用广泛且比较有效的&a…

win11 报错 你的IT管理员已经限制对此应用一些区域的访问 解决方法

你的IT管理员已经限制对此应用一些区域的访问,你尝试访问的项目不可用。有关详细,请与你的IT支持人员联系。 1.按下wins,在框中输入cmd,右键管理员身份运行 2.在命令提示符中输入 reg add “HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows Def…

wordpress开放注册和邮件问题解决

1开放注册 WordPress后台,设置-常规,勾选任何人都可以注册前面的复选框,新用户角色改为作者,保存即可开启。 2新用户注册收不到邮件问题解决 wordpress配置SMTP服务发送邮件(以qq邮箱为例) 第一步、配置邮箱(这里介绍qq邮箱) 我试过多个…

SLAM基础知识汇总【长期更新】

SLAM基础知识汇总 特征点相关 特征点由关键点和描述子构成: 关键点:特征点在图像里的位置描述子:通常是一个向量,描述了该关键点周围的信息,朝向大小等 [ORB-SLAM2] ORB-SLAM中的ORB特征(提取&#xff…

国科大数字图像处理(复习与整理)

图像处理复习笔记: 1、证明一个系统是线性系统2、证明函数卷积的傅里叶变换等于函数傅氏变换后的乘积3、采样定理与混叠4、直方图均衡化第一节课知识点第二节课知识点第三节课知识点第四节课知识点第五节课知识点第六节课知识点第七节课知识点第八节课知识点第九节课…

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

0 写在前面 分享最近在BEV感知方面的工作,欢迎自动驾驶同行交流学习,助力自动驾驶早日落地。 1.概述 对于自动驾驶而言,BEV(鸟瞰图)下的目标检测是一项十分重要的任务。尽管这项任务已经吸引了大量的研究投入&#…

CCF认证202305-1重复局面

题目背景 国际象棋在对局时,同一局面连续或间断出现3次或3次以上,可由任意一方提出和棋。 问题描述 国际象棋每一个局面可以用大小为 的字符数组来表示,其中每一位对应棋盘上的一个格子。六种棋子王、后、车、象、马、兵分别用字母 k、q、…

地鼠君黑盒测试--小白如何梳理需求,告别听不懂

没有需求文档的痛苦 刚开始作黑盒(功能)测试时,小白难免会遇到这种情况,就是需求梳理不清晰,没有需求文档或者需求文档太简单。这种一开始没人带时,不容易发觉后续测试多痛苦。 笔者一开始时,就…

记一次购买海外服务器的经历和python包管理小记

概述 最近在研究ChatGPT,需要有个服务器一直挂着,刚好看到raksmart在搞活动; 可以关注下,他们的活动页面 https://billing.raksmart.com/whmcs/index.php?rp%2Fannouncements&languagechinese-cn 刚好四月,有便…

No signature of method: build_*.android() is applicable for argument types

意思很直观:就是build的时候,android()的参数错误。 更新android studio 后出现这种问题,主要是新版本的生成的app和module模版有所变化引起的。 Android Studio Electric Eel | 2022.1.1 Patch 1 Build #AI-221.6008.13.2211.9514443, built…

01 Faster R-CNN系列

目录 一、 R-CNN 1. R-CNN流程(4个步骤 ) 2. RP的确定 3. 预训练模型微调(backbone) 4. SVM的分类 5. bbox regression的训练 6. NMS 二、 Fast R-CNN 1. Fast R-CNN算法流程 2. 候选区域生成 3. 预训练模型微调&#…

ChatGPT API 遇见 Tistory:自动化英语学习博客

这是通过集成 ChatGPT API 创建自动化英语学习内容系列中的第三部分。 转发: ChatGPT API Meets Tistory: The Automated English Learning Blogs 项目介绍 介绍 这是通过集成 ChatGPT API 创建自动化英语学习内容系列中的第三部分。 我正在尝试整合各种平台。 第一个是 Se…