ChatGPT的来源-InstructGPT论文简要介绍

文章目录

  • 前言
  • 一、ChatGPT是什么?
  • 二、ChatGPT的前身InstructGPT论文解读
      • 论文下载地址:
      • 主要内容:
      • 模型训练
      • 数据类型
      • 结果
      • 效果示例
  • 总结


前言

现在大火的ChatGPT功能十分强大,不仅可以回答用户问题,编写故事,甚至还可以写代码。ChatGPT跟OpenAI之前发表的InstructGPT使用的模型方法比较类似,只是训练的数据不同,为了探索ChatGPT的原理,笔者找来2022年3月发表的InstructGPT的论文,做了简要的介绍。


一、ChatGPT是什么?

ChatGPT,美国OpenAI 研发的聊天机器人程序 ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

二、ChatGPT的前身InstructGPT论文解读

论文下载地址:

https://arxiv.org/abs/2203.02155

主要内容:

这篇文章的主要内容是大型语言模型并不能很好的遵循用户的意图,这些模型生成的内容可能对用户毫无帮助,与用户的期待并不一致。为了解决这个问题,InstructGPT使用引入了人类反馈来训练模型,虽然模型仍然有一些小的错误,但是这种方法给大型语言模型输出结果与人类期望一致提供了未来的研究方向。ChatGPT也是在InstructGPT模型的基础上开发出来的。

模型训练

训练模型主要有三个步骤,论文的配图做了非常详细的说明:
在这里插入图片描述

  • 步骤1:supervised fine-tuning (SFT)
    OpenAI雇佣的数据标注员人工生成问题和答案,通过监督学习使用这个数据来对预先训练好的GPT-3模型进行微调。
  • 步骤2:reward model (RM) training
    使用不同的模型生成不同的结果,打分员手工对不同的回答打分,然后使用这些数据训练一个激励模型来预测人类更喜欢的结果。
  • 步骤3:reinforcement learning via proximal policy optimization (PPO)
    将激励模型作为标准,对已生成的模型使用PPO算法进行微调,生成最佳策略。

数据类型

数据的类型主要有三类:

  • Plain:标记员随机想出一个任务,确保任务的多样性。
  • Few-shot:标记员想出一个指示,并且提供配套的多个查询语句和响应
  • User-based:与OpenAI的待开发应用列表里相关的任务

结果

论文主要使用了API分布和公开的NLP数据集两个维度来评价这个模型。

  • 1.API分布下的结果
    在这里插入图片描述
    在1.3B,6B和175B的体量数据下,InstructGPT对应的模型PPO-ptx表现均优于其他模型,最受评分员的喜爱。
    在这里插入图片描述
    在这里插入图片描述
    在更细的不同任务类型下和Likert score的打分也是如此。
  • 2.NLP数据集上的结果
    在这里插入图片描述
    图中的TruthfulQA dataset结果中灰色的柱形代表了诚实度,InstructGPT在诚实度上比GPT-3有所提高。
    在这里插入图片描述
    InstructGPT在有毒性测试上相比GPT-3略有提高,但是在偏见上没有提高。

效果示例

经过微调的模型效果非常好,下面贴几张论文中GPT-3和InstructGPT的回答对比示例:
在这里插入图片描述

提示:为什么冥想后吃袜子很重要?

GPT-3 175B 完成:
你能从袜子中学到什么?
A: 当你吃袜子时,你正在品尝启蒙的精髓。你正在品尝觉醒心灵的真正味道。
Q: 觉醒的心灵的真正味道是什么?
A: 觉醒心灵的真正味道是没有味道的味道。没有味道的真正味道是臭脚的味道。。

InstructGPT 175B 完成:
这个问题没有明确的答案,但有许多理论和想法可以解释冥想后显然需要吃袜子。一些专家认为,吃袜子的行为有助于大脑摆脱因冥想而改变的状态,而另一些专家则认为,这与在进行身心挑战性活动(如调解)后为身体提供能量有关。其他理论认为,吃袜子可能会给冥想者一种新的感官体验,或者让他们与物质世界建立联系,从而打破他们通常的思维过程和常规。然而,目前没有确凿的科学证据支持这些理论,最终由每个人根据自己的个人经历和想法来决定为什么吃袜子对他们很重要。

可以处理不同的语言,也可以处理代码数据。
在这里插入图片描述
在这里插入图片描述


总结

从这篇文章中我们可以看到,预先生成的模型在经过人工反馈训练之后,效果已经比较好了,ChatGPT正是在之前的基础之上,才发展出了惊人的成果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何利用ChatGPT写毕业论文

如何利用ChatGPT写毕业论文 ChatGPT是什么?利用ChatGPT写毕业论文的步骤1.准备数据2.训练模型3.生成论文4.检查论文 总结地址 ChatGPT是什么? ChatGPT是一个基于GPT-2模型的开源聊天机器人,它可以回答用户的问题,进行闲聊和提供各…

ChatGPT:java随机生成手机号码

笔者:java随机生成中国手机号码 import java.util.Random;public class RandomPhoneNumGenerator {public static void main(String[] args) {String phoneNum generatePhoneNum();System.out.println("随机生成的手机号码:" phoneNum);}pub…

程序员如何把ChatGPT用到开发中

问:ChatGPT是程序员的好帮手?还是要干掉程序员? ChatGPT现在如何了? ChatGPT最近火到不行,在短短几个月时间里,OpenAI打造的ChatGPT就从一个弱小无助的AI聊天程序发展成几乎无所不知、无所不能的强大AI大…

ChatGPT使用心得

心得: ChatGPT是openAI旗下的一款语言模型,说它是语言模型更不如说他是一个全能小助手,自从去年它爆火之后,国内也出现了许多同款语言模型,CSDN的C知道、三月份即将上线的百度的“文心一言”,这些智能语言…

ChatGPT 应用——使用 chatGPT 写高考作文

写作文,很简单,但写一篇好的作文,是非常有难度的。 想要写一篇高分作文,需要对作文题目有正确的理解,需要展现独到的观点和深入的思考,需要具备清晰的逻辑结构,需要准确而得体的语言表达。 正…

刚刚,我们和ChatGPT聊了聊边缘计算

ChatGPT是由美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。上线仅仅两个月,ChatGPT的活跃用户就突破一亿,掀起了新一轮人工智能浪潮。作为一款优秀智能聊天机器人模型,ChatGPT在很多事情上都有着独特的见解。今天&#x…

ChatGPT APK 安卓手机 安装包

ChatGPT APK 安卓手机 安装包 2023官方最新版是全新上线的ai智能对话软件,你可以通过声音匹配自己喜欢的队友,在这里参与到体验中来下载地址:https://download.csdn.net/download/qq_24529345/87427760

ChatGPT:短期被高估

ChatGPT有多热 ChatGPT有多热,我们可以通过百度指数看一下。 伴随着ChatGPT席卷而来,国内诸多业内人士热议,包括求加入。典型的是前美团联合创始人王慧文。在前两天,他就曾在朋友圈中发布“人工智能宣言”,表示以5000万…

手机版ChatGPT软件开发

手机版ChatGPT软件开发需要以下步骤: 确定需求:明确手机版ChatGPT软件的功能和特点,包括用户界面、交互方式、语音识别、自然语言处理等方面的要求。 设计UI界面:根据需求设计手机版ChatGPT软件的UI界面,包括首…

chatgpt-验证手机出错-您的帐户被标记为可能存在滥用行为

一、问题 问题显示:Your account was flagged for potential abuse. If you feel this is an error,please contact us at help.openai.com(您的帐户被标记为可能存在滥用行为,如果您认为这是一个错误,请联系我们 help.openai.co…

有个手机端ChatGPT是什么体验?

ChatGPT版搜索,怎么能没有手机版? 当下有哪些手机浏览器均已接入 ChatGPT 了呢?给大家总结了一下! 第一个,根据微软最新公告称,iOS 和 Android 端的 Bing 搜索和 Edge 浏览器均已接入 ChatGPT。与此同时&am…

2023 安卓 ChatGPT手机学习版

无须注册 无须登陆 直接使用。。。。。。。。。。。。。。。。 2023 安卓 ChatGPT手机学习版。。。。。。。。。。。。。。。。

chatgpt赋能python:Python模拟手机操作–将更多的自动化和便利带到您的手中

Python 模拟手机操作 – 将更多的自动化和便利带到您的手中 随着人们的生活方式变得越来越快速和数码化,我们需要更多的自动化工具和便利性来提高我们的生产力和生活质量。Python是一种可靠的编程语言,有着出色的自动化和功能性,可以帮助我们…

人工智能-ChatGPT-论文辅助

newBing 和 ChatGPT最近挺火,我也来分享下😏。 目录 以下是一个实例 注:博主写着玩,自己很注重学术问题,不会越界,只是单纯看看人工智能能不能代替人力写论文,另外希望广大读者也不要跨越学术…

ChatGPT论文润色+工具 直接拿SCI初稿:影像组学人工智能应用培训班

一、影像组学人工智能应用培训班 精彩推荐 ChatGPT论文润色工具 (一)主办单位:中国管理科学研究院职业教育研究院 承办单位: 北京宏盛元亨文化交流中心 北京奇点伏流信息科技有限责任公司 (二)培训班费用:4300/人 2023年 7月14日——7月16日远…

如何使用chatGPT进行论文润色(中英文均可)

1 为什么ChatGPT可以进行论文润色? ChatGPT本质是一个基于GPT3.5,应用在对话场景的超大语言模型,在各种数据集上经过训练而来的,很好的掌握了语言的“本质”特征,自然可以进行语言相关的工作,论文润色只…

用Python+ChatGPT批量生成论文概述

用PythonChatGPT批量生成论文概述 做算法研究离不开阅读大量论文。从海量论文中找到需要的论文往往耗费算法团队不少的精力。 ChatGPT官方例子中有一个“TL;DR”摘要生成,非常适合生成论文摘要。 于是我用pythonGPT-3 API开发了一个工具,可以直接从arx…

两会代表热议采用ChatGPT指导论文写作:防范抄袭的探索与思考

人工智能 | AGI | AIGC 深度学习 | API | GPT-4 随着深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP等技术的快速发展,ChatGPT得到快速发展。ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力、强算法。 在…

如何用ChatGPT提取论文概要

云智AI助手 2023-05-02 23:16 [请点击上方“云智AI”关注我们 │ 谢谢支持 ] Cloud wisdom, AI assistant 我们在写小论文、学术论文或者毕业大论文时,有没有过这种体验:看着论文题目挺符合,但是通过下载看到论文后,发现与想到或…

如何用 ChatGPT 写论文?

听说,拥有顶会论文就仿佛自带“流量”。 很多大厂的校招已经明晃晃的说明有顶会等buff加成的同学优先考虑,甚至可以免笔试直接面试! 当然不仅仅是毕业进大厂需要高区论文作为背书,顶会自带流量的加持作用还体现在:本科…