第3章 ChatGPT简介

3.1ChatGPT厚积薄发

最近,工智能公司OpenAI推出的ChatGPT风靡全球,其上线仅两个月,注册用户破亿。ChatGPT包含丰富的知识,不仅能更好地理解人类的问题和指令,流畅进行多轮对话,还在越来越多领域显示出解决各种通用问题和推理生成能力。许多人相信,ChatGPT不仅是新一代聊天机器人的突破,也将为信息产业带来巨大变革,也预示着AI技术应用将迎来大规模普及。

ChatGPT表现不俗?其背后的技术有哪些?

3.2 从GPT到GPT-3

3.3 从GPT-3到ChatGPT的进化路线图

下图为从最初的GPT-3到GPT-3.5的进化路线图。

图1 GPT-3初版到ChatGPT的进化路线图

其中text—davinci—002是在code—davinci—002的基础上使用InstructGPT训练方法改进的。GPT-3.5在GPT-3的基础上加入了代码的能力,ChatGPT的代码训练中,很多数据来自于类似Stack Overflow这样一些代码问答的网站,所以我们会发现它做简单的任务其实做得还蛮好的。

从图1可知,GPT-3为ChatGPT打下了扎实的基础,但codex、RLHF等技术新增很多新功能,挖掘了GPT-3的潜力。

3.4 使GPT-3初版升级到ChatGPT的多项关键技术

从图1可知,这两项关键技术是代码训练(Codex)、RLHF及TAMER等

1、Codex

Codex 模型系列是 GPT-3 系列的后代,它经过了自然语言和数十亿行代码的训练。该模型系列精通十几种语言,包括 C# JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL甚至Shell,但最擅长 Python。

你可以使用Codex完成各种任务,包括:

  • 将注释转换为代码

  • 在上下文中补全下一行代码或函数

  • 为你提供一些知识,例如为应用程序查找有用的库或 API 调用

  • 添加注释

  • 重写代码以提高效率

Codex如何训练的呢?

首先,在GITHub数据上预训练模型。这个模型可以合理地表征人类编码空间,可以极大地减少搜索量级。使用带tempering的GOLD目标函数,结合编程竞赛数据集,微调模型。可有进一步降低搜索空间,给每个编程题目生成一个较大的样本集;过滤这个样本集,得到一个较小的候选结果集。

然后,进行代码补全,代码补全这个任务的特殊性:具体来说,传统的NLP任务,生成的结果越接正确答案,那么模型得分越高,但是代码不是这样的,代码但凡有一点点小Bug,都可能造成毁灭性的结果。所以对于代码补全任务,判断生成代码的正确与否就是使用的单元测试(unittest)。

针对代码补全这样一个特殊问题,作者提出了一个pass@k的一个指标,生成k个结果,只要有一个通过就算通过(k如果比较大,就会对模型的能力过度乐观,当k比较大的时候,虽然模型分数比较高,但是在使用时,会给用户返回一大堆代码,让用户去选,这个也是很难的,所以说需要排算法,但这个分数并没有反映排序)。

在预训练过程中引入程序代码,和文本一起参与预训练,以此进一步增强大型语言模型(Large Language Model,LLM)的推理能力。这个结论从不少论文的实验部分都可以得出。如图3所示。

图3 有关codex的试验数据

从图3给出的实验数据,来自于论文“On the Advance of Making Language Models Better Reasoners”,其中GPT-3 davinci就是标准的GPT-3模型,基于纯文本训练;code-davinci-002(OpenAI内部称为Codex)是同时在Code和NLP数据上训练的模型。如果比较两者效果,可以看出,不论采用具体哪种推理方法,仅仅是从纯文本预训练模型切换到文本和Code混合预训练模型,在几乎所有测试数据集合上,模型推理能力都得到了巨大的效果提升。

2、RLHF

人类反馈强化学习(ReinforcementLearning from Human Feedback,RHFL)模型将预训练语言模型按照人类反馈进一步微调以符合人类偏好,利用人类反馈信息直接优化模型。Open AI 采用了人类反馈强化学习作为ChatGPT和核心训练方式,并称其是“能有效提升通用人工智能系统与人类意图对齐的技术”。RLHF 的训练包括三个核心步骤:

(1)预训练语言模型(也可以使用额外文本进行微调,监督微调新模型可以让模型更加遵循指令提示,但不一定符合人类偏好)。

(2)对模型根据提示(prompt)生成的文本进行质量标注,由人工标注者按偏好从最 佳到最差进行排名,利用标注文本训练奖励模型,从而学习到了人类对于模型根据给定提示生成的文本序列的偏好性。

(3)使用强化学习进行微调,确保模型输出合理连贯的文本片段,并且基于奖励模型对模型输出的评估分数提升文本的生成质量。

详细过程如图4所示。

图4 RHFL的训练过程,

原图来自:Learning to summarize from human feedback

3、TAMER

TAMER(Training an Agent Manually via EvaluativeReinforcement,评估式强化人工训练代理)框架。该框架将人类标记引入到智能体(即强化学习中的Agents)的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。其架构图如下所示。

3.5 ChatGPT训练过程

3.6ChatGPT不断迭代的路线图

3.7ChatGPT的不足

尽管ChatGPT在上下文对话能力甚至编程能力上表现出色,完成了大众对人机对话机器人由“人工智障”到“人工智能”的突破,我们也要看到,ChatGPT仍然有一些局限性,还需不断迭代进步。

(1)ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。

(2)ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等专业领域的问题,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答。

(3)ChatGPT还没法在线的把新知识纳入其中,而出现一些新知识就去重新预训练GPT模型也是不现实的。

(4)训练ChatGPT需要耗费非常大量的算力,成本还是很大的。

3.8ChatGPT应用场景

ChatGPT能够提供高效的信息获取方式,有望成为重要的生产工具,潜在应用领域广泛。业界普遍认为,ChatGPT将在智能办公、智慧科研、智慧教育、智慧医疗及游戏、新闻等领域迅速落地。在金融、传媒、文娱、电商等领域,ChatGPT可以为各类消费群体提供个性化、高质量的服务,解锁多领域智慧应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT app安装指南

当前只支持ios安装,现在大部分app store里的app都不是官方的,要下载官方app参照如下步骤: 1.切换appStore账号到国外注册appStore账号,注意不是icloud账号。 给大家提供个账号,下载使用完了退出下! 另外特…

ChatGPT Prompt工程浅谈

ChatGPT 火爆出圈了,有些人惊叹于它的能力,当然也有部分人觉得也就那样。这就不得不提 Prompt 了,据说【相关文献1】,ChatGPT 效果好不好完全取决于你的 Prompt,“看来 Propmt 也成一个技术活儿了”。 当我这么想的时候…

ChatGPT扩展系列之ChatGPT for Google

ChatGPT扩展系列之ChatGPT for Google Google搜索只是关键词检索,在回答问题方面,没有ChatGPT这样的文本理解能力和生成能力,而安装上了ChatGPT for Google,则可以在使用Google搜索的同时开启ChatGPT,关键词检索、文本生成都不耽误。 下面我们介绍一下如何在谷歌浏览器中…

10个值得收藏的ChatGPT辅助编程技巧

在我们开始之前,你必须先了解编程语言,然后才能相信 ChatGPT 抛给你的任何东西。 我必须明确这一点,因为许多误入歧途的绵羊被告知 ChatGPT 是新的圣杯,开发人员将被淘汰。 推荐:用 NSDT场景设计器 快速搭建3D场景。 使…

全新视角!带你一文读懂ChatGPT!

最了解你的人不是你的朋友,而是你的敌人。 ——《东邪西毒》 目录 什么是ChatGPT? ChatGPT为什么会突然爆红网络? ChatGPT能帮助我们做什么? 获取源码?私信?关注?点赞?收藏&…

chatGPT的体验,是不是真智能?

目录 🏆一、前言 🏆二、安装 🏆三、普通对话 🚩1、chatGPT的ikun性 🚩2、chatGPT的日常对话 🏆四、实用能力 🏆五、代码改正 🏆六、写代码 🏆七、讲解代码 🏆…

ChatGPT 会开源吗?

最近,我被一款叫做 ChatGPT 的人工智能(AI)聊天机器人,刷屏了。网上有人说它是搜索引擎杀手,还有人说它将取代程序员... 最后,我还是没扛住铺天盖地的赞美,跑去注册了个账号,抱着调侃…

如何将文档上传到 ChatGPT

OpenAI 一直在为 ChatGPT 添加几个有趣的功能,包括对网页浏览和插件的支持。但是,仍然没有办法本地上传文档并根据其上下文提出问题。当然,有些用户可以在他们的数据上训练 AI 聊天机器人,但并不是每个人都了解如何设置工具和库。…

调用ChatGPT API

安装 pip install openai找到openai.api_key 首先登录到OpenAI API界面(https://platform.openai.com/),点击右上角的账号弹出的列表中,点击view API keys。跳转到API key界面,点击Create new secret key(如果你已经生成过key并且记录下来就…

ChatGPT 简介

目录 1 背景与发展历程1.1 背景1.2 发展历程 2 技术原理2.1 第一阶段:训练监督策略模型2.2 第二阶段:训练奖励模型2.3 第三阶段:采用强化学习来增强模型的能力。 3 国内使用情况及应用的领域4 面临的数据安全挑战与建议4.1 ChatGPT获取数据产…

ChatGPT调研

ChatGPT调研 背景:ChatGPT简单介绍FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERSFine-Tuning Language Models from Human PreferencesLearning to Summarize with Human FeedbackTraining language models to follow instructions with human feedbackChatGPT…

chatGPT

目录 前言一、chatGPT是什么?二、chatGPT存在对现社会各方面的影响1.学生2.公司3.名人 三、意义四、缺点五、态度六、总结 前言 近些天来,相信大家都被charGPT刷屏了,那么接下来我想就个人的观点讨论一下其影响与意义所在,并且对…

国内几款强大的语言模型

写在前面 Hello大家好, 我是【麟-小白】,一位软件工程专业的学生,喜好计算机知识。希望大家能够一起学习进步呀!本人是一名在读大学生,专业水平有限,如发现错误或不足之处,请多多指正&#xff0…

ChatGPT简单介绍:

目录 ChatGPT介绍:一、ChatGPT是什么?二、ChatGPT发展:三、ChatGPT 优点:五、结语: ChatGPT介绍: 一、ChatGPT是什么? ChatGPT 是一个基于语言模型 GPT-3.5 的聊天机器人,ChatGPT模型是Instruct GPT的姊妹模型(siblingmodel),使…

一文读懂ChatGPT(全文由ChatGPT撰写)

最近ChatGPT爆火,相信大家或多或少都听说过ChatGPT。到底ChatGPT是什么?有什么优缺点呢? 今天就由ChatGPT自己来给大家答疑解惑~ 全文文案来自ChatGPT! 01 ChatGPT是什么 ChatGPT是一种基于人工智能技术的自然语言处理系统&…

铲特-姬劈蹄的N种用法(持续更新中。。。)

目录 前言一、语法更正二、文本翻译三、语言转换3-1、Python-->JAVA 四、代码解释-1五、代码解释-2六、修复代码错误七、作为百科全书八、信息提取九、好友聊天十、创意生成器10-1、VR和密室结合10-2、再结合AR 十一、采访问题11-1、采访问题清单11-2、采访问题清单并给出相…

ChatGPT百科全书(全网最全面)

引言 ChatGPT是什么? ChatGPT是一款先进的自然语言处理(NLP)模型,由OpenAI开发和维护。它基于OpenAI的第四代生成预训练Transformer(GPT-4)架构,旨在通过深度学习技术理解和生成人类语言。Chat…

几款强大的工具

💬 如果文章对你有帮助,欢迎关注、点赞、收藏和订阅专栏哦 为使用人工智能编程而构建的编辑器,一款人工智能编程软件、智能Ai代码生成工具。提高客户服务水平:它可以通过自然语言处理技术,快速、准确地回答客户的问题…

SpringCloud(五)Gateway 路由网关

一、路由网关 官网地址:https://docs.spring.io/spring-cloud-gateway/docs/current/reference/html/ 我们需要连接互联网,那么就需要将手机或是电脑连接到家里的路由器才可以,而路由器则连接光猫,光猫再通过光纤连接到互联网&a…

基于C语言设计的足球信息查询系统

完整资料进入【数字空间】查看——baidu搜索"writebug" 需求分析与概要设计 2.1 项目说明 我们小组的选题主要是面向足球爱好者,在普通社交软件的基础之上,围绕足球的主题展开设计,以便于他们能够更好的交流相关的话题&#xff…