ChatGPT 原来是这样工作的(上)

大家好,我是技福的小咖老师。

ChatGPT 发布以来,蹿红的速度比马斯克设计的火箭还快。据报道,ChatGPT在开放试用的短短几天里,就吸引了超过 100 万互联网注册用户。ChatGPT如同是“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。

公众一直在玩ChatGPT,ChatGPT 实际是如何工作的呢?虽然其内部实现的细节尚未公布,但从最近的研究中,我们还是可以一窥其基本原理的。内容比较多我们分两次给大家讲解。

什么是ChatGPT ?

ChatGPT 是OpenAI的最新语言模型,是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型。与许多大型语言模型类似,ChatGPT能够生成多种风格和不同目的的文本,但具有更高的精度、细节和连贯性。它代表了OpenAI大语言模型系列的下一代,它的设计重点是交互式对话

OpenAI使用RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习)技术对 ChatGPT 进行了训练,并且 使用监督学习和强化学习的组合来调优 ChatGPT。该方法在训练中使用了训练师的反馈,用以最小化有害、失真或是有偏见的内容输出。

 

大型语言模型中的能力与一致性

Capability vs Alignment in Large Language Models

alignment vs capability" can be thought of as a more abstract analogue of "accuracy vs precision

在机器学习时,模型的能力是指模型执行特定任务或任务集的能力。模型的能力通常通过以下方式进行评估:如何优化其目标函数,定义模型目标的数学表达式。例如,用于预测股票价格的而设计的模型,可能有一个目标函数,用于衡量模型预测的准确性。如果模型能够准确预测股票价格随时间的变化,那么它将被视为具有较高的执行能力的模型。

一致性关注的是我们实际上希望模型做什么。它提出的问题是“目标函数是否符合我们的意图”,并且基于模型的目标和行为,在多大程度上与我们人类的价值观和和期望一致。举个简单的例子,假设我们要训练一个鸟类分类器,把鸟类分类为“麻雀”或“知更鸟”,并使用对数损失为训练目标,尽管我们的最终目标是很高的分类精度。该模型可能具有较低的对数损失,即模型的能力较强,但精度较差,这就是一个不一致的例子。模型可以优化培训目标,但与我们的最终目标不一致。

然而,在实际应用中,这些模型的目的是执行某种形式的有价值的认知工作,这些模型的训练方式与我们希望使用它们的方式之间存在着明显的分歧。尽管从数学上讲,机器计算的单词序列的统计分布可能是一种高效的选择,但实际上,我们会通过选择最适合给定情境的文本序列来生成语言,并使用我们的背景知识和常识来指导这一过程。当语言模型用于需要高度信任或可靠性的应用程序(如对话系统或智能个人助理)时,这可能会成为一个问题。

虽然在过去几年里,这些基于大量数据训练的模型变得极为复杂、强大,但当应用于实际人们生活生产时,它们往往无法发挥出潜力。大型语言模型中的一致性问题通常表现为:

缺乏有效帮助

-- 没有遵循用户的明确指示。

虚构幻象

-- 模型会虚构不存在或错误的事实。

缺乏可解读性

-- 人们很难理解模型是如何得出特定决策或预测结果的。

训练内容偏见有

-- 经过有偏见、有害数据训练的语言模型,可能会在输出中重现这些数据,即使没有明确指示这样做。

但具体来说,一致性问题是从何处来的?它是语言模型的训练方式本身就容易产生不一致吗?

语言模型训练策略如何产生

How language model training strategies can produce misalignment

Next-token-prediction 和 masked-language-modeling 是用于训练语言模型的核心技术,例如:在第一种方法中,模型被赋予一系列单词(或“标记”,即部分单词)作为输入,并被要求预测序列中的下一个单词。假如给模型输入句子

"The cat sat on the"

它可能会预测下一个单词为「mat」、「chair」或「floor」,因为在前面的上下文中,这些单词出现的可能性很高;语言模型实际上能够预估输入内容前面的序列,每个可能使用的单词的可能性

masked-language-modeling 方法是 Next-token-prediction 的变体,其中输入句子中的一些词被替换为特殊标记,例如 [MASK]。然后,模型被要求预测应该插入的正确单词。如果给模型一个句子:

“The [MASK] sat on the ”

它可能会预测下一个单词是「cat」、「dog」, 或 「rabbit」。

这些目标函数的一个优点是,它允许模型学习语言的统计结构,例如常见的单词序列和单词用法模式。这通常有助于模型生成更自然更流畅的文本,并且是每个语言模型预培训阶段的一个重要步骤。

然而这些目标函数也可能导致问题,主要是因为模型不能区分重要错误和不重要错误。举个简单的例子,如果给模型输入句子:

"The Roman Empire [MASK] with the reign of Augustus."

它可能会预测 MASK 位置应该填入「began」或「ended」,因为这两个词的出现的可能性在之前都是很高的。

一般来说,这些训练策略可能会导致语言模型在一些更复杂的任务时不一致,因为一个模型仅被训练用来预测文本序列中的下一个词,可能不一定能学习到其含义的更高级表达。因此,该模型很难推广到需要更深入理解的语言任务。

研究人员和开发人员正在研究各种方法,来解决大型语言模型中的一致性问题。ChatGPT 基于最初的 GPT-3 模型,开始使用了人类反馈来指导学习过程,对其进行进一步的训练,来解决模型的不一致问题。所使用的具体技术就是前面提到的 RLHF。ChatGPT 是第一个将此技术用于实际生活模型的第一个案例

那么ChatGPT 是如何利用人类反馈来解决一致性问题的呢?咱们下期继续讲解

大家如果有想讨论的内容,欢迎留言!关注技福小咖,请帮忙点赞分享,您的支持是我们最大的动力!

参考内容:
How ChatGPT actually works

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6865.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT帮我和老板吵架,半分钟做了个思维导图...

大家好,我是小z,也可以叫我阿粥 最近那个疑似成都电科的截图已经传疯了,贴一张图回味下: 这种壮士断腕式的吵法,可以说几乎是单方面的虐杀。但是有朋友问了,在职场中还是有所顾忌,有没有更体面点…

chatgpt赋能python:Python如何改成中文

Python 如何改成中文 如果您是一名有经验的 python 工程师,或者正在学习 python ,可能会发现学习过程中遇到的大多数资源都是英文的。但是,如果您想要将 python 学习应用于中国用户,那么使用中文是非常必要的。这篇文章将介绍如何…

ChatGPT评出中国排名前的30大学及全球排名,原因很好玩

中国排名前50的大学在中国国内及在全世界的排名,还有原因 以下是中国排名前50位的大学及其在全球的排名和原因: 清华大学 (17):清华大学是中国著名的高水平研究型综合性大学,其在工程学、计算机科学和自然科学等领域具有很高的研究…

ChatGPT在大学里该怎么用?24所英国顶级大学宣布立场!

自从ChatGPT横空出世以来,许多行业都被得到赋能。而在教育行业,许多大学生把它视为写作业的“神器”:节省查阅复杂文献的时间、编写简单的Python代码、辅助学生理解知识点,甚至直接“生成”论文...... 但这些行为,学校…

ChatGPT 出现后计算机类专业还建议读吗?

当你让ChatGPT用pyhton实现一个冒泡排序 虽然说,chatgpt的确让大部分底层程序员,以及在读计算机专业的同学感到就业焦虑,但互联网科技这个行业只会滚滚向前,不会停下来的。 与其害怕被取代,不如想着怎么进去分一杯羹。…

ChatGPT冲击教育界,欧美大学开始慌了

ChatGPT炸圈范围越来越大,很快就从科技圈来到了教育界。《福布斯》杂志1月底的数据指出,现在美国89%的大学生都是用ChatGPT做作业,并且作业成绩都能达到A。对学生来说,ChatGPT的存在仿佛给了他们一双隐形的翅膀! 有网…

【宝塔面板建站】04. 设置消息通道,通过邮箱、钉钉、企业微信等形式动态提供网站信息(保姆级图文)

目录 消息通道的作用设置消息通道邮箱安装模块配置SMTP服务(邮件发送者)填写收件邮箱(邮件接收者)收到测试邮件 钉钉安装模块电脑版钉钉得到一个没用的普通群聊添加群机器人阿里云Code得到了Webhook 地址把得到的Webhook 地址配置…

全程 AIGC 游戏创作,2小时开发微信小游戏!(完整ChatGPT调教流程)

给 AI 打工,2小时开发一款3D小游戏可行么? 源码下载地址见文末! 最近,科技发展是日新月异...... 如果说 Stable Diffusion 和 Mid Journey 只是卷死了美术,我们还在庆幸研发不能被替代。 那么 3 月份出来的 GPT4 就让我…

微信实验八、微信PHP机器人自动回复及源码下载

微信实验八、微信PHP机器人自动回复及源码下载 (>>>>在公众号中输入文章最后彩蛋即可获取源代码) 开源项目:https://github.com/chenxhjeo,个人博客:http://blog.csdn.net/u013487761 技术QQ群名称:豆豆咨询&#…

【修改版】用ChatGPT开发一个书籍推荐微信小程序(三)

文章目录 1 前言1.1 实现原理1.2 在小程序如何衔接1.3 技术架构 2 爬取数据2.1 根据书名爬取信息2.2 根据作者爬取信息2.3 根据类型爬取信息 3 讨论 1 前言 1.1 实现原理 万变不离其宗,还是相当于与ChatGPT交互问答,然后映射到小程序中,以下…

如何在使用密钥登录的时候请求ChatGPT的聊天接口并实现流式输出

一、ChatGPT的参考API地址 API Reference 二、官网相关API介绍 下图是正常请求时候的请求头和body体,这样请求的话是等结果都加载出来后一起出现,并且返回的结果也是标准的json格式。 如果想要实现和ChatGPT一样的效果,官网的这样推荐的&a…

使用 ChatGPT 在几秒钟内生成鼠标移动机器人

在本教程中,我们利用 OpenAI 的语言模型 ChatGPT 的强大功能为鼠标移动机器人生成 Python 代码。 代码应每 2 秒将鼠标指针移动到屏幕上的随机位置。如何在指定时间自动打开计算机凭借基于自然语言输入生成代码的能力,ChatGPT 为希望快速实现某些功能而无…

wechaty搭建微信机器人——超详细版

文章目录 前言一、wechaty是什么?二、准备1.安装 Node.js(需要10.0版本以上)2.安装Wechaty 总结 前言 提示:这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术…

基于ChatGPT的企业微信机器人

1、openAI账号 登录OpenAI的账号后,再点击右上角的“Personal”图标,然后点击“view API keys”进入API页面。 点击“create new secret key”按钮。 生成秘钥之后,把秘钥复制下来。 2、拉取项目代码 git clone https://github.com/zhay…

OpenChatKit :开源的 ChatGPT ,开箱即用!前OpenAI团队打造,GitHub 7000+星

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 ChatGPT的开源平替来了,源代码、模型权…

关于“探码科技”,ChatGPT 如是说

最近 ChatGPT 很火,其高质量的对话让人叹为观止,关于“探码科技”,我们对 ChatGPT 进行了采访: ChatGTP,请你做一个自我介绍! 你好,我是 ChatGPT,一个由 OpenAI 开发的自然语言处理…

我利用 ChatGPT 提高工作效率的 5 种方式

技术应该是我们的朋友,而不是我们的敌人 ChatGPT 在 11 月的发布改变了世界。学校阻止该计划,程序员对他们工作中新发现的效率赞不绝口,而创意人员则怀疑他们的工作是否受到威胁。每个人都在想同一个问题:ChatGPT 的未来会是什么样…

ChatGPT技术报告

ChatGPT是一个由OpenAI开发的大型语言模型,是GPT(Generative Pretrained Transformer)系列模型的一部分。它使用了 Transformer 架构,并在大量的文本数据上进行了预训练。预训练的目的是使模型能够从大量的文本中学习语言知识和模…

体验了一下火爆全球的 ChatGPT,我震惊了

这几天,要说编程圈最热的话题,莫过于OpenAI的ChatGPT,写小说,写代码,找BUG,写论文,画漫画,谱曲……简直没有它干不了的事。 趁着下班时间,我也光速注册体验了一下&#…

起点中文网月票榜爬取及数据分析

此文转载自:https://blog.csdn.net/weixin_45036306/article/details/112385445 起点中文网月票榜爬取及数据分析 文章目录 起点中文网月票榜爬取及数据分析1. 数据爬取 1.1.1 准备1.1.2 网页分析1.1.3 层次爬取1.1.4 数据存储 2. 数据分析及可视化 1. 数据爬取 数…