ChatGPT技术原理

ChatGPT技术原理

    • ChatGPT技术原理概要
        • 第一阶段:冷启动阶段的监督策略模型
        • 第二阶段:训练回报模型,reward model
        • 第三阶段:强化学习增强预训练模型的能力
    • ChatGPT技术相关简介
        • L2R(learning to rank)
    • 相关引用

ChatGPT技术原理概要

第一阶段:冷启动阶段的监督策略模型

  • GPT3.5 + 用户提供的prompt + 专业标注人员提供的对应prompt高质量答案,<prompt,answer>fine-tune GPT3.5,初步理解人类prompt中蕴含的意图;并根据意图给出相对高质量的回答的能力。

第二阶段:训练回报模型,reward model

  • 新采样用户提供的prompt,使用第一阶段fine-tune的冷启动模型,对于每个prompt,由冷启动模型生成K个不同答案:<prompt,answer1>,<prompt,answer2>…<prompt,answerK>数据;
  • 标注人员对K个结果按特定标准(如相关性,信息熵,有害信息等)进行排序,给出K个结果的排名;
  • 使用上述标注数据按照pair-wise L2R(learning to rank)训练回报模型,K个排序结果,两两组合,形成 K! / [(K-2)! * 2!]个训练数据;
    • 回报模型接收一个输入<prompt,answer>,输出评价回答质量高低的回报分数score;
    • 对于任一训练数据<answer1,answer2>,如果answer1>>answer2,回报模型的Score(<prompt,answer1>) > Score(<prompt,answer2>),或者说Loss(<prompt,answer1>) < Loss(<prompt,answer2>)。

第三阶段:强化学习增强预训练模型的能力

  • 新采样prompt,冷启动模型来初始化PPO模型参数;
  • 对于新采样的prompt指令,使用PPO模型生成答案answer,并使用第二阶段训练好的RM模型给出answer质量评估的回报分数score,该score等价于RM模型赋予answer的整体reward(answer是有单词序列构成);
  • answer的整体reward相当于单词序列的最终回报,基于此,即可把每个单词看做一个时间步,将reward由后向前依次传递,进而产生的策略梯度更新PPO模型参数。

ChatGPT技术相关简介

L2R(learning to rank)

详见 Learning to Rank简介

简单介绍下pair-wise: pair-wise用于给定查询下,衡量两个文档间的相对相关度

  • 相对相关度:给定查询 q i q_{i} qi 的一个真实文档序列,只需考虑任意两个相关度不同的文档之间的相对相关度: d i > d j d_{i}>d_{j} di>dj,或 d i < d j d_{i}<d_{j} di<dj
    pair-wise
  • 如上图中二分类模型,输入为文档序列中的文档两两组合(一对,pair命名由来),标签为+1和-1:如果两两组合的文档对中的第一个文档得分比第二个高,标签为+1,反之为-1。

简单归纳下,pair-wise中排序模型 h θ h_{θ} hθ能够让正确候选文档的得分高于错误候选文档。给定一个查询,pair-wise L2R学习候选答案对,并预测哪个句子是目标查询的最佳文档。

若训练样例是 ( q i , c i + , c i − ) (q_{i}, c_{i}^+, c_{i}^-) (qi,ci+,ci),其中 q i q_{i} qi为给定查询, c i + c_{i}^+ ci+是正确候选文档, c i − c_{i}^- ci是错误候选文档中的一个。

  • 损失函数为 T r i p l e L o s s Triple Loss TripleLoss:
    L = m a x { 0 , m − h θ ( q i , c i + ) + h θ ( q i , c i − ) } L = max\left\{0, m- h_{θ}(q_{i}, c_{i}^+)+ h_{θ}(q_{i}, c_{i}^-)\right\} L=max{0,mhθ(qi,ci+)+hθ(qi,ci)}

  • m m m为边界的阈值:如果 m − h θ ( q i , c i + ) + h θ ( q i , c i − ) > 0 m- h_{θ}(q_{i}, c_{i}^+)+ h_{θ}(q_{i}, c_{i}^-) > 0 mhθ(qi,ci+)+hθ(qi,ci)>0,也就是 h θ ( q i , c i + ) − h θ ( q i , c i − ) < m h_{θ}(q_{i}, c_{i}^+)- h_{θ}(q_{i}, c_{i}^-) < m hθ(qi,ci+)hθ(qi,ci)<m,则损失函数 L > 0 L>0 L>0,这时模型把非正确的文档排在正确文档之上;如果 m − h θ ( q i , c i + ) + h θ ( q i , c i − ) = 0 m- h_{θ}(q_{i}, c_{i}^+)+ h_{θ}(q_{i}, c_{i}^-) = 0 mhθ(qi,ci+)+hθ(qi,ci)=0,也就是 h θ ( q i , c i + ) − h θ ( q i , c i − ) > = m h_{θ}(q_{i}, c_{i}^+)- h_{θ}(q_{i}, c_{i}^-) >= m hθ(qi,ci+)hθ(qi,ci)>=m,模型把正确的文档排在非正确文档之上。

  • 损失函数的目的就是让正确文档的得分-错误文档的得分大于m,这样预测阶段时,得分最高的候选文档会被当做正确的文档。

相关引用

  1. Learning to Rank: pointwise 、 pairwise 、 listwise
  2. Learning to Rank简介

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12553.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】万字拆解!追溯ChatGPT各项能力的起源

来源&#xff1a;公众号【李rumor】 作者&#xff1a;符尧等 最近&#xff0c;OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问&#xff0c;它又强又聪明&#xff0c;且跟它说话很好玩&#xff0c;还会写代码。它在多个方面的能力远远超过…

i茅台app登录分析

本文旨在经验交流&#xff0c;如若侵犯利益&#xff0c;请联系删除。 工具&#xff1a;Xposed、justTrustMePlush、packetcapture、jadx、雷电模拟器 给模拟器安装Xposed框架&#xff0c;激活justTrustMePlush用于绕过APP的证书鉴于 之后可以正常抓到包&#xff0c;如下图 简…

下载讲稿 | 从控制论到人机结合的元宇宙(纪念钱学森诞辰111周年)

Peter Ye 乐生活与爱IT Plus 2022-12-11 22:44 发表于北京 微信公众号 乐生活与爱IT Plus 编者按 关注这个公众号&#xff0c;输入1211&#xff0c;即可获取讲稿PPT&#xff08;PDF版&#xff09;&#xff0c;有效期30天 ---开始--- 2022年12月11日下午&#xff0c;元宇宙产…

随笔01 我的创作纪念日(128天)

机缘 (●◡●)幸会~这是我成为创作者的第128天~预计2023年&#xff0c;我的写作主题依然以阅读量惨淡的考研、AI安全的内容为主&#xff1b;毕竟简历已经被拒绝到麻木&#xff0c;可能不得不走上考研的道路啦~ 互联网受到疫情的影响和国外的封杀&#xff0c;加上自身的泡沫&a…

迁移学习入门(读王晋东博客)

1.TCA 映射使两个域边缘分布相近&#xff0c;限制条件为散度&#xff08;衡量两个数据集的差异程度&#xff0c;最大化差异&#xff09; 2.JDA 在TCA基础上加入条件分布相近&#xff0c;此时为联合分布&#xff08;两个概率分布&#xff0c;并非概率论中的"联合分布"…

突发!美团王兴躬身入局,AI大模型赛道还有谁?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 3月8日&#xff0c;美团创始人王兴在朋友圈中透露&#xff0c;将以个人身份参与王慧文创业公司“光年之外”的A轮投资&#xff0c;并出任董事。 他表示&#xff1a;“AI大模型让我既兴奋于即将创造出来的巨大生产力&#xf…

刺激!ChatGPT给我虚构了一本书?

ChatGPT很强大&#xff0c;可以帮我们处理很多问题&#xff0c;但这些问题的答案的正确性您是否有考证过呢&#xff1f; 昨晚&#xff0c;DD就收到了一个有趣的反馈&#xff1a; 提问&#xff1a;有什么关于数据权限设计的资料推荐吗&#xff1f; ChatGPT居然介绍了一本根本不存…

chatgpt赋能python:Python如何考证?

Python 如何考证&#xff1f; Python 是一种高级编程语言&#xff0c;由于其易读易学和灵活性&#xff0c;越来越受到开发者和企业的青睐。因此&#xff0c;掌握 Python 编程技能能够为您的职业发展带来很大的帮助。但是&#xff0c;如何证明您真正精通 Python 编程呢&#xf…

chatgpt赋能python:Python考证在社会怎么报名

Python考证在社会怎么报名 Python是当今世界上最为流行和应用广泛的编程语言之一。在各种行业和领域中&#xff0c;Python都是一个不可或缺的工具。为了证明python编程水平的专业性和可靠性&#xff0c;越来越多的人选择参加Python考试。这篇文章将介绍Python考证相关的信息以…

chatGPT智能AI4.0版本正式上线!GPT4.0和3.5版本你会怎么选?

经过多轮技术升级和产品稳定测试&#xff0c;我们的技术团队终于成功上线了chatGPT智能AI4.0版本。这是一项具有里程碑意义的成就&#xff0c;因为GPT4.0版本是目前公认的最强大的自然语言处理模型之一&#xff0c;能够生成更高质量的自然语言文本&#xff0c;包括文章、对话、…

井底之蛙管中窥世界,狂野少年静耕自家田

我的研究方向是机器视觉&#xff0c;去年加入到我们课题组以来&#xff0c;已经过去了一年的时间。正如王国维《人间词话》所说&#xff1a;“古今之成大事业、大学问者&#xff0c;必经过三种之境界”&#xff0c;不知是我天生热爱探索的性格&#xff0c;还是受到了中华传统国…

OpenAI CEO亮相“AI春晚”,与张宏江隔空问答:10年内会有超强AI

《AI未来指北》栏目由腾讯新闻推出&#xff0c;邀约全球业内专家、创业者、投资人&#xff0c;探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。 文 / 腾讯科技 苏扬 、郝博阳 凭借ChatGPT走红的OpenAI&#xff0c;成为行业争相追逐的对象&#xff0c;刚刚&#xff0c;…

诸神之战!一文盘点中国“大模型”玩家们

开年以来&#xff0c;全球 AI 大模型行业&#xff0c;鲜花着锦&#xff0c;比肩继踵。微软、Google、Meta、百度等科技巨头你追我赶&#xff0c;掀开了大模型“军备竞赛”时代的序幕。新的挑战者入局&#xff0c;大模型概念不断走高&#xff0c;众多 AI 企业纷纷宣告进军&#…

Chat的提问工程师,要上线了你慌不慌?

一、什么是Prompt? (1)Prompt的概念 我们在使用GPT的时候,给GPT发送的消息就是Prompt. 例如,当我们问ChatGPT"WPS是什么软件?"时: 其中,"WPS是什么软件?"这句话就是Prompt. (2)为什么要学习Prompt? Prompt是我们和GPT交流的方式,我们需要让GPT了解…

前端已死?全栈当立?取法于中,仅得其下。

开篇明义&#xff0c;前端已死&#xff1f;根本就是扯淡。前端技术精微渊深&#xff0c;驳杂宽广&#xff0c;除了基础的 HTML、CSS 和 JavaScript 技术外&#xff0c;前端技术还涉及到许多其他相关技术和工具&#xff0c;比如前端框架、UI 库、自动化构建工具、代码管理工具等…

我发现ChatGPT的一个规律,只要向他确认它就可能否定自己先前的回答

今年以来ChatGPT火爆了&#xff0c;我也经常使用它来做一些文案优化&#xff0c;很多时候确实挺聪明的。 例如&#xff1a; 我的问题&#xff1a;玉皇大帝住平流层还是对流层 它的回答&#xff1a;玉皇大帝是道教中的神明&#xff0c;关于他的居住地在道教经典中并没有明确的…

985本科生虽然水,但学历还是很管用!

原文链接&#xff1a; https://www.zhihu.com/question/354234322 01 前言 最近网上有个话题比较有争议&#xff1a;「为什么有些 985、211 的本科学生即使在大学里混得很水&#xff0c;在找工作时学历却那么管用&#xff1f;」考上了重点大学&#xff0c;就真的能够高枕无忧了…

Stable Diffusion云端部署只需三步, 不吃电脑配置, 模型快速部署

牙叔教程 简单易懂 我是小白, 小白跟我一步一步做就可以了, 鼠标点两下就OK了, 学点新东西, 好吗? 不想学的就走吧, 离我远点. Stable Diffusion是什么 Stable diffusion是一个基于Latent Diffusion Models&#xff08;潜在扩散模型&#xff0c;LDMs&#xff09;的文图生成…

ChatGLM-6B的P-Tuning微调详细步骤及结果验证

文章目录 1. ChatGLM-6B 1.1 P-Tuning v2简介 2. 运行环境 2.1 项目准备 3.数据准备4.使用P-Tuning v2对ChatGLM-6B微调5. 模型评估6. 利用微调后的模型进行验证 6.1 微调后的模型6.2 原始ChatGLM-6B模型6.3 结果对比 1. ChatGLM-6B ChatGLM-6B仓库地址&#xff1a;https://g…

源码中常见的 where 1=1 是一种高级优化技巧?

你是否曾在 SELECT 查询中看到过 WHERE 11 条件。我在许多不同的查询和许多 SQL 引擎中都有看过。这条件显然意味着 WHERE TRUE&#xff0c;所以它只是返回与没有 WHERE 子句时相同的查询结果。此外&#xff0c;由于查询优化器几乎肯定会删除它&#xff0c;因此对查询执行时间没…