GPT/GP2/GPT3

GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibiliicon-default.png?t=M5H6https://www.bilibili.com/video/BV1AF411b7xQ?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

笔记:李沐老师GPT系列讲解 - 知乎今天分享的是李沐大神讲解GPT系列论文的读书笔记。GPT可以简单理解为是transformer的解码器。 GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili 上图是transformer,Bert,GPT的发表时间以及引用量。 GP…https://zhuanlan.zhihu.com/p/477227937

        李沐的论文精读视频讲解的很好,我这里也只是做一些记录,看到GPT3以及衍生的一些应用,还是很震惊的,文本领域的预训练已经做到这种程度了,zero-shot、one-shot、few-shot还是真正能够落地的,在图像领域目前确实没有这样出众的工作。

GPT1用的解码的transformers,和bert用的编码的transformers是不同的,后者是双向的,前者是单向的,整体的架构还是pretraining+fine-tune的思路,bert也是这个思路,都是要在下游任务做fine-tuning的。

上图是如何迁移的任务的设计,这块还是挺有意思的,就是对现有任务进行一个任务的转换,比如第一个分类任务start+文本+extra之后的向量输入到transformers中,再送入线性分类器,比如十类,线性分类器的输出就是十类,然后得到最终的结果。

GPT2相对于GPT相对于bert之后想出来的一个升级版本,核心再zero-shot,不再下游做fine-tuning了,这是一个很好的思路,看GPT就是感觉作者强在不用在下游任务做fine-tuning,看起来更像是强人工智能了。GPT相较于bert和gpt1,参数更大,数据量更高,模型也更大。

GPT3的参数量进一步扩大,目前市面上很多的应用基于GPT3,比如微软的Copilot等等,在下游的子任务中是不需要更新梯度的,使用了few-shot的方法,one-shot就是给了一个正样本,few-shot就是将下游的仅有的一些提示组成一个长的序列进行判定,GPT3有1750亿参数,自己想训练肯定是不可能的,后续看看有没有白嫖的中文大模型拿来试试效果。

使用预训练好的语言模型,在进行微调,微调需要每个任务有一个任务相关的数据集以及和任务相关的微调,需要一个大的数据集并进行标号,当一个样本没有出现在数据分布中的时候,泛化性不见得比小模型好,当然了大模型的训练数据足够多,few-shot感觉有点像做语义检索的味道,在以训练的数据中找到了下游子任务的答案,然后输出,在copilot中的输出就有类似的案例,而且GPT3的网络训练数据更大。

上图中左边提供了one-shot/few-shot/zero-shot的形式,GPT提出了一种in-context learning,给出任务的描述和一些参考案例的情况下,模型能根据当前的任务描述、参数案例明白到当前的语境,即使在下游任务和预训练的数据分布不一致的情况下,模型也能表现的很好,GPT没有利用示例进行fine-tuning,而是让示例成为输入的指导,帮助模型更好的完成任务。

在zero-shot的设置条件下:先给出任务的描述,之后给出一个测试数据对其进行测试,直接让预训练好的模型去进行任务测试。

在one-shot的设置条件下:在预训练和真正翻译的样本之间,插入一个样本做指导。好比说在预训练好的结果和所要执行的任务之间,给一个例子,告诉模型英语翻译为法语,应该这么翻译。

在few-shot的设置条件下:在预训练和真正翻译的样本之间,插入多个样本做指导。好比说在预训练好的结果和所要执行的任务之间,给多个例子,告诉模型应该如何工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35926.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IT伦理与道德:Google的“不作恶”准则

不作恶(Do not be evil)是Google公司的一条不成文的口号和行为准则。对于这条准则,很多人是怀疑和嘲讽的态度,但“不作恶”确实是Google公司一直以来倡导和坚持的。在物欲横流的今天和尔虞我诈的商业竞争中,能够提倡这…

数智赋能 制造当自强

党的二十大报告指出,要“建设现代化产业体系”,“推动制造业高端化、智能化、绿色化发展”。随着新一代信息技术与制造业的持续深度融合,以高端化、智能化、绿色化为目标,为工业创新赋能既是大势所趋,又任重而道远。 制…

excel VBA 编程,数据处理,并画图,详细代码,加解释

基础的东西就不讲了,详情请看:入门瞧一瞧这里 本教程所用数据和代码连接:本节教程所需要的数据和代码 下载原始数据后打开, 右击下图的 Summary 并选择 View Cpde 查看代码 主要的代码在 Sheet3(RawData) 以及 Module1 中&#…

太实用了!Excel VBA常用代码!

前两天有两位朋友留言想收集一些VBA的常用代码,今天开始会陆续分享一些! 记得收藏好哦,因为今后你应用到稍大型Excel VBA程序时,这其中某些代码肯定会用到。 来看看都是哪些常用代码: 下面先举一个简单的例子&#xf…

用chatGPT写一段SAP的代码

ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型&…

解密Prompt系列9. 模型复杂推理-思维链COT基础和进阶玩法

终于写了一篇和系列标题沾边的博客,这一篇真的是解密prompt!我们会讨论下思维链(chain-of-Thought)提示词究竟要如何写,如何写的更高级。COT其实是Self-ASK,ReACT等利用大模型进行工具调用方案的底层逻辑,因此在Agent调…

C++与C语言、python的区别? 信奥赛的有没有用? 如何进行编程学习规划?

问题罗列一下: C与C语言有什么区别,python与C的区别,及普及程度 信奥赛起源、存在的意义。 应该如何给孩子规划学习(什么年龄段学、学多久、每个学段该做什么) 不同学段参加什么比赛、结果能给孩子带来什么。 1、C与C语…

招聘 | 微软小冰-实习生-NLP、CV等算法岗

发布招聘—>加我即可 小冰AI招算法实习生啦! 1.参与面向虚拟人社交对话应用场景的需求分析及算法应用研究; 2.参与大规模预训练模型的架构设计,针对其在小样本/零样本/增量学习问题的应用潜力展开研究; 3.负责配合算法工程师和…

与 GPT-4 对打!谷歌推出新模型PaLM 2

来源:数据观综合(转载请注明来源) 编辑:蒲蒲 5月10日周三举行的谷歌年度开发者大会Google I/O 2023上,谷歌亮出了人工智能(AI)领域开发的最新成果。 谷歌CEO Sundar Pichai开场就指出&#xff0…

很多方面超过 GPT-4!谷歌推出新模型PaLM 2

来源:数据观综合(转载请注明来源) 编辑:蒲蒲 5月10日周三举行的谷歌年度开发者大会Google I/O 2023上,谷歌亮出了人工智能(AI)领域开发的最新成果。 谷歌CEO Sundar Pichai开场就指出&#xff0…

4月21日 PhD Debate预告 | 因果推理(Causal Inference)与时间序列(Time Series)

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年4月21日10:00,PhD Debate第十五期,题为“因果推理(Causal Inference)与时间序列(Time Series)” 特别邀请了圣地亚哥加利福尼亚大学…

Windows 98 发布 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 25 日,在 1951 年的这一天,世界上第一部彩色电视节目播出。电视经过了许多年的发展,人类的娱乐途径随着互联网的到来变…

跨境电商如何通过实时聊天服务改善客户体验?

关键词:跨境电商,实时聊天,客户服务 实时聊天是客户从跨境电商卖家那里获得即时帮助的沟通渠道。它促进了客户与跨境电商品牌人工代理之间的实时1:1交互,以解决客户问题。 企业通常在其网站上嵌入实时聊天支持,使网站…

SaleSmartly聊天机器人如何帮助您的电商业务

从基于规则的机器人到虚拟助手,聊天机器人正在成为网络交互的标准。越来越多的企业正在使用它们来吸引客户、改善客户服务并增强用户体验。现在有非常多的软件也提供聊天机器人的帮助,比如SaleSmartly(ss客服),本文以它…

扬帆际海:shopee跨境电商客服回复流程

在虾皮这个平台上客服的工作重要性比国内电商的客服重要性大很多。很多时候如果客服沟通不畅就会有各种麻烦,毕竟国内跟海外都是有语言差异的,如果不好好处理,遇到客户投诉,可能会导致封店。shopee售后处理不好会有什么影响&#…

独立站电商优选的客服工具

遇到难题,寻找在线客服肯定是解决问题的首选途径了。但大多数独立站跨境电商网站的客服响应速度很难达到及时响应,一般普遍响应的时间从十几分钟到几小时、几十小时不等,甚至还有客服处于‘失联’状态。 去年黑五大促,Louella在某…

除了ChatGPT,还有哪些好玩的AI?

随着人工智能技术的不断发展,越来越多的人开始对其产生了浓厚的兴趣。为了满足人们的需求,许多公司和网站推出了各种免费好玩的AI应用程序。尤其是ChatGPT出来后,彻底大爆发 “我把这一时刻称为人工智能应用的寒武纪大爆发,”-Ins…

博士申请 | 香港中文大学(深圳)宋方达老师组招收贝叶斯统计方向博士生

合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 香港中文大学(深圳) 香港中文大学(深圳)是一…

博士申请 | ​香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生

合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 香港中文大学 香港中文大学计算机科学与工程系的 LaVi (multimodal Language and Vision) 实…

国外博士后申请需要准备哪些材料?

访问学者、博士后旨在促进教育、艺术、商业和科学领域内人员的知识和技术交流。访问学者主要以国际知名学者:旅行、观测、咨询、研究、培训、分享或示范专业知识或技能、参加有组织的交流项目。与访问学者经常一起出现的还有另外一个名词,就是博士后。那…