GPT前2代版本简介

承接上文ChatGPT进化的过程简介

2018年,Google的Bert和OpenAI的GPT绝代双骄,两者非常像,都是语言模型,都基本上是无监督的方式去训练的,你给我一个文本,我给你一个语言模型出来。

GPT前两代没有什么特别的,第三代才有点大发神威。

GPT还不是特别火的时候,已经预计每天产生450亿词,每小时生成100W本书,所以以后看到的东西,可能是AI生成出来的。

这仅仅是22年5月份的GPT-3的情况。

微软给OpenAI提供大规模的数据中心、上万个GPU并行训练 ,其他公司很难复现,因成本太高,训练GPT3,电费画了1200万美元。

22年初,最开始的GPT3的应用,只是在传统的GPT基础之上做的扩展,并不是让网络结构更大、训练数据更多,而是让网络模式去解决一些以前解决不了的问题。

传统的GPT存在的问题

  • 存在偏见

NLP偏见非常大,因为它学的是互联网当中历史上一切的东西,在历史上会存在一些偏见,比如,

我今天买了一个华为手机,AI告诉你心情非常失落;买了苹果手机,心情非常高兴。

AI大概率会认为黑人是杀人犯,白人是教授、医生。

会把这些偏见强行加入进来,这是最大的问题。

  • 答非所问

可能输出的是长篇大论,可能自作聪明生成一些没用的东西。

GPT可以生成小说、代码等,你给它一些价值的内容,都可以按照要求去生成。

以前一年有几个大模型出现,现在平均每4天就有一个大模型问世。

GPT这个圈大概有1750亿的权重参数,其他更大的圆,权重参数更多。更大的语言模型,训练生成的成本会更高。

在NLP领域当中,一定是模型越大、参数越大,越好吗?

在训练集和验证集中是这样的,数据、标签越多,答案越固定。 NLP比的是一定做的对吗? 就一种固定答案吗? 不是的。 我比你描述的更好,但它是一种错误的答案,跟原始答案不一样,你能说我错了吗!

ChatGPT在训练和做策略的时候,它追求的不是一个特别大的参数量。 参数越大,模型越复杂,答案越固定,越朝着正确答案去逼近。

而对话聊天,理解的东西是通俗的,不需要一摸一样,只需要近似和好理解就行。

GPT1

GPT全称Generate Pre-Training,生成式预训练模型怎么训练呢?

不用给它标签,而是输入一句话,让它预测下一个词。

比如输入“今天天气”,预测下一个字是“真”,将“今天天气真”输入作为一句话,预测下一个字是“好”,就这样一个字一个字的往外蹦。

Bert是基于“完形填空”去做的,有上下文语境。 GPT难度更大,生成式的结果不固定,可变的因素太多了,GPT是预测后文,预测未来的事。

GPT损失函数就是预测下一个词

输入一组权重参数和前文,来预测后文。

GPT1有一个问题,训练了一个预训练模型,后续怎么应用呢?比如应用到机器翻译、文本摘要。。

训练好的语言模型要先理解上下文以及预测后面是什么,但是如果想再做自己的事情,那要再连下一个任务了,即要连接一个输出层,比如连接一个全连接层Linear,做分类任务。

所以GPT第一代版本不是我们所希望的,先有预训练模型,再结合输出层,做一步任务。即预训练模型的基础之上做了一个微调。

GPT2

在GPT第二代版本中,出现了zero-shot,即以不变应万变,模型训练完了之后,无论做什么任务,都不需要微调,而是通过暗示的方式。

比如我想做一个分类任务,预测下“你有一双漂亮的大眼睛”这句话是夸我还是骂我呢,则加一个暗示“这句话是夸我还是骂我呢”。 把这个提示跟上下文一起传入到这个模型当中,模型在学习的时候,它看到了输入的这句话,也看到了提示,那接下来回答的时候,需要参考这个提示。

这是zero shot做分类的场景。

还可以做机器翻译,比如输入一句话,再给它一个提示,将这句话翻译成英文。

还可以做回归任务,比如输入一句话,预测下这句话中含有的单词个数。

GPT2的思想是先有一个统一的大模型,在这个模型当中无论后续做什么,做哪个领域的任务,都可以过来问这个模型,都可以加个提示,加了提示之后,模型在回答的时候围绕着前文的输入,再根据提示继续往下生成。

从GPT2开始,大家看到希望了,在NLP这个领域又统一成了一个生成式的大模型,而不是有很多小的下游任务进行微调。

GPT如何增加多样性?

基于前面的词,预测下一个词,再根据前面两个词预测第三个词,再根据前面三个词预测第四个词。。。

在预测的时候会陷入一个死循环,比如成语接龙的时候,

生成的东西都一样,就是死循环。

再比如

不能老说“然后”,希望有点多样性,对于模型来说也是如此,前面总在说的东西 后面就别再重复了。

GPT是通过“温度Temperature”来提高多样性的,对预测结果进行概率重新选择。

GPT生成的结果并不是唯一的,比如你问GPT“今天晚上吃什么?”,结果可能是“吃香蕉”(输出概率是0.1)、“吃蔬菜(概率0.2)”、“吃鸡肉(概率0.3)”、“吃羊肉(概率0.4)”。

在这个任务当中,它每次一定输出概率最高的吗? 吃羊肉的概率最高,不能天天吃羊肉吧。

GPT实际上是做一个采样,跟买彩票一样,虽然中奖的概率低,但并不是说是不可能事件,只是采样到的可能性比较低。

计算各类别预测结果,但是要在不同类别预测结果的基础之上做一个采样,概率最高的采样到的可能性越大,概率低的采样到的可能性低。

输入“1、2、3、4”,将输入通过softmax转换成概率值,数字越大,概率越高,数字越小,概率越低。

能不能改变概率的分布呢?

除上一个小于0的数比如0.5之后,之前的数值就会放大,比如之前最高的概率是0.6439除以0.5变成了0.8650,概率值被放大,变得越高,越容易被输出,准备越准。

T越小于1或小于1的程度越大,越想得到什么就是越准的,越准的那一个得分越高 ,得分越高,概率值越高。

所以GPT3中温度设置的越低,输出就越固定,今天晚上吃羊,明天再问还是吃羊,因为羊的概率实在太高了。

温度为1默认是softmax值,温度越高,多样性越丰富,温度越低,相当于越希望得到最准的那个。

Top k 和 Top p

但是并不是说什么结果都能输出来,还需要设置2个参数Top k和Top p。

生成一个词,有10万种可能性,并不是说所有词都能生成出来,不可能“今天吃啥”,输出“吃个大理石”、“吃个耳机”,这些词别给采样出来。

Top k在任务中就选概率前10个来采样,后面都给设置成0,后面的太离谱了,就别往外输出了。

Top p是累加,就是取前多少个,能让累加概率得到0.9以上或0.95以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15910.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强人工智能时代,区块链还有戏吗?

最近很多人都在问我,ChatGPT 把 AI 又带火了,区块链和 Web3 被抢了风头,以后还有戏吗?还有比较了解我的朋友问,当年你放弃 AI 而选择区块链,有没有后悔? 这里有一个小背景。2017 年初我离开 IBM…

chatgpt赋能python:Python抽奖程序:让彩票游戏更加有趣

Python抽奖程序:让彩票游戏更加有趣 随着科技的进步,彩票抽奖游戏已经成为许多人喜爱的活动之一。为了增加游戏的趣味性和公正性,许多抽奖游戏采用了Python编程语言来实现程序。本文将介绍Python抽奖程序的基本原理和使用方法,让…

独立开发者案例:每周4h月入数万刀;国家数据局与时代红利;创业前先买个域名;工程师成长最重要的是什么 | ShowMeAI周刊

这是ShowMeAI周刊的第6期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅!👀日报合辑 ⌛ 独立开发者案例:每周只工作4小时,独立开发者打造月…

王炸-GPT4.0的新能力与商业价值

转自微信公众号:嵌入式单片机之家 有多王炸 ? GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务。具体来说,它在给定文本和图像输入的情况下能够生成文本输出(自然语言、代码等)。在一系列其它…

OpenAI宣布漏洞赏金计划,最高奖金2万美元

安全问题,已经成为 ChatGPT 和 GPT-4 等 AI 大模型是否能够大规模应用在各行各业的重要问题之一。OpenAI 也因为这一问题受到了业内人士、监管部门的诸多批评。 今天,OpenAI 官方发布了一篇名为 “Announcing OpenAI’s Bug Bounty Program” 的博客文章…

王慧文因健康问题辞任美团董事;数百万GitHub项目易受依赖库劫持攻击;特斯拉首台超级计算机或在七月投产|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

一篇就够:uniapp-Mqtt系列问题详细攻略(解决掉线、真机调试错误等问题)

😹背景 昨天搞了一天,我觉得新手可以参考我这篇文章思路,避免你和我一样踩坑,刚好去年的这几天也在搞mqtt,不过当时弄的是微信小程序,这次项目是uniapp,我想实现uniapp中的h5能够使用mqtt&…

英语配音软件哪个好?

在英语的学习上最难的就是口语了,想要让发音变得更加标准,那么一定要体验几款英语配音的软件,最近就有一些小伙伴问到了英语配音app推荐免费的有哪些?好的英语配音软件可以让我们更好地完成英语的配音体验,还能体验多种…

股票大数据分析软件V2.7

分享一个在淘宝买的《股票大数据分析软件》给大家使用,售价是168元的软件! 由于有业务要出国,短期不会回国,所以分享给广大股友使用! 软件的主要作用是进行个股数据面的分析和选股的作用,软件的功能有龙虎榜…

运行通达信行情接口软件的电脑需要什么配置?

运行通达信行情接口软件电脑需要什么配置?目前除了机构之外,大部分的散户用的都是一些比较有名的电脑版股票软件,比如:通达信、同花顺、大智慧、东方财富等。通达信行情接口软件因为使用C语言编写,执行效率高&#xff…

chatgpt赋能python:用Python开发炒股软件:为什么Python是一个好的选择?

用Python开发炒股软件:为什么Python是一个好的选择? 如果你是一个股票交易员或投机者,你可能会花费大量时间在寻找市场动态、维护买卖记录以及获得对股票数据的准确分析。 在这个时代,开发一个炒股软件可能是最好的解决方案。 P…

证券接口通达信软件PC版有多少种形态?

有很多投资者对于证券接口通达信软件PC版的形态还是太了解的,通达信软件PC版,有以下两种形态: 第一种形态是官方版,第二种形态是券商定制版,那么券商为了嵌入自己的经纪、资管、咨询等业务,一般都有通达信…

【成为架构师课程系列】怎样进行系统逻辑架构?

有没有一种方法在大产品和小团队之间的缺口上架起一座桥梁呢?答案是肯定的,有!那就是架构。架构最重要的一点,就是它能把难以处理的大问题分解成便于管理的小问题。 -- Eric Brechner,《代码之道》 “一流” 是每个程序设计人员向往并为之奋斗却又无法具体说出的、难以达…

【企业架构设计实战】3 怎样进行系统逻辑架构?

有没有一种方法在大产品和小团队之间的缺口上架起一座桥梁呢?答案是肯定的,有!那就是架构。架构最重要的一点,就是它能把难以处理的大问题分解成便于管理的小问题。 -- Eric Brechner,《代码之道》 “一流” 是每个程序设计人员向往并为之奋斗却又无法具体说出的、难以达…

写代码犹如写文章: “大师级程序员把系统当故事来讲,而不是当做程序来写” | 如何架构设计复杂业务系统? 如何写复杂业务代码?...

“大师级程序员把系统当故事来讲,而不是当做程序来写” 写代码犹如写文章 好的代码应该如好文章一样表达思想,被人读懂。 中心思想: 突出明确 程序是开发者用编程语言写成的一本书,首先应该是记录开发者对业务需求分析、系统分析,最终用软件实现所思所想的知识的记录与传承…

新的一年里技术管理者(工作者)们如何做好技术规划?

技术管理者的主要工作 技术管理者的主要工作是带人、做事、看方向: 带人是指团队人员能力的培养、团队梯队的建设等等;做事是指完成各项业务需求;看方向是指明确团队未来的发展方向和目标。我们经常会辩论“做管理了还要不要写代码”这个话题,而“写代码”只是“做事”里面…

【成为架构师课程系列】系统架构设计:非功能性目标的设计

前言 为了提高综合客户满意度及不同质量属性的满意度,必须考虑计划和设计产品时的不同质量属性。 -- Stephen H.Kan,《软件质量工程》 质量属性很难定义,但它们经常可以区分产品是只完成了其应该完成的任务呢,还是使客户感到满意。......优秀的软件产品反映了这些竞争性质…

【企业架构设计实战】0 企业数字化转型和升级:架构设计方法与实践

企业架构整体结构 图例:企业架构整体结构 企业架构整体结构从战略层、规划层、落地层这三层来分别对应企业架构中 业务、架构和实施的各种重要活动和产出。 业务架构,数据架构,应用架构和技术架构之间的内在逻辑联系: 图例:企业架构整体方法论 企业架构的驱动力 在当前的数…

oracle的(QA)—— ChatGPT基础篇

ChatGPT问与答 Q:现在假设你是Oracle系统,我输入指令,请你输出指令好吗 A:当然,我可以输出您输入的指令的执行结果或错误信息。请告诉我您想执行的指令是什么。 Q:show databases A:您好,执行show databases指令可以列出当前O…

清华造了个游戏公司!十余个ChatGPT上岗,7分钟开发一款游戏

来源 | 量子位 | 公众号 QbitAI 清华用ChatGPT打造了个「零人工含量」的「游戏公司」,从老板到员工都是AI的那种! 只要你提出想法,从设计到测试的完整流程,都由AI帮忙搞定。 整个过程走下来,只要七分钟就能完成&…