GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

2020-06-02 12:01:04

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

OpenAI最强预训练语言模型GPT-3周四发表在预印本 arXiv 上,1750亿参数!

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

GPT系列的预训练语言模型一直是大力出奇迹的典型代表,但是一代和二代在偏重理解的自然语言处理任务中表现欠佳,逊色于BERT家族。

GPT(Generative Pre-Training)是一个12层单向Transformer语言模型。语言模型训练好后,可以用于其他的NLP任务。使用GPT首先要学习神经网络的初始参数,然后,根据具体任务再进行微调。

GPT-2在GPT基础上对模型做了调整,将Layer Normalization挪到了每个sub-block的输入,另外有一个LN加到了自注意力block之后,GPT-2把输入输出全部转化为了文本,训练出15亿参数的模型,在自然语言生成领域一时风头无两。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

少样本学习无需微调,以后都不能自黑「调参侠」了

GPT-3基于 CommonCrawl (从2016年到2019年收集了近1万亿个单词)、网络文本、书籍、维基百科等相关的数据集进行训练。

GPT-3的参数量高达1750亿,相比之下,GPT-2的最大版本也只有15亿个参数,而微软早前推出的全球最大的基于Transformer的语言模型有170亿个参数。

GPT-3模型在一系列基准测试和特定领域的自然语言处理任务(从语言翻译到生成新闻)中达到最新的SOTA结果。

GPT-3只是参数量巨大吗?

此次发布的GPT-3还是沿用了之前的单向transformer,我们看题目,这次的模型是少样本学习语言模型,不管是Zero-shot、One-shot还是Few-shot都无需再进行微调,但推理速度还有待验证。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

实验证明,1750亿参数的GPT-3模型,在少样本学习中取得了不错的效果。「GPT-3在特定领域少样本学习中取得了极大的性能提升,有些甚至超过了当前的SOTA效果」。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

对于所有任务,GPT-3没有进行任何微调,仅通过文本与模型进行交互。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

知乎用户李如总结了GPT-3相对BERT的优势,BERT在特定领域的任务微调过分依赖标注数据、容易过拟合,而GPT-3只需要少量标注数据,且无需微调。

前面我们说了GPT和GPT-2在自然语言理解方面还是逊色于BERT,那这次有没有新进展呢?

在专门用于测试推理和其他高级 NLP 模型任务的 SuperGLUE 基准测试中,GPT-3在 COPA 和 ReCoRD 阅读理解数据集中获得了近乎最好的结果,但是与上下文词汇分析(WiC)和 RACE (一组中学和高中考试问题)相比还是有所欠缺。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

接下来作者们对下游的各种NLP任务进行了实验,想要了解更多细节的朋友可以去arXiv上查看原始论文。

https://arxiv.org/pdf/2005.14165.pdf

OpenAI这次不光拼参数量,还要拼作者数量?

这次的GPT-3论文作者足足有31位,现在语言模型不仅要拼参数量,还要拼作者数量吗?

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

谷歌53页的T5论文已经让人惊掉下巴,GPT-3的竟然有72页!知乎网友感叹,现在PTM的工作是要开始pk论文页数了吗?

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

GPT-3直接被打上了炫富的标签。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

计算量是BERT的2000多倍,知乎网友Jsgfery表示,这么大的模型跑一次就好,可千万别出bug,地主家也没有余粮再训练一次了。

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

 

GPT2生成的虚假文章已经让人真假难辨,至少在语句的通顺性上是这样。GPT-3的效果将更胜GPT2,有网友也表示我们将会败给GPT-3,如果以后网页的内容都是自动生成的,那阅读还有什么意义?

GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

 

OpenAI 去年发布了 GPT-2,因为担心该模型可能被恶意使用,并没有放出预训练的模型。有些网友评论说应该改名Closeai,但是OpenAI这种审慎的做法也有不少人赞同。网友们也关心 GPT-3的完整版本是否会开源,或者是否会有7个规模从1.25亿到130亿不等的小版本时,OpenAI没有给予明确答复。

参考链接:

https://www.zhihu.com/question/398114261

https://arxiv.org/abs/2005.14165

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5062.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何利用ChatGPT辅助优化刷题性能

根据土著刷题共建群里的一个小伙伴反馈,刷题会出现切题卡顿的情况,有时会出现滑不动的情况。 定位问题 为了定位切题卡顿问题的具体原因,测试了高低端手机📱、切换2G、3G、4G低网络状态等各种影响切题的现实情况,经过借…

ChatGPT使用进阶,你一定要知道的应用技巧

鉴于ChatGPT的巨大能力,深入学习ChatGPT使用技巧势在必行。作为伴随着ChatGPT等大语言模型(LLM)出现的还有一个新的工程领域:提示工程(Prompt Engineering)。 提示工程(Prompt Engineering&…

ChatGPT结合本地数据_llamaindex

1 功能 大模型学习的主要是通用数据,而用户可能需要让ChatGPT在本地的知识库中寻找答案。 普通用户不太可能训练大模型;由于本地数据格式丰富,内容烦多,且考虑到使用成本和token大小限制,也不可能在每次提问时都将所有…

上海亚商投顾:沪指震荡上行 大消费板块全线走强

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日震荡反弹,沪指全天低开高走,深成指、创业板指均涨超1%。工程机械板块集体大涨…

上海亚商投顾:沪指四连阳重回3300点 中字头个股再发力

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 大小指数今日走势分化,沪指低开后震荡反弹,创业板指盘中跌超1%。中字头个股再度发力&#…

上海亚商投顾:沪指低开高走 国产芯片板块掀涨停潮

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日低开高走,深成指尾盘涨近1%,科创50指数大涨超2%。芯片板块掀涨停潮&#xff0…

上海亚商投顾:三大指数集体调整 消费板块逆市活跃

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日集体调整,沪指全天弱势震荡,创业板指盘中跌超1%。旅游、食品、乳业等大消费板…

互联网晚报 | 爱奇艺回应因限制投屏被起诉事件;“鱼跃医疗”回应被罚270万元;2022年全国城市GDP十强全部出炉...

爱奇艺:已收到关于投屏清晰度变更应诉通知,会认真审慎对待 据信号财经报道:近日,爱奇艺因为“限制投屏”一事连上多个热搜。据现代快报消息,广东一名用户因此将爱奇艺告上法庭,北京市互联网法院已于1月29日…

AIGC能否助力三六零实现“戴维斯双击”?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 4月21日,有着“网络安全巨头”光环的三六零发布了2022年财报。 数据显示,2022年,三六零实现收入95.21亿,同比下降12.54%,连续四年下滑;净利润-22.04亿&…

研报精选230528

目录 【行业230528华金证券】传媒行业深度研究:AIGC最新应用与场景研究 【行业230528国海证券】电动船舶行业深度报告:绿色智能大势已至,驶向电化百亿蓝海 【行业230528华西证券】纺织服装行业周报:5月增长放缓无碍中长期出清逻辑…

五月&六月券商金工精选

✦研报目录✦ ✦简述✦ 按发布时间排序 海通证券 通往绝对收益之路(八):“固收”产品股票端的量化解决方案 发布日期:2023-05-05 关键词:固收、股票、量化策略 主要内容:本研报研究了优秀的“固收”产品…

港联证券|龙头齐聚,本周7股将申购!今年第三高价新股也要来了?

随着2023年上半年收官,券商金股组合上半年收益率也已“交卷”。 券商中国记者梳理发现,在沪深300指数今年上半年微跌的背景下,六成券商金股组合今年以来取得了正收益,还有10家券商的组合收益率超过10%。 香港港联证券有限公司&am…

3000辆特斯拉“报废” ChatGPT竟成“罪魁祸首”

由OpenAI自主开发的聊天应用ChatGPT风靡全球后,立即在全球范围内掀起了大模型开发的热潮。但准备参战的玩家们很快便认清现实,这不过是一场由巨头主宰的游戏,其中的关键,就是能耗。 知名计算机专家吴军的形容并不夸张——ChatGPT…

破万亿!英伟达的市值

文章目录 破万亿 🤨 英伟达的市值🤨 英伟达市值几近破万亿🤖 ChatGPT 伪造 6 个法律案例🗡️ AI 巨头的呼吁,是真担心还是想垄断?🏠 硅谷诈骗犯开启女性监狱新家📈 美国房价春季反弹…

用ChatGPT 辅导复杂数学作业

俗话说:不辅导作业,都是父慈女孝!一辅导作业,真的是鸡飞狗跳一样。家人们!辅导数学作业再也不头痛啦!本教程详细探讨了如何利用ChatGPT插件Wolfram解决算法问题,并提供了一种结合linkreader阅读…

文心一言 VS chatgpt (7)-- 算法导论2.3 3~4题

三、使用数学归纳法证明:当n刚好是2的幂时,以下递归式的解是 T(n)nlgn。若n2,T(n)2;若n2^k,k>1,T(n)2T(n/2)n。 文心一言: chatgpt: 首先,当 n2 时,T(n)2log₂n2,显…

ChatGPT做2023高考数学卷子。

前几天,我们让ChatGPT写了高考作文。 有人说写得层次分明、条理清晰,感慨自己幸好早早毕业,不然就要被ChatGPT超过了。 有人则认为ChatGPT写的作文中规中矩、平淡无奇,十分正确但没有什么意义。 今天,我们准备再让Chat…

ChatGPT废了,连五年级的数学题都能答错

起因 社区群里有人给五年级的孩子打印数学题,然后自己不会,发给群友看题目,结果群友给了答案。出于好奇,我给题目发给ChatGPT让他回答 开始调戏 一个长方形,长是宽的 1.4 倍,如果宽增加 2 厘米&#xff…

北大“韦神”出了道数学题,有老师用ChatGPT做答,结果出乎意料

近日,北京大学北京国际数学研究中心推出的一道数学题,获得了数学爱好者的广泛关注。 出题的是北京大学数学科学学院研究员,第49届、第50届国际数学奥林匹克竞赛满分金牌得主韦东奕。 题目 截至目前,已有近百位读者提交了解答。出题…

89%美国大学生竟用ChatGPT写作业!纽约大学教授警告:用AI就是剽窃

新智元报道 编辑:Aeneas 好困 【新智元导读】调查发现,89%的美国大学生已经在用ChatGPT写作业了,而其中的72%也同时支持封杀。对此,老师们的态度倒是褒贬不一,值得玩味。 ChatGPT诞生才两个月,但它给全世…