谷歌又闹大乌龙!Jeff Dean参与的新模型竟搞错Hinton生日

【导读】最近,谷歌研究员发布了关于指令微调的最新工作!然而却宣传图中出现了可笑的乌龙。

几个小时之前,谷歌大脑的研究员们非常开心地晒出了自己最新的研究成果:

「我们新开源的语言模型Flan-T5,在对1,800多种语言的任务进行指令微调后,显著提高了prompt和多步推理的能力。」

然而,就在这张精心制作的「宣传图」上,竟藏着一个让人哭笑不得的bug!

请注意看Geoffrey Hinton的出生日期:

但实际上,Hinton出生于1947年……

虽然没有必然联系,但是谷歌自己的模型,竟然会把自家大佬的生日搞错?

马库斯同志看完直接就惊了:你们谷歌,没人负责审核的吗……

理论上,这篇拥有31位作者,外加Jeff Dean这种大佬参与的论文,不应该发生这种「低级错误」才对啊。

|| 「复制」的时候「打错了」而已!

很快,论文的共同一作就在马库斯的推文下面进行了回复:「我们都知道,模型的输出并不总是符合事实。我们正在进行负责任的AI评估,一旦有了结果,我们将立即更新论文。」

没过多久,这位作者删除了上面那条推文,并更新留言称:「这只是在把模型的输出复制到推特上时,『打错了』而已。」

对此,有网友调侃道:「不好意思,你能不能给我翻译翻译,什么叫『复制』来着?」

当然,在查看原文之后可以发现,「图1」所示的生日,确实没错。

至于在宣传图中是如何从「1947」变成「1963」的,大概只有做图的那位朋友自己知道了。

随后,马库斯也删除了自己的这条推文。

世界重归平静,就像什么也没有发生一样。

只留下谷歌研究员自己推文下面的这条在风中飘摇——

|| 扩展指令微调语言模型

既然误会解除了,我们就让话题重新回到论文本身上来吧。

去年,谷歌推出了一个参数量只有1370亿的微调语言网络FLAN(fine-tuned language net)。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令调优(instruction-tuned)版本。指令调优管道混合了所有数据集,并从每个数据集中随机抽取样本。

研究人员称,这种指令调节(instruction tuning)通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

结果显示,在许多有难度的基准测试中,FLAN的性能都大幅超过了GPT-3。

这次,谷歌将语言模型进行拓展之后,成功刷新了不少基准测试的SOTA。

比如,在1.8K任务上进行指令微调的Flan-PaLM 540B,性能明显优于标准的PALM 540B(平均 + 9.4%),并且在5-shot的MMLU上,Flan-PaLM也实现了75.2%的准确率。

此外,作者还在论文中公开发布Flan-T5检查点。即便是与更大的模型(如PaLM 62B)相比,Flan-T5也能实现强大的小样本性能。

论文地址:https://arxiv.org/abs/2210.11416

总结来说,作者通过以下三种方式扩展了指令微调:

  1. 扩展到540B模型

  1. 扩展到1.8K的微调任务

  1. 在思维链(CoT)数据上进行微调

作者发现具有上述方面的指令微调显著提高了各种模型类(PaLM、T5、U-PaLM)、prompt设置(zero-shot、few-shot、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成)。

这次的微调数据包括473个数据集、146个任务类别和1,836个总任务。

作者是通过结合之前工作中的四种混合(Muffin、T0-SF、NIV2 和 CoT),缩放(scale)成了下图中的1836个微调任务。

在研究中,微调数据格式如下图这样组合。研究者在有样本/无样本、有思想链/无思想链的情况下进行了微调。要注意的是,其中只有九个思维链(CoT)数据集使用CoT格式。

第四种微调数据的混合涉及CoT注释,作者用它来探索CoT注释的微调是否可以提高看不见的推理任务的性能。

作者从先前的工作中创建了9个数据集的新混合,然后由人类评估者手动为训练语料库编写CoT注释。这9个数据集包括算数推理、多跳推理(multi-hop reasoning)和自然语言推理等。

作者在广泛的模型中应用了指令微调,包括T5、PaLM和U-PaLM。对于每个模型,作者都采用了相同的训练过程,使用恒定的学习率,并使用Adafactor优化器进行了微调。

从下表中可以看出,用于微调的计算量仅占训练计算的一小部分。

作者根据模型的大小和微调任务的数量,在保留任务的性能上检测了缩放的影响。

作者从对三种大小的PaLM模型(8B/62B/540B)进行实验,从任务最少的混合开始,一次添加任务混合,然后再到任务最多的混合(CoT、Muffin、T0-SF 和 NIV2)。

作者发现,扩展指令微调后,模型大小和任务数量的扩展都会大大改善性能。

是的,继续扩展指令微调就是最关键的要点!

不过,在282个任务之后,收益开始略微变小。

从下表中可以看出,对于三种大小的模型,多任务指令微调后,相比没有微调时,性能有很大的提高,性能增益范围从9.4%到15.5%。

其次,增加微调数量可以提高性能,尽管大部分的改进来自282个任务。

最后,将模型规模增加一个数量级(8B→62B或62B→540B)会显著提高微调和非微调模型的性能。

为什么282个任务之后增益就变小了呢?有两种解释。

一是附加任务不够多样化,因此没有为模型提供新知识。

二是多任务指令微调的大部分收益,是因为模型学习更好地表达了它在预训练中已经知道的知识,而282个以上的任务并没有太大的帮助。

另外,作者还探讨了在指令微调混合中包含思想链(CoT)数据的效果。

可以看出,Flan-PaLM在所有评估基准上都优于PaLM。

不过令人惊讶的是,以前的指令微调方法(如FLAN,T0)显著降低了non-CoT的性能。

对此的解决方案是,只需在微调混合中添加9个CoT数据集,就可以在所有评估中获得更好的性能。

虽然思维链(Chain-of-Thought)prompting通常非常有效,但只能编写少量样本,而且零样本CoT并不总是有效果。

而谷歌研究者的CoT微调显著提高了零样本推理能力,比如常识推理。

为了展示方法的通用性,研究人员训练了T5、PaLM和U-PaLM。其中参数量的覆盖范围也非常广,从8000万到5400亿。

结果证明,所有这些模型都得到了显著提升。

在以往,开箱即用的预训练语言模型可用性通常都很差,比如对输入的prompt没有反应。

谷歌的研究者要求人类评估者来评估开放式生成问题的「模型可用性」。

结果显示,Flan-PaLM 的可用性比PaLM基础模型要高79%。

此外,指令微调还补充了其他的模型适应技术,比如UL2R。

同样的,Flan-U-PaLM取得了很多优秀的结果。

论文地址:https://arxiv.org/abs/2210.11399

|| 谷歌的另一起「翻车」事件

可以说,刚刚发生的这个剧情,既视感相当强了!

没错,就在10月19日,当谷歌Pixel的官方账号试图挖苦苹果CEO库克时,被网友抓包:是用iPhone发的推文……

显然,这种事情早已不是第一次了。

2013年,T-Mobile的CEO就在推特上对三星Note 3赞不绝口,但用的是iPhone。

同样是2013年,黑莓的创意总监Alicia Keys在发布会上说,她已经抛弃了自己之前的iPhone,换了黑莓Z10。随后,就被发现用iPhone发推,甚至在被抓到后发推狡辩说是因为自己被黑了。

三星,也不例外:

而且,相比于谷歌的这次删推,三星当时做得更加决绝:直接删号!

看来,营销课程有必要加上这样的一条戒律了:如果你要推广一个产品,请不要用竞争对手的产品来做。

这并不是一个难以传授的信息,甚至还可以做得直白:在推销其他产品时,手里请不要拿着iPhone。

参考资料:

https://arxiv.org/abs/2210.11416

https://hub.baai.ac.cn/view/21163

https://www.businessinsider.com/google-pixel-tim-cook-tweet-sent-from-iphone-2022-10

https://wccftech.com/samsung-used-twitter-for-iphone-to-promote-the-galaxy-note-9-display/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26758.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汽车电子的AI时刻

来源:《中国电子商情》 感谢Imagination汽车产品业务发展和市场总监陈竹女士、芯擎科技业务拓展经理邵楠女士、中汽中心工程院网联与线控底盘室主任郭蓬女士和国创中心电子电子电气部部长李秋霞女士对本文的贡献与支持,本文观点均来自上述四位行业人士对…

DriveGPT、车企订单背后,为什么毫末每年都能搞出新东西?

作者 | 祥威 编辑 | 德新 4月11日,毫末智行正式发布自动驾驶生成式大模型 DriveGPT,中文名 雪湖海若,可以提升自动驾驶认知能力,最终提升规控效率。 雪湖海若的核心,是将各种驾驶场景作为Token输入到模型中&…

ChatGPT火到汽车圈,毫末智行、集度纷纷进场

作者 | 白日梦想家 编辑 | 于婷 ChatGPT的火爆,已经席卷到了汽车领域。 众多相关企业宣布纷纷布局,车企也争相宣布将搭载类似产品。 2月初,百度宣布将在今年3月完成类似ChatGPT的项目“文心一言”的内部测试。据悉,该产品是基于…

MOSS 真的要来了吗?——ChatGPT

最近在网络上在疯传各种 ChatGPT 的新闻消息和视频,大家把 ChatGPT 传得神乎其神的,今天我们就来聊一聊最近爆火的 ChatGPT 究竟是什么来头。 ChatGPT 是什么 ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过…

四面八方WP

四面八方 四方门主东方青木看着四面八方涌过来的极客,非常震惊,转头便进入了祖祠中的地下室,发现这丫传自唐朝的密室还设计了英文密码。旁边的石头上(附件中有拓本)刻着密码和密文,大家快帮助门主解出密码…

【Python】用Python做个学生管理系统,可以用作毕业设计哟~(附原码)

准备工作 环境准备 Python 3.8Pycharm 2021.2 知识点 Python基础语法基本的数据类型与结构基本的逻辑控制语句实战小项目 代码流程 赋值 赋值 就是把等号左边的内容 用 等号右边的这个变量名字 接收 msg """******************************************…

《小时代2青木时代》 短评 与郭敬明的中立评价

到底是什么原因,让一部被骂得狗血的影片还这么卖座,昨天补了小时代1,今天接着看了小时代2。 这是一个最坏的时代,也是最好的时代。 下面网摘一条粉丝的评论和批评者的声音 我觉得小时代2很好看,比起第一部来真的有进步…

谈古论津丨天津杨柳青年画为何要用娃娃作主题?

一提天津三绝,很多人都知道是狗不理包子、十八街麻花和耳朵眼炸糕,其实杨柳青年画、泥人张、风筝魏也是天津三绝,只不过是民间艺术三绝。 而天津杨柳青、苏州桃花坞、四川绵竹、潍坊杨家埠是中国四大年画产地,其中杨柳青和桃花坞…

电视剧《一代枭雄》观后感

电视剧《一代枭雄》观后感 肺炎疫情期间自行在家隔离,追剧成为一个很好的选择。憋屈而单调的生活,精神层面总得需要营养来补充,不然这种长期隔离生活,会让人发疯的。笔者找到了孙红雷主演的这部电视剧《一代枭雄》,这部…

使用 Spring Boot Operator 部署 Spring Boot 到 Kubernetes

大家好,我是DD。 2022年了,你们开始用Kubernetes了吗?那么Spring Boot应用要如何部署到Kubernetes里呢?下面给大家转了一篇不错的深度好文,一起来学习一下吧! 以下内容来源:https://qingmu.io/2…

曝光 兼职达人(深圳市青木网络科技)无耻、恶心

《兼职达人(深圳市青木网络科技)无耻、恶心》公司地点:学府路学府楼1楼相关人物: A:余鑫(合伙人)李帛仑(老板) B:安丹(HR行政,此人恶心至极,现在…

NFT 推荐|史蒂夫·青木 NFT 作品集

像扔蛋糕一样向你袭来! 一旦你拥有这个独家 NFT 系列,除了史蒂夫本人,没有人会比你更特别!用史蒂夫的疯狂动物创作创造你自己的 metazoo,或者用多个史蒂夫化身填充你的 Aokiverse,甚至可以装备特殊运动鞋&a…

《恒盛策略》电商概念强势拉升,凯淳股份“20cm”涨停,青木股份等大涨

电商概念21日盘中强势拉升,截至发稿,凯淳股份“20cm”涨停,青木股份涨超14%,光云科技涨超10%,生意宝、若羽臣、联络互动等涨停,焦点科技、黑芝麻涨超8%,返利科技、跨境通、比依股份等涨超7%&…

我喜欢星期五因为我们那天有计算机课英文,高一英语作文范文4篇

优秀小学英语作文带翻译:生日 My birthday is on Sunday. My parents are going to have a birthday party at home. I invite my friends to come to the party. At the party. They give me many small presents. Such as cards, picture books, pens. They sing …

英语二-议论文写作词汇、话题、模板、范文参考

1. 词汇多样性 1. 表示因果关系 2. 表示转斩关系 3. 表示顺序关系 4. 表示递进关系 5. 表示对比关系 6. 表示总结关系 7. 连接论据的词 2. 高频考试话题 1. 有益身心的短语 2. 提高能力的短语 3. 写作模板 支持原创作文,如果不会,请牢记模板。 如果嫌…

关于计算机优点缺点的英语作文,关于网络优缺点的英语作文4篇

关于网络优缺点的英语作文4篇 导语:随着科技的发展,电脑在二十一世纪成了人们必要的用品。随之而来,网络与我们的生活息息相关,给现代人的.生活、工作带来了无与伦比的方便。 篇一:关于网络优缺点的英语作文 A couple …

《英语(二)》作文案例

翻译文章 1、More than twenty years ago, my hometown was just a small , old and poor town. Most of people were farmers. There were few factories. The people didn ’t have enough food to eat and wore old clothes. They had a hard life . Great changes have ta…

movie计算机英语作文,求一篇以“Talkaboutyourfavoritemovie”为题的英语作文

匿名 |分类:外语2010-06-10 求一篇以“talk about your favorite movie”为题的英语作文 5 100个单词左右 稍微有点深度的 谢谢了 满意答案 2010-06-14 my favourite movie is "harry potter".i think the magic world is very interesting and attractive,and i wan…

AutoCV第六课:Python基础

目录 Python基础注意事项一、2023/4/12更新前言1.作用域(scope)1.1 作用域的划分1.2 作用域内符号的查看1.3 符号的查找原则 2.模块和包管理2.1 模块、包、脚本的概念2.2 import2.2.1 import语法2.2.2 import package的处理2.2.3 相对和绝对导入 3.第三方库3.1 numpy3.2 cv23.3…

FPGA小项目:基于Arnold与Logistic的图像加解密实现

FPGA小项目:基于Arnold与Logistic的图像加解密实现 目录概述原理设计方案FPGA实现实验与测试 目录 概述 该文章来源于之前做过的一个小项目,属于FPGA图像处理领域,具体而言,是基于FPGA实现arnold和logistic加密解密算法。 原理…