致敬2202年,这些优秀的裁缝们

48a083e532ffbc76de093b73422cd451.png

文 | 鹰钩鼻涕虫

2202年过去了,不知道小伙伴们是否和我一样,绝大多数时间处于迷茫之中,除去其他因素不谈,在最后一个月到来之前,NLP 学界的表现似乎不如前几年那样“精彩”,甚至可说是“寡淡”,翻开会议,满眼望去,可能也是些不痛不痒的报告。

工业界积蓄的力量,却迎来了大爆发,大模型、大数据的加持,让今年迎来了“创作”的大年。既有年中的各家发力,文生图模型大爆发,前有 DALL-E 和 Disco 积蓄力量,又有 imagen、Parti 你方唱罢我登场,而后又有 stable diffusion 彻底点爆了这一领域,席卷了业界,预期也可彻底改变画师的创作习惯。

在年底,NLP 领域也终于迎来了重磅炸弹——ChatGPT,其在可控生成上秀出来的肌肉,也必将给文本生成领域带来重大变革,其核心原因在于,看上去,它有能力生成逻辑结构完整的长文

我前些天看了符尧大佬对 OpenAI 从 GPT-3 开始,到 ChatGPT 为止,发表的各个模型,及其能力的演进路线,突然好像悟了 ChatGPT 是怎样炼成的,这之中,惭愧的事情有二:首先是我之前一直被误导,认为 RLHF 才是 ChatGPT 看上去这么强大的核心因素。可看过符尧大大的梳理之后,我意识到,我错了。第二是,当我猜想了 ChatGPT 的能力是怎么来的之后,发觉其几个能力来源,大部分是我看不上的,可能就是比较小的点,但是它们的副产品组合在一起,就如此重磅。此时,模型发布已有一个月之久,我才明白这些,只能说,是我格局小了。

那么,再去回首这一年,我发现,其实这一年并不寡淡,只不过先锋们,看上去步子没有前两年那么大,也是因为,这两年我们对大模型也更加清楚了。却不想,他们也是在攀登更陡峭的山峰。所以,这篇文章,带着这种心情,以我极有限的视野,再看一下这一年,工业界这些比较重磅的进展。

Pathways 系列模型

Jeff Dean 大佬在去年下半年,发表了 Pathways 架构,其基于 MoE 的思想,从工程学的角度,提出了宏大的设想。去年萌屋的文章 《谷歌称之为“下一代 AI 框架”, Pathways 真有那么强吗?》也从不同的维度,分析了 Pathways 可能 work 的原因。

彼时,我听到过一种声音,就是介绍 Pathways 那篇 blog,里面没有写任何的新东西,甚至有“假大空”之论调,大有这些年工业界不分场合地去追求“impact”,却失掉了最基础的品质之感。的确,Pathways 的每一个部分,都不是新的,但同时,Pathways 又非常“工程”——充分利用、有机结合已有的方法,做出来好用的东西。

这样的工作,我们喜欢叫它“缝合怪”。通常,我们说缝合怪,都是带有贬义意味的,但我认为,工业界,无论是想法上还是实现接口上,能够缝合出好用的东西,绝对是不可多得的好能力(甚至可以说,我们其实一直站在前人的肩膀上。每一个行业技术上的开创者,首先得是行业内已有技术绝对的专家,一味追求创新,可能万分之一是天降猛人,其他的都是民科),从这个角度上来讲,Google 绝对是个好“裁缝”。

而可笑的是,当 Jeff Dean 发表的另一篇论文,方法上有不错的创新性的时候,却又有一群杠精揪着一大堆指标中的一行,说“花了这么多钱就为了个这?”,完全不考虑文章中的方法部分,以及其他的指标。

但可悲的又是,树大招风,强如 Jeff Dean,还是得卷榜单啊。

c59dcdcd1f8c87ba89d09b08ff602a3b.png

看上去,Pathways 的确在 Google 有着不错的地位,到了今年,Google 持续发力,PaLM 模型作为第一个展示肌肉的工作,发表了出来,看上去也早早地给今年的榜单画上了一个句号。

当然,PaLM 也不是终点,今年10月,在一篇名为 Scaling Instruction-Finetuned Language Models 的论文中,Google 又上了新的魔法—— prompt。

正式介绍之前,请允许我引一个题外话,介绍第一波被我忽视掉的工作。

Prompt 系列

其实,我一直是 prompt 爱好者,也是我工作岗位上第一批应用 prompt 的人,也曾经针对 prompt 做了很多的探索、解释和分享。但也限于工作,我使用 prompt,也仅止于关键字 prompt,或称作完形填空 prompt。Prompt 后续的各种进展,都不在我关注范围之内。

指令微调

而其实 prompt 也一直在演化,去年,就有了 instruction tuning,即把针对于上下文补全的 prompt 输入,改变成带有目的性的指令输入,这样就能将原本受限于 language model 的任务形式,扩展成为无限的任务形式。我们不必要去纠结于如何将任务转换为语言模型任务,而直接莽上去就完了。同时也因为语言模型的基础能力,相似的自然语言输入激活的参数组合也是相似的(这也成为了 prompt 本身的一大特性),而不同的任务,其指令也会有较大差异,这就给同一个模型,通过指令微调做多任务,提供了理论上的合理性,也非常符合我们对多任务的设想,即目的相似的任务互相增益,其他的任务互不影响

同时,现在模型参数规模、预训练数据规模,都发展得足够大,绝大多数任务的指令和回答,我们都可以认为预训练数据集里面也已包含,而巨大的参数规模,也给上面的理论足够的操作空间。

思维链

除此之外,今年1月,另一篇名为 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 的文章,又提出了一种新的 prompt,思维链 prompt,其目的是让语言模型解决复杂推理问题(如数学题)。首先,早先的诸多尝试中,我们都看的出来,简单的语言模型训练目标,实际上根本不可能让模型像模像样地模仿逻辑推理能力,GPT-3 在这方面确实就比较拉胯。

e6179bad25efb7f33b97fd4ddfad9222.png

思维链则是,训练目标不仅仅是问题答案,同时还有问题求解的过程(即思维链)。然后,神奇的事情来了,模型在推理(比如数值计算、符号推理)任务上,的确有了不错的提升,甚至在分布外数据上,都表现得不错。也就是说,大模型的确通过思维链,部分 get 到了一些符号逻辑的规律。Google 的 Minerva 也证实了这一点。

理性分析一波,每一个问题的思维链中,去除了共性的那些词之后,真正差异化的那些 bias,的确是从归纳角度上,体现了符号规律的,被大规模数据预训练后的语言模型,自然很容易找到思维链之中的 bias 部分,也就是真正需要训练的知识,而把其他的东西卸载掉。又有大量的训练数据做支撑,知识的空间又相对有限(简单数值计算,和简单的三段论推理问题),靠着归纳,我认为的确能让统计模型 get 到简单符号逻辑。

但是,哪怕我承认了上面那些,我也绝不认为现阶段的大统计模型就已经具备了完整的复杂推理能力,原因还在于,想要枚举所有的符号规律,规定所有的边界,在数据构建上是有极大困难的(单是数值计算,就已经难以枚举了)。哪怕大模型似乎已经在挑战问题空间更大的中学数学,甚至奥数了。

这篇文章我是属实忽略了,不过老实讲,哪怕我当时看到了,但当我看到复杂推理这个东西的时候,也可能嗤之以鼻,最终与这个工作错过,人有的时候就是要靠打脸来成长。

不过思维链也是需要模型参数足够大,才能够发挥功力,根据现有已发表的工作统计,至少 62B 参数才能让思维链更优。

哦对,上述两篇工作,也是 Google 发表的。

而同时借助着语言模型和 prompt 的特性,如果我们准备了超大规模的指令集,可以覆盖绝大多数任务,甚至绝大多数对话场景,那么是不是说,我们对模型提出的任何一个指令,哪怕模型没有见过,但是大概率也能从已训练过的指令中找到相似的,从而保证模型对任何任务、任何问题,都有训练调优后的回答了呢(这个想法的起始是一个名为SPoT的工作:SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer,我也相当推崇)?

Google 给 PaLM 加持的魔法,就是这个,将大规模的指令集和思维链,统统加到了 PaLM 的训练中,训练出了一个强劲的小样本模型,FlanPaLM。

说到这儿,不知大家有没有发现一种既视感,大规模指令集训练,好像 ChatGPT 干的也是这个事儿呢?不妨就顺势再浅聊一下 ChatGPT 这另一个优秀的裁缝吧。

ChatGPT

聊之前,我还是先表明一下态度:我认为 ChatGPT 绝对是生成领域的重大变革,甚至可能改变以后做生成的范式。但我绝不认为它在NLU领域能引起那么大的波澜,毕竟我们看得到,目前它还是有各种各样的疯言疯语,实际也是,一带就歪(《ChatGPT进入百度“弱智吧”后,疯了》《ChatGPT惊人语录大赏》)。

0cccf10da9a3a9c996ca65d3d7be1d55.png
▲实际上,这几篇论文都不存在,感谢@天于刀刀提供素材

首先我们要搞懂,它带来最核心的变革是什么?它的回答中,看似有较长思维链,看似做了很严谨的推理。可以说,目前的 ChatGPT,可能就已经是一个八股文大师了。但是,它生成的东西,也不能细究。甚至我可以说,ChatGPT 目前完全是没有推理能力的,它只是在模仿推理,我也不认为大模型具备了思维链,它顶多有了形式思维链。其具迷惑性的是,它的确成功模仿了一步步解决问题的过程(虽然其实通过上下文训练,生成模型也很容易模仿文风),并且做到了不“一眼假”,因为它具备了长距离依赖,可以记住提到过的东西是干啥的,然后准确的在下一个语言环境里面复用它,同时也能够做到在一个 session 里面,完成多轮对话。

哇,这可是对话系统,或者生成梦寐以求的能力啊!

可是,这个能力是从哪儿来的呢?我曾一直以为 RLHF 是这种可控生成的核心来源,而看过了符尧大佬的分析后,我才明白,其很有可能来自于代码生成。这个结论是由符尧大佬提出,他提到,code-davinci-002(即Codex)之后的模型,似乎开始具备了思维链,再之后的大规模指令集微调,才形成了 ChatGPT(篇幅原因仅部分总结,强烈推荐阅读原文,非常详实精彩)。

我认为,这个结论绝对是 make sense 的。因为编程代码,存在大量的、统计意义相当显著的长距离依赖数据,即——变量/对象名。同时,又有作用域,又同时,高级编程语言是更接近于文本的,这给后面迁移到自然文本上提供了一些便利。这给了模型超大量的提示——某一个东西这里定义,下面要用。且上下文环境里,也大体约束了其语义。相比于自然文本来讲,程序的空间是相对集中的,自然让模型更加容易地 get 到这个能力。自然文本不仅仅空间很大,没有很明确的强调信号,且经常会使用别名、简称,命名之间的关系是多义的,自然相对难上不少。

当然,代码形式化地写出了思维链,面向对象的工程则有更加复杂的拆解、组合过程,供模型可以模仿

不过我在和领导讨论这个问题的时候,领导问了我一个问题:拿代码训练到的能力,是怎么迁移到自然文本上的呢?

刚刚提到的高级编程语言更接近于自然文本,提供了一部分便利。而更大的杀器则是,我们前面提到的,大规模指令集训练。Codex 的升级版本其实是已经加入了指令集训练了,这个时候加入的指令集已经是人类指令了,且代码数据相当庞大,其中所能拿到的指令其实也异常丰富,同时,还记得前面提到的吗?这些指令定向激活的那些参数,已经提前被强化了长距离依赖,和形式思维链了,那么,同样用指令集训练的方式,训练它去生成自然文本,是不是它就更加容易 get 到自然文本中的长距离依赖了呢?又得益于语言模型训练得到的语义理解能力,那么,它生成出了看似有复杂推理的结果,是不是就合理了?

那么 RLHF 又起到了什么作用呢?其实更多起到了约束模型的行为边界的作用。

实际上,正如我认为现阶段统计模型不可能真正掌握符号推理能力一样,我对 Codex 也一直是嗤之以鼻的,现在我仍旧认为统计模型不具备真正写代码的能力,毕竟 copy 和拼凑不能叫编程,何况很多代码不能 run,或很多代码有漏洞,稍复杂的功能也未必能搞定。所以,ChatGPT 能力形成的每一个工作,我都会忽略,但它们的副产品,组合起来却有了这么大的威力,是我格局小了。

本文关于 ChatGPT 的部分观点及绝大部分资料来自于符尧大佬所写的文章 《ChatGPT的前世今生》,我是站在巨人的肩膀上,妄谈自己的见解。

文生图系列

提到2202年,怎么能不提到文生图呢?

当然最大最火的那个进展,是 stable diffusion,它针对现有的扩散模型做了大幅度的效率优化,使得生成高清图片的资源消耗大幅降低,文生图宣告走入民用,算是彻底点爆了这个领域,形成了统治地位。

不过我想提名的是两个目前没有公开的文生图模型:imagen 和 Parti。

Imagen 提到,其主要改进是在扩散模型的基础上,文本处理的那个部分,使用了大规模预训练语言模型。曾经我对文生图(或者多模)主要的担忧其实是,多模态的数据实际上是对不齐的,同样的一个意思,在文本和图像两端,实际上都是无限对无限。更何况,艺术创作上,每每有相对意识流的主题,对应上了具体的画面,这其中又有我们称之为“意境”的东西。意境这个东西,就更是各人有各人的理解,最终产物上更是千差万别。

但是,模型接受的是这些东西,人类接受的也是这些东西啊。人类能够容易地理解、建构,将意识流转换成画面,将画面吟诵成诗词。正是因为学过的东西,在我们大脑里的认知层,被编码成了原型,通过原型去发散,则可以想象出无限的画面或描述。也就是说,无限的感知信号,在认知层则做了归组编码,且有注意力去做更加细致的事情(比如去认画面中的每一个主体)。

而我一直认为,图文对齐数据是远远达不到,让一个不具备一定文学素养及美术素养的人学到这种能力的,何况模型。所以当时虽然 Disco 已然是风生水起,我仍觉得其实最多也还是只能做到玩具。随后,imagen 出现了。

引入大规模语言模型做语义理解,就可以看作,在自然语言这一层,引入了抽象编码,至少,解决了一端的编码问题。虽然我后面看到,语言模型带来的泛化性似乎也导致了一些问题(《我们追求的泛化,竟是一条死路?》),但总体来讲,是利大于弊的。

Parti 和 imagen 双方团队其实后来也说,两边是互相借鉴的。所以也可以认为,Parti 可能也直接缝了语言模型进去。

不过,Parti 不用说了,Pathways yyds!且是看到了用 Pathways 搞多模了。

可惜这两个东西不开放,我在这里吹得天花乱坠也有可能直接打脸。

后记

以上,是这个不太平的一年,给我留下很深刻印象的工作。

也看得出,每一个工作其实都能找到或久远,或近来一直延续的前人工作,或向前迈了一步,或组合了若干工作,最后做出了卓越的成果。如我一直所推崇:充分利用已有成果,有机结合,科学、高效地缝合出一个漂亮的工作,是一件非常酷的事情。我列举的几个工作,各个单体都没提出什么变革的修改(除了 latent diffusion),更多的都还是有机的组合,其背后的团队,都是优秀的裁缝。

其实,务实地讲,工业界可能更加需要的,就是裁缝,而非硬凹出来的创新。举一个不恰当的例子,公式相声之后,郭德纲在一次采访中说,每一个行业,都会有改革,有突破,但问题是,这些改革的人,他得是干这个的,且是最顶尖的那一种人,你给人修鞋修了十年,这天看不惯了说你要来改革相声,你看他们打不打你吧。

也就是说,变革、突破、天降猛人一样的创新,其应当是对已有东西充分了解且利用的基础上产生的,而非凭空而来,所以我觉得应当打开自己,去接受,尤其得了前面所说的教训之后,更有此感触。啥也没了解,自身也没有过成功经验,奇思妙想也没work过,就胡扯出来的创新,要么就是民科,要么,可能几十年前,就已经被大佬们验证过了,到头来,是吧。

270e6c887bb4efa60e470ca142524247.png

上述吐槽,也是因我看不惯些什么,有感而发,夹带私货,若误伤了您,深感抱歉。

2202年是非常 down 的一年,3202年看上去也注定不太平,希望我们都能够平安吧!

最后,诸位,新年快乐!开工大吉!

6d531fcf07d7c6348eff1521608ae852.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7988.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

夕小瑶科技说 原创 作者 | 智商掉了一地 借助 ChatGPT 强大的理解与生成能力,结合基础语音模型,集成模型 AudioGPT 诞生了! 最近基于 ChatGPT 的二创如雨后春笋一样冒出,上周我们一起看了黑客松优秀作品大赏,这周又有…

第二次报告(软件需求规格说明最终版)

软件需求规格说明 1. 引言 1. 1目的 1. 2文档约定 1. 3预期的读者和阅读建议 1. 4产品的范围 1. 5参考文献 2. 综合描述 2.1产品的前景 2.2产品的功能 2.3用户类和特征 2.4运行环境 2.5设计和实现上的限制 2.6假设和依赖 3. 外部接口需求 3. 1用户界面 3. 2硬件…

Telnet登录提权

一、实验环境 目标主机: Metasploit2虚拟机 192.168.20.143 攻击主机: Kali2虚拟机 192.168.20.133 二、实验过程 1.msf登录telnet 详情参考Telnet暴力破解_Myu_wzy的博客-CSDN博客此文章 2.msf连接shell下载exploit 在本地下载exploit,…

在飞书搞了个机器人,我让ChatGPT帮忙写算法

一、前言 环境: 系统:Windows 11 64位 Python版本:Python 3.9 注:本文不讲怎么实现,只讲实现的效果和一些思考。大家感兴趣再考虑去配置相关机器人。 先来问问ChatGPT两个问题: 1、ChatGPT是什么&#xff…

ChatBI- ChatGPT的垂直领域思考

声明:本文将从技术角度对比几款商用BI产品的AI辅助功能。鉴于个人的认知水平,所描述的内容,若有不妥,请斧正。 BI之痛 从事大数据工作十余年,近两年负责制造业BI工作,总结了一些痛点问题: 技术…

Cursor——ChatGPT的替代品【笔记】

Cursor——ChatGPT的替代品【笔记】 前言推荐Cursor——ChatGPT的替代品下载登录使用高级另外 最后 前言 2023-3-31 22:00:44 以下内容源自《笔记》 仅供学习交流使用 推荐 什么? 你还没用过 Cursor? 智能 AI 代码生成工具 Cursor 安装和使用介绍 C…

ChatGPT可以替代人类做哪些工作?

随着时代不断发展,人工智能技术正在日益发展,越来越多的人工智能技术正在改变人们的生活。其中,Chat GPT(Generative Pre-trained Transformer)也是一种新型的机器学习技术,可以替代人类做一些繁琐的工作。…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门多语种翻译应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

List item 从0到1快速入门多语种翻译应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图…

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 大型AI模型正在改变数字世界。基于大型语言模型 (LLM) 的 Turing-NLG…

让你的类ChatGPT千亿大模型提速省钱15倍,微软开源 DeepSpeed-Chat

作者 | 微软 DeepSpeed 开源项目组 来源 | 开源社(中文版授权开源社首发) 概述 近日来,ChatGPT 及类似模型引发了人工智能(AI)领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT 类模型具有惊人的泛用性&a…

ChatGPT和 dalle2 配合生成故事绘本

和 dalle2 配合生成故事绘本 在之前章节中,我们已经尝试过让 ChatGPT 来生成一些故事情节,不管是影视剧还是小说还是游戏都可以。这时候,自然而然的可以联想到:那我们可不可以一步到位,把 ChatGPT 编出来的故事情节&a…

科研工具-论文写作翻译软件优缺点介绍

当今,科研学习已经成为人们生活中不可或缺的一部分,而随着全球化的发展,跨语言沟通也变得越来越重要。翻译软件因此也变得越来越普及。针对科研学习中的翻译需求,目前市面上涌现了许多优秀的翻译软件,它们可以辅助我们…

DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调

文章目录 系列文章0x0. 前言0x1. 🐕 Supervised finetuning (SFT) 教程翻译🏃 如何训练模型🏃 如何对SFT checkpoint进行评测?💁 模型和数据☀️来自OPT-1.3B及其SFT变体(使用不同微调数据)的提示示例☀️…

chatpdf使用说明

传送门:https://www.chatpdf.com/ chatpdf是一个可以让你与PDF文件进行对话的工具,它可以帮助你快速提取PDF文件中的信息,例如手册、论文、合同、书籍等。 要使用chatpdf,你需要先访问它的网站,并点击“Upload PDF”…

又一巨头宣布入局AIGC,一口气开源数个模型,还道出了它的变现之道

金磊 发自 凹非寺量子位 | 公众号 QbitAI AIGC(AI生成内容),这个概念在今年可以说是火得一塌糊涂。 例如Stable Diffusion,只要对它说一句话,“唰唰唰”地就能秒生成画作。 再如最近大火的ChatGPT,对答如流…

全面开放!Google Bard使用教程

一 前言 在2002.5.12举办的Google I/O发布会上,Google宣布从即日起将Bard全面开放,全球超过180个国家只要点击进入bard.google.com,无需等候就能使用。 Bard有哪些特点?通过与ChatGPT的对比,就可以很快地了解Bard&am…

【研究】CSDN 到底是怎么套壳 ChatGPT 的?稍微研究了一下提示词

昨天 CSDN 宣布推出自研的一款 AI 聊天助手“ChitGPT”,定位是“专门为开发者设计的大型语言模型,能解决例如代码生成(用 js 写一个冒泡排序),代码错误追踪等问题”。 但是相信大家也知道了,只要问它“Who are you?”&#xff0…

Science:AI竞赛,学界正在输给业界

【编者按】人工智能(AI)正在向业界倾斜。相比于学界的前沿性研究,风靡当下的 AI 聊天机器人 ChatGPT、AI 艺术生成器 Midjourney,以及微软发布的新一代 AI 驱动搜索引擎 New Bing、谷歌发布 ChatGPT 竞品 Bard 和那些未来将要发布…

A Survey on Evaluation of Large Language Models

这是LLM相关的系列文章,针对《A Survey on Evaluation of Large Language Models》的翻译。 大型语言模型评价综述 摘要1 引言2 背景2.1 大语言模型2.2 AI模型评估 3 评估什么3.1 自然语言处理任务3.1.1 自然语言理解3.1.2 推理3.1.3 自然语言生成3.1.4 多语言任务…

深度长文|详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来

来源:工业互联网研习社 作者:陈巍博士,曾担任华为系自然语言处理(NLP)企业的首席科学家,文章首发于「先进AI技术深入解读」 工业互联网浪潮来袭,你准备好了吗? 每一代GPT模型的参数量…