大语言模型中的涌现现象是不是伪科学?

深度学习在理论上的孱弱一直被诟病,但科学史上存在大量先有应用再有理论的事例,而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发,来看下LLM中最神秘的emergent ability,如图

上图中x、y轴分别表示模型规模和模型效果。研究员们至今无法给出令人信服的解释,为什么主流的大型模型在规模超过10^22级别后,效果会突然大幅提升。这个问题非常重要,有可能搞清楚这个问题,就能终结追求AGI路上的统计和符号的路线之争。

最近LeCun批评了很多人认为ChatGPT可以带来AGI的观点,在Twitter上被骂惨了。其背后的观点是,基于统计的方法论不应该能够实现AGI,但这种 emergent ability(涌现能力)就像一朵乌云一样漂浮在人类智能的上空。

近年来,一些工作也在尝试使用大型模型在计算机视觉领域进行实验,观察是否有涌现现象。好在虽然谷歌最近将ViT推向了22B,但仍然没有观察到明显的涌现现象。如果在图像或多模态领域也出现了类似的成果,从小的方面看只是各个竞争赛道的消亡和商业逻辑的改变,但从大的方面来看,我们人类引以为豪的智能可能真的只是统计规律。

以下是一些比较有意思的解释:

  1. 模型效果评估方法并不够平滑,实际上在中间阶段就已经开始有效果了,只是指标上还没有表现出来。
  2. 一些难以理解的知识、概念和推理能力等,会在一开始就学习错误,导致效果更差,需要进一步学习才能更好。因此模型需要足够大。例如下图显示,LLM模型在scale增大的过程中会出现先下降再上升的U形曲线效果图。

  1. 量变引起质变。在学习模型知识分布时,模型类似于贝叶斯网络,在足够复杂的连接之后,量变引起质变,表现出了类似智能的能力。

以下为原文的其他讨论:

AI技术产品化的关键技术:Alignment

AI的巨大进步,在算力、数据、算法等方面已经有很多讨论,然而,在产品化过程中,Alignment发挥了关键作用,这可能是OpenAI在认知上领先整个行业的关键部分。Alignment没有标准的定义,本文只是我个人观点中的aligment,如果有错误,请指出。

AI时代的UIUX:Prompt engineer

很多人都认同把prompt比喻成新时代的UIUX,它在NLP领域取得了巨大成功,当初知乎上就有不少同学讨论该项技术对研究领域的重要性。

如何看待NLP领域最近比较火的prompt,能否借鉴到CV领域? - 知乎

在"文本转图像"普及的时代,Prompt技术也同样大放异彩。可以说,Prompt是我们尝试与深度学习模型的能力对齐的一个重要尝试。当我们再次阅读GPT3的论文时,我们会惊讶于In-Context Learning理念的重要性,对Prompt的理解也不再局限于只是为了将下游任务的任务形式与预训练对齐、替代finetune等方面。

In Context Learning

初看In Context Learning似乎是为了区分zero-shot、meta learning而新造的词汇,但随着后续基于它展开的工作,比如这篇:

How does in-context learning work? A framework for understanding the differences from traditional supervised learning

大家发现就算给model输入是有错误的示例,也不会影响模型的实际效果,而如果输入的事例和需求侧任务的分布差异较大,则效果会明显下降。当然也不能不提CoT的神奇效果,LLM模型在逻辑和推理上一直比较差,然而简单的在输入中加入Let's thingk step by step,效果就会明显的提升。

种种现象表明,LLM其实已经学到了大量的知识,只是我们还没有找特别好的方法来开启它的能力,就好像今天的AI研究员就像古时候的炼金术师,在没有在原理层面突破之前,只能在一遍遍的实践中尝试不同的咒语去召回魔法。今天,ChatGPT好像找到了更好开启LLM能力的对齐方式,RLHF加GPT3.5,让AI产品化的能力提升了一截,但并不能说我们已经把LLM的能力完全发挥出来了。

因此,alignment的创新不会停止。Prompt、In Context Learning、Chain of Thoughts、Reinforcement Learning Human feedback,是整个行业多年来孜孜不倦努力下的阶段性产出。然而由于交互创新如此重要,我们不会停下创新的脚步。

LLM的创新是搜索引擎式的范畴还是AWS式的范畴

这个问题背后是关心大模型未来是类似Google一样的巨头垄断模式,还是会像AWS一样,出现多家提供大模型服务的公司。个人是倾向于LLM很难出现一家独大的情况,更像AWS的云计算的模式,给行业提供优质的计算服务,虽然会有一家公司比较领先,但是依旧会有别的公司保持强有力的竞争。

LLM和搜索推荐系统的不同,在搜索推荐系统时代,model并没有理解内容,而是基于用户投票做出的数据挖掘,比如字节掌控了强大的内容供给侧,再依靠推荐的高效分发,才形成了今天如此高壁垒的抖音。但LLM时代,model开始理解了内容本身,进而能创造内容,那么内容供给侧的垄断是否就不再存在。同时基于model在内容和需求侧的理解,天然可以做好分发。

虽然ChatGPT是目前最好的,也收集到了很多优质的用户反馈,在未来会保持一定的领先,但是LLM技术本身并没有被垄断在OpenAI,且用户的feedback在LLM领域,也不确定会对用户体验带来多大的护城河,毕竟Google、Meta都不缺用户。相信在不久的未来,其他巨头也能推出效果不错的竞品。

胡编乱造的问题

以ChatGPT为例,该模型可能会出现一些事实性错误。同时,由于模型训练的时效性,实际生产环境中也可能会存在一些问题。因此,ChatGPT目前只能扩展您的个人专业能力并扩大边界,无法替代专业人才。虽然我们团队在使用ChatGPT的过程中发现它的输出可靠性和解决问题的能力远超预期,但是仍需谨慎使用,以免提供误导性的结果。或许由于网络上存在大量高质量的IT技术相关数据集,该模型在这个方面表现出了更强大的能力。

在GPT-3之后,出现了大量的工作来研究模型如何记忆这些知识,以及如何修改和更正它们。其中一些工作研究了Transformer中占三分之二参数的FFN,认为它实际上起到了类似Key-Value Memory的作用。此外,不同层的FFN存储的知识抽象程度也不同。还有一些工作通过对优化目标加约束来实现特定知识的更新,并证明确实可以更正某些知识而不会明显影响原先记忆的其他知识。

从能耗的角度出发,我认为LLM未来应该更加注重知识的理解和推理,而不是仅仅记忆事实性的知识。为了实现这一目标,我们可以参考Augment Retrieval相关的工作,例如DeepMind提出的Retro框架,该框架将外部知识库的embedding表达与LLM融合。还有最近开源的项目,如LangChain、GPTIndex等,这些工作都利用了外部数据库。例如,新必应的实践是使用搜索召回的结果作为输入,然后让LLM处理这些输入,最终给出答案。这些方法统称为"external DB",我认为它们是比较实用和可行的应用方案。此外,这些方法还为一些进行向量数据库开发的公司带来了新的机会。

多模态什么时候会来

我认为,多模态的大型模型是实现AGI的前提条件。我们人类自身是在四维世界中学习和理解世界的,而文本则是一个更为抽象的领域。视觉领域拥有更好的物理规律,这些规律可以作为锚点,帮助模型理解和学习到真正更基本的概念。然而,目前还没有出现特别出色的工作,例如Clip虽然使用起来很好,但它更像是NLP中的Bert,而不是像GPT3这样的模型。虽然ViT为我们带来了一些希望,但是像Transformer这样能够同时考虑局部和全局信息的序列结构,在某种程度上需要token是离散的。在NLP中,每个token本身都具有一定的概念意义,其分割也有实际意义。但是在CV领域中,不同组patch的方式所代表的物理意义是天然不同的。当Transformer应用于CV时,它可以与NLP保持一致,使用MAE的方式进行自监督训练,从而解决了训练数据的问题。但是就像Diffusion Model在图像生成方面非常有效,但在离散的文本场景中能力受到很大限制一样,因此Transformer在CV领域中并不一定合适。

另一个猜测是多模态的大型模型应该是稀疏的。从人类大脑神经突触的角度看(大概在100万亿的规模),GPT-3的参数估计还需要增加大约一千倍。因此,只有当模型是稀疏的时,才有可能进一步扩大模型规模,同时降低推理成本。这样的巨大挑战为整个行业注入了巨大的创新机会。举个不太恰当的比喻,谁会成为新时代的Parameter Server,是谷歌的Pathway吗?

因此,即使不考虑计算力、难以训练和模态融合等关键问题,多模态的大型模型的实现可能比预期更为困难。因此,我们应该更加务实地关注图像领域的大型模型,如果能够出现具有新兴能力的预训练模型,则会更为理想。

应用创新的新时代

许多媒体都会问哪些行业和岗位会受到AI的影响。相反,我们应该反过来问,哪些行业不容易受到影响。尽管我对AGI的前景并不那么乐观,但在ChatGPT和Diffusion展示的能力方面,很少有行业不会受到影响。我们应该尽可能地拥抱AI。在我们的文明史上,人类发明了工具,而工具又反过来塑造了新的人类。

这轮AI技术突破具有改变人机交互的能力,未来将会出现一批基于人类自然语言作为交互手段的应用,这将是一个新时代的开端。

在科技史上,技术变革引起人机交互创新,从而演化出新的商业生态的例子比比皆是。ChatGPT只是其中的一个典型应用,它展示了基于人类自然语言和机器的交互体验有多么惊人。这是历史上第一次,机器对人类的需求理解如此细致,人类可以反复多轮地表达需求,每一次都是独特的体验。

交互方式的改变将会重新定义许多应用。回想一下Office、Photoshop、视频编辑等生产力工具的学习经历,一定不是那么愉悦的。这些生产力工具本质上要求您学习一种图形化的编程语言,以便将您的需求告诉计算机执行。如果我们可以直接用自然语言描述我们的需求,那么大范围的预测是,所有的软件都可以重新制作。

当然,这并不是说基于AI的应用都会成功,每种技术都有其边界,只是我们现在还不知道它们在哪里。此外,现在的AI仍不是AGI,更像是iPhone或AWS的第一次出现。大部分围绕AI做的应用,大家都是在OpenAI的API包一层做应用,并无核心技术壁垒。更多的创新在自然语言交互下的产品动线、需求对齐上的创新,未来都是大概率都是先烈。

类比于iPhone,今天的AI与iPhone 1相似,都处于不稳定的创新状态。在AI的发展中,我们无法确定新的技术范式何时出现,或者会在何处出现,例如多模态技术,新的对齐方式是否能够让大型模型直接服务客户等问题。此外,应用的时间窗口,以及是否会出现护城河等问题,也是未知的。因此,在进行应用创新时,我们需要做好心理准备,追求自身能够存活到下一个成熟周期。

其他

  1. 许多人谈论数据质量,但在简单交流后,发现大多数人仍然认为AI模型需要大量标注数据才能训练。实际上,NLP领域是在Masked Language Model的训练方式后,才得以扩展到如此规模,并衍生出一系列后续发展。MLM最大的特点是自监督,不需要真正的人工标注。其思想非常简洁,就是在现有的文本训练语料中,随机地遮盖掉一些词(准确来说是token),让模型来预测这些被遮盖掉的词。由于这些词事先是已知的,因此可以算作自监督学习。这种方法的好处是,可以大幅提升可用于训练的数据规模。对于理解语言模型来说,这一部分非常重要。如果感兴趣,可以进一步搜索相关资料进行学习。因此,所谓数据质量是指数据本身的优质程度,例如,Wikipedia的数据天然比reddit的要好一些。
  2. 算力的摩尔定律。很多年前,大家已经在说摩尔定律遇到了物理瓶颈,除非基础科学的突破,否则我们很快就无法在提升计算机的性能。但这几年我们看到GPU的发展很快,算力增长迅速。GPU和CPU一样,同样遇到了物理瓶颈,但GPU的场景天然是并行的,可以通过堆更多晶体管来缓解问题。这个领域涉略不深,在大模型时代,算力的需求侧不在存疑,算力的供给是否真的像大家预期的一样,成本快速下降,希望有更资深的人来解答算力这部分的问题。PS:最近看到一篇有意思的工作,Looped Transformer as Programmable Computers,在探讨是否有可能用Transformer做一个通用的计算机。前几年已经有人去证明transformer是图灵完备。
  3. 新的优化算法,随机梯度下降的优化算法和模型结构,更偏圈内人员关注,比如Hinton老爷子就一直不相信SGD-based的优化算法是人工智能的未来,类比于人脑不存在有反向传播这样的东西。在前几年Router的基础上,他最新的工作FF,还是focus在这块。

最后,附一张网上流传很广的图作为结尾,祝大家周末快乐!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33601.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自制开源的 Midjourney、Stable Diffusion “咒语”作图工具

本篇文章聊聊如何通过 Docker 和八十行左右的 Python 代码,实现一款类似 Midjourney 官方图片解析功能 Describe 的 Prompt 工具。 让你在玩 Midjourney、Stable Diffusion 这类模型时,不再为生成 Prompt 描述挠头。 写在前面 本文将提供两个版本的工…

【区块链技术社区】区块链微信群

磨链mochain社区-区块链技术讨论交流不定期进行线上的技术交流学习,技术分享。线下技术交流,成员主要在北京、上海、浙江、广东等地。欢迎:区块链技术大咖、区块链爱好者、区块链技术爱好者、想了解区块链技术的小白不欢迎:广告党…

区块链笔记:典型应用:数据资产、交易系统、即时通信、链上游戏、追踪溯源等

数据资产 1 ) 详解 这是区块链的一个比较核心的应用,对于软件系统或者说对于互联网系统来讲,对数据的处理、分析、计算,这些功能是属于比较基本的软件功能对于区块链来讲它的核心的功能是在于创新式的提供了一个原先各种软件都没…

靠谱的区块链应用到底是啥?通证啊!——第二次中关村-CSDN区块链开发技术沙龙【含PPT下载】

针对“通证”话题的多篇分析文章预热,本期沙龙在开始前就被区块链网友广泛关注。此次沙龙的参会者经过层层的严格筛选,才得以与众位大咖面对面沟通。 12月15日下午,中关村区块链产业联盟、CSDN、枫玉科技联合举办的区块链系列沙龙。来自中关村…

云图说丨不同区块链之间如何跨链交互?

本文分享自华为云社区《【云图说】第237期 不同区块链之间如何跨链交互?》,作者: 阅识风云。 可信跨链服务是基于一系列制定的可信区块链标准跨链协议,保证跨链交易全栈可追溯、可扩展性及可靠性等,助力不同区块链可…

知乎高赞 | 区块链是什么? (一)

首先不要把区块链想的过于高深,他是一个分布在全球各地、能够协同运转的数据库存储系统,区别于传统数据库运作——读写权限掌握在一个公司或者一个集权手上(中心化的特征),区块链认为,任何有能力架设服务器…

XuperChain 百度区块链简易学习帖

百度XuperChain基于Ubuntu系统从零开始到部署简单合约 环境配置go语言安装git安装客户端安装 启动私链基本操作命令1. 创建普通用户2. 创建合约账号3. 查询余额4. 转账5. 查询交易信息6. 查询block信息 网络部署(选择性阅读)1. 创建网络部署环境2. 配置种…

建议收藏,轻松搞懂区块链

未来已来,只是不均衡地分布在当下 大家好,我是菜农,欢迎来到我的频道。 本文共 5844字,预计阅读 30 分钟 区块链是近些年来最热门的前沿技术,被认为是未来十几年对金融、物联网、医疗等诸多领域产生最大影响的"…

都说区块链可信,到底信了个啥?

‍‍ 题图摄于北京二环路 【前言】不时有朋友向我询问某某区块链项目怎么样。我通常只给他们讲一点:要考察项目中区块链的信任体系。不管项目方说得怎样天马行空,看懂其中的信任机制,就基本可判断其项目的价值。 最近热门词汇层出不穷&#x…

如果你还不懂区块链那就out了(二)--区块链的演化及应用场景

前面我们介绍了很多区块链的知识,可能大家会有以下几个疑问: 1、区块链用于溯源,如果供应链上的参与方自己造假,在中途将实物替换掉,区块链宣称的不可更改不就无效了吗? 答:造假会有相应的惩罚措…

总搞不懂区块链各共识机制的优缺点?来听听这位十多年经验技术老兵的吐血分享吧!

2018区块链技术及应用峰会 (BTA)中国 倒计时5天 2018,想要follow最火的区块链技术?你还差一场严谨纯粹的技术交流会——2018区块链技术及应用峰会(BTA)中国将于2018年3月30-31日登陆北京喜来登长城饭店。追求专业性?你要的这里全都有&#xf…

区块、链和共识

区块、链和共识 💡 区块链的基础数据结构 准备 Hash Hash也称散列、哈希。基本原理就是把任意长度的输入,通过Hash算法变成固定长度的输出(更多解释见知乎) 特点是:相同的输入一定得到相同的输出,不同的输…

都2021年了,还不知道什么是区块链就out了 | 从区块链数据结构到应用

序言 在现阶段及后10年都是发展主流的数字化经济的催动下,区块链技术越来越火爆。那么比特币的区块数据结构是如何构成的,区块链有什么特性,我们用区块链能用来做什么?我们一起来探讨下。 区块链诞生背景 2008年11月1日&#xff0…

基于区块链的内容社交平台,他们凭什么说比知乎更吸引人?

本堂茜 渡鸦区块链专栏记者 张杰拥有10多年的软件开发经验和创业经验,自称是“互联网老兵,区块链新秀”。随着互联网的发展,渐渐的他们不再满足于做线下的软件外包项目,更想在互联网方面做。 他们在互联网方面做了很多SAAS服务。例…

在清华讲区块链,高晓松竟这样解读共识与Token

本文仅代表作者观点 作者 | 李画 编辑 | 秦晋 高晓松2019年的第一期《晓说》,在母校清华大学做了以一场没有"诗和远方"全是苟且的演讲:《5G与区块链:文创产业的重要赛道》。他认为,5G与区块链是文创/内容产业在未来最重…

朋友聚会上,当你被cue聊聊区块链时.....

来源 | 白话区块链 责编 | 晋兆雨 头图 | 付费下载于视觉中国 转眼间,又到了一年一度的同学聚会。这次班长牵头,把班上绝多数同学都叫了过来,甚至还请了班主任王老师到场,摆了好几大桌。 一时间觥筹交错,各个都喝得满…

家用2kw风力电机满负荷的发电量有多少

家用风力发电机2kw的一天的满负荷发电量是48度电,3级风发电5级风满负荷发电,电机是永磁发电机,足功率发电,纯铜线圈缠绕,叶片是增强玻璃钢材质的

PyTorch搭建LSTM实现时间序列预测(负荷预测)

目录 I. 前言II. 数据处理III. LSTM模型IV. 训练V. 测试VI. 源码及数据 I. 前言 在上一篇文章深入理解PyTorch中LSTM的输入和输出(从input输入到Linear输出)中,我详细地解释了如何利用PyTorch来搭建一个LSTM模型,本篇文章的主要目…

TensorFlow搭建LSTM实现时间序列预测(负荷预测)

目录 I. 前言II. 数据处理III. 模型IV. 训练/测试V. 源码及数据 I. 前言 前面已经写过不少时间序列预测的文章: 深入理解PyTorch中LSTM的输入和输出(从input输入到Linear输出)PyTorch搭建LSTM实现时间序列预测(负荷预测&#xf…

TensorFlow搭建LSTM实现多变量时间序列预测(负荷预测)

目录 I. 前言II. 数据处理III. LSTM模型IV. 训练/测试V. 源码及数据 I. 前言 在前面的一篇文章TensorFlow搭建LSTM实现时间序列预测(负荷预测)中,我们利用LSTM实现了负荷预测,但我们只是简单利用负荷预测负荷,并没有利…