ChatGPT之后,下一代大型语言模型在哪里?

76821ed1d03799fedd07c86c8f226cf5.jpeg

OpenAI 首席执行官 Sam Altman(左)和 Meta AI 首席执行官 Yann LeCun(右)对未来有不同看法...

来源:学术头条

编者按:ChatGPT的爆火,让大语言模型受到了人们的关注,然而这些来自不同公司的大语言模型,像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等,都是在相同的基本方式上构建的,都是基于Transformer构建的自回归、自我监督、预训练、密集激活模型。虽然各种大模型表现类似惊人的能力,但目前的人工智能远远没有到达其能力的终点。那么未来大语言模型的出路在哪里?The Next Generation Of Large Language Models(下一代大语言模型)根据一些最新的研究结果提出了一些猜想。比如大模型可以产生训练数据来用于改善自己;大模型可以核查确认事实;海量稀疏专家模型等。该文由Radical Ventures的合伙人,同样也是You.com的投资者Rob Toews撰写,并发表在最近一期的福布斯杂志。】

也许您还没有听说过,人工智能是最热门的新事物。

如今,从硅谷到达沃斯,每一位风险投资家、企业家、财富 《500》 强首席执行官和记者都在谈论生成人工智能。

对于那些在 2022 年开始真正关注 AI 的人来说,他们认为像ChatGPT 和 Stable Diffusion 这样的技术似乎是凭空冒出来,席卷了全球。

早在 2020 年,我们就在本专栏写过一篇文章,预测生成式 AI 将成为下一代人工智能的支柱之一。

至少自2019 年GPT-2 发布以来,该领域的工作人员已经清楚,生成语言模型有望引发巨大的经济和社会变革。同样,虽然文本到图像模型去年夏天才引起公众的注意,但自 OpenAI 于 2021年1 月发布最初的DALL-E以来,该技术的优势似乎已经不可避免地。

出于同样的原因,重要的是要记住,人工智能的当前技术水平远未达到人工智能能力的最终状态。相反,人工智能领域的发展从未像现在这样快速。尽管 ChatGPT 目前在我们看来令人惊叹,但它只是下一步的垫脚石。

下一代大型语言模型 (LLMs) 会是什么样子?这个问题的答案已经存在,目前正在人工智能初创公司和研究小组的开发中。

本文重点介绍了三个新兴领域,它们将有助于定义生成式 AI 和 LLM 的下一波创新浪潮。对于那些希望在这个瞬息万变的世界中保持领先地位的人来说,请继续阅读:

01、可以自己生成训练数据以提高自己的模型

想想人类是如何思考和学习的。我们从外部信息来源收集知识和观点——比如,通过阅读一本书。但我们也会通过思考一个话题或思考一个问题,自己产生新颖的想法和见解。我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。

人工智能研究的一条新途径旨在使大型语言模型能够做类似的事情,有效地引导它们自己的智能。

作为他们培训的一部分,今天的 LLMs 吸收了世界上积累的大部分书面信息(例如,维基百科、书籍、新闻文章)。如果这些模型一旦经过训练,就可以使用它们从这些来源吸收的所有知识来生成新的书面内容,然后将这些内容用作额外的训练数据来改进自己,那会怎样?初步研究表明,这种方法可能可行且功能强大。

在最近的一项名为“大型语言模型可以自我改进”的研究工作中, Google 的一组研究人员构建了一个 LLM,它可以提出一组问题,为这些问题生成详细的答案,并过滤自己的答案以获取最高质量的输出,然后根据精选的答案进行自我微调。值得注意的是,这导致了各种语言任务最新的最先进的性能。例如,该模型在 GSM8K 上的性能从 74.2% 提高到 82.1%,在 DROP 上从78.2% 提高到 83.0%,这两个流行的标准用于评估LLM 性能。

最近的另一项工作建立在称为“指令微调”的重要 LLM 方法的基础上,它是ChatGPT 等产品的核心。ChatGPT 和其他指令微调模型依赖于人工编写的指令,而该研究小组构建了一个模型,可以生成自己的自然语言指令,然后根据这些指令进行自我微调。性能提升非常显著:这种方法将基础 GPT-3 模型的性能提高了 33%,几乎与 OpenAI 自己的指令调优模型的性能相当。

在一项与主题相关的工作中,来自谷歌和卡内基梅隆大学的研究人员表明,如果一个大型语言模型在遇到问题时,在回答之前先背诵它对该主题的了解,,它会提供更准确和复杂的回答。这可以粗略地类比为一个人在谈话中,他不会不是脱口而出关于某个话题的第一个想法,而是在分享观点之前搜索她的记忆并反思她的信念。

当人们第一次听说这方面的研究时,往往会产生一个概念上的异议——这难道不是循环的吗?模型如何生成数据,然后使用这些数据来改进自身?如果新数据首先来自模型,那么它包含的“知识”或“信号”不应该已经包含在模型中了吗?

如果我们将大型语言模型设想为数据库,存储训练数据中的信息,并在出现提示时以不同的组合再现这些信息,那么这种反对意见是有道理的。但是——尽管听起来让人不舒服,甚至令人毛骨悚然——我们最好还是按照人脑的思路来构想大型语言模型(不,这个类比当然不完美!)。

我们人类从世界上吸收了大量数据,这些数据以不可估量、无数的方式改变了我们大脑中的神经连接。通过反省、写作、交谈——有时只是睡个好觉——我们的大脑就能产生新的见解,这是我们以前从未有过的,也没有出现在世界上任何信息源中。如果我们将这些新的见解内化,它们可以让我们变得更聪明。

鉴于世界可能很快就会用完文本训练数据,LLM 可以生成自己的训练数据的想法尤为重要。这还不是一个广为人知的问题,但却是许多人工智能研究人员担心的问题。

据估计,全球可用文本数据的总存量在 4.6 万亿到 17.2 万亿个Token之间。这包括世界上所有的书籍、所有的科学论文、所有的新闻文章、所有的维基百科、所有公开可用的代码,以及互联网的大部分经过了质量过滤的内容(例如,网页、博客、社交媒体)。最近的另一项估计将总数定为 3.2 万亿Token。

DeepMind 的 Chinchilla 是当今领先的 LLMs之一,接受了 1.4 万亿个Token的训练。

换句话说,我们可能在一个数量级内,耗尽世界上所有有用的语言训练数据供应。

如果大型语言模型能够生成自己的训练数据,并使用它来继续自我改进,这可能会使迫在眉睫的数据短缺变得无关紧要。对于LLMs来说,这将代表一个令人费解的飞跃。

02、能够对自己进行核查的模型

最近流行的说法是,ChatGPT 和类似的对话式 LLMs 即将取代 Google 搜索,成为世界上最重要的信息来源,颠覆曾经强大的科技巨头,如 Blockbuster 或 Kodak。

这种叙述严重地将事情简单化了。今天存在的 LLM 永远不会取代 Google 搜索。为什么不?简而言之,就是因为今天的LLms在编造东西。

尽管它们很强大,但大型语言模型经常会产生不准确、误导或错误的信息(并自信且令人信服地呈现)。

ChatGPT 的“幻觉”(这些错误陈述被称为幻觉)的例子比比皆是。这并不是要针对 ChatGPT;目前存在的每一个生成语言模型都以类似的方式产生幻觉。

举几个例子:它推荐不存在的书;它坚持认为220 这个数字小于 200;不确定刺杀Abraham Lincoln’s的凶手在遇刺时是否与林肯在同一个大陆;它对 provides等概念提供了看似合理但不正确的解释。

大多数用户不会接受搜索引擎有时会把这些基本事实搞错;即使是 99% 的准确率也不足以让市场广泛采用。OpenAI 首席执行官 Sam Altman 本人也承认这一点,他最近警告说:“ChatGPT 非常有限,但在某些方面已经足够出色,足以给人一种伟大的误导性印象。现在依赖它来做任何重要的事情都是错误的。”

LLMs 的幻觉问题是否可以通过对现有架构的渐进式改进来解决,或者是否有必要对 AI 方法论进行更基本的范式转变以赋予 AI 常识和真正的理解,这是一个悬而未决的问题。深度学习先驱 Yann LeCun认为是后者。LeCun 的逆向观点可能被证明是正确的;时间会证明一切。

不过,在近期内,一组有前途的创新至少可以减轻 LLM 在事实上的不可靠性。这些新方法将为LLM在现实世界中部署准备方面发挥重要作用。

当前使语言模型更准确的工作的核心是两个相关的功能:(1) LLM 从外部来源检索信息的能力,以及 (2) LLM 为他们提供的信息提供参考和引用的能力。

ChatGPT 仅限于已经存储在其中的信息,在其静态权重中捕获。(这就是为什么它无法讨论 2021 年之后发生的事件,那时模型被训练。)能够从外部来源获取信息将使 LLM 能够访问最准确和最新的可用信息,即使当该信息经常变化时(例如,公司的股票价格)。

当然,能够访问外部信息源本身并不能保证 LLM 将检索到最准确和相关的信息。LLM 提高了人类用户的透明度和信任的一种重要方法是包括对他们从中检索信息的来源的引用。此类引用允许人类用户根据需要审核信息源,以便自己决定其可靠性。

该领域的重要早期工作包括REALM(来自 Google)和RAG(来自 Facebook)等模型,它们均于 2020 年发布。随着近几个月对话式 LLM 的兴起,该领域的研究正在迅速加速。

去年,OpenAI发布了一个名为 WebGPT的 GPT 模型的微调版本,可以使用 Microsoft Bing 浏览互联网,以便对提示提供更准确和深入的响应。WebGPT像人类一样浏览互联网:它可以向 Bing 提交搜索查询、跟踪链接、在网页上上下滚动,并使用 Ctrl+F 等功能查找术语。当模型在互联网上找到相关信息并将其合并到输出中时,它会提供引用,以便人类用户可以看到信息的来源。

结果是令人鼓舞的:对于相同的查询,WebGPT 的响应在 56% 的情况下优于人类受试者编写的响应,在 69% 的情况下优于 Reddit 上评分最高的响应。

DeepMind 也在沿着这些方向进行研究。几个月前,DeepMind 发布了一个名为Sparrow的新模型。与 ChatGPT 一样,Sparrow 也是基于对话的;与 WebGPT 一样,它可以在互联网上搜索信息并为其断言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上,包括SpaLM、RETRO和GopherCite。

814b8b494909ac9b379ad6044de4898b.jpeg

DeepMind的 Sparrow 模型正在运行。如此处所示,Sparrow 提供报价和链接以支持...

DeepMind 的研究人员发现,Sparrow的引用在 78% 的情况下是有用且准确的——这表明这种研究方法很有前途,而 LLM 不准确的问题远未解决。

包括 You.com 和 Perplexity在内的年轻的初创公司最近也推出了 LLM 支持的对话搜索界面,能够从外部来源检索信息并引用参考文献。这些产品今天可供公众使用。

LLM最大的缺点是他们不可靠,他们固执地倾向于自信地提供不准确的信息。语言模型有望重塑我们经济的每个部门,但在这个问题得到解决之前,它们永远无法发挥其全部潜力。预计在未来几个月内,我们将会在该领域看到大量活动和创新。

03、 海量稀疏专家模型

当今最著名的大型语言模型实际上都具有相同的架构。

Meta AI 负责人 Yann LeCun近日表示:“就底层技术而言,ChatGPT 并没有特别的创新。这不是革命性的,尽管这是公众对它的看法。只是,你知道,它被很好地组合在了一起,做得很好。”

LeCun 的声明在Twitter上引发了大量争议和辩论。但一个简单的事实是,他是正确的,任何严肃的人工智能研究人员都不会对此提出异议。

当今所有著名的语言模型——例如,来自OpenAI的GPT-3、来自Google的PaLM或LaMDA 、来自 Meta 的Galactica或OPT 、来自Nvidia/Microsoft 的Megatron-Turing、来自 AI21 Labs 的Jurassic-1——都是在相同的基本方式上构建的。它们是自回归、自我监督、预训练、密集激活的基于Transformer的模型。

可以肯定的是,这些模型之间存在差异:它们的大小(参数计数)、它们训练的数据、使用的优化算法、批量大小、隐藏层的数量、它们是否经过指令微调等等.这些变化可以转化为有意义的性能差异。不过,核心架构变化不大。

然而,一种有趣的不同的语言模型架构方法(称为稀疏专家模型)正在形成势头。虽然这个想法已经存在了几十年,但直到最近才重新出现,并开始流行起来。

上面提到的所有模型都是密集的。这意味着每次模型运行时,都会使用它的每一个参数。例如,每次您向 GPT-3 提交提示时,模型的所有 1750 亿个参数都会被激活以产生响应。

但是,如果一个模型能够仅调用其参数中最相关的子集来响应给定的查询呢?这是稀疏专家模型背后的基本概念。

稀疏模型的定义特征是,它们不会为给定输入激活所有参数,而是只激活那些有助于处理输入的参数。因此,模型稀疏性将模型的总参数计数与其计算要求分离开来。这导致了稀疏专家模型的关键优势:与密集模型相比,它们可以更大且计算要求更低。

为什么它们被称为稀疏专家模型?因为稀疏模型可以被认为是由充当不同主题专家的“子模型”的集合组成的。根据提供给模型的提示,模型中最相关的专家被激活,而其他专家保持不活动状态。例如,用俄语提出的提示只会激活模型中可以用俄语理解和回应的“专家”,从而有效地绕过模型的其余部分。

当今所有最大的 LLM 都是稀疏的。如果你遇到一个参数超过 1 万亿的 LLM,你可以放心地假设它是稀疏的。这包括谷歌的Switch Transformer(1.6万亿参数)、谷歌的GLaM(1.2 万亿参数)和 Meta 的mix of Experts模型(1.1 万亿参数)。

“AI 最近的大部分进展都来自于训练越来越大的模型,”Mikel Artetxe 说,他曾领导 Meta 对稀疏模型的研究,然后辞职与他人共同创立了一家秘密的 LLM 初创公司。“例如,GPT-3 比 GPT-2 大 100 倍以上。但是,当我们将密集模型的大小扩大一倍时,我们也会使其速度加倍。稀疏模型使我们能够在不增加运行时间的情况下训练更大的模型。”

最近对稀疏专家模型的研究表明,这种架构具有巨大的潜力。

谷歌去年开发的稀疏专家模型GLaM 比GPT-3 大 7 倍,训练所需能量减少三分之二,推理所需计算量减少一半,并且在广泛的自然语言方面优于 GPT-3。基于 Meta 的稀疏模型上进行的类似工作也产生了类似的有希望的结果。

正如 Meta 研究人员总结的那样:“我们发现稀疏模型可以在一小部分计算量上实现与密集模型相似的下游任务性能。对于计算预算相对适中的模型,稀疏模型的性能可与需要几乎四倍计算量的密集模型相提并论。”

值得一提的是,稀疏专家模型的另一个好处是:它们比密集模型更具可解释性。

可解释性——人类理解模型为什么采取它所做的行动的能力——是当今人工智能最大的弱点之一。总的来说,今天的神经网络是无法解释的“黑匣子”。这可能会限制它们在现实世界中的实用性,特别是在医疗保健等高风险环境中,人工审查很重要。

稀疏专家模型比传统模型更自然地具有可解释性,因为稀疏模型的输出是模型中可识别的、离散的参数子集的结果——即被激活的“专家”。事实上,人类可以更好地从稀疏模型中提取有关其行为的可理解的解释,这可能被证明是这些模型在实际应用中的决定性优势。

稀疏专家模型如今并未得到广泛使用。与密集模型相比,它们不太容易被理解,而且在技术上更复杂。然而,考虑到它们的潜在优势,尤其是它们的计算效率,看到稀疏专家体系架构在未来的 LLM 世界中变得更加普遍就不足为奇了。

用Graphcore 首席技术官 Simon Knowles 的话来说:“如果 AI 可以做很多事情,它就不需要访问所有知识来做一件事。这是显而易见的。这就是你的大脑的工作方式,也是人工智能应该的工作方式。如果到明年有人开始构建密集的语言模型,我会感到惊讶。”

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

734b07fb2e907fd586e32db32b09d630.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14750.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MARK】搜索引擎汇总

1、除了Google,百度外的搜索引擎 基于笔点的自制导航页 https://www.bidianer.com/searchx 通用搜索引擎☞ Bing,微软必应,壁纸不错。 Ecosia,可以作为Bing搜索国际版。 F搜,据说是谷歌中文版,偶尔抽风…

借用百度翻译,用pyqt5 搞定pdf和word文档翻译,排版基本不变,免费好用

以下内容均来自微信公众号:万能搜吧,关注获取更多干货分享。 其实写软件测评写多了,就知道哪些需求是刚需,今天说的是文档翻译的需求,这种需求是比如将英文的PDF论文全部翻译成中文,而且最好排版不受影响。…

Chat Support Board WordPress聊天插件 v3.5.8

功能列表 支持和聊天功能 Slack聊天完全同步 - 直接从Slack发送和接收用户信息。 立即工作 - 只需插入短码,即可立即安装和使用。 丰富的信息 - Dialogflow机器人发送丰富的信息。 机器人--集成一个由API.AI驱动的多语言机器人。 电子邮件通知 - 当收到回复时&#…

成本降低90%,OpenAI正式开放ChαtGΡΤ

今天凌晨,OpenAI官方发布ChαtGΡΤ和Whisper的接囗,开发人员现在可以通过API使用最新的文本生成和语音转文本功能。OpenAI称:通过一系列系统级优化,自去年12月以来,ChαtGΡΤ的成本降低了90%;现在OpenAI用…

​乐视回应四天半工作制:体感非常好;OpenAI CEO 否认在训练 GPT-5;iOS 17 或增加更多灵动岛功能|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

WAIC 2023 | 拥抱大模型,助力无障碍,小米展望AI新业态

“智联世界,生成未来”,7月6日至8日,第六届世界人工智能大会(WAIC 2023)在上海举办。4位图灵奖得主与80多位国内外院士等1400位嘉宾齐聚一堂,共同探讨人工智能赋能产业发展的全新变化,展望技术新…

掘金AIGC时代,开发者更需要什么样的大模型?

当前,火热的AI大模型领域需要一些冷思考。 自去年年底ChatGPT掀起一轮AIGC热潮以来,国内科技企业扎堆发布大模型和类ChatGPT产品。截止2023年4月,已公开宣布发布或即将发布AI大模型的企业达数十家。多模态大模型的能力不断迭代,市…

智算领域惊现AI大变局,ChatGPT催生行业大洗牌

ChatGPT席卷而来, GPU需求过猛引发缺货涨价潮 【全球云观察 | 热点关注】百度已不是中国第一大桌面搜索引擎,这个消息来自美国数据研究机构Statcounter公布的最新统计数据分析结果。 2023年4月,微软旗下搜索引擎必应&#xff08…

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案 原创 TitiAI TitiAI 2023-05-08 13:26 发表于湖北 前言 大家都知道,OpenAI ChatGPT是不能在中国使用的,香港也一样。最近一个月,很多人反映API调用限制&#xff0c…

14.3.16南山公园游

14.3.16班级团日活动,爬南山活动 一直以来对团日活动没太大兴趣,只是为了支持活动,积极参与。这次借着初春,阳光明媚,和同学一起去南山公园。烟台动物园就在那,我们拿了学生证,每人20元&#xf…

南山科技园的IDC机房怎么样?

南山科技园的IDC机房怎么样? 华科数据中心机房地址位于深圳市南山区粤兴三道9号华中科技大学深圳产学研基地A座1楼,总计有100G骨干网出口带宽,机房建筑面积约3000㎡,机房于2018年7月正式对外开放,机房一期1楼右侧约300…

一篇文带你从0到1了解建站及完成CMS系统编写

学习目标 了解搭建一般网站的简便方式了解最原始一般站点搭建了解内容管理站点搭建了解权限设计及完成了解使用设计模式减少代码冗余了解前端拖拽页面生成及生成了解自定义数据的创建了解动态生成的前端页如何绑定自定义数据 开发环境 Windows7 *64 SP1php5.6apache/nginxth…

《不改变的CSDN,没有未来》,前50的专家实名发文

三十年河东,三十年河西,这句话在互联网战场上,应该改为十年。很多上个时代的王,掉队了。 CSDN的历史和中国互联网产品的发展历史有一点像,更确切的说,是和某些互联网企业更像。历史歪歪斜斜的写着几个字&am…

南山科技园那边的华科数据中心(华中科技大学产学研基地机房)

深圳南山华科数据中心(华科机房)以下是南山华科机房主要介绍: 深圳华科机房:深圳市南山区粤兴三道9号华中科技大学深圳产学研基地A座1楼,总计网出口带宽100G,机房建筑面积约3000㎡,机房于2018年…

南山谷主:无人直播如何操作?这样操作还可以带货

今天刷小视频,突然看到一个全场一元的直播。 研究了一下,收益超级可观。 视频就像下图这样的。 一堆产品,然后放个手写的牌牌,直接就开播了,有声音。我听了一下,声音是在不停的循环,也就是说声…

澎湃新闻:我在南山写代码,是改变世界还是养家糊口?

2017年12月30日,欧建新的遗体告别仪式在深圳沙湾殡仪馆举行,他的妻子带着两个孩子向他做了最后的告别,随后艰难地在火化同意书上签下了自己的名字。20天前,这位研发工程师从他就职的中兴公司通讯研发大楼26层跳下,结束…

南山大环线

活动线路描述:上午:南山小木屋---黄鹤山(黄鹤亭)---观音山(圆通寺)---狮窟(访秋亭)---八公洞湖---茶叶研究所(滴翠园)---回龙水库下午:茶叶研究所…

山经·南山经:杻阳山 [niǔ yáng shān]

杻阳山 [niǔ yng shān] 简介 属于南山第一列山系鹊山山系的山,位置在猨翼山往东三百七十里。是《山海经五藏山经南山经》中第四山。 原文记载 又东三百七十里,曰杻阳之山,其阳多赤金,其阴多白金。有兽焉,其状如马而…