大型语言模型(LLMs)演化树 Large Language Models

大型语言模型(LLMs)演化树 Large Language Models

flyfish
下面的图来自论文地址

Transformer 模型(如 BERT 和 GPT-3)已经给自然语言处理(NLP)领域带来了革命性的变化。这得益于它们具备并行化能力(能够同时对输入数据的多个部分进行计算)、处理长距离依赖关系的能力(可以考虑并理解序列中相隔较远元素之间的关系),以及它们的可扩展性,使得大型语言模型(LLMs)能够有效地在大量数据和信息上进行训练并对其加以处理。

Transformer 是一种神经网络架构,由 Vaswani 等人在 2017 年一篇题为《Attention is All You Need》的论文中提出。Transformer 架构的一个关键特性是它使用了自注意力机制,该机制使大型语言模型能够聚焦于输入数据的相关部分,同时忽略不必要的信息,从而提升上下文相关的准确回复以及文本生成的质量。尽管大型语言模型领域发展迅速,新的架构不断涌现(如接纳加权键值架构),但了解编码器、解码器以及编解码器模型的架构设计和分类情况仍是很有必要的。大型语言模型的架构及其预训练目标可能存在显著差异,而它们的配置能够决定一个模型在哪些方面表现出色(例如,在文本生成任务、语言理解任务以及理解上下文方面)以及在哪些方面存在局限。

以下是一张更新后的大型语言模型(LLMs)演化树,它分为三个家族分支(仅编码器模型、编解码器模型以及仅解码器模型)。这张演化树勾勒出了语言模型的发展脉络以及庞大的大型语言模型版图,并且依据模型和数据的许可信息突出强调了大型语言模型的使用限制。该演化树基于《在实践中驾驭大型语言模型的力量:关于 ChatGPT 及其他的综述》
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

基于 Transformer 的模型以非灰色进行显示:仅解码器模型位于蓝色分支,仅编码器模型位于粉色分支,编解码器模型位于绿色分支。模型在时间线上的纵向位置代表了它们的发布日期。开源模型以实心方块表示,闭源模型则以空心方块表示。右下角的堆叠柱状图展示了来自不同公司和机构的模型数量。
在这里插入图片描述
理解这三种类型的模型(编码器模型、解码器模型以及编解码器模型)之间的差异,对于为任务选择合适的模型、针对特定应用对模型进行微调、管理计算资源以及指导人工智能研发工作而言都至关重要。值得一提的是,尽管这些分类有助于理解不同类型的模型,但许多先进的大型语言模型往往会对组件进行修改,所以这并非严格意义上的分类,而更像是一种便于理解基础知识的概念性分类方式。

仅编码器模型 Encoder - Only Models

一种经过优化的架构,旨在理解输入文本中字词的语境,但本身并不生成新文本。
仅编码器模型以词元(单词、子词、字符或字节)作为输入,通过编码器对其进行处理,为每个词元生成一个数值表示(也称为特征向量或张量),以此来捕捉含义及双向的语境信息。这种表示可用于下游任务,无需进一步生成文本。
适用于多种任务,包括序列分类、实体识别以及抽取等。在需要深入理解语境的任务(如情感分析)方面表现尤为出色。在训练期间能够实现高效的并行处理。
自身缺乏生成连贯文本的能力。这一局限可能使得它们不太适用于涉及文本生成的任务。
示例
BERT、ELECTRA、RoBERTa

编解码器模型 Encoder - Decoder Models

一种既能理解输入文本中字词的语境,又能生成新文本的架构。
编解码器模型由两部分组成:编码器将词元作为输入,将其转换为数值表示,然后解码器利用这些表示来生成输出序列。这类模型尤其适用于序列到序列的任务。
对于那些既需要编码又需要解码的任务(如机器翻译和文本摘要),通常是性能最佳的模型。不过,这些模型在训练和微调时可能会消耗大量计算资源,且耗时较长。
由于采用两部分的设计,与仅编码器模型或仅解码器模型相比,编解码器模型的训练速度可能较慢,且会占用更多计算资源。
示例
FLAN UL2、FLAN T5

仅解码器模型 Decoder -Only Models

一种经过优化、可基于输入生成新文本的架构。
仅解码器模型同样以词元作为输入,并将其转换为数值表示。然而,与编码器不同的是,解码器使用掩码自注意力机制,专注于生成连贯的文本序列。它们通常是自回归模型(基于模型自身先前的输出进行预测)。
解码器在文本生成任务(如故事创作和对话生成)方面表现出色。一些最受欢迎且被广泛使用的语言模型(例如,GPT - 4)就是仅解码器模型。
仅解码器模型的训练速度较慢,因为每个词元的预测都依赖于先前的词元,这使得训练期间无法进行并行处理。此外,在不需要生成新文本而需深入理解输入序列语境的任务方面,它们可能不太擅长。
示例
Bard、GPT - 4、Jurassic - 2、LLaMA、BLOOM、YaLM、Chinchilla、MT - NLG、PALM 2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/495316.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot477基于vue技术的农业设备租赁系统(论文+源码)_kaic

摘 要 使用旧方法对农业设备租赁系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在农业设备租赁系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的农…

如何在 Ubuntu 22.04 上安装和使用 Composer

简介 如果你是一名 PHP 开发者,想要简化你的项目依赖管理,那么 Composer 是一个必不可少的工具。Composer 可以简化包管理,并允许你轻松地将外部库集成到你的项目中。 本教程将向你展示如何在 Ubuntu 22.04 操作系统上安装 Composer&#x…

16_HTML5 语义元素 --[HTML5 API 学习之旅]

HTML5 引入了许多新的语义元素,这些元素有助于创建结构更清晰、更具描述性的网页。语义化 HTML 不仅改善了代码的可读性,还增强了搜索引擎优化(SEO),提高了无障碍访问性,并使得开发者更容易理解和维护代码。…

国标GB28181视频监控平台与Liveweb视频监控汇聚平台对接方案

应急管理部门以“以信息化推动应急管理能力现代化”为总体目标,加快现代信息技术与应急管理业务深度融合,全面支持现代应急管理体系建设,这不仅是国家加强和改进应急管理工作的关键举措,也是应对日益严峻的应急管理形势和满足公众…

内部知识库的未来展望:技术融合与用户体验的双重升级

在当今数字化飞速发展的时代,企业内部知识库作为知识管理的关键载体,正站在变革的十字路口,即将迎来技术融合与用户体验双重升级的崭新时代,这一系列变化将深度重塑企业知识管理的格局。 一、技术融合:开启知识管理新…

EasyGBS国标GB28181公网平台P2P远程访问故障诊断:云端服务端排查指南

随着信息技术的飞速发展,视频监控领域正经历从传统安防向智能化、网络化安防的深刻转变。EasyGBS平台,作为基于国标GB28181协议的视频流媒体平台,为用户提供了强大的视频监控直播功能。然而,在实际应用中,P2P远程访问可…

HW护网分析研判思路,流量告警分析技巧

《网络安全自学教程》 这篇文章,写给每一个「护网黑奴」,为初次护网的小伙伴普及一下护网工作内容,提供一些简单的分析思路。 护网分析研判思路 1、护网组织架构和责任划分1.1、安全监控1.2、分析研判1.3、应急处置 2、分析研判2.1、判断告警…

springBoot发布https服务及调用

一、服务端发布https服务 1、准备SSL证书 (1)自签名证书:如果你只是用于开发或测试环境,可以生成一个自签名证书。 (2)CA 签名证书:对于生产环境,应该使用由受信任的证书颁发机构 …

Web 第一次作业 初探html 使用VSCode工具开发

目录 初探html? 代码展示&#xff1a; 初探html 大多数代码都比较冗长 不是很简洁 还有许多标签功能不会使用 记录一下成长过程 哈哈哈哈哈&#xff01;<–_–> 代码展示&#xff1a; 12.10首次确定书写对象 牢9门 <!DOCTYPE html> <html lang"en&quo…

分别查询 user 表中 avatar 和 nickname 列为空的用户数量

文章目录 1、要查询 user 表中 avatar 列为空的用户数量2、要查询 user 表中 nickname 列为空的用户数量 1、要查询 user 表中 avatar 列为空的用户数量 好的&#xff0c;要查询 user 表中 avatar 列为空的用户数量&#xff0c;你可以使用以下 SQL 查询语句&#xff1a; SELE…

【批量生成WORD和PDF文件】根据表格内容和模板文件批量创建word文件,一次性生成多个word文档和批量创建PDF文件

如何按照Word模板和表格的数据快速制作5000个word文档 &#xff1f; 在与客户的合作的中需要创建大量的合同&#xff0c;这些合同的模板大概都是一致的&#xff0c;是不是每次我们都需要填充不一样的数据来完成&#xff1f; 今天用表格数据完成合同模板的填充&#xff0c;批量…

DX12 快速教程(2) —— 渲染天蓝色窗口

快速导航 新建项目 "002-DrawSkyblueWindow"DirectX 12 入门1. COM 技术&#xff1a;DirectX 的中流砥柱什么是 COM 技术COM 智能指针 2.创建 D3D12 调试层设备&#xff1a;CreateDebugDevice什么是调试层如何创建并使用调试层 3.创建 D3D12 设备&#xff1a;CreateD…

【MySQL】7.0 入门学习(七)——MySQL基本指令:帮助、清除输入、查询等

1.0 help &#xff1f; 帮助指令&#xff0c;查询某个指令的解释、用法、说明等。详情参考博文&#xff1a; 【数据库】6.0 MySQL入门学习&#xff08;六&#xff09;——MySQL启动与停止、官方手册、文档查询 https://www.cnblogs.com/xiaofu007/p/10301005.html 2.0 在cmd命…

鸿蒙开发:了解帧动画

前言 所谓帧动画&#xff0c;就是类似播放电影一样&#xff0c;一帧一帧的进行播放&#xff0c;相对于属性动画&#xff0c;其每一帧&#xff0c;我们都可以进行设置相关的属性值&#xff0c;并且具有暂停播放&#xff0c;继续播放的优点&#xff0c;而且还具备事件的实时响应&…

发际线不断后移,生发液排行榜第一名,让绒毛碎发爆出来

脱发真的很困扰人&#xff0c;不疼不痒&#xff0c;但看着就老了几岁&#xff0c;形象也大打折扣&#xff0c;男性脱发就更直观了&#xff01;同学严重时&#xff0c;后脑勺几块拳头大的脱发区域&#xff0c;还有的呈“m”型脱发&#xff0c;脑门看着都大了。脱发除了遗传因素以…

Y3地图制作1:水果缤纷乐、密室逃脱

文章目录 一、水果缤纷乐1.1 游戏设计1.1.1 项目解析1.1.2 项目优化1.1.3 功能拆分 1.2 场景制作1.2.1 场景需求1.2.2 创建主镜头、绘制草稿&#xff0c;构思文案和情景1.2.3 构建场景地图1.2.4 光源与氛围设置 1.3 游戏初始化1.3.1 物编、UI预设置1.3.2 游戏初始化1.3.2 玩家初…

48页PPT|2024智慧仓储解决方案解读

本文概述了智慧物流仓储建设方案的行业洞察、业务蓝图及建设方案。首先&#xff0c;从政策层面分析了2012年至2020年间国家发布的促进仓储业、物流业转型升级的政策&#xff0c;这些政策强调了自动化、标准化、信息化水平的提升&#xff0c;以及智能化立体仓库的建设&#xff0…

【Linux】ChatGLM-4-9B模型之All Tools

一、摘要 最近在研究GLM4模型&#xff0c;发现自带的All Tools比较感兴趣&#xff0c;它具有完整工具调用能力的对话模式&#xff0c;原生支持网页浏览、代码执行、图表生成、图片生成&#xff0c;并支持自定义工具。它能够满足大模型私有化部署的个性定制&#xff0c;因此记录…

Vue零基础必学教程(16) 计算属性

往期内容&#xff1a; Vue零基础必学教程&#xff08;5&#xff09;挂载 Vue零基础必学教程&#xff08;6&#xff09;基本选项 Vue零基础必学教程&#xff08;7&#xff09;模板 Vue零基础必学教程&#xff08;8&#xff09;模板语法 Vue零基础必学教程&#xff08;9&…

14:30面试,14:08就出来了,面试问的有点变态呀。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%,这…