大型语言模型基础知识的可视化指南

直观分解复杂人工智能概念的工具和文章汇总

在这里插入图片描述

如今,LLM(大型语言模型的缩写)在全世界都很流行。没有一天不在宣布新的语言模型,这加剧了人们对错过人工智能领域的恐惧。然而,许多人仍在为 LLM 的基本概念而苦苦挣扎,这使他们难以跟上时代的进步。本文的目标读者是那些希望深入了解此类人工智能模型的内部运作,从而扎实掌握相关知识的人。有鉴于此,我将介绍一些工具和文章,它们可以帮助巩固概念并分解 LLM 的概念,使其易于理解。

目录

1.图解Transformer《The Illustrated Transformer by Jay Alammar》

杰伊是最早用强大的可视化功能撰写技术文章的先驱之一。只要浏览一下这个博客网站,你就会明白我想表达的意思。多年来,他激励了许多作者效仿,教程的理念也从简单的文字和代码转变为身临其境的可视化。言归正传,回到图文并茂的 Transformer。变换器架构是所有带变换器的语言模型(LLM)的基本构件。因此,了解其基本原理至关重要,而这正是杰伊所做的出色工作。该博客涵盖了以下重要概念:

  • Transformer的高级视角
  • 探索Transformer的编码和解码组件
  • Self-Attention自注意力机制
  • 自注意力机制的矩阵计算
  • Multi-Headed Attention多注意力头的概念
  • 位置编码
  • Transformer结构中的余量
  • 解码器的最终线性和Softmax层
  • 模型训练中的损失函数

Link: https://jalammar.github.io/illustrated-transformer/

他还制作了一个 "讲述Transformer "的视频,以更温和的方式来探讨这个话题。阅读完这篇博文后,Attention Is All You Need 一文和Transformer blog post 官方博文将是很好的补充。

2.图解GPT-2 《The Illustrated GPT-2 by Jay Alammar》

杰伊-阿拉玛(Jay Alammar)的另一篇精彩文章–《图解GPT-2》。这是对图解Transformer 博客的补充,包含更多可视化元素来解释Transformer 的内部工作原理,以及自原始论文发表以来Transformer 是如何演变的。此外,它还有一个专门的部分介绍Transformer 在语言建模之外的应用。
相关链接:🔗: https://jalammar.github.io/illustrated-gpt2/

3. 大语言模型可视化《LLM Visualization by Brendan Bycroft》

LLM 可视化项目提供了支持 OpenAI 的 ChatGPT 的 LLM 算法演练。这是一个探索算法的绝佳资源,可以深入到运行单个标记推理所需的每一个步骤,看到整个过程的运行情况。

该项目的特色是一个网页,其中包含一个小型 LLM 的可视化效果,类似于 ChatGPT,但具有令人惊叹的 3D 效果。该工具提供了单标记推理的逐步指导,并具有互动元素,可让用户亲身体验。截至目前,以下架构的可视化工具已经可用:

  • GPT-2(small)
  • Nano GPT
  • GPT-2(XL)
  • GPT-3

相关链接:: https://bbycroft.net/llm

在这里插入图片描述

4. 生成式AI因transformer而存在《Generative AI exists because of the transformer — Financial Times》

《金融时报》的视觉研发团队和 Madhumita Murgia 做得很好,他们运用视觉效果阐释了 LLM 的功能,特别强调了自我注意机制和 Transformer 架构。
相关链接:https://ig.ft.com/generative-ai/

5. OpenAI 的Token工具《Tokenizer tool by OpenAI》

大型语言模型使用标记(数字序列)处理文本。标记符转换器可将文本转换为标记符。OpenAI 的标记化工具提供了一种有用的方法来测试特定字符串,并查看它们是如何转化为标记的。您可以使用该工具了解语言模型如何对一段文本进行标记化,以及这段文本中的标记总数。

Link: https://platform.openai.com/tokenizer

6. 理解GPT的分词器《Understanding GPT tokenizers by Simon Wilson》

虽然我们已经提到过 OpenAI 提供了一个令牌生成器(Tokenizer)工具来探索令牌是如何工作的,但西蒙-威尔逊(Simon Wilson)自己创建了一个令牌生成器工具,这就更有趣了。该工具可作为 Observable 笔记本使用。该笔记本将文本转换为令牌,将令牌转换为文本,并根据完整的令牌表进行搜索。
西蒙分析得出的一些重要见解包括:

  • 大多数常用英语单词都有一个标记
  • 有些单词的标记带有前导空格,从而能更有效地对完整句子进行编码
  • 非英语语言的标记化效率可能较低
  • 差错标记可能导致意想不到的行为。

相关链接:https://lnkd.in/eXTcia8Z

7. 块可视化《Chunkviz app》

分块是一种策略,包括在构建 LLM 应用程序时将大段文本分解成较小的片段。这一点很重要,这样您就可以将文档放入模型的上下文窗口中。上下文窗口指的是语言模型可以一次性处理的最大文本长度。但是,分块的策略有很多种,而这正是该工具的优势所在。您可以从各种分块策略中进行选择,并查看其对文本的影响。目前,您可以从四种不同的 LangChainAI 拆分器中可视化文本拆分和分块策略。

相关链接:https://chunkviz.up.railway.app/

8. 机器学习模型是记忆还是泛化?《Do Machine Learning Models Memorize or Generalize?》

Explorables是谷歌PAIR团队撰写的互动文章,试图通过互动媒介简化复杂的人工智能相关主题。这篇特别的探索文章深入探讨了 "泛化 "和 "记忆 "的概念,探讨了一个至关重要的问题–大型语言模型(LLMs)是否真正了解世界,还是它们只是在从大量训练数据中回忆信息?

在这篇互动文章中,作者对一个微小模型的训练动态进行了一次调查之旅。他们对找到的解决方案进行了逆向工程,精彩地展示了令人兴奋的新兴机制可解释性领域。

相关链接:🔗 https://pair.withgoogle.com/explorables/grokking/

Conclusion

这些宝贵的工具和文章,它们试图将复杂的技术术语分解成易于理解的形式。以交互式、可视化的形式撰写和呈现技术概念。
本文重点介绍的文章和工具旨在降低初学者和爱好者的入门门槛,使学习更有吸引力,更容易获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/246225.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python爬虫基础

python爬虫基础 前言 Python爬虫是一种通过编程自动化地获取互联网上的信息的技术。其原理可以分为以下几个步骤: 发送HTTP请求: 爬虫首先会通过HTTP或HTTPS协议向目标网站发送请求。这个请求包含了爬虫想要获取的信息,可以是网页的HTML内…

关于C#中的HashSet<T>与List<T>

HashSet<T> 表示值的集合。这个集合的元素是无须列表&#xff0c;同时元素不能重复。由于这个集合基于散列值&#xff0c;不能通过数组下标访问。 List<T> 表示可通过索引访问的对象的强类型列表。内部是用数组保存数据&#xff0c;不是链表。元素可重复&#xf…

如何利用streamlit 將 gemini pro vision 進行圖片內容介紹

如何利用streamlit 將 gemini pro vision 進行圖片內容介紹 1.安裝pip install google-generativeai 2.至 gemini pro 取 api key 3.撰寫如下文章:(方法一) import json import requests import base64 import streamlit as st 讀取圖片檔案&#xff0c;並轉換成 Base64 編…

mysql 存储过程学习

存储过程介绍 1.1 SQL指令执行过程 从SQL执行的流程中我们分析存在的问题: 1.如果我们需要重复多次执行相同的SQL&#xff0c;SQL执行都需要通过连接传递到MySQL&#xff0c;并且需要经过编译和执行的步骤; 2.如果我们需要执行多个SQL指令&#xff0c;并且第二个SQL指令需要…

145基于matlab的求解悬臂梁前3阶固有频率和振型

基于matlab的求解悬臂梁前3阶固有频率和振型,采用的方法分别是&#xff08;假设模态法&#xff0c;解析法&#xff0c;瑞利里兹法&#xff09;。程序已调通&#xff0c;可直接运行。 145 matlab 悬臂梁 固有频率 振型 (xiaohongshu.com)

Linux 驱动开发基础知识—— LED 驱动程序框架(四)

个人名片&#xff1a; &#x1f981;作者简介&#xff1a;一名喜欢分享和记录学习的在校大学生 &#x1f42f;个人主页&#xff1a;妄北y &#x1f427;个人QQ&#xff1a;2061314755 &#x1f43b;个人邮箱&#xff1a;2061314755qq.com &#x1f989;个人WeChat&#xff1a;V…

[嵌入式软件][启蒙篇][仿真平台] STM32F103实现IIC控制OLED屏幕

上一篇&#xff1a;[嵌入式软件][启蒙篇][仿真平台] STM32F103实现LED、按键 [嵌入式软件][启蒙篇][仿真平台] STM32F103实现串口输出输入、ADC采集 [嵌入式软件][启蒙篇][仿真平台]STM32F103实现定时器 [嵌入式软件][启蒙篇][仿真平台] STM32F103实现IIC控制OLED屏幕 文章目…

DS:单链表的实现(超详细!!)

创作不易&#xff0c;友友们点个三连吧&#xff01; 在博主的上一篇文章中&#xff0c;很详细地介绍了顺序表实现的过程以及如何去书写代码&#xff0c;如果没看过的友友们建议先去看看哦&#xff01; DS&#xff1a;顺序表的实现&#xff08;超详细&#xff01;&#xff01;&…

上位机图像处理和嵌入式模块部署(python opencv)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面我们谈到了qt&#xff0c;谈到了opencv&#xff0c;也谈到了嵌入式&#xff0c;但是没有说明python在这个过程当中应该扮演什么样的角色。open…

风口抓猪-借助亚马逊云科技EC2服务器即刻构建PalWorld(幻兽帕鲁)私服~~~持续更新中

Pocketpair出品的生存类游戏《幻兽帕鲁》最近非常火&#xff0c;最高在线人数已逼近200万。官方服务器亚历山大&#xff0c;游戏开发商也提供了搭建私人专用服务器的方案&#xff0c;既可以保证稳定的游戏体验&#xff0c;也可以和朋友一起联机游戏&#xff0c;而且还能自定义经…

Websocket协议详解

前言 本文主要介绍Websocket是什么以及其协议内容。 WebSocket 协议实现在受控环境中运行不受信任代码的一个客户端到一个从该代码已经选择加入通信的远程主机之间的全双工通信。该协议包括一个打开阶段握手规定以及通信时基本消息帧的定义。其基于TCP之上。此技术的目标是为基…

分布式因果推断在美团履约平台的探索与实践

美团履约平台技术部在因果推断领域持续的探索和实践中&#xff0c;自研了一系列分布式的工具。本文重点介绍了分布式因果树算法的实现&#xff0c;并系统地阐述如何设计实现一种分布式因果树算法&#xff0c;以及因果效应评估方面qini_curve/qini_score的不足与应对技巧。希望能…

基于机器学习的地震预测(Earthquake Prediction with Machine Learning)

基于机器学习的地震预测&#xff08;Earthquake Prediction with Machine Learning&#xff09; 一、地震是什么二、数据组三、使用的工具和库四、预测要求五、机器学习进行地震检测的步骤六、总结 一、地震是什么 地震几乎是每个人都听说过或经历过的事情。地震基本上是一种自…

浪花 - 响应拦截器(强制登录)

1. 配置响应拦截器 import axios from axios;const myAxios axios.create({baseURL: http://localhost:8080/api/, });myAxios.defaults.withCredentials true;// 请求拦截器 myAxios.interceptors.request.use(function (config) {// Do something before request is sentc…

ubuntu设置右键打开terminator、code

前言&#xff1a; 这里介绍一种直接右键打开本地目录下的terminator和vscode的方法。 一&#xff1a;右键打开terminator 1.安装terminator sudo apt install terminator 2.安装nautilus-actions filemanager-actions sudo apt-get install nautilus-actions filemanager…

【小白教程】幻兽帕鲁服务器一键搭建 | 支持更新 | 自定义配置

幻兽帕鲁刚上线就百万在线人数&#xff0c;官方服务器的又经常不稳定&#xff0c;所以这里给大家带来最快捷的搭建教程&#xff0c;废话不多说直接开始。 步骤一&#xff1a;准备服务器 服务器建议 Linux 系统&#xff0c;资源占用低&#xff0c;而且一键脚本只需要一条命令&am…

如何使用宝塔面板配置Nginx反向代理WebSocket(wss)

本章教程&#xff0c;主要介绍一下在宝塔面板中如何配置websocket wss的具体过程。 目录 一、添加站点 二、申请证书 三、配置代理 1、增加配置内容 2、代理配置内容 三、注意事项 一、添加站点 二、申请证书 三、配置代理 1、增加配置内容 map $http_upgrade $connection_…

【TCP】传输控制协议

前言 TCP&#xff08;Transmission Control Protocol&#xff09;即传输控制协议&#xff0c;是一种面向连接的、可靠的、基于字节流的传输层通信协议。它由IETF的RFC 793定义&#xff0c;为互联网中的数据通信提供了稳定的传输机制。TCP在不可靠的IP层之上实现了数据传输的可…

常见电源电路(LDO、非隔离拓扑和隔离拓扑结构)

一、常见电路元件和符号 二、DC-DC转换器 DC-DC转换器&#xff1a;即直流-直流转换器&#xff0c;分为三类&#xff1a;①线性调节器&#xff1b;②电容性开关解调器&#xff1b;③电感性开关调节器&#xff1b; 2.1线性稳压器&#xff08;LDO&#xff09; 2.1.1 NMOS LDO…

【深度学习】sdxl中的 tokenizer tokenizer_2 区别

代码仓库&#xff1a; https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 截图&#xff1a; 为什么有两个分词器 tokenizer 和 tokenizer_2&#xff1f; 在仔细阅读这些代码后&#xff0c;我们了解到 tokenizer_2 主要是用于 refiner 模型的。 #…