翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

在本章的最后一课,我想更详细地讨论softmax函数,因为当我们探索注意力机制时,它会重新成为焦点。
在这里插入图片描述

如果你想要一串数字成为概率分布,
在这里插入图片描述

例如预测可能出现的下一个词的概率,那么这些数字中的每一个都必须在0和1之间,并且加起来等于1。
在这里插入图片描述

然而,如果你正在练习深度学习,而且你做的每一步可能看起来都像是矩阵和向量的乘法,那么你得到的结果可能不满足这个条件。
在这里插入图片描述

这些值可能是负数
在这里插入图片描述

或者远大于1,
在这里插入图片描述

加起来几乎肯定不等于1。
在这里插入图片描述

Softmax是一种标准方法,可以将任何一组数字转换为有效的分布,使得最大值非常接近1,较小的值非常接近0。
理解这一点就足够了。
在这里插入图片描述

但如果你很好奇,这里是它的工作原理:首先对每个值做指数e运算,这样你就得到一组正数,然后你对所有正数求和,
在这里插入图片描述

并用这个和去除以每个数,这样你就把它们归一化为一个加起来等于1的列表。
在这里插入图片描述

你会注意到,如果输入中的一个值明显大于其他值,那么在输出中,与该值对应的项将主导分布,在采样时几乎肯定会选择最大的输入值。
在这里插入图片描述

但这种方法比直接选择最大值更加微妙,因为当其他值也接近最大值时,它们在整体分布中也会获得重要的权重,而且随着你改变输入,一切都在连续变化。
在这里插入图片描述

在某些情况下,例如当ChatGPT使用这个分布来生成下一个词时,
在这里插入图片描述

它可以通过在指数的分母中添加一个常数t来为函数增加一些趣味性。
在这里插入图片描述

我们称之为"温度",因为它在某种程度上类似于热力学方程中温度的作用。
在这里插入图片描述

效果是,当t值较大时,较小的值会获得更多的权重,使分布略微更加均匀。
在这里插入图片描述

如果t值较小,较大的值会更加明显,在极端情况下,如果t设置为0,那么所有的权重都会集中在最大值上。

在这里插入图片描述

例如,我将使用GPT-3生成一个故事,种子文本是"从前有一个A",但我将为每个测试使用不同的温度。
温度为0意味着它总是选择最可预测的词,你得到的结果变成了一个老套的金发女孩的故事。
在这里插入图片描述

较高的温度给了它选择不太可能出现的词的机会,但这也伴随着风险。
在这种情况下,故事以一个关于韩国年轻网络艺术家的原创故事开始,但很快就变得毫无意义。
在这里插入图片描述

严格来说,API实际上并不允许你选择大于2的温度。
这个限制没有数学基础,我猜这只是一个人为的限制,以防止他们的工具产生过于荒谬的结果。
在这里插入图片描述

所以,如果你很好奇,这个动画是这样工作的:我选择了GPT-3生成概率最高的前20个tokens,这看起来是他们能给我的最多的了。
在这里插入图片描述

然后,我根据1/5的指数来调整这些概率。

在这里插入图片描述

我要向你介绍另一个技术术语,在这个上下文中,我们通常称这个函数的输出分量为概率,

在这里插入图片描述

而人们通常称输入为logits,有些人说logits,有些人说logits,我选择说logits。
在这里插入图片描述

例如,当你输入一段文本时,所有这些词向量都会流经网络,
在这里插入图片描述

并与unembedding matrix相乘。
在这里插入图片描述

机器学习专家会将这个原始的、未经归一化的输出分量称为下一个词预测的logits。

在这里插入图片描述
在这里插入图片描述

本章的主要目标是为理解注意力机制奠定基础,就像电影《The Kid》中的基本技能一样。

在这里插入图片描述

你看,如果你对词嵌入、softmax、点积如何衡量相似性
在这里插入图片描述

在这里插入图片描述

以及大多数计算看起来像是填充可调参数的矩阵乘法有深入的理解,
在这里插入图片描述

那么你应该更容易掌握注意力机制,这是现代AI浪潮中的一项关键技术。
在这里插入图片描述

在这里插入图片描述

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/317609.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Springboot+Vue的Java项目-火车票订票系统开发实战(附演示视频+源码+LW)

大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &am…

html--剑雨

<!doctype html> <html> <head> <meta charset"utf-8"> <title>css3剑雨-jq22.com</title> <script src"http://www.jq22.com/jquery/jquery-1.10.2.js"></script> <style> .sword:before, .sword:…

Docker基础学习(5.Docker镜像命令)

⭐ 作者简介&#xff1a;码上言 ⭐ 代表教程&#xff1a;Spring Boot vue-element 开发个人博客项目实战教程 ⭐专栏内容&#xff1a;个人博客系统 ⭐我的文档网站&#xff1a;http://xyhwh-nav.cn/ ⭐微信公众号&#xff1a;码上言 文章目录 Docker run流程镜像是什么&a…

云计算技术概述_1.云计算相关概念

1.关于IBM“蓝云&#xff08;Blue Cloud&#xff09;”计划 IBM 推出的“蓝云&#xff08;Blue Cloud&#xff09;”计划为客户带来即可使用的云计算(Cloud Computing)。它包括一系列的云计算产品&#xff0c;使计算不仅仅局限在本地机器或远程Server Farms&#…

树莓派点亮LED灯

简介 使用GPIO Zero library 的 Python库实现点亮LED灯。接线 树莓派引脚参考图如下&#xff1a; LED正极 接GPIO17 LED负极 接GND 权限 将你的用户加到gpio组中&#xff0c; 否则无法控制GPIO sudo usermod -a -G gpio 代码 from gpiozero import LED from time impor…

MouseBoost PRO for Mac激活版:强大的 鼠标增强软件

在追求高效工作的今天&#xff0c;MouseBoost PRO for Mac成为了许多Mac用户的得力助手。这款功能强大的鼠标增强软件&#xff0c;以其独特的智能化功能和丰富的实用工具&#xff0c;让您的电脑操作更加便捷、高效。 MouseBoost PRO for Macv3.4.0中文激活版下载 MouseBoost PR…

【Mac】Photoshop 2024 for mac最新安装教程

软件介绍 Photoshop 2024是Adobe公司推出的一款图像处理软件&#xff0c;它支持Windows和Mac OS系统。Adobe Photoshop是业界领先的图像编辑和处理软件之一&#xff0c;广泛用于设计、摄影、数字绘画等领域。 Photoshop 2024的功能包括&#xff1a; 1.图像编辑&#xff1a;提…

图片壁纸社区app前后端开源小程序源码

图片壁纸社区APP前后端开源小程序源码&#xff0c;修改了开源版的前端样式&#xff0c;变成图片社区&#xff0c;也可以用来作为壁纸。 源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/89122506 更多资源下载&#xff1a;关注我。

【Unity】修改模型透明度

在 Unity 中修改模型透明度主要有两种方法&#xff1a;通过材质和通过着色器。以下是两种方法的步骤和解释&#xff1a; 方法 1&#xff1a;通过材质 在 Unity 编辑器中&#xff0c;选择你想要修改透明度的模型。在 Inspector 窗口中&#xff0c;找到模型的 Renderer 组件&am…

简约大气的全屏背景壁纸导航网源码(免费)

简约大气的全屏背景壁纸导航网模板 效果图部分代码领取源码下期更新预报 效果图 部分代码 <!DOCTYPE html> <html lang"zh-CN"> <!--版权归孤独 --> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible…

【b站前端-小鑫】Vue Router(路由)快速掌握(入门到精通5节课)

课程地址&#xff1a;【Vue Router(路由)快速掌握&#xff08;入门到精通5节课&#xff09;】 https://www.bilibili.com/video/BV1aP4y1W7Uz/?share_sourcecopy_web&vd_sourceb1cb921b73fe3808550eaf2224d1c155 目录 1 Vue Router 1.1 Vue Router的安装 1.2 创建路由…

提高 RAG 效果示例配置

提高 RAG 效果示例配置 最近在调整一个学习赛&#xff0c;针对所有问题&#xff0c;为了尽可能的获得答案&#xff0c;尝试了各种配置。 20240501时点&#xff0c;下面配置暂时能够获得测试的所有十几个问题的答案。后续测试再更新更优化的配置。 未完待续&#xff01;

在UI界面中播放视频_unity基础开发教程

在UI界面中播放视频_unity基础开发教程 前言操作步骤结语 前言 之前我写过一篇在场景中播放视频的文章&#xff0c;但是在开发中有时候也会在UI的界面中播放视频&#xff0c;这期我们做一下在UI的界面中播放视频。 操作步骤 首先在场景中创建一个Raw Image&#xff0c;UI->…

手撕spring框架(3)

手撕spring框架&#xff08;3&#xff09; 相关系列 手撕spring框架&#xff08;1&#xff09; 手撕spring框架&#xff08;2&#xff09; InitializingBean 接口详解 什么是 InitializingBean 接口&#xff1f; InitializingBean 接口是 Spring 框架中的一个接口&#xff0c…

与Apollo共创生态:探索自动驾驶的未来蓝图

目录 引言Apollo开放平台Apollo开放平台企业生态计划Apollo X 企业自动驾驶解决方案&#xff1a;加速企业场景应用落地Apollo开放平台携手伙伴共创生态生态共创会员权益 个人心得与展望技术的多元化应用数据驱动的智能化安全与可靠性的重视 结语 引言 就在2024年4月19日&#x…

Golang | Leetcode Golang题解之第60题排列序列

题目&#xff1a; 题解&#xff1a; func getPermutation(n int, k int) string {factorial : make([]int, n)factorial[0] 1for i : 1; i < n; i {factorial[i] factorial[i - 1] * i}k--ans : ""valid : make([]int, n 1)for i : 0; i < len(valid); i {…

C++系列-输入输出

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” C输入和输出 我们都知道C语言的输出是用printf函数来实现的&#xff0c;那么C呢&#xff0c;它的实现逻辑是什么呢&#xff0c;让我们一起来看一下&#xff0c; #include<i…

多家企业机密数据遭Lockbit3.0窃取,亚信安全发布《勒索家族和勒索事件监控报告》

本周态势快速感知 本周全球共监测到勒索事件87起&#xff0c;与上周相比勒索事件大幅下降。美国依旧为受勒索攻击最严重的国家&#xff0c;占比45%。 本周Cactus是影响最严重的勒索家族&#xff0c;Lockbit3.0和Bianlian恶意家族紧随其后&#xff0c;从整体上看Lockbit3.0依旧…

如何用OceanBase的 Load Data 导入CSV文件

0 前言 CSV文件&#xff08;Comma-Separated Values&#xff0c;字符分隔值&#xff09;是一种普遍采用的数据存储格式&#xff0c;有不少企业和机构都用它来进行数据的管理和存储。身为开发者&#xff0c;您可能经常遇到这样的需求&#xff1a;需要将CSV的数据导入OceanBase数…

如何安全的使用密码登录账号(在不知道密码的情况下)

首先&#xff0c;需要用到的这个工具&#xff1a; 度娘网盘 提取码&#xff1a;qwu2 蓝奏云 提取码&#xff1a;2r1z 1、打开工具&#xff0c;进入账号密码模块&#xff0c;如图 2、看到鼠标移动到密码那一栏有提示&#xff0c;按住Ctrl或者Alt点击或者双击就能复制内容&…