翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习二

翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习二

news/2024/12/26 11:55:46/文章来源:https://blog.csdn.net/zgpeace/article/details/138329862

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习一
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习二
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习三
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习四
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习五
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构深度学习六

在本章中,我们将深入探讨
在这里插入图片描述

网络的开始和
在这里插入图片描述

结束阶段发生的情况,
在这里插入图片描述

我将花大量时间回顾一些重要的背景知识,这些知识是熟悉Transformer的机器学习工程师的基础知识。
在这里插入图片描述

如果你已经熟悉背景知识,迫不及待地想了解更多,你可以跳到下一节,重点将放在Transformer的核心部分——注意力模块上。
在这里插入图片描述

之后,我将更详细地介绍多层感知器模块、训练过程以及之前省略的一些其他细节。

对于背景信息,这些视频是对我们深度学习课程系列的补充,你不一定要按顺序观看,
在这里插入图片描述

但在深入研究Transformer之前,我认为确保我们对深度学习的基本概念和架构有共同的理解很重要。
在这里插入图片描述

这里要明确的是,
在这里插入图片描述

机器学习是一种使用数据来指导模型行为模式的方法。
在这里插入图片描述

具体来说,你可能需要一个函数,它接受一个图像,输出一个词描述,
在这里插入图片描述

或者为给定的文本预测下一个词,
在这里插入图片描述

或者其他需要直觉和模式识别的任务,
在这里插入图片描述

虽然我们现在已经习惯了,但机器学习的核心思想是,我们不再试图编写固定的程序来完成这些任务,这是人们在人工智能最早期会做的事情。
在这里插入图片描述

相反,构建一个具有可调参数的灵活结构,就像一系列旋钮和调节器,
在这里插入图片描述

然后通过学习大量实例输入和期望输出来调整和微调参数值,从而模拟这种直觉行为。
在这里插入图片描述

例如,可能最直观的入门机器学习模型是线性回归,你将输入和输出视为单个数字,如房屋面积和价格,你要做的就是找到最适合这些数字的直线。这用于预测未来的房价。
在这里插入图片描述

这条线由两个连续的参数组成,即斜率和y截距。

线性回归的目标是确定这些参数以尽可能接近地匹配数据。

不用说,深度学习模型会更加复杂。
在这里插入图片描述

例如,GPT-3有1750亿个参数,而不仅仅是两个。
在这里插入图片描述

然而,重要的是要注意,你不能简单地构建一个具有许多参数的大型模型就能有效工作,这样做可能会导致模型严重过拟合训练数据,或者极难训练。
在这里插入图片描述

深度学习包括一系列在过去几十年中已被证明在扩展能力方面表现出色的模型类别。
在这里插入图片描述

它们成功的关键在于,它们都使用相同的训练算法:反向传播,我们在前面的章节中已经介绍过。
在这里插入图片描述

你需要理解的是,为了让这个训练算法在大规模应用中很好地工作,模型必须遵循特定的结构。

如果你了解这个结构的一些知识,你将更好地理解Transformer如何处理语言以及其背后的逻辑,否则某些设计选择可能看起来有点随意。
在这里插入图片描述

首先,无论你要构建什么样的模型,输入必须是一个实数数组。
在这里插入图片描述

这可能只是一个数字列表,或者是一个二维数组,或者更常见的是一个更高维的数组,这个通用术语叫做张量(tensor)。
在这里插入图片描述

这些输入通常通过多个不同的层逐步转换,每一层形成一个实数数组,直到最后一层,你可以将其视为输出层。
在这里插入图片描述

例如,我们文本处理模型的最终输出层是一个数字列表,表示所有可能的下一个词的概率分布。
在这里插入图片描述

在深度学习领域,这些模型的参数通常被称为权重(weight)。
在这里插入图片描述

这样称呼的原因是,这些模型的核心特征之一是,这些参数与正在处理的数据交互的唯一方式是通过加权求和。

虽然模型中穿插了一些非线性函数,但它们并不依赖于这些参数。
在这里插入图片描述

总的来说,我们不会直接以裸露的形式看到这些权重,而是看到它们被封装为矩阵向量乘积的不同部分。

在这里插入图片描述
如果你回想一下矩阵向量乘法的工作原理,输出的每个部分都像是权重的总和。

一种更直观的方式是将这些可调参数填充的矩阵,
在这里插入图片描述

视为对正在处理的数据进行向量变换的工具。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/317488.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

阿里云开源大模型开发环境搭建

阿里云开源大模型开发环境搭建

ModelScope是阿里云通义千问开源的大模型开发者社区，本文主要描述AI大模型开发环境的搭建。如上所示，安装ModelScope大模型基础库开发框架的命令行参数，使用清华大学提供的镜像地址如上所示，在JetBrains PyCharm的项目工程终端控…

阅读更多...

2024深圳杯数学建模竞赛D题（东三省数学建模竞赛D题）：建立非均质音板振动模型与参数识别模型

2024深圳杯数学建模竞赛D题（东三省数学建模竞赛D题）：建立非均质音板振动模型与参数识别模型

更新完整代码和成品完整论文《2024深圳杯&东三省数学建模思路代码成品论文》↓↓↓（浏览器打开） https://www.yuque.com/u42168770/qv6z0d/zx70edxvbv7rheu7?singleDoc# 2024深圳杯数学建模竞赛D题（东三省数学建模竞赛D题&#xff0…

阅读更多...

深入探索计算机视觉：高级主题与前沿应用的全面解析

深入探索计算机视觉：高级主题与前沿应用的全面解析

引言计算机视觉，作为人工智能领域的一个重要分支，旨在让计算机能够“看”懂世界，理解和解释视觉场景。随着深度学习技术的迅猛发展，计算机视觉已经在许多领域取得了显著的进展，如自动驾驶、安防监控、医疗诊断等。在…

阅读更多...

Go 语言基础（一）【基本用法】

Go 语言基础（一）【基本用法】

前言最近心情格外不舒畅，不仅仅是对前途的迷茫，这种迷茫倒是我自己的问题还好，关键它是我们这种普通吗喽抗衡不了的。那就换个脑子，学点新东西吧，比如 Go？ 1、Go 语言入门介绍就没必要多说了&#xff0…

阅读更多...

Linux(ubuntu)—— 用户管理user 用户组group

Linux(ubuntu)—— 用户管理user 用户组group

一、用户 1.1、查看所有用户 cat /etc/passwd 1.2、新增用户 useradd 命令，我这里用的是2.4的命令。然后，需要设置密码 passwd student 只有root用户才能用passwd命令设置其他用户的密码，普通用户只能够设置自己的密码二、组 2.1查看…

阅读更多...

CentOS/Anolis的Linux系统如何通过VNC登录远程桌面？

CentOS/Anolis的Linux系统如何通过VNC登录远程桌面？

综述需要在server端启动vncserver，推荐tigervnc的server 然后再本地点来启动client进行访问，访问方式是IPport（本质是传递数据包到某个ip的某个port） 然后需要防火墙开启端口服务器上：安装和启动服务安装服务 y…

阅读更多...

Macos安装OrbStack

Macos安装OrbStack

什么是OrbStack OrbStack 是一种在 macOS 上运行容器和 Linux 机器的快速、轻便和简单方法。它是 Docker Desktop 和 WSL 的超强替代品，所有这些都在一个易于使用的应用程序中。在Macos M系列芯片上，经常遇到docker镜像不兼容的问题，此时使…

阅读更多...

LangChain入门2 RAG详解

LangChain入门2 RAG详解

RAG概述一个典型的RAG应用程序,它有两个主要组件： 索引：从源中获取数据并对其进行索引的管道。这通常在脱机情况下发生。检索和生成：在运行时接受用户查询，并从索引中检索相关数据，然后将其传递给模型。从原始数据…

阅读更多...

【PHP】安装指定版本Composer

【PHP】安装指定版本Composer

1、下载指定版本composer.phar文件：https://github.com/composer/composer/releases 2、将下载的文件添加到全局路径： sudo mv composer.phar /usr/local/bin/composer 3、赋予权限： sudo chmod x /usr/local/bin/composer 4、查看compos…

阅读更多...

【GitHub】github学生认证，在vscode中使用copilot的教程

【GitHub】github学生认证，在vscode中使用copilot的教程

github学生认证并使用copilot教程写在最前面一.注册github账号1.1、注册1.2、完善你的profile 二、Github 学生认证注意事项：不完善的说明三、Copilot四、在 Visual Studio Code 中安装 GitHub Copilot 扩展4.1 安装 Copilot 插件4.2 配置 Copilot 插件&#xff0…

阅读更多...

如何使用ChatGPT进行高效的中文到科学英文翻译？

如何使用ChatGPT进行高效的中文到科学英文翻译？

如何使用ChatGPT进行高效的中文到科学英文翻译在全球化加速的今天，科学交流往往需要跨越语言障碍。特别是在科研领域，有效地将中文研究成果转化为精准的科学英语描述，对于学术发表和国际合作尤为关键。AI翻译工具如ChatGPT可以在这一过程中…

阅读更多...

深入理解多层感知机MLP

深入理解多层感知机MLP

1. 基础理论神经网络基础： 目标：了解神经网络的结构，包括神经元、权重、偏置和激活函数。神经网络是由多个层次的神经元组成的网络，它模拟了人脑处理信息的方式。每个神经元可以接收输入、处理输入并生成输出。这一过程涉及到…

阅读更多...

设计模式 --6组合模式

设计模式 --6组合模式

文章目录组合模式应用场景组合模式概念组合模式结构图透明方式和安全方式什么时候使用组合模式公司管理系统使用组合模式来构架组合模式的好处组合模式应用场景整体和部分可以被一致性对待比如人力资源部财务部的管理功能可以复用于分公司的功能可以引入一种树状的结构…

阅读更多...

延时任务通知服务的设计及实现（二）-- redisson的延迟队列RDelayedQueue

延时任务通知服务的设计及实现（二）-- redisson的延迟队列RDelayedQueue

一、接着上文 RDelayedQueue作为redisson封装的一个分布式延迟队列，直接拿来使用还是比较简单的。本文主要包括以下几部分： 保存至延迟队列（生产者）读取延迟队列（消费者）从延迟队列移除任务二、rediss…

阅读更多...

el-form 表单设置某个参数非必填验证

el-form 表单设置某个参数非必填验证

html <el-form ref"form" :rules"rules"><el-form-item prop"tiktokEmail" label"邮箱" ><el-input v-model"form.tiktokEmail" placeholder"邮箱" ></el-input></el-form-item&…

阅读更多...

原创度高！性能好！|基于信息共享与黄金搜索的改进星鸦优化算法在50+个函数上进行测试(Matlab)

原创度高！性能好！|基于信息共享与黄金搜索的改进星鸦优化算法在50+个函数上进行测试(Matlab)

文章来源于我的个人公众号：KAU的云实验台，主要更新智能优化算法的原理、应用、改进前面的文章中，KAU介绍了星鸦优化算法(Nutcracker Optimization Algorithm，NOA)[1]，NOA算法模拟了星鸦觅食、存储以及缓存搜索、恢复…

阅读更多...

人脸识别概念解析

人脸识别概念解析

目录 1. 概述 2. 人脸检测 3. 人脸跟踪 4. 质量评价 5. 活体检测 6. 特征提取 7. 人脸验证 8. 人脸辨识 1. 概述人脸识别在我们的生活中随处可见，例如在大楼门禁系统中，它取代了传统的门禁卡或密码，提高了进出的便捷性和安全性。在商…

阅读更多...

现代神经网络总结(AlexNet VGG GoogleNet ResNet的区别与改进)

现代神经网络总结(AlexNet VGG GoogleNet ResNet的区别与改进)

VGG NIN GoogleNet 1.VGG，NIN，GoogleNet的块结构图对比(注意:无AlexNet) 这些块带来的区别与细节 AlexNet未使用块,主要对各个层进行了解: 卷积:捕捉特征 relu:增强非线性池化层:减少计算量 norm:规范数据分布全连接层:分类VGG块的改善(对比AlexNe…

阅读更多...

理解Linux文件系统

理解Linux文件系统

文章目录一、引言二、Linux文件系统概述1、文件系统的结构2、文件系统目录树的逻辑结构二、文件系统的特性1、super block：文件系统的超级块2、inode：文件系统的索引节点3、inode table4、block：文件系统的数据块5、块组描述符表&#xff0…

阅读更多...

Python 与 TensorFlow2 生成式 AI（二）

Python 与 TensorFlow2 生成式 AI（二）

原文：zh.annas-archive.org/md5/d06d282ea0d9c23c57f0ce31225acf76 译者：飞龙协议：CC BY-NC-SA 4.0 第四章：教授网络生成数字在前一章中，我们涵盖了神经网络模型的构建基块。在这一章中，我们的第一个项目…

阅读更多...

最新文章

推荐文章