长上下文训练的关键因素(1)

这个是我之前就说过的要写的一篇文章,因为一直有事和别的更想写的文章就被耽误了。其实从我主观上讲我也不太愿意写这个,因为一些现实的因素,谈这个总被人曲解,所以先提早声明,我写这纯和技术有关,不针对任何公司,我不挡人财路。

      先看一个大家都听过一个道理,所谓的Transformer算力O(n)^2的关系的,这个是咋推出来的,估计大部分人不一定理解,我们现在推一下。

      Transformer 算力复杂度和n平方的关系,不是指所有,因为它包含了attention和MLP层,说这个事说的也是attention层的问题,关于Transformer网络架构的文章推荐看我的这个系列:

小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(1) (qq.com)

      这一层为啥是O(n)^2呢,先说n是啥,n就是序列长度(我其实不愿意用n,但是大家都用n,我怕别人看不懂,我也就用n了)

      首先这一层的公式就是Q*K的转置*V,这三个东西其实维度都一样,self-attention SA的公式如下(没写多头)

图片

      因为本来就self-attention出来的,而且一般都等于模型的hidden_size,我们就算D吧,所以QKV都是的其中一个维度就是D,一般情况下D=hide_size h。

       QKV是怎么生成的呢?这就要先考虑问题,你喂给模型的数据x是啥样的呢?

    [B,S,H]  [batch_size,sequence_length,Dimension_size], 其中S=n,H=D, 就写成 [B,n,D]吧。

       上面的部分看不懂,强烈建议看这个系列,因为是模型训练的基础理论必备:

      LLM 参数,显存,Tflops? 训练篇(1) (qq.com)

      

      QKV都是由self-attention,也就是由输入数据self出来的,输入的数据[B,n,D]的最后一维和Wq,Wk,Wv三个矩阵是相等的。

     Wq矩阵=[D,D],Wk和Wv也都一样, 然后输入数据分别和Wq,Wk,Wv点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/299938.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图片批量高效管理,图片像素缩放支持自定义操作,让图像处理更轻松

在数字化时代,图片管理成为了我们生活和工作中不可或缺的一部分。无论是个人用户还是企业用户,都需要对大量的图片进行有效的管理和处理。然而,面对众多的图片,如何进行批量管理并对其进行像素缩放成为了一个挑战,该如…

后端返还二进制excl表格数据时候,如何实现在前端下载表格功能及出现表格打开失败的异常处理。

背景: 后端返还一个二进制流的excl表格数据,前端需要对其解析,然后可提供给客户进行下载。 思路:把二进制流数据转换给blob对象,然后利用a标签进行前端下载。 代码: 后端返还 类似如下的数据 前端代码…

智慧园区革新之路:山海鲸可视化技术引领新变革

随着科技的飞速发展,智慧园区已成为城市现代化建设的重要组成部分。山海鲸可视化智慧园区解决方案,作为业界领先的数字化革新方案,正以其独特的技术优势和丰富的应用场景,引领着智慧园区建设的新潮流。 本文将带大家一起了解一下…

【OneAPI】贴纸生成API

OneAPI新接口发布:贴纸生成 生成一个10241024像素的贴纸。 API地址:POST https://oneapi.coderbox.cn/openapi/api/stickers 请求参数(body) 参数名类型必填含义说明prompt提示词是提示词示例:一只可爱的小狗 响应…

线程安全--深入探究线程等待机制和死锁问题

꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如需转…

1688详情API接口:解锁多元化应用场景java php c++

随着互联网的快速发展,数据交换和信息共享已成为企业日常运营不可或缺的一部分。在这样的背景下,API(应用程序接口)接口作为实现数据互通的重要工具,受到了越来越多企业的青睐。1688详情API接口作为阿里巴巴旗下的重要…

壁纸小程序Vu3(预览页面:弹窗)

1.展示跳转后的分类列表图片 classlist.vue <template><view class"classlist"><view class"content"><navigator class"item" v-for"item in 10"><image src"../../common/images/64.png" mode…

计算机网络 实验指导 实验16

实验16 PPP配置实验 1.实验拓扑图 实验10讲了如何添加Se的接口 名称接口IP地址Router1se0/0/0192.168.1.1/24Router0se0/0/0192.168.1.2/24se0/0/1192.168.2.1/24Router2se0/3/0192.168.2.2/24 2.实验目的 &#xff08;1&#xff09;掌握PPP的基本配置步骤和方法 &#xf…

Java入门基础知识第六课(超基础,超详细)——循环结构

前面二白讲了选择结构相关知识&#xff0c;主要是if选择结构和swich选择结构&#xff0c;这次咱们讲一下循环结构&#xff0c;主要是while、do-while、for这三种循环结构 一、while循环结构 语法&#xff1a; 初始值代码; while(循环条件){ 循环操作代码块; 迭代代码; } 执行…

UE4 面试题整理

1、new与malloc的区别 new&#xff1a; new首先会去调用operator new函数&#xff0c;申请足够的内存&#xff08;大多数底层用malloc实现&#xff09;&#xff0c;然后调用类型的构造函数来初始化变量&#xff0c;最后返回自定义类型的指针&#xff0c;delete先调用析构函数&…

“AI复活”背后的数字永生:被期待成为下一个电商,培育市场认知和用户心智还需时间

“AI复活”背后的数字永生&#xff1a;被期待成为下一个电商&#xff0c;培育市场认知和用户心智还需时间© 由 九派新闻 提供 数字永生&#xff0c;还是电子宠物&#xff1f;过去一个月&#xff0c;因包小柏用AI技术让爱女在数字世界“复活”一事&#xff0c;《流浪地球2…

java 基本类型与包装类

8种基本类型与对应的包装类 尽量不要使用构造方法&#xff0c;因为构造方法已经过时了 自动装箱 自动装箱&#xff1a;基本自动转换为包装类 Integer a 3&#xff1b; 虽然所有的类中有类似于parseInt这种方法&#xff0c;但是所有类中都有valueOf方法&#xff0c;推荐使用va…

护眼落地灯到底是不是智商税?六种实用挑选方法帮你排雷避坑!

光线对眼睛的影响是不可忽视的。现代人由于长时间使用电子产品&#xff0c;如电脑、手机等&#xff0c;往往会处于高强度的光线照射下&#xff0c;导致眼睛疲劳、干涩、红肿等问题。而长期处于光线不足的环境中&#xff0c;又容易引发视力下降等眼部问题。因此&#xff0c;保护…

【机器学习入门】使用YOLO模型进行物体检测

系列文章目录 第1章 专家系统 第2章 决策树 第3章 神经元和感知机 识别手写数字——感知机 第4章 线性回归 第5章 逻辑斯蒂回归和分类 第5章 支持向量机 第6章 人工神经网络(一) 第6章 人工神经网络(二) 卷积和池化 第6章 使用pytorch进行手写数字识别 文章目录 系列文章目录前…

静态路由协议实验综合实验

需求&#xff1a; 1、除R5的换回地址已固定外&#xff0c;整个其他所有的网段基于192.168.1.0/24进行合理的IP地址划分。 2、R1-R4每台路由器存在两个环回接口&#xff0c;用于模拟连接PC的网段&#xff1b;地址也在192.168.1.0/24这个网络范围内。 3、R1-R4上不能直接编写到…

Android14应用启动流程(源码+Trace)

1.简介 应用启动过程快的都不需要一秒钟&#xff0c;但这整个过程的执行是比较复杂的&#xff0c;无论是对手机厂商、应用开发来说启动速度也是核心用户体验指标之一&#xff0c;本文采用Android14源码与perfetto工具进行解析。 源码参考地址&#xff1a;Search trace分析工…

Redis的配置文件详解

单位&#xff1a;Redis配置对大小写不敏感&#xff01; 注意这里&#xff1a;任何写法都可&#xff0c;不区分大小写。 units are case insensitive so 1GB 1Gb 1gB are all the same.包含&#xff1a;搭建Redis集群时&#xff0c;可以使用includes包含其他配置文件网络&…

在c# 7.3中不可用,请使用9.0或更高的语言版本

参考连接&#xff1a;在c# 7.3中不可用,请使用8.0或更高的语言版本_功能“可为 null 的引用类型”在 c# 7.3 中不可用。请使用 8.0 或更高的语言版本-CSDN博客https://blog.csdn.net/liangyely/article/details/106163660 [踩坑记录] 某功能在C#7.3中不可用,请使用 8.0 或更高的…

RGB三通道和灰度值的理解

本文都是来自于chatGPT的回答!!! 目录 Q1:像素具有什么属性?Q2:图像的色彩是怎么实现的?Q3:灰度值和颜色值是一个概念吗?Q4:是不是像素具有灰度值&#xff0c;也有三个颜色分量RGB&#xff1f;Q5:灰度图像是没有色彩的吗&#xff1f;Q6: 彩色图像是既具有灰度值也具有RGB三…

【JavaWeb】Day30.SpringBootWeb请求响应——响应

响应 HTTL协议的交互方式&#xff1a;请求响应模式&#xff08;有请求就有响应&#xff09;那么Controller程序&#xff0c;除了接收请求外&#xff0c;还可以进行响应。 1.ResponseBody 在我们前面所编写的controller方法中&#xff0c;都已经设置了响应数据。 controller方…