【深度学习】Transformer的细节到底是怎么样的?Transformer 连环18问!

转载自 | 极市平台

作者丨爱问问题的王宸

来源丨https://www.zhihu.com/question/362131975/answer/3058958207

编辑丨极市平台

为什么想通过十八个问题的方式总结Transformer?

有两点原因:

第一,Transformer是既MLP、RNN、CNN之后的第四大特征提取器,也被称为第四大基础模型;最近爆火的chatGPT,其最底层原理也是Transformer,Transformer的重要性可见一斑。

第二,希望通过问问题这种方式,更好的帮助大家理解Transformer的内容和原理。

1.2017年深度学习领域的重大突破是什么?

Transformer。有两方面的原因:

1.1 一方面,Transformer是深度学习领域既MLP、RNN、CNN之后的第4大特征提取器(也被称为基础模型)。什么是特征提取器?大脑是人与外部世界(图像、文字、语音等)交互的方式;特征提取器是计算机为了模仿大脑,与外部世界(图像、文字、语音等)交互的方式,如图1所示。举例而言:Imagenet数据集中包含1000类图像,人们已经根据自己的经验把这一百万张图像分好1000类,每一类图像(如美洲豹)都有独特的特征。这时,神经网络(如ResNet18)也是想通过这种分类的方式,把每一类图像的特有特征尽可能提取或识别出来。分类不是最终目的,而是一种提取图像特征的手段,掩码补全图像也是一种提取特征的方式,图像块顺序打乱也是一种提取特征的方式。

81a2b5874bff57d8b1287829fa8b4715.jpeg

图1 神经网络为了模仿大脑中的神经元

1.2 另一方面,Transformer在深度学习领域扮演的角色:第3次和第4次热潮的基石,如下图2所示。

82c24a504d17b2243b5bb62d54831342.jpeg

图2 深度学习发展的4个阶段

2. Transformer的提出背景是什么?

2.1 在领域发展背景层面:当时时处2017年,深度学习在计算机视觉领域火了已经几年。从Alexnet、VGG、GoogLenet、ResNet、DenseNet;从图像分类、目标检测再到语义分割;但在自然语言处理领域并没有引起很大反响。

2.2 技术背景层面:(1)当时主流的序列转录任务(如机器翻译)的解决方案如下图3所示,在Sequence to Sequence架构下(Encoder- Decoder的一种),RNN来提取特征,Attention机制将Encoder提取到的特征高效传递给Decoder。(2)这种做法有两个不足之处,一方面是在提取特征时的RNN天生从前向后时序传递的结构决定了其无法并行运算,其次是当序列长度过长时,最前面序列的信息有可能被遗忘掉。因此可以看到,在这个框架下,RNN是相对薄弱急需改进的地方。

5a60504179a05b3c9afd41ab8a581553.jpeg

图3 序列转录任务的主流解决方案

3. Transformer到底是什么?

3.1 Transformer是一种由Encoder和Decoder组成的架构。那么什么是架构呢?最简单的架构就是A+B+C。

3.2 Transformer也可以理解为一个函数,输入是“我爱学习”,输出是“I love study”。

3.3 如果把Transformer的架构进行分拆,如图4所示。

7da1f4a4897d133181194c5f64a653fd.jpeg

图4 Transformer的架构图

4. 什么是Transformer Encoder?

4.1 从功能角度,Transformer Encoder的核心作用是提取特征,也有使用Transformer Decoder来提取特征。例如,一个人学习跳舞,Encoder是看别人是如何跳舞的,Decoder是将学习到的经验和记忆,展现出来

4.2 从结构角度,如图5所示,Transformer Encoder = Embedding + Positional Embedding + N*(子Encoder block1 + 子Encoder block2);

子Encoder block1 = Multi head attention + ADD + Norm;

子Encoder block2 = Feed Forward + ADD + Norm;

4.3 从输入输出角度,N个Transformer Encoder block中的第一个Encoder block的输入为一组向量 X = (Embedding + Positional Embedding),向量维度通常为512*512,其他N个TransformerEncoder block的输入为上一个 Transformer Encoder block的输出,输出向量的维度也为512*512(输入输出大小相同)。

4.4 为什么是512*512?前者是指token的个数,如“我爱学习”是4个token,这里设置为512是为了囊括不同的序列长度,不够时padding。后者是指每一个token生成的向量维度,也就是每一个token使用一个序列长度为512的向量表示。人们常说,Transformer不能超过512,否则硬件很难支撑;其实512是指前者,也就是token的个数,因为每一个token要做self attention操作;但是后者的512不宜过大,否则计算起来也很慢。

图5 Transformer Encoder的架构图

5. 什么是Transformer Decoder?

5.1 从功能角度,相比于Transformer Encoder,Transformer Decoder更擅长做生成式任务,尤其对于自然语言处理问题。

5.2 从结构角度,如图6所示,Transformer Decoder = Embedding + Positional Embedding + N*(子Decoder block1 + 子Decoder block2 + 子Decoder block3)+ Linear + Softmax;

子Decoder block1 = Mask Multi head attention + ADD + Norm;

子Decoder block2 = Multi head attention + ADD + Norm;

子Decoder block3 = Feed Forward + ADD + Norm;

969f0790f49f4deb232a2c391f544593.jpeg

图6 Transformer Decoder的架构图

5.3 从(Embedding+Positional Embedding)(N个Decoder block)(Linear + softmax) 这三个每一个单独作用角度:

Embedding + Positional Embedding :以机器翻译为例,输入“Machine Learning”,输出“机器学习”;这里的Embedding是把“机器学习”也转化成向量的形式。

N个Decoder block:特征处理和传递过程。

Linear + softmax:softmax是预测下一个词出现的概率,如图7所示,前面的Linear层类似于分类网络(ResNet18)最后分类层前接的MLP层。

1371ee38503792981bbb275e46c7e571.jpeg

图7 Transformer Decoder 中softmax的作用

5.4 Transformer Decoder的输入、输出是什么?在Train和Test时是不同的。

在Train阶段,如图8所示。这时是知道label的,decoder的第一个输入是begin字符,输出第一个向量与label中第一个字符使用cross entropy loss。Decoder的第二个输入是第一个向量的label,Decoder的第N个输入对应的输出是End字符,到此结束。这里也可以看到,在Train阶段是可以进行并行训练的。

图8 Transformer Decoder在训练阶段的输入和输出

在Test阶段,下一个时刻的输入时是前一个时刻的输出,如图9所示。因此,Train和Test时候,Decoder的输入会出现Mismatch,在Test时候确实有可能会出现一步错,步步错的情况。有两种解决方案:一种是train时偶尔给一些错误,另一种是Scheduled sampling。

8edd6b87598a417f0b26804ca382b654.jpeg

图9 Transformer Decoder在Test阶段的输入和输出

5.5 Transformer Decoder block内部的输出和输出是什么?

前面提到的是在整体train和test阶段,Decoder的输出和输出,那么Transformer Decoder内部的Transformer Decoder block,如图10所示,的输入输出又是什么呢?

94b239a73479284c2e0fdb801008ac74.jpeg

图10 Transformer Decoder block的架构图

对于N=6中的第1次循环(N=1时):子Decoder block1 的输入是 embedding +Positional Embedding,子Decoder block2 的输入的Q来自子Decoder block1的输出,KV来自Transformer Encoder最后一层的输出。

对于N=6的第2次循环:子Decoder block1的输入是N=1时,子Decoder block3的输出,KV同样来自Transformer Encoder的最后一层的输出。

总的来说,可以看到,无论在Train还是Test时,Transformer Decoder的输入不仅来自(ground truth或者上一个时刻Decoder的输出),还来自Transformer Encoder的最后一层。

训练时:第i个decoder的输入 = encoder输出 + ground truth embedding。

预测时:第i个decoder的输入 = encoder输出 + 第(i-1)个decoder输出.

6. Transformer Encoder和Transformer Decoder有哪些不同?

6.1 作用上,Transformer Encoder常用来提取特征,Transformer Decoder常用于生成式任务。Transformer Encoder和Transformer Decoder是两条不同的技术路线,Bert采用的前者,GPT系列模型采用的是后者。

6.2 结构上,Transformer Decoder block包括了3个子Decoder block,而Transformer Encoder block 包括2个子Encoder block,且Transformer Decoder中使用了Mask multi-head Attention。

6.3 从二者的输入输出角度,N个Transformer Encoder运算完成之后,它的输出才正式输入进Transformer Decoder,作为QKV中的K和V,给Transformer Decoder使用。那么TransformerEncoder最后层的输出是如何送给Decoder呢?如图11所示。

426976ae9bfda29725baf1f58acccc29.jpeg

图11 Transformer Encoder和Transformer Decoder交互的方式

那么,为什么Encoder和Decoder必须要用这种交互的方式呢?其实也并不一定,后续有不同交互方式的提出,如图12。

78504bd42ae917931feb442cfea7b02d.jpeg

图12 Transformer Encoder和Decoder的交互方式

7. 什么是Embedding?

7.1 Embedding在Transformer架构中的位置如图13所示。

7.2 提出背景: 计算机无法直接处理一个单词或者一个汉字,需要把一个token转化成计算机可以识别的向量,这也就是embedding过程。

7.3 实现方式: 最简单的embedding操作就是one hot vector,但one hot vector有一个弊端就是没有考虑词语前后之间的关系,后来也就产生了WordEmbedding,如图13。

86606a0dbca3ffea4e321b21369feecb.jpeg

图13 Embedding的一些说明,从左往右依次为:embedding在Transformer中的位置,one hot vector,Word embedding。

8. 什么是Positional Embedding?

8.1 Positional Embedding在Transformer架构中的位置如图14所示。

8.2 提出背景: RNN作为特征提取器,是自带词的前后顺序信息的;而Attention机制并没有考虑先后顺序信息,但前后顺序信息对语义影响很大,因此需要通过Positional Embedding这种方式把前后位置信息加在输入的Embedding上。

8.3 实现方式: 传统位置编码和神经网络自动训练得到。

图14 Positional Embedding的一些说明,从左往右依次为:positional embedding在Transformer中的位置,传统位置编码的实现方式,传统位置编码ei得到的图像,每一列为一个token的位置编码。

9. 什么是Attention?

9.1 介绍Transformer,为什么要介绍Attention呢?因为在Transformer中最多的multi head attention和Mask multi head attention来自Scaled dot product attention,而scaled dot product attention来自self attention,而self attention是attention的一种,因此首先需要了解Attention,如图15所示。

b34205f67eafb20f4ad9972648e41990.jpeg

图15 Attention与Transformer的关系

9.2 Attention到底是什么意思呢?

对于图像而言,attention就是人们看到图像中的核心关注的区域,是图像中的重点,如图16所示。对于序列而言,Attention机制本质上是为了找到输入中不同token之间的相互关系,通过权重矩阵来自发地找到词与词之间的关系。

37908fcc6e2ebd11c80439b78738977d.jpeg

图16 图像中的attention

9.3 Attention是如何实现的呢?

是通过QKV实现的。

那么什么是QKV呢?Q是query,K是keys,V是values。如图17所示,举例而言,Q是大脑发出的信号,我口渴了;K是环境信息,眼睛看到的世界;V是对环境中不同的物品赋予不同的比重,水的比重加大。

总之,Attention就是通过计算QK的相似度,与V相乘得到注意力数值。

2813ac1f531882f31d45bceb9f1b9d31.jpeg

图17 Attention的实现方式

9.4 为什么必须要有QKV三者?

为什么不是只有Q?因为Q1与Q2之间的关系权重,不止需要a12,也需要a21。你可能会问?我们让a12=a21不行吗?也可以尝试,但从原理上讲效果应该没有a12和a21效果好。

为什么不是只有QK?求得的权重系数需要放到输入中,可以乘Q,也可以乘K,为什么要重新乘V呢?我觉得可能是多了一组可训练参数WV,使网络具有更强的学习能力。

10. 什么是Self attention?

10.1 介绍Transformer,为什么要介绍self Attention呢?因为在Transformer中最多的multi head attention和Mask multi head attention来自Scaled dot product attention,而scaled dot product attention来自self attention,如图15所示。

10.2 什么是self attention呢?self attention和local attention、stride attention都是attention的一种;self attention是每一个Q与每一个K依次计算注意力系数,如图18所示,而像local attention是Q只与相邻的K计算注意力系数,stride attention是Q通过跳连的方式与K计算注意力系数。

图18 从左至右依次为:self attention、local attention、stride attention

10.3 Self attention为什么可以用于处理像机器翻译这种序列数据?

输入序列中的每一个位置的数据,可以关注其他位置的信息,由此通过Attention score来提取特征或者捕获输入序列每一个token之间的关系。

10.4 Self attention是如何具体实现的? 总共分为4步,如图19所示

图19 Self attention的实现过程

11. 什么是Scaled dot product attention?

11.1 self attention最常见的有两种,一种是dot product attention、另一种是additive attention,如图20所示,前者的计算效率更高。

2c87337d3b17859aa379e812ac056c7f.jpeg

图20 dot product attention与additive attention的区别

11.2 什么是Scaled ?

scaled的具体实现方式如图21所示,这一操作的目的是为了防止内积过大,从梯度角度考虑,避免靠近1,易训练;与batch normalization有一些相似的功能。

03d78a07844527da4cad431c6317daa7.jpeg

图21 scaled操作在attention中的位置

12. 什么是Multi head attention?

12.1 Multi head attention在Transformer架构中的位置如图15所示。

12.2 提出背景:CNN具有多个channel,可以提取图像不同维度的特征信息,那么Self attention是否可以有类似操作,可以提取不同距离token的多个维度信息呢?

12.3 什么是group 卷积?如图22所示,将输入的特征多个channel分成几个group单独做卷积,最后再进行con c操作。

8c121b92b53b12a8ee4a45acb5b59507.jpeg

图22 group卷积

12.4 Multi head attention的实现方式?与self attention根本不同是什么?

如图23所示,以2个head的为例,将输入的Q、K、V分成两份,每一小份的Q与对应的K、V分别操作,最后计算得到的向量再进行conc操作,由此可以看出,Multi head attention与group卷积有着相似的实现方式。

3fe523d845798cab1a43188bd187caf7.jpeg

图23 Multi head attention与self attention的区别

12.5 如何从输入输出维度,角度来理解Multi head attention?如图24所示。

a4c6615e8efc3499ddcd9e5772ef0cb9.jpeg

图24 Multi head attention的输入输出维度

13. 什么是Mask Multi head attention?

13.1 Mask Multi head attention在transformer架构中的位置如图15所示。

13.2 为什么要有Mask这种操作?

Transformer预测第T个时刻的输出,不能看到T时刻之后的那些输入,从而保证训练和预测一致。

通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息,如图25所示。

6a26ace5fb0f3ccf41edb66012b8eb0b.jpeg

图25 Mask操作在Transformer中的位置

13.3 Mask操作是如何具体实现的呢?

Q1只跟K1计算,Q2只跟K1、K2计算,而对于K3、K4等,在softmax之前给一个非常大的负数,由此经过softmax之后变为0,其在矩阵上的计算原理实现如图26所示。

4af24b1f1851526a1c7ca8ae6b8c6ef4.jpeg

图26 Mask操作的矩阵计算上的实现方式

14. 什么是ADD?

14.1 Add就是残差连接,由2015年ResNet这篇文章发扬光大(目前引用量已超过16万),与Skip connection的区别在于需要大小维度全部相同。

14.2 作为大道至简想法的极致,几乎每一个深度学习模型都会用到这个技术,可以防止网络退化,常用于解决多层网络难训练的问题。

b548897e176fbdd353d77338d97554bb.jpeg

图27 ADD在Transformer架构中的位置(左)与残差连接原理示意图(右)

15. 什么是Norm?

15.1 Norm就是layer normalization。

15.2 核心作用:为了训练更加稳定,和batch normalization有相同的作用,都是为了使输入的样本均值为零,方差为1。

15.3 为什么不使用batch normalization,使用的是layer normalization呢?因为一个时序数据,句子输入长度有长有短,如果使用batch normalization,则很容易造成因样本长短不一造成“训练不稳定”。BN是对同一个batch内的所有数据的同一个特征数据进行操作;而LN是对同一个样本进行操作。

e722f47514a5f75d25355fa3a6a934c0.jpeg

图28 layer Normalization在Transformer架构中的位置(左)与batch normalization的区别(右)

16. 什么是FFN?

16.1 FFN就是feed forward networks。

16.2 为什么有了Self attention层,还要有FFN?Attention已经有了想要的序列信息特征,MLP的作用是把信息投影到特定的空间里,再做一次非线性映射,和Self attention交替使用。

16.3 结构上:包括两层MLP,第一层的维度为512*2048,第二层的维度为2048*512,且第二层MLP没有使用激活函数,如图29所示。

e91ffa95aa1607215b6df3aba7fe29cb.jpeg

图29 FFN的具体实现过程

17. Transformer是如何训练出来的?

17.1 数据上,在Transformer论文中有提到,用到了4.5M和36M的翻译句子对。

17.2 硬件上,base模型是8个P100 GPU训练了12个小时,大模型是训练了3.5天。

17.3 模型参数和调参层面:

第一,可训练的参数包括WQ、WK、WV、WO,换包括FFN层的参数。

第二,可调的参数包括:每一个token向量表示的维度(d_model)、head的头数、Encoder和Decoder中block重复的次数N、FFN中间层向量的维度、Label smoothing(置信度0.1)和dropout(0.1)。

18. Transformer为什么效果好?

18.1 虽然题目是Attention is all you need,但后续一些研究表明,Attention、残差连接、layer normalization、FFN,这些因素共同成就了Transformer。

18.2 Transformer优点包括:

第一,提出深度学习既MLP、CNN、RNN后的第4大特征提取器。

第二,一开始用在机器翻译,随着GPT和Bert彻底出圈;是一个转折点,在这个点之后,NLP领域快速发展,之后多模态、大模型、视觉Transformer等开始兴起。

第三,给人们信心,原来CNN和RNN之后,还可以有效果更好的特征提取器。

18.3 Transformer的不足之处?

第一,计算量大,对硬件要求高。

第二,因为无归纳偏置,需要很多数据才可以取得很好的效果。

最后,这篇文章的参考资料基于Transformer论文、李宏毅老师的课程、李沐老师的课程、知乎上一些关于Transformer优秀的分享,这里不一一介绍(在学习过程中没有及时记录Reference),如果有侵权,请您告知,我会及时备注或修改。

 

3f4e8b9bc9214126226ed1cf0764ee87.jpeg

 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44263.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再谈:transformer的细节【转载】

原文链接:transformer的细节到底是怎么样的? 作者:爱问问题的王宸 链接:https://www.zhihu.com/question/362131975/answer/3058958207 来源:知乎 这篇文章的题目为《Transformer 18问》,18个问题见目录 为什么想…

史上最详细Transformer讲解以及transformer实现中文版完形填空(掩蔽字训练MASK) 内容详细易懂且附有全部代码

基于transformer实现中文版完形填空(掩蔽字训练MASK) 1 transformer 模型概述1.1 起源与发展1.2 Transformer的特点和创新点:1.3 Transformer一些前置知识 2.a Transformer-Encoder 结构 (模型左半部分)2.1 输入部分 E…

VSCode无密码连接远程服务器,并能debug python代码

1.官网下载VScode 官网 2.打开VScode,在扩展中搜索下载远程连接插件Remote-SSH 下载完毕会在侧边栏产生“远程资源管理器”图标①,打开远程资源管理器,点击右上角设置进入配置界面,并按照②添加远程服务器账号,输入…

我的周刊(第082期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 bilingual_book_maker bilingual_book_maker 是一…

我的周刊(第081期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 chatgpt-web[1] 用 Express 和 Vue3 搭建的 ChatG…

工具篇-VsCode

一、vscode安装,开源,免费,官网下载直接安装下一步下一步 Visual Studio Code(VScode )官网 :https://code.visualstudio.com/ 二、中文插件安装,本人不懂英文只能靠插件活着 打开VSCode软件…

chatgpt赋能python:Python数据对比校验:保障数据准确性的必要步骤

Python数据对比校验:保障数据准确性的必要步骤 在数据处理过程中,数据对比校验是保障数据准确性的必要步骤之一。Python作为一种高效且易用的编程语言,有着强大的数据处理能力,同时有着许多优秀的数据对比校验库。在本文中&#…

层层剥开Transformer;Windows Copilot初版非常简陋

🦉 AI新闻 🚀 微软Win11引入Windows Copilot功能,但初版非常简陋 摘要:微软在Win11 Build 23493预览版更新中引入了Windows Copilot功能,该功能在任务栏上新增了一个图标按钮。点击按钮后,屏幕右侧会跳出…

考公 | 粉笔网课笔记——申论 吴越

20210611 单一题比较简单,需要拿到80%的分数。“表现”不是一个要素。 20210612 宁滥勿缺:不确定的在后面写上 材料要分类的话,这个材料会自带逻辑的 除非是公文,否则不用空两格和分段。踩点给分 标点单独一格 正面教材&#xff…

公考之申论话题分析——基于词云和主题聚类

随着疫情这么一闹,本就热门的公考定然比以往更大势。诶,我写数据分析提这个干啥?两者还能有什么关系不成。嘿,还真有。 之前写过一篇关于2020年国考的岗位分析文章,重点在于多条件筛选和岗位分布分析,复习可…

概念类话题作文及政论文23113框架

作者:端木赐 链接:https://www.zhihu.com/question/56957544/answer/151420196 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 二、概念类话题作文及政论文23113框架 概念类话题就是材料或题干…

Google Voice利器,免费拨打任意电话号码(国际、国内)

日志 复制网址隐藏签名档小字体 较新一篇 较老一篇 返回日志列表 Google Voice利器,免费拨打任意电话号码(国际、国内) 编辑 | 删除 | 权限设置 | 更多▼ もののけ姬 发表于2009年10月02日 20:54 阅读(0) 评论( 0) 分类: …

(转)Google Voice呼转到中国电话的五种方法

在cnbeta中看到这文章,感觉这个方法不错,只是不知道好不好用,没试过,等这几天忙完了再试一下。原文地址是: http://quanda.info/6.html Google Voice的最亮点是 美国本地的电话号码无限美国本地通话全球免费短信&#…

如何屏蔽某网站

博主用电脑的时候用一会儿总是控制不住就刷起了知乎, 然后在蹉跎中度过了美好的时光. 于是决定屏蔽知乎等让我分心的网站, 希望能够专注于眼前的事. 此方法治标不治本, 因为能屏蔽也能让它恢复, 因此想要真正不分心还得提高自制力. 我的思路是修改host文件. 在我的电脑上目录…

聊聊网站域名或app的下载域名被墙(被封锁、被屏蔽、被和谐)后最好的解决方法

现在的商家越来越在意域名防封的原因在于微信对第三方推广链接管制的太严格了,导致很多商家叫苦连天。经常遇到上午分享推广出去的域名,到了下午就提示域名被封了。迫于无奈只能去换域名,然后再把新生成的推广链接分发下去,让下面的代理商重新去记录去推广。这一来一回损失…

微信内无法分享转发网址链接,谈谈微信网址防屏蔽的办法

最近经常有朋友问我,为什么别人的推广链接在微信内分享转发一点事都没,我的就很容易被屏蔽拦截呢?我就告诉他,只要是想使用微信来推广产品或者从事活动营销的,就一定会遇到域名被微信拦截甚至封杀的情况。域名没被封过…

【pygame游戏】用Python实现一个蔡徐坤大战篮球的小游戏,可还行?【附源码】

Python制作坤坤打篮球小游戏 序言准备工作开发环境 效果预览开始界面游戏规则结束游戏 代码实现 序言 话说在前面,我不是小黑子~ 我是超级大黑子😏 表弟大周末的跑来我家,没事干天天骚扰我,搞得我都不能跟小姐姐好好聊天了&…

Java代理模式之蔡徐坤老师加深你的理解

代理模式 原始定义:Proxy pattern provides a surrogate or placeholder for another object in order to controll access to it 宁看懂了吗? 翻译:代理模式就是给某一个对象(被代理对象proxyee)提供一个“替身”或者…

使用python制作字符视频(蔡徐坤唱跳rap字符视频)

我生成了一个蔡徐坤 唱、跳、RAP的字符视频,链接为: 蔡徐坤唱跳RAP字符视频 使用python将一个视频转换为字符视频 详细视频教程,总共8分钟。 用python制作字符视频详细教程(视频版) 文字教程见下文: …

VsCode Rainbow fart 蔡徐坤语音包使用教程(超详细)

操作流程 前言一、效果展示:二、具体流程:1.安装插件2.下载kun包方法一方法二 3.导入kun包4.使用说明 三、制作教程:总结 前言 全民制作人们大家好!我是练习时长两年半的个人程序猿 最近看到Rainbow fart这个插件(就是一个在你敲…