Transformer模型详解01-Word Embedding

文章目录

  • 前言
  • Transformer 整体结构
  • Transformer 的输入
    • 单词 Embedding
      • 原理
        • CBOW 模型
          • one-hot
          • 构建 CBOW 训练数据集
          • 构建 CBOW 神经网络
          • 训练 CBOW 神经网络
        • Skip-gram 模型
          • one-hot
          • 构建 Skip-gram训练数据集
          • 训练 Skip-gram神经网络
      • Word2Vec实例
        • 数据训练
        • 保存和加载

前言

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。

在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。

Attention is All You Need:Attention Is All You Need

Transformer 整体结构

首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构:
在这里插入图片描述
可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:

第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 相加得到。
在这里插入图片描述
第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。单词向量矩阵用 X n × d X_{n\times d} Xn×d
表示, n 是句子中单词个数,d 是表示向量的维度 (论文中 d=512)。每一个 Encoder block 输出的矩阵维度与输入完全一致。
在这里插入图片描述
第三步:将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。
在这里插入图片描述
上图 Decoder 接收了 Encoder 的编码矩阵 C,然后首先输入一个翻译开始符 “”,预测第一个单词 “I”;然后输入翻译开始符 “” 和单词 “I”,预测单词 “have”,以此类推。这是 Transformer 使用时候的大致流程,接下来是里面各个部分的细节。

Transformer 的输入

Transformer 中单词的输入表示 x由单词 Embedding 和位置 Embedding (Positional Encoding)相加得到。
在这里插入图片描述

单词 Embedding

单词的 Embedding 有很多种方式可以获取,例如可以采用 Word2Vec、Glove 等算法预训练得到,也可以在 Transformer 中训练得到。

原理

什么是Word Embedding(词嵌入)?

  • 词嵌入是自然语言处理中语言模型与表征技术技术的统称。讲人话就是: 就是把词语(字符串类型)这一文本数据转换成 计算机能认识 的数字表征的数据(一般为浮点型数据)。因为我们的机器学习模型或者深度学习模型,需要的数据都是数字类型的,无法处理文本类型的数据,所以我们需要把单词转换成数字类型。
  • 词嵌入为 文本AI系统的上游任务,只有通过词嵌入模型才能得到文本AI系统才能得到数字类型的输入数据。
  • 现有的词嵌入模型有:word2vec,GloVe,ELMo,BERT等

以下使用word2vec的原理来解释下词embedding实现逻辑

word2vec是词向量化技术的一种,通过神经网络来实现。其在表面上看起来是一种无监督学习技术,但本质上仍然是有监督学习。
利用文本的上下文信息构造有监督数据集,通过这一数据集来训练神经网络,最后取得训练好的神经网络两个网络层之间的权重
矩阵作为的词向量表(每个单词对应其中一行数据)。

word2vec 有两个模型:

  • Skip-gram模型:其特点为,根据当前单词预测上下文单词,使用中心词来预测上下文词。
  • CBOW模型:全称为 Continuous Bag-of-Word,连续词袋模型,该模型的特点是,输入已知的上下文,输出对当前单词的预测,其实就是利用中心两侧的词来预测中心的词。

以下两幅图展现了CBOW模型和Skip-gram模型。
在这里插入图片描述

CBOW 模型

如果对以下神经网络连接不太清楚的,可以先去看看:https://blog.csdn.net/liaomin416100569/article/details/130572559?spm=1001.2014.3001.5501

one-hot

参考:rnn中关于one-hot和nn.embedding章节

One-hot编码又称一位有效编码,是将文字数字化的过程。假如我们有一个语料库:”I drink coffee everyday“。我们对其以” “(空格)进行分词,则我们会得到4个单词,假设这4个单词是我们所有的单词种类(也就是说,我们的字典中只有这四个单词),这样我们对其进行one-hot编码后,可以得到如下编码结果: 表1

单词One-hot编码
I[1, 0, 0, 0]
drink[0, 1, 0, 0]
coffee[0, 0, 1, 0]
everyday[0, 0, 0, 1]

这里使用one-hot的原因是列的个数就是单词的格式,最后使用隐藏层的w作为嵌入结果,刚好是(列数,隐藏层神经元个数)

构建 CBOW 训练数据集

cbow是使用两侧的词语,预测中心的词语,预测窗口大小为 2,输入就是左侧和右侧的两个单词,预测的单词就是中心的单词。
在这里插入图片描述

我们语料库仍然为:”I drink coffee everyday“,假设我们的预测窗口大小为 2,通过语料库我们可以构建以下训练集,表2

输入词预测词
[drink, coffee]I
[I, coffee, everyday]drink
[I, drink, everyday]coffee
[drink, coffee]everyday
构建 CBOW 神经网络

从上可知,我们的输入层有4个输入单元(one-hot的4列,因为one-hot所以就是原始单词个数),输出层神经元的个数应该跟输入层保持一致,输出层也是4个神经元,加入我们想要每个单词为一个五维的向量表示,那么我们的隐藏层则为五个神经元。由此,我们可以构建一个输入层为4,隐藏层为5,输出层为4的全连接神经网络,如下图所示,训练好的模型的权重矩阵w1可以作为我们的词向量化表。
在这里插入图片描述

训练 CBOW 神经网络

这时我们可以根据构建的CBOW数据集对模型进行训练了,假设我们要预测的词是coffee,那么由表2可知,我们输入词为[I, drink, everyday],我们可以得到如下训练过程。
在这里插入图片描述
首先,我们将输入词[I, drink, everyday]转换为对应的one-hot编码向量。假设我们的词汇表中有四个词(I, drink, coffee, everyday),则输入词的one-hot编码分别为:

I:                [1, 0, 0, 0]
drink:            [0, 1, 0, 0]
everyday:         [0, 0, 0, 1]

接下来,我们将每个one-hot编码向量乘以词嵌入矩阵,以获取词嵌入向量。假设我们已经有了每个词的词嵌入矩阵(这些矩阵在实际应用中是通过训练得到的),这也是我们经过多次训练之后,最终得到的嵌入矩阵,因为初始化肯定是一个初始值,经过训练反向传播得到一个最佳值,这里假设它们分别为:
W = [ 0.1 0.2 0.3 0.4 0.5 0.2 0.3 0.4 0.5 0.6 0.3 0.4 0.5 0.6 0.7 0.4 0.5 0.6 0.7 0.8 ] W = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 & 0.5 \\ 0.2 & 0.3 & 0.4 & 0.5 & 0.6 \\ 0.3 & 0.4 & 0.5 & 0.6 & 0.7 \\ 0.4 & 0.5 & 0.6 & 0.7 & 0.8 \\ \end{bmatrix} W= 0.10.20.30.40.20.30.40.50.30.40.50.60.40.50.60.70.50.60.70.8
接下来,我们将每个one-hot编码向量乘以词嵌入矩阵,以获取词嵌入向量。例如:

  • 输入词I的词嵌入向量: [ 1 , 0 , 0 , 0 ] × W = [ 0.1 , 0.2 , 0.3 , 0.4 , 0.5 ] [1, 0, 0, 0] \times W = [0.1, 0.2, 0.3, 0.4, 0.5] [1,0,0,0]×W=[0.1,0.2,0.3,0.4,0.5]
  • 输入词drink的词嵌入向量: [ 0 , 1 , 0 , 0 ] × W = [ 0.2 , 0.3 , 0.4 , 0.5 , 0.6 ] [0, 1, 0, 0] \times W = [0.2, 0.3, 0.4, 0.5, 0.6] [0,1,0,0]×W=[0.2,0.3,0.4,0.5,0.6]
  • 输入词everyday的词嵌入向量: [ 0 , 0 , 0 , 1 ] × W = [ 0.4 , 0.5 , 0.6 , 0.7 , 0.8 ] [0, 0, 0, 1] \times W = [0.4, 0.5, 0.6, 0.7, 0.8] [0,0,0,1]×W=[0.4,0.5,0.6,0.7,0.8]

接下来,我们将上下文单词的词嵌入向量加起来或求平均以获取一个特征向量。在这个例子中,我们将对它们求平均。

平均特征向量 = 平均特征向量 = ( 词嵌入向量(I) + 词嵌入向量(drink) + 词嵌入向量(everyday) ) 3 \text{平均特征向量} = \frac{( \text{词嵌入向量(I)} + \text{词嵌入向量(drink)} + \text{词嵌入向量(everyday)} )}{3} 平均特征向量=3(词嵌入向量(I)+词嵌入向量(drink)+词嵌入向量(everyday))
= ( [ 0.1 , 0.2 , 0.3 , 0.4 , 0.5 ] + [ 0.2 , 0.3 , 0.4 , 0.5 , 0.6 ] + [ 0.4 , 0.5 , 0.6 , 0.7 , 0.8 ] ) 3 = \frac{( [0.1, 0.2, 0.3, 0.4, 0.5] + [0.2, 0.3, 0.4, 0.5, 0.6] + [0.4, 0.5, 0.6, 0.7, 0.8] )}{3} =3([0.1,0.2,0.3,0.4,0.5]+[0.2,0.3,0.4,0.5,0.6]+[0.4,0.5,0.6,0.7,0.8])
= [ ( 0.1 + 0.2 + 0.4 ) 3 , ( 0.2 + 0.3 + 0.5 ) 3 , ( 0.3 + 0.4 + 0.6 ) 3 , ( 0.4 + 0.5 + 0.7 ) 3 , ( 0.5 + 0.6 + 0.8 ) 3 ] = \left[ \frac{(0.1 + 0.2 + 0.4)}{3}, \frac{(0.2 + 0.3 + 0.5)}{3}, \frac{(0.3 + 0.4 + 0.6)}{3}, \frac{(0.4 + 0.5 + 0.7)}{3}, \frac{(0.5 + 0.6 + 0.8)}{3} \right] =[3(0.1+0.2+0.4),3(0.2+0.3+0.5),3(0.3+0.4+0.6),3(0.4+0.5+0.7),3(0.5+0.6+0.8)]
= [ 0.233 , 0.333 , 0.433 , 0.533 , 0.633 ] = [0.233, 0.333, 0.433, 0.533, 0.633] =[0.233,0.333,0.433,0.533,0.633]
现在,我们得到了一个特征向量 [ 0.233 , 0.333 , 0.433 , 0.533 , 0.633 ] [0.233, 0.333, 0.433, 0.533, 0.633] [0.233,0.333,0.433,0.533,0.633]它表示了上下文单词[I, drink, everyday]的语义信息。

理解CBOW模型中将上下文单词的词嵌入向量加起来或求平均的原因需要考虑两个方面:
1.上下文信息的整合:CBOW模型的目标是通过上下文单词来预测目标词。因此,对于一个给定的目标词,在预测时需要综合考虑其周围的上下文信息。将上下文单词的词嵌入向量加起来或求平均,可以将这些单词的语义信息整合到一个特征向量中,使得该特征向量更全面地表示了整个句子的语境信息,而不仅仅是单个词的信息。这样可以帮助模型更准确地捕捉句子的语义信息,从而提高模型在目标词预测任务上的性能。
2.语义信息的提取:虽然CBOW模型是用来预测目标词的,但实际上,在训练过程中,模型会学习到每个词的词嵌入向量,这些词嵌入向量包含了每个单词的语义信息。当将上下文单词的词嵌入向量加起来或求平均时,实际上是在利用这些已经学习到的词嵌入向量来提取整个句子的语义信息。由于词嵌入向量是通过大规模语料库训练得到的,其中包含了丰富的语义信息,因此将它们加起来或求平均可以帮助提取句子的语义特征,而不仅仅是单个词的语义特征。

接下来,我们将特征向量输入到一个全连接层(也称为投影层),并应用softmax函数以获取预测概率。假设全连接层的权重矩阵为:
W p r o j = [ 0.1 0.2 0.3 0.4 0.5 0.2 0.3 0.4 0.5 0.6 0.3 0.4 0.5 0.6 0.7 0.4 0.5 0.6 0.7 0.8 0.5 0.6 0.7 0.8 0.9 ] W_{proj} = \begin{bmatrix} 0.1 & 0.2 & 0.3 & 0.4 & 0.5 \\ 0.2 & 0.3 & 0.4 & 0.5 & 0.6 \\ 0.3 & 0.4 & 0.5 & 0.6 & 0.7 \\ 0.4 & 0.5 & 0.6 & 0.7 & 0.8 \\ 0.5 & 0.6 & 0.7 & 0.8 & 0.9 \\ \end{bmatrix} Wproj= 0.10.20.30.40.50.20.30.40.50.60.30.40.50.60.70.40.50.60.70.80.50.60.70.80.9
我们将特征向量乘以权重矩阵,并应用softmax函数,以获取每个词作为预测目标的概率。
z = [ 0.233 , 0.333 , 0.433 , 0.533 , 0.633 ] × W p r o j z = [0.233, 0.333, 0.433, 0.533, 0.633] \times W_{proj} z=[0.233,0.333,0.433,0.533,0.633]×Wproj

经过训练之后,我们拿 W1( 4*5 权重矩阵) 作为我们的词向量化表,我们可以得到**如下词向量化表(假设)。

单词索引向量
I[0.11, 0.22, 0.23, 0.25, 0.31]
drink[0.32, 0.22, 0.33, 0.11, 0.32]
coffee[0.23, 0.03, 0.62, 0.12, 0.17]
everyday[0.05, 0.25, 0.55, 0.17, 0.47 ]

假如我们要词向量化”I drink coffee“这句话,我们便可以直接查询上表,拿到我们的词向量矩阵,即为 [ [ 0.11 , 0.22 , 0.23 , 0.25 , 0.31 ] , [ 0.32 , 0.22 , 0.33 , 0.11 , 0.32 ] , [ 0.23 , 0.03 , 0.62 , 0.12 , 0.17 ] ] [ [0.11, 0.22, 0.23, 0.25, 0.31],\\ [0.32, 0.22, 0.33, 0.11, 0.32], \\ [0.23, 0.03, 0.62, 0.12, 0.17] ] [[0.11,0.22,0.23,0.25,0.31],[0.32,0.22,0.33,0.11,0.32],[0.23,0.03,0.62,0.12,0.17]]

Skip-gram 模型
one-hot

参考:rnn中关于one-hot和nn.embedding章节

One-hot编码又称一位有效编码,是将文字数字化的过程。假如我们有一个语料库:”I drink coffee everyday“。我们对其以” “(空格)进行分词,则我们会得到4个单词,假设这4个单词是我们所有的单词种类(也就是说,我们的字典中只有这四个单词),这样我们对其进行one-hot编码后,可以得到如下编码结果: 表1

单词One-hot编码
I[1, 0, 0, 0]
drink[0, 1, 0, 0]
coffee[0, 0, 1, 0]
everyday[0, 0, 0, 1]

这里使用one-hot的原因是列的个数就是单词的格式,最后使用隐藏层的w作为嵌入结果,刚好是(列数,隐藏层神经元个数)

构建 Skip-gram训练数据集

cbow是使用两侧的词语,预测中心的词语,预测窗口大小为 2,输入就是左侧和右侧的两个单词,预测的单词就是中心的单词。
skip-gram是使用中心的词语,预测两侧的词语,预测窗口大小为 2,输入就是中心词语,预测的单词就是左侧和右侧的两个单词。
在这里插入图片描述

我们语料库仍然为:”I drink coffee everyday“,假设我们的预测窗口大小为 2,通过语料库我们可以构建以下训练集,表2

预测词输入词
Idrink
Icoffee
drinkI
drinkcoffee
drinkeveryday
coffeeI
coffeedrink
coffeeeveryday
everydaydrink
everydaycoffee

注意输入是一个词,输出是一个词

训练 Skip-gram神经网络

这时我们可以根据构建的Skip-gram数据集对模型进行训练了,假设我们要预测的词是coffee,那么由表2可知,我们输入词为[I, drink, everyday]中的任何一个,由表2可知,对其进行one-hot编码后的结果为 [[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 0, 1]], **我们选择其中一个就可以得到一个 1*4 的输入向量,那么我们可以得到如下训练过程。
在这里插入图片描述
经过训练之后,我们拿 W1( 4*5 权重矩阵) 作为我们的词向量化表。
训练过程不表,类似于CBOW 。

Word2Vec实例

数据训练
  1. 导入必要的库:
#安装 pip install gensim jieba  
from gensim.models import Word2Vec
import logging   # 用来设置日志输出
import jieba  
  1. 准备文本数据:
context = ["word2vec是监督学习算法,其会通过句子中词的前后顺序构建有标签数据集,通过数据集 训练神经网络模型 得到这一数据集的 词向量 表(可以理解成我们的新华字典)。","word2vec是用来进行 对词语进行向量化 的模型,也就是对文本类型的数据进行 特征提取","word2vec一般为一个3层(输入层、隐藏层、输出层) 的 全连接神经网络。","本文主要从原理、代码实现 理论结合实战两个角度来剖析word2vec算法","理论部分主要是关于 什么是 word2vec,其两种常见的模型","实战部分主要是通过Gensim库中的word2vec模型,实现文本特征提取"]
  1. 中文分词:
    使用jieba库对文本进行中文分词,并将分词结果保存在context列表中。
for i in range(len(context)):split_s = context[i]context[i] = " ".join(jieba.cut(split_s, HMM=True))
context = [e.split(" ") for e in context]

在这里插入图片描述

  1. 配置日志:

    配置日志输出格式和级别。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
  1. 训练Word2Vec模型:

    使用Word2Vec类来训练模型,传入分词后的文本数据以及一些参数:

    • sentences: 分词后的文本数据。
    • workers: 训练时使用的线程数。
    • window: 上下文窗口大小,表示一个词周围的上下文词数量。
    • vector_size: 词向量的维度大小。
    • epochs: 训练轮数。
    • min_count: 忽略词频低于此值的词语。
model = Word2Vec(sentences=context, workers=8, window=4, vector_size=10, epochs=30, min_count=3)
  1. 查看词汇表和词向量:
print(model.wv.key_to_index)  # 打印词汇表
print(model.wv["word2vec"]) 

model.wv.key_to_index用于查看词汇表,而model.wv["word2vec"]则用于查看特定词的词向量,这里是查询单词word2vec的词向量。
输出结果

{'': 0, '的': 1, 'word2vec': 2, ',': 3, '是': 4, '层': 5, '模型': 6, '数据': 7, '主要': 8, '、': 9, '进行': 10, '集': 11, '通过': 12}
[ 0.07315318  0.05167933  0.06995787  0.00852275  0.0644208  -0.03653978-0.00503093  0.06105096 -0.081814   -0.04047652]

可以使用Gensim提供的save()方法将训练好的Word2Vec模型保存到文件。这样可以在之后加载模型并重用它。以下是保存模型的示例代码:

注意:词汇表里单词都是词频次数超过min_count的词。

保存和加载

保存模型

model.save("word2vec_model.bin")

这将把训练好的模型保存到名为"word2vec_model.bin"的文件中。然后,您可以使用以下代码加载保存的模型:


from gensim.models import Word2Vec
# 加载模型
loaded_model = Word2Vec.load("word2vec_model.bin")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316178.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32使用PWM控制舵机

STM32使用PWM控制舵机 1、舵机的控制原理 舵机是一种位置伺服驱动器,是一种带有输出轴的小装置。当我们向伺服器发送一个控制信号时,输出轴就可以转到特定的位置。只要控制信号持续不变,伺服机构就会保持相对的角度位置不变。如果控制信号发…

虹科Pico汽车示波器 | 免拆诊断案例 | 2006 款林肯领航员车发动机怠速抖动

故障现象 一辆2006款林肯领航员车,搭载5.4 L发动机,累计行驶里程约为26万km。该车因发动机怠速抖动故障进厂维修,维修人员更换了火花塞、点火线圈及凸轮轴位置传感器,清洗了积炭和喷油器,故障依旧,于是向笔…

02_c/c++开源库ZeroMQ

1.安装 C库 libzmq sudo apt install libzmq3-dev 实例: https://zeromq.org/get-started/?languagec&librarylibzmq# 编译依赖: pkg-config --cflags --libs libzmq or cat /usr/lib/x86_64-linux-gnu/pkgconfig/libzmq.pc -isystem /usr/include/mit-krb5 -I/usr/in…

Mybatis-Plus学习:快速入门、核心功能、扩展功能、插件功能

文章目录 MybatisPlus快速入门快速开始常见注解常见配置 核心功能条件构造器(Wrapper)自定义SQLService接口基本用法基础业务接口复杂业务接口Lamda查询Lamda更新批量新增 扩展功能代码生成代码生成器快速开发插件 静态工具逻辑删除枚举处理器JSON处理器…

一例MFC文件夹病毒的分析

概述 这是一个MFC写的文件夹病毒,通过感染USB设备传播,感染后,会向c2(fecure.info:443)请求指令来执行。 样本的基本信息 Verified: Unsigned Link date: 19:52 2007/7/5 MachineType: 32-bit MD5: 4B463901E5858ADA9FED28FC5…

在idea中连接mysql

IDE(集成开发环境)是一种软件应用程序,它为开发者提供编程语言的开发环境,通常集成了编码、编译、调试和运行程序的多种功能。一个好的IDE可以大幅提高开发效率,尤其是在进行大型项目开发时。IDE通常包括以下几个核心组…

AI系列:大语言模型的RAG(检索增强生成)技术(上)

前言 大型语言模型(LLM)虽然在生成文本方面表现出色,但仍然存在一些局限性:数据是静态的,而且缺乏垂直细分领域的知识。为了克服这些限制,有时候会进行进一步的模型训练和微调。在实际应用中,我…

leetcode 221 最大正方形面积

示例 3: 输入:matrix [["0"]] 输出:0 # 最大正方形面积 def max_square(matrix):m len(matrix)n len(matrix[0])if m 0 or n 0::return Nonemax_side 1dp [[0] * (n 1) for _ in range(m 1)]for i in range(1, m 1):fo…

Linux进程——进程的概念(PCB的理解)

前言:在了解完冯诺依曼体系结构和操作系统之后,我们进入了Linux的下一篇章Linux进程,但在学习Linux进程之前,一定要阅读理解上一篇内容,理解“先描述,再组织”才能更好的理解进程的含义。 Linux进程学习基…

Unity 数字字符串逗号千分位

使用InputField时处理输入的数字型字符串千分位自动添加逗号,且自动保留两位有效数字 输入:123 输出:123.00 输入:12345 输出:12,345.00 代码非常简单 using UnityEngine; using TMPro;public class …

Elcomsoft iOS Forensics Toolkit: iPhone/iPad/iPod 设备取证工具包

天津鸿萌科贸发展有限公司是 ElcomSoft 系列取证软件的授权代理商。 Elcomsoft iOS Forensics Toolkit 软件工具包适用于取证工作,对 iPhone、iPad 和 iPod Touch 设备执行完整文件系统和逻辑数据采集。对设备文件系统制作镜像,提取设备机密&#xff08…

Linux网络-文件传输协议之FTP服务(附带命令及截图)

目录 一.FTP简介 二.FTP的数据模式 1.主动模式 2.被动模式 3.两种模式比较 三.安装配置vsftpd 1.安装vsftpd 1.1.安装前关闭防火墙 1.2.安装vsftpd 1.3.查看 1.4.备份 2.配置 3.重启后生效 四.相关实验 1.以win为例 1.1.设置并测试测试连通性 1.2.在终端里创建…

(mac)Prometheus监控之Node_exporter(CPU、内存、磁盘、网络等)

完整步骤 1.启动 Prometheus 普罗米修斯 prometheus --config.file/usr/local/etc/prometheus.yml 浏览器访问 http://localhost:9090/targets 2.启动Node_exporter node_exporter 访问:http://localhost:9100 3.启动grafana brew services start grafana 访问…

Pulsar【部署 02】Pulsar可视化工具Manager安装使用

Pulsar Manager 是一个基于 web 的 GUI 管理和监视工具,可帮助管理员和用户管理和监视租户、命名空间、主题、订阅、代理、集群等,并支持对多个环境进行动态配置。 可视化工具Manager安装使用 1.Docker1.1 拉取镜像并启动1.2 设置用户名密码1.3 登录并添…

基于SpringBoot+Vue高校实习管理系统的设计与实现

项目介绍: 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统高校实习管理系统信息管理难度大&#xf…

阿里开源黑白图片上色算法DDColor的部署与测试并将模型转onnx后用c++推理

阿里开源黑白图片上色算法DDColor的部署与测试并将模型转onnx后用c推理 文章目录 阿里开源黑白图片上色算法DDColor的部署与测试并将模型转onnx后用c推理简介环境部署下载源码安装环境下载模型 测试一下看看效果模型转onnx测试一下生成的onnx模型看看效果C 推理 简介 DDColor是…

Java集合框架-Collection-List-vector(遗留类)

目录 一、vector层次结构图二、概述三、底层数据结构四、常用方法五、和ArrayList的对比 一、vector层次结构图 二、概述 Vector类是单列集合List接口的一个实现类。与ArrayList类似,Vector也实现了一个可以动态修改的数组,两者最本质的区别在于——Vec…

Swish和H-Swish激活函数:提升模型训练效率

文章目录 Swish激活函数H-Swish激活函数实现总结参考 在深度学习领域,激活函数是神经网络中的关键组成部分,它决定了网络的输出和性能。近年来,研究人员提出了许多新的激活函数,其中Swish激活函数因其独特的性能优势而备受关注。这…

gateway全局token过滤器

添加gateway依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency>创建一个tokenFilter 实现全局过滤器GlobalFilter,并且实现fitler方法 Value("${…

基于SpringBoot的合家云社区物业管理平台 - 项目介绍

合家云社区物业管理平台 2.合家云需求&设计 2.1 项目概述 2.1.1 项目介绍 合家云社区物业管理平台是一个全新的 ”智慧物业解决方案“&#xff0c;是一款互联网的专业社区物业管理系统。平台通过社区资产管理、小区管理、访客管理、在线报修、意见投诉等多种功能模块&a…