大模型学习笔记 - LLM模型架构

LLM 模型架构

  • LLM 模型架构
    • 1. LLM 核心模型 Transformer
    • 2. 详细配置
      • 2.1 归一化方法
      • 2.2 归一化模块位置
      • 2.3 激活函数
      • 2.4 位置编码
        • 2.4.1 绝对位置编码
        • 2.4.2 相对位置编码
        • 2.4.3 旋转位置编码 RoPE
        • 2.4.4 ALiBi位置编码
      • 2.5 注意力机制
        • 2.5.1 完整自注意力机制
        • 2.5.2 稀疏注意力机制
        • 2.5.3 多查询/分组注意力机制
        • 2.5.4 硬件优化的注意力机制
      • 2.6 混合专家模型
      • 2.7 LLaMA实现和模型配置建议
    • 3. 主流架构
    • 4. 长上下文模型
      • 4.1 扩展位置编码
      • 4.2 调整上下文窗口
      • 4.3 长文本数据
    • 5. 新型模型架构

1. LLM 核心模型 Transformer

这是《大语言模型》这本书的学习笔记。详细内容可以参考书籍。

目前主流的大模型都是基于Transformer模型进行设计的。Transformer是由多层的多头注意力模块(Multi-Head Self-Attention) 堆叠而成的神经网络模型。
原始的Transformer是由Encoder 和Decoder两部分构成,而这两部分是可以独立使用的(如BERT 单独使用Encoder, GPT单独使用Decoder).
大语言模型与早期的预训练语言模型相比,主要是使用了更长的向量维度、更深的层数、更大的数据集、进而包含了更大规模的模型参数。LLM主要使用Decoder 架构,对Transformer本身结构和配置改变不大。

关于Transformer的详细介绍可以参考我之前的学习笔记:Attention

  1. 输入端:x = v + p (词向量 + 位置编码)

    1. 输入词元序列 首先经过一个Embedding Module转成词向量。
    2. 位置编码 (由于Transformer无法识别序列顺序所以 通过位置编码来表示序列中的位置)
      1. 位置编码也有绝对位置编码,相对位置编码。这个后续讨论。
  2. 多头注意力机制(MHA)

    1. 多头注意力机制是Transfomer的核心技术,能够直接建模任意距离的词元之间的相互关系。之前RNN迭代利用前一个时刻状态更新当前时刻状态,在处理长文本时会出现梯度爆炸或消失的问题。在卷积神经网络中只有同一个卷积核的窗口中的词元可以直接交互,通过堆叠层数来实现远距离词元信息交互。
    2. 多头注意力机制 = 多个自注意力模型组成。
      1. 每个模块将输入词元映射成Query,Key,Value 三个矩阵。然后对于每个query,与所有没有被mask的key计算点积,点积值除以 D \sqrt{D} D (D是key的向量维度),然后传入softmax中计算权重。权重与Value加权和得到最终输出。
      2. A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T D ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{D}})V Attention(Q,K,V)=softmax(D QKT)V 其中 Q = X W Q Q=XW^Q Q=XWQ, K = X W K K=XW^K K=XWK, V = X W V V=XW^V V=XWV
      3. 多头注意力机制 使用了 H 组 结构相同但是参数不同的自注意模块。输入序列通过不同的权重映射为K Q V,每组KQV经过上面计算映射成一个Head得到自注意力输出,不同 Head 被拼接在一起,通过一个权重矩阵 W O W^O WO(H*H)进行映射,产生最终的输出。 M H A = C o n c a t ( h e a d 1 , . . h e a d N ) W O MHA=Concat(head_1,..head_N)W^O MHA=Concat(head1,..headN)WO 其中 h e a d n = A t t e n t i o n ( X W n Q , X W n K , X W n V ) head_n = Attention(XW^Q_n,XW^K_n,XW^V_n) headn=Attention(XWnQ,XWnK,XWnV).
      4. 自注意力机制能够直接建模序列中任意两个位置的关系,进而有效捕捉长程依赖关系,具有更强的序列建模能力。另一个优势是计算可以并行化,因此可以支持大规模参数的高效优化。
  3. 前馈网络层(FFN)

    1. FeedForwardNetwork.对每个位置的隐状态进行非线性变化和特征提取。 F F N ( x ) = σ ( X W U + b 1 ) W D + b 2 FFN(x) = \sigma(XW^U+b_1)W^D+b_2 FFN(x)=σ(XWU+b1)WD+b2
      在这里插入图片描述
  4. 编码器 (Encoder = LayerNorm+MHA+FFN)

    1. 编码器=多个相同的层堆叠而成(每层包含MulitHeadAttention和FFN)
    2. 在MHA和FFN之后,使用LayerNormalization 和 Residual Connection (残差连接)来加强模型的训练稳定性。
      1. 残差连接将输入层与输出层相加,实现了信息在不同层的传递,缓解梯度爆炸和消失的问题。
      2. LayerNorm则对数据进行重新缩放,提升模型的训练稳定性。
    3. 编码器端,输入数据是完全可见的,自注意力模块采用的是双向注意力,每个词元表示能够有效融合上下问的语义关系。
    4. X l ′ = L a y e r N o r m ( M H A ( X l − 1 + X l − 1 X'_l = LayerNorm(MHA(X_{l-1}+X_{l-1} Xl=LayerNorm(MHA(Xl1+Xl1
    5. X l = L a y e r N o r m ( F F N ( X l ′ + X l ′ ) X_l = LayerNorm(FFN(X'_l+X'_l) Xl=LayerNorm(FFN(Xl+Xl)
  5. 解码器(Decoder)

    1. Decoder基于Encoder的最后一层输出表示以及模型生成的词元序列,执行后续的生成任务。
    2. Decoder与Encoder的不同是 Decoder需要引入掩码自注意力模块(Masked Self-attention) 用来计算注意力分数时掩盖当前位置之后的词,以保证生成目标序列时不依赖未来的信息。
    3. 经过Decoder后,模型通过一个全连接层将输出映射到大小为V的目标词汇表的概率分布,并基于某种解码策略生成对应的词元。

2. 详细配置

2.1 归一化方法

大语言模型的预训练过程中经常会出现不稳定的问题。为了应对这一问题,深度学习方法通常会采用特定的归一化策略来加强神经网络训练过程的稳定性。原始的Transformer 模型主要使用了层归一化方法(Layer Normalization, LN)。随着研究工作的不断深入,基于层归一化的改进技术不断涌现,例如均方根层归一化(Root Mean Square Layer Normalization, RMSNorm) 和DeepNorm ,这些新技术已经在一些大语言模型中得到应用。

  • LayerNorm: 在早期的研究中,批次归一化(Batch Normalization, BN)是一种广泛采用的归一化方法。然而,该方法难以处理可变长度的序列数据和小批次数据。因此,相关研究提出了层归一化这一技术,针对数据进行逐层归一化.层归一化会计算每一层中所有激活值的均值𝝁 和方差𝝈,从而重新调整激活值的中心和缩放比例:在这里插入图片描述

  • RMSNorm:为了提高层归一化的训练速度,RMSNorm 仅利用激活值总和的均方根RMS(𝒙) 对激活值进行重新缩放。使用RMSNorm 的Transformer 模型相比于之前LayerNorm 训练的模型在训练速度和性能上均具有一定优势。采用RMSNorm 的代表性模型包括Gopher 和Chinchilla.在这里插入图片描述

  • DeepNorm: 由微软的研究人员提出,旨在稳定深层Transformer的训练。具体而言,DeepNorm 在LayerNorm 的基础上,在残差连接中对之前的激活值𝒙 按照一定比例𝛼 进行放缩。通过这一简单的操作,Transformer 的层数可以被成功地扩展至1,000 层,进而有效提升了模型性能与训练稳定性。DeepNorm(𝒙) = LayerNorm(𝛼 · 𝒙 + Sublayer(𝒙)),其中,Sublayer 表示Transformer 层中的前馈神经网络或自注意力模块,。GLM-130B采用了DeepNorm 作为归一化技术.

2.2 归一化模块位置

为了加强大语言模型训练过程的稳定性,除了归一化方法外,归一化模块的位置也具有重要的影响.,归一化模块的位置通常有三种选择,分别是层后归一化(Post-Layer Normalization, Post-Norm)、层前归一化(Pre-LayerNormalization, Pre-Norm)和夹心归一化(Sandwich-Layer Normalization, Sandwich-Norm)。

  • Post-LayerNorm: Post-Norm 是在原始Transformer 模型中所使用的一种归一化技
    术。其中,归一化模块被放置于残差计算之后。Post-Norm(𝒙) = Norm(𝒙 + Sublayer(𝒙)),。在原理上,后向归一化具有很多优势。首先,有助于加快神经网络的训练收敛速度,使模型可以更有效地传播梯度,从而减少训练时间。其次,后向归一化可以降低神经网络对于超参数(如学习率、初始化参数等)的敏感性,使得网络更容易调优,并减少了超参数调整的难度。然而,由于在输出层附近存在梯度较大的问题,采用Post-Norm 的Transformer 模型在训练过程中通常会出现不稳定的现象。因此,现有的大语言模型中,Post-Norm很少被单独使用,通常是与其他策略相结合应用。例如,GLM-130B 将Post-Norm与DeepNorm 结合使用.
  • Pre-Norm: 与Post-Norm 不同,Pre-Norm 将归一化模块应用在每个子层之前.Pre-Norm(𝒙) = 𝒙 + Sublayer(Norm(𝒙)),Pre-Norm 在最后一个Transformer层后还额外添加了一个LayerNorm。相较于Post-Norm,Pre-Norm 直接把每个子层加在了归一化模块之后,仅仅对输入的表示进行了归一化,从而可以防止模型的梯度爆炸或者梯度消失现象。虽然使用了Pre-Norm 的Transformer 模型在训练过程中更加稳定,但是性能却逊色于采用了Post-Norm 的模型.尽管对于性能有一定的影响,但由于其能够有效维持训练的稳定性,很多主流的大语言模型仍然采用Pre-Norm
  • Sandwich-Norm. 在Pre-Norm 的基础上在残差连接之前增加了额外的LayerNorm,旨在避免Transformer 层的输出出现数值爆炸的情况。Sandwich-Norm(𝒙) = 𝒙 + Norm(Sublayer(Norm(𝒙))).但是研究人员发现,Sandwich-Norm 有时仍然无法保证大语言模型的稳定训练,甚至会引发训练崩溃的问题.

问题:为什么pre-norm不如post-norm性能好?
请参考:https://spaces.ac.cn/archives/9009
Pre Norm的深度有“水分”!也就是说,一个L层的Pre Norm模型,其实际等效层数不如L层的Post Norm模型,而层数少了导致效果变差了。
在这里插入图片描述
为什么每Norm一次就削弱一次恒等分支的权重?

在这里插入图片描述在这里插入图片描述

2.3 激活函数

激活函数主要是为神经网络引入非线性变化,从而提升神经网络的模型能力。
原始的Transformer 中采用了ReLU(Rectified Linear Unit)激活函数。该激活函数计算较为简单,仅仅是将对输入中每个神经元和“零值”进行比较,并将小于零的神经元的值设置为0。然而,ReLU 可能会产生神经元失效的问题,被置为0 的神经元将学习不到有用的信息。ReLU=max(x,0)
针对ReLU的不足,研究人员探索了ReLU的变种。Swish 激活函数将神经元和该神经元的sigmoid 激活的乘积作为新的激活函数。而GELU(Gaussian Error Linear Unit) 则利用标准高斯累积分布函数作为激活函数,被很多的Transformer 模型所采用。相比于原始的ReLU 函数,这些新的激活函数通常能够带来更好的性能并且收敛性更好,但是计算过程更为复杂。
S w i s h ( x ) = x ∗ s i g m o i d ( x ) , G E L U ( x ) = 0.5 x ∗ [ 1 + e r f ( x 2 ) ] , e r f ( x ) = 2 π ∑ 1 x e − t 2 Swish(x)=x*sigmoid(x), GELU(x)=0.5x *[1+erf(x\sqrt{2})],erf(x)=\frac{2}{\sqrt{\pi}}\sum_1^x e^{-t^2} Swish(x)=xsigmoid(x),GELU(x)=0.5x[1+erf(x2 )],erf(x)=π 21xet2
近来,大语言模型(例如PaLM 和LaMDA)也经常采用GLU(Gated LinearUnit)激活函数以及它的变种,特别是SwiGLU 和GeGLU。不同于其他激活函数,GLU 激活函数引入了两个不同的线性层。其中一个线性层的输出将被输入到一个激活函数(例如,GeGLU 采用GELU 激活函数)中,其结果将和另一个线性层的输出进行逐元素相乘作为最终的输出。相比于其他的激活函数,使用GLU激活函数变体通常能够带来更佳的性能表现.
在这里插入图片描述

2.4 位置编码

由于Transformer 模型中自注意力模块具有置换不变性,因此仅使用注意力机制无法捕捉序列中的顺序关系,从而退化为“词袋模型”。为了解决这一问题,需要引入位置编码(Position Embedding, PE)对于序列信息进行精确建模,从而将绝对或相对位置信息整合到模型中。

关于位置编码 苏神的介绍更详细:https://kexue.fm/archives/8130

2.4.1 绝对位置编码

在原始Transformer中,采样了绝对位置编码。根据输入词元在序列中的绝对位置生成唯一的位置嵌入,并与词元的嵌入表示进行相加来注入位置信息 x t = v t + p t x_t = v_t + p_t xt=vt+pt。原始Transfomer采用了正余弦位置编码。
在这里插入图片描述

2.4.2 相对位置编码

相对位置编码是根据Key和query之间的偏移量计算得来的。计算得到的相对位置编码通常应用于注意力矩阵的计算中,而不是直接与词元本身的位置编码进行相加相对位置编码的Transformer可以对更长序列的进行建模,具备一定的外推能力。

  1. Transformer-XL提出了一种相对位置编码,基于绝对位置编码分解得到的。
  2. T5提出了一种较为简化的相对位置编码。在注意力分数中引入了可学习的标量,这些标量是基于查询和键的位置之间的距离计算的。
    A i j = x i W Q W K T x j T + r i − j A_{ij} = x_i W^Q W^{K^T} x_j^T + r_{i-j} Aij=xiWQWKTxjT+rij 其中 r i − j r_{i-j} rij表示基于query 和 key之间偏移的可学习标量。
2.4.3 旋转位置编码 RoPE

RoPE的出发点就是“通过绝对位置编码的方式实现相对位置编码”,通过公式推导得到 "向量旋转"的位置编码。 原作者的解读 https://kexue.fm/archives/8265

2.4.4 ALiBi位置编码

ALiBi 通过在键和查询之间的距离上施加相对距离相关的惩罚来调整注意力分数。
A i j = x i W Q W K T x j T − m ( i − j ) A_{ij} = x_i W^Q W^{K^T} x_j^T - m(i-j) Aij=xiWQWKTxjTm(ij)
i-j是query 和key之间的位置偏移量,m是每个注意力头独有的惩罚系数。ALiBi的惩罚分数是预先设定的,不需要引入任何可训练得参数。

2.5 注意力机制

注意力机制是Transformer 架构中的核心技术,它能够针对序列中的词元对构建交互关系,聚合来自于不同位置的语义信息。

2.5.1 完整自注意力机制

考虑序列中所有词元之间的相互关心。因此对于序列长度为T的序列需要O(T^2)的计算复杂度。

2.5.2 稀疏注意力机制

完整自注意力机制在处理长序列时O(T^2)的时间复杂度带来计算和存储开销较大。
为了降低注意力机制的计算复杂度,研究人员提出了多种高效的注意力变种。其中,滑动窗口注意力机制(Sliding Window Attention, SWA)是大语言模型中使用最多的一种稀疏注意力机制。不同于完整的注意力机制,滑动窗口注意力根据词元位置,仅仅将位置索引上距离该词元一定范围内的词元考虑到注意力的计算中。具体来说,滑动窗口注意力设置了一个大小为𝑤 的窗口,对每个词元𝑢𝑡,只对窗口内的词元[𝑢𝑡−𝑤+1, . . . , 𝑢𝑡 ] 进行注意力计算,从而将复杂度降低到𝑂(𝑤𝑇)。进一步,通过信息的逐层传递,模型实现了随着层数线性增长的感受野,从而获取远处词元的信息。

2.5.3 多查询/分组注意力机制

为了提升注意力机制的效率,多查询注意力(Multi-Query Attention, MQA)提出针对不同的头共享相同的键和值变换矩阵。这种方法减少了访存量,提高了计算强度,从而实现了更快的解码速度并且对于模型性能产生的影响也比较小。
分组查询注意力机制(Grouped-Query Attention, GQA)结合多查询注意力机制的效率与多头注意力机制的性能。GQA 将全部的头划分为若干组,并且针对同一组内的头共享相同的变换矩阵。这种注意力机制有效地平衡了效率和性能,被LLaMA-2 模型所使用。

2.5.4 硬件优化的注意力机制

利用硬件设施来优化注意力模块的速度和内存消耗,FlashAttention 通过矩阵分块计算以及减少内存读写次数的方式,提高注意力分数的计算效率;PagedAttention 则针对增量解码阶段,对于KV 缓存进行分块存储,并优化了计算方式,增大了并行计算度,从而提高了计算效率。

2.6 混合专家模型

来自于《Mixtral of Experts》,Mixtral 8x7B 是一种稀疏的混合专家(稀疏 MoE)模型,目前是性能最佳的大型语言模型(LLM)之一,同时也是最受人关注的一种公开可用的 LLM。具体解读可参考: Mixtral of Experts 机器之心解读

Mixtral 8x7B 的关键思想是用 8 个专家层替换 Transformer 架构中的每个前馈模块,8x 是指使用了 8 个专家子网络。7B 是指其组合了 Mistral 7B 模块。Mixtral 8x7B 总共有 47B 参数,明显少于 Llama 270B 等模型。此外,由于每个时间步骤仅有 2 个专家处于活动状态,因此对于每个输入 token,该模型仅使用 13B 参数。如此一来,它的效率就比常规的非 MoE 47B 参数模型高多了。
在这里插入图片描述

在这里插入图片描述

在MoE 中,每个混合专家层包含K个专家组件,每个组件Ei都是一个前馈神经网络,对于输入的每个词元xt,模型通过一个路由网络(门控函数)G来计算该词元对应于各个专家的权重。在路由函数中,首先通过线性层 W G W^G WG映射为K各专家的得分,并基于此选择出概率最该的k个专家进行激活。随后这k个专家的得分被送入softmax函数计算他们的权重 G ( x t ) = [ G ( x t ) 1 , . . G ( x t ) k ] G(x_t)=[G(x_t)_1,..G(x_t)_k] G(xt)=[G(xt)1,..G(xt)k] 没有被选则的专家权重置为0. G ( x t ) = s o f t m a x ( t o p k ( x t ∗ W G ) ) G(x_t)=softmax(topk(x_t * W^G)) G(xt)=softmax(topk(xtWG)),
之后,每个被选择的词元的输出的加权和将作为该混合专家网络层的最终输出𝒐𝑡: o t = M o E l a y e r ( x t ) = ∑ i = 1 K G ( x t ) i ∗ E i ( x i ) o_t = MoElayer(x_t) = \sum_{i=1}^K G(x_t)_i * E_i(x_i) ot=MoElayer(xt)=i=1KG(xt)iEi(xi)

2.7 LLaMA实现和模型配置建议

关于模型详细配置的推荐建议:

  1. 为了增强稳定性:建议采用前置RMSNorm作为层归一化。
  2. 为了更好地模型性能,激活函数可以考虑SwiGLU或GeGLU
  3. 位置编码可以选择RoPE或ALiBi 这两种在建模长序列数据具有较好的性能。

对于一个LLaMA 模型,其首先将输入的词元序列通过词嵌入矩阵转化为词向量序列。之后,词向量序列作为隐状态因此通过𝐿 个解码器层,并在最后使用RMSNorm 进行归一化。归一化后的最后一层隐状态将作为输出。

3. 主流架构

在预训练时代,主要范式是 预训练+微调。Bert为代表的Encoder-only架构,以GPT为代表的Decoder-Only架构,以T5为代表的Encoder-Decoder架构。

随着GPT的发展,目前LLM生成式大语言模型上,主要以Decoder-only为主流的架构。Decoder架构还可以细分为两种变种:因果解码器(Causal Decoder)和前缀解码器(Prefix Decoder).一般提到解码器通常是因果解码器架构。
在这里插入图片描述

4. 长上下文模型

目前,增强大语言模型长文本建模能力的研究主要集中在两个方向:一个是扩展位置编码,一个调整上下文窗口。

4.1 扩展位置编码

目前比较主流的位置编码方法RoPE 在未经特殊修改的情况下并不具备良好的外推能力。具体来说,在处理更长的文本时,RoPE 在每个子空间上需要处理更大的旋转角度,而这些旋转角度可能会超过其训练中的角度分布范围。因此,很多研究工作在RoPE 的基础上进行了重要改进,旨在提升其在不经过训练或继续训练的情况下对于长文本的建模能力.

4.2 调整上下文窗口

4.3 长文本数据

5. 新型模型架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/382685.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机技术基础 (bat 批处理)Note4

计算机技术基础 (bat 批处理)Note4 本节主要讲解一些 bat 批处理文件中的一些特殊符号,包括 , %, > 和 >>, |, ^, & 和 && 和 ||, " ", ,, ;, ()。 回显屏蔽符 回显屏蔽符 : 这个字符在批处理中的意思是关…

数据结构中的八大金刚--------八大排序算法

目录 引言 一:InsertSort(直接插入排序) 二:ShellSort(希尔排序) 三:BubbleSort(冒泡排序) 四: HeapSort(堆排序) 五:SelectSort(直接选择排序) 六:QuickSort(快速排序) 1.Hoare版本 2.前后指针版本 …

【Hot100】LeetCode—416. 分割等和子集

目录 题目1- 思路2- 实现⭐152. 乘积最大子数组——题解思路 3- ACM 实现 题目 原题连接:416. 分割等和子集 1- 思路 理解为背包问题 思路: 能否将均分的子集理解为一个背包,比如对于 [1,5,11,5],判断能否凑齐背包为 11 的容量…

Linux云计算 |【第二阶段】AUTOMATION-DAY2

主要内容: 部署GitLab、配置管理GitLab、CI/CD概述、Jenkins概述、部署Jenkins(初始化、拷贝插件) 一、GitLab概述 GitLab 是一个基于 Web 的 Git 仓库管理工具,它提供了一个集成的开发环境和代码管理平台。GitLab 不仅支持 Git…

便携式自动气象站:科技赋能气象观测

便携式自动气象站,顾名思义,就是一款集成了多种气象传感器,能够自动进行气象观测和数据记录的设备。它体积小巧、重量轻,便于携带和快速部署,可以在各种环境下进行气象数据的实时监测。同时,通过内置的无线…

keil单步调试需要点击多次

问题描述:在进行调试的时候,点击单步调试,总是需要点击好几次才可以运行到下一条语句。 我点击单步调试的时候,会在红色框内进行单步运行,也就是在汇编代码内单步执行。 解决办法: 关闭汇编窗口 就是这个小…

案例研究|柯尼卡美能达软件开发(大连)有限公司基于DataEase构筑内部数据可视化体系

柯尼卡美能达软件开发(大连)有限公司于2007年5月25日注册成立。公司以“洞悉在工作的人们真实情况,探寻他们的愿望,持续提供使人们更加幸福的服务”为使命,致力于系统品质测试服务、软件开发服务、IT安全服务、高级BPO…

SpringBoot缓存注解使用

背景 除了 RedisTemplate 外, 自Spring3.1开始,Spring自带了对缓存的支持。我们可以直接使用Spring缓存技术将某些数据放入本机的缓存中;Spring缓存技术也可以搭配其他缓存中间件(如Redis等)进行使用,将某些数据写入到缓存中间件…

Golang | Leetcode Golang题解之第264题丑数II

题目&#xff1a; 题解&#xff1a; func nthUglyNumber(n int) int {dp : make([]int, n1)dp[1] 1p2, p3, p5 : 1, 1, 1for i : 2; i < n; i {x2, x3, x5 : dp[p2]*2, dp[p3]*3, dp[p5]*5dp[i] min(min(x2, x3), x5)if dp[i] x2 {p2}if dp[i] x3 {p3}if dp[i] x5 {p5…

Xcode学习笔记

Xcode学习笔记 前言一、在Mac上安装Xcode并做点简单设置1.查看一下Xcode的版本 二、使用Xcode新建一个Playground三、swift基础-变量1.swift是什么2.变量是什么3.建立变量4.改变变量5.小帖士 四、swift基础-变量命名规范1.使用小驼峰命名法2.使用有意义且描述性的名称3.避免使用…

《云原生安全攻防》-- 容器攻击案例:镜像投毒与Fork炸弹

在本节课程中&#xff0c;我们将介绍两个比较有意思的容器攻击案例&#xff0c;镜像投毒与Fork炸弹。 在这个课程中&#xff0c;我们将学习以下内容&#xff1a; 镜像投毒&#xff1a;构建恶意镜像&#xff0c;诱导用户拉取镜像创建容器。 Fork炸弹&#xff1a;Fork炸弹的攻击…

Mysql基础速过

一、数据库相关概念 1.1 相关概念 名称全称简称数据库存储数据的仓库、数据是有组织的进行存储DataBase(DB)数据库管理系统操作和管理数据库的大型软件DataBase Management System(DBMS)SQL操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据库统一标准Structu…

【iOS】Tagged Pointer

目录 前言什么是Tagged Pointer&#xff1f;引入Tagged Pointer技术之前引入Tagged Pointer之后总结 Tagged Pointer原理&#xff08;TagData分析&#xff09;关闭数据混淆MacOS分析NSNumberNSString iOS分析 判断Tagged PointerTagged Pointer应用Tagged Pointer 注意点 Tagge…

科研绘图系列:R语言微生物堆积图(stacked barplot)

介绍 堆叠条形图是一种数据可视化图表,它通过将每个条形分割成多个部分来展示不同类别的数值。每个条形代表一个总体数据,而条形内的每个部分则代表该总体数据中不同子类别的数值。这种图表特别适合展示整体与部分的关系,以及各部分在整体中的比例。 特点: 多部分条形:每…

Python爬虫:代理ip电商数据实战

引言&#xff1a;数据访问管理引发的烦恼 作为一名Python博主&#xff0c;爬虫技能对于获取和分析数据至关重要&#xff0c;经常爬一下&#xff0c;有益身心健康嘛。爬虫技术对很多人来说&#xff0c;不仅仅是一种工具&#xff0c;更像是一种艺术&#xff0c;帮助我们从互联网…

工程视角:数据结构驱动的应用开发--字典(dictionary),列表(list)与实体

这里写目录标题 业务业务场景流程分析 实现数据访问层&#xff08;DAL&#xff09;业务逻辑层&#xff08;BLL&#xff09;用户界面层&#xff08;UI&#xff09;工具类 设计思路为什么抽出工具类关于U层使用字典的好处工程视角 业务 业务场景 在一个金融应用系统中&#xff0c…

【益智问题】十三球称重

十三球称重 问题描述解决方案 问题描述 有13个外表一模一样的小球产品&#xff0c;其中有一个是次品&#xff0c;其质量与其他12个略有差别&#xff0c;但不知道是重还是轻。这13个球上都有标号&#xff0c;现在给你-架天平&#xff0c;只能使用三次&#xff0c;把这个次品小球…

Elasticsearch:Golang ECS 日志记录 - zap

ECS 记录器是你最喜欢的日志库的格式化程序/编码器插件。它们可让你轻松地将日志格式化为与 ECS 兼容的 JSON。 编码器以 JSON 格式记录日志&#xff0c;并在可能的情况下依赖默认的 zapcore/json_encoder。它还处理 ECS 错误格式的错误字段记录。 默认情况下&#xff0c;会添…

58、主从复制数据库+读写分离

mysql的主从复制和读写分离&#xff08;面试问原理&#xff09; mysql的主从复制和读写分离&#xff1a; 主从复制 面试必问 主从复制的原理。 读写分离&#xff0c;MHA 一、主从复制 1.1、主从复制的模式&#xff1a; 1、mysql的默认模式&#xff1a; 异步模式&#xf…

Three.js 官方文档学习笔记

Address&#xff1a;Three.js中文网 (webgl3d.cn) Author&#xff1a;方越 50041588 Date&#xff1a;2024-07-19 第一个3D案例—创建3D场景 创建3D场景对象Scene&#xff1a; const scene new THREE.Scene(); 创建一个长方体几何对象Geometry&#xff1a; const geomet…