阿里数字人工作 Emote Portrait Alive (EMO):基于 Diffusion 直接生成视频的数字人方案

TL;DR

  • 2024 年 ECCV 阿里智能计算研究所的数字人工作,基于 diffusion 方法来直接的从音频到视频合成数字人,避免了中间的三维模型或面部 landmark 的需求,效果很好。

Paper name
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper Reading Note

Paper URL: https://arxiv.org/abs/2402.17485

Project URL: https://humanaigc.github.io/emote-portrait-alive/

Code URL: https://github.com/HumanAIGC/EMO (暂未开源,空代码库)


Introduction

背景

  • 将音频转换为头部动画(如面部表情或头部运动)具有挑战性,因为存在模糊且一对多的映射关系
    • 大多数关于说话人脸的研究将过程分为头部运动和面部表情两个组成部分,比如 VividTalk。
      • 对于头部运动,一些说话人脸技术在这一方面表现不佳,通常会借助现有视频中的预定义姿势序列(比如 Diff2Lip 等)或使用独立的网络分别处理头部姿势和面部表情(比如 VividTalk)。
      • 在面部表情方面,一些方法选择使用显式的中间信号,如三维人脸模型或二维面部标记来引导生成 (比如 SadTalker、VividTalk 等)。虽然这些方法增强了特定方面(如唇部同步)的保真度,但往往限制了生成内容的整体表现力和自然度。例如,言语情感语气所关联的微妙手势或细微表情通常难以准确转换,导致生成结果缺乏生动性。
    • 因此,为了创建高度表现力的说话人脸视频,至关重要的是摆脱强先验信息的约束,充分利用模型的生成潜力。
  • 本文通过关注音频线索与面部运动之间动态且细微的关系,解决了提升人脸视频生成的真实感和表现力的挑战。

本文方案

  • 提出了一种新颖的框架 EMO (Emote Portrait Alive),通过直接的音频到视频合成方法,避免了中间的三维模型或面部 landmark 的需求
    • EMO 利用扩散模型的生成能力直接捕捉复杂的音视频关联,通过整合时间模块和三维卷积来扩展 SD 用于视频
    • 为了学习音频和视频之间的关联,我们引入了一个音频特征提取器,并采用注意力模块将音频特征调制到主干网络中
    • 为了在不损失表现力的情况下确保稳定性,我们引入了如人脸定位器和速度层等新机制,用于作为弱条件指导目标人脸的大致区域和运动的大致速度水平
    • 引入了 Reference Net 确保整个视频中面部身份一致性
    • 实现了运动帧模块以保持相邻视频片段之间的连续性,从而实现无缝的无限视频生成
    • 构建了一个庞大且多样化的音视频数据集,收集了超过 250 小时的素材。该丰富的数据集涵盖了演讲、影视片段和歌唱表演等多种内容,并包括中文和英语等多种语言
    • 引入的一个新指标 E-FID(Expression-FID),该指标旨在评估生成视频的表现力
      在这里插入图片描述

Methods

  • 给定一个角色肖像的单一参考图像,我们的方法可以生成与输入语音音频剪辑同步的视频,同时保留自然的头部动作和生动的表情,配合提供的语音音调变化。

3.1 预备知识

本文方法采用 Stable Diffusion (SD) 作为基础框架。SD 是一种广泛应用的文本到图像(T2I)模型,由 Latent Diffusion Model (LDM) 演化而来。它使用一种 变分自编码器(VAE),将原始图像特征分布 x 0 x_0 x0 映射到潜在空间 z 0 z_0 z0,通过公式 z 0 = E ( x 0 ) z_0 = E(x_0) z0=E(x0) 进行编码,并将潜在特征还原为 x 0 = D ( z 0 ) x_0 = D(z_0) x0=D(z0)。这种架构具有降低计算成本同时保持高视觉保真的优势。

基于 去噪扩散概率模型(DDPM)去噪扩散隐式模型(DDIM),SD 向潜在变量 z 0 z_0 z0 添加高斯噪声 ϵ \epsilon ϵ,以生成某时间步 t t t 的噪声潜在变量 z t z_t zt。在推理过程中,SD 旨在从 z t z_t zt 中移除噪声 ϵ \epsilon ϵ,并通过结合文本特征实现期望的输出。其去噪过程的训练目标公式为:

L = E t , c , z t , ϵ [ ∣ ∣ ϵ − ϵ θ ( z t , t , c ) ∣ ∣ 2 ] L = \mathbb{E}_{t,c,z_t,\epsilon}[||\epsilon − \epsilon_\theta (z_t, t, c)||^2] L=Et,c,zt,ϵ[∣∣ϵϵθ(zt,t,c)2]

其中 c c c 代表从 CLIP ViT-L/14 文本编码器中获取的文本特征。SD 中的 ϵ θ \epsilon_\theta ϵθ 是通过改进的 UNet 模型实现的,该模型利用交叉注意力机制将 c c c 融合到潜在特征中。

3.2 网络架构

在这里插入图片描述

本文方法概览如图 2 所示。骨干网络(Backbone Network) 输入多帧噪声潜在变量,并尝试在每个时间步将它们去噪为连续视频帧。骨干网络的 UNet 结构与 SD 1.5 类似,具有以下特点:

  1. 嵌入时序模块:确保生成帧之间的连续性。
  2. ID一致性维护:部署与骨干网络并行的 UNet 结构 ReferenceNet,通过输入参考图像提取特征。
  3. 语音驱动动作:利用音频层对语音特征进行编码。
  4. 可控和稳定的动作生成:通过脸部定位器和速度层提供弱控制条件。
骨干网络

在本文工作中,不使用提示嵌入 (prompt embedding);因此,我们将 SD 1.5 UNet 结构中的交叉注意力层改为参考注意力层 (reference-attention)。这些修改的层现在以 ReferenceNet 提供的参考特征作为输入,而不是文本嵌入。

音频层

语音的发音和语调是驱动角色生成的主要信号。通过预训练的 wav2vec 从输入音频序列提取的特征 concat 起来,行程第 f f f 帧的音频表示嵌入 A ( f ) A(f) A(f)。考虑到嘴巴的动作可能受到前后语音片段的影响(例如说话前张嘴和吸气),我们通过连接相邻帧的特征来定义每个生成帧的语言特征:

A ( f ) = ⨁ { A ( f − m ) , . . . , A ( f ) , . . . , A ( f + m ) } A(f) = \bigoplus \{A(f − m), ..., A(f), ..., A(f + m)\} A(f)={A(fm),...,A(f),...,A(f+m)}

其中 m m m 是每侧额外特征帧的数量。在骨干网络中,每个参考注意力层后添加音频注意力层,通过跨注意力机制将语音特征 A A A 注入潜在变量中。

ReferenceNet

ReferenceNet 的结构与骨干网络相同,用于从输入图像中提取特征。参考研究 Animate Anyone、TryOnDiffusion 强调了采用类似结构在保持目标对象身份一致性方面的重要作用。ReferenceNet 和骨干网络继承了原始 SD UNet 的权重。参考图像被输入 ReferenceNet 提取参考特征图,这些特征在骨干网络的去噪过程中与对应层的输入通过参考注意力层进行融合。

时序模块

基于 AnimateDiff 的架构概念,将自注意力时间层应用于帧内特征中。具体而言,输入特征图 x ∈ R b × c × f × h × w x \in \mathbb{R}^{b \times c \times f \times h \times w} xRb×c×f×h×w 被重新配置为形状 ( b × h × w ) × f × c (b \times h \times w) \times f \times c (b×h×w)×f×c,其中 b b b 表示批量大小, h h h w w w 表示特征图的空间维度, f f f 表示生成帧的数量, c c c 是特征维度。自注意力操作针对时间维度 f f f,以有效捕捉视频的动态内容。时间层被插入到骨干网络的每个分辨率层级中。

多片段连续性:引入了前一段生成视频中的最后 n n n 帧,称为“运动帧”,以增强跨片段的一致性。这些“运动帧”被输入ReferenceNet以预提取多分辨率运动特征图。在骨干网络的降噪过程中,时间层的输入与匹配分辨率的预提取运动特征沿时间帧维度进行融合。此简单方法有效地确保了不同片段之间的连贯性。对于第一个视频片段的生成,运动帧初始化为零图。需要注意的是,尽管骨干网络可能会多次迭代降噪处理,但目标图像和运动帧仅被一次性输入到 ReferenceNet 中,因此提取的特征在整个过程中重复使用,确保推理时不会显著增加计算时间。

面部定位器与速度层

时间模块能够保证生成帧的连续性以及视频片段之间的无缝过渡,但由于独立生成的特性,它无法确保生成角色在不同片段中的运动一致性与稳定性。先前的研究通过某些信号来控制角色运动,例如 skeleton、blendshape 或 3DMM,然而,使用这些控制信号可能无法很好地生成生动的面部表情和动作,原因在于其自由度有限且训练阶段的标签不足以捕捉完整的面部动态。此外,相同的控制信号可能在不同角色之间产生差异,无法体现个体的细微差别。生成控制信号可能是一个可行的途径,但生成逼真的运动仍然是一大挑战。因此,本文选择了一种“弱”控制信号的方法。

具体而言,如图 2 所示,本文使用一个掩码 M = ⋃ i = 1 f M i M = \bigcup_{i=1}^f M_i M=i=1fMi 表示面部区域,该区域包括视频片段中的面部边界框 (bbox) 区域。本文引入了面部定位器,其由轻量级卷积层组成,用于编码边界框掩码。编码后的掩码被添加到噪声潜表示中,然后输入到骨干网络中。掩码可用于控制角色面部的位置生成。然而,由于不同片段的头部运动频率变化,在片段间生成一致且平滑的运动仍具有挑战性。

为了解决此问题,本文在生成中加入目标头部运动速度。更具体地,考虑帧 f f f 中的头部旋转速度 w f w_f wf,将速度范围划分为 d d d 个离散速度桶,每个桶代表一个不同的速度级别。每个桶有一个中心值 c i ∈ { c 1 , . . . , c d } c_i \in \{c_1, ..., c_d\} ci{c1,...,cd} 和一个半径 r i ∈ { r 1 , . . . , r d } r_i \in \{r_1, ..., r_d\} ri{r1,...,rd}。将 w f w_f wf 重新定向为向量 s ∈ R d s \in \mathbb{R}^d sRd,其中第 i i i 个值记为 s i = tanh ⁡ ( ( w f − c i ) / r i ⋅ 3 ) s_i = \tanh((w_f - c_i)/r_i \cdot 3) si=tanh((wfci)/ri3)。类似于音频层中使用的方法,每帧的头部旋转速度嵌入表示为 S f = ⨁ { s ( f − m ) , . . . , s ( f ) , . . . , s ( f + m ) } S_f = \bigoplus \{s(f - m), ..., s(f), ..., s(f + m)\} Sf={s(fm),...,s(f),...,s(f+m)}。每个片段的速度嵌入表示为 S ∈ R b × f × ( 2 m + 1 ) d S \in \mathbb{R}^{b \times f \times (2m+1)d} SRb×f×(2m+1)d,然后通过一个多层感知器 (MLP) 处理为速度特征图 F ∈ R b × f × l F \in \mathbb{R}^{b \times f \times l} FRb×f×l。在时间层中,将 F F F 重复至形状 ( b × h × w ) × f × l (b \times h \times w) \times f \times l (b×h×w)×f×l,并实现一种跨注意力机制,该机制在速度特征和重塑后的特征图之间的时间维度 f f f 上运行。通过这种方式并指定目标速度,可以在不同片段中同步生成角色头部的旋转速度和频率。结合面部定位器提供的面部位置控制,生成的结果既稳定又可控。

需要注意的是,指定的面部区域和分配的速度并不构成强控制条件。在面部定位器的上下文中,由于 M M M 是整个视频片段的联合区域,表示角色面部运动可以在较大的范围内进行,从而确保头部不会被限制为静态姿态。对于速度层,由于数据集标注阶段难以准确估计人类头部旋转速度,预测的速度序列本质上是有噪声的。因此,生成的头部运动只能近似指定的速度级别。这一限制推动了本文速度桶框架的设计。

训练策略

训练过程分为三个阶段:

  1. 图像预训练阶段
    在此阶段,骨干网络(Backbone Network)、参考网络(ReferenceNet)和脸部定位器(Face Locator)参与训练。骨干网络以单帧图像作为输入,而 ReferenceNet 处理来自同一视频片段的另一随机帧。骨干网络和 ReferenceNet 的权重初始化来源于原始 SD。

  2. 视频训练阶段
    在此阶段,加入了时序模块和音频层。视频片段中采样出 n + f n + f n+f 个连续帧,其中起始的 n n n 帧为运动帧(motion frames)。时序模块的权重初始化自 AnimateDiff。

  3. 速度层训练阶段
    在这一阶段,仅训练时序模块和速度层,有意跳过音频层的训练。这是因为角色的表情、嘴部动作以及头部动作的频率主要受音频影响。这些元素之间存在一定的相关性,模型可能会倾向于根据速度信号而非音频来驱动角色动作。实验结果表明,同时训练速度和音频层会削弱音频对角色动作的驱动能力。

Experiments

实现细节

我们从互联网收集了约 250 小时的说话人头像视频,结合 HDTF 和 VFHQ 数据集进行模型训练。由于 VFHQ 数据集中缺乏音频,仅在第一阶段使用。我们使用 MediaPipe 获取脸部边界框(bbox)。通过 face landmark 提取每帧的 6 自由度头部姿态并计算帧间的旋转角度,标记头部旋转速度。

视频剪辑被调整为 512×512 的分辨率并裁剪。在第一阶段,分别从视频片段中采样参考图像和目标帧,训练骨干网络和 ReferenceNet,批量大小为 48。在第二和第三阶段,生成视频的长度 f f f 设为 12 帧,运动帧数量 n n n 设为 4,批量大小为 4。额外特征数量 m m m 设为 2。所有阶段的学习率均为 1e-5

在推理过程中,我们使用 DDIM 的采样算法,生成视频片段需要 40 步,并为每帧分配一个恒定的速度值。方法的计算时间约为 15 秒 处理一批( f = 12 f = 12 f=12 帧)。

数据预处理流程
  • 标注包括以下步骤:
    • 基于扩展的脸部边界框对视频进行裁剪,并将每个视频片段转换为 30 FPS。
    • 使用 MediaPipe 确定所有帧中的脸部边界框,从而划定面部区域。
    • 使用预训练的 Wav2Vec 模型提取音频嵌入。
    • 确定角色的 6 自由度(6-DoF)头部姿态,以计算逐帧的旋转速度。
实验设置

为进行方法比较,我们将 HDTF 数据集划分为 90% 的训练集和 10% 的测试集,确保两者之间没有角色 ID 的重叠。此外,为了在更多变的场景中评估方法,我们从收集的互联网视频数据集中提取了 1000 个视频片段,每段约 4 秒长。这些片段主要展示了丰富的表情视频,其中包括大量唱歌场景。与 HDTF 数据集相比,这些视频在面部表情和头部动作范围上具有更广泛的多样性。

我们将方法与以下一些工作进行了比较:Wav2LipSadTalkerDreamTalkMakeItTalk。此外,使用 Diffused Heads 的公开代码生成了结果,但由于其模型在仅包含绿色背景的 CREMA 数据集上训练,生成结果表现不佳,并且生成帧中存在累积误差。因此,我们仅与 Diffused Heads 方法进行定性比较。对于 DreamTalk,我们使用原作者规定的说话风格参数。

为了证明我们方法的优越性,我们使用以下评估指标:

  • Fréchet Inception Distance (FID):用于评估生成帧的质量。
  • 面部相似度 (F-SIM):通过提取和比较生成帧与参考图像的面部特征,评估结果的身份保留情况。注意,单一参考图像可能导致 F-SIM 得分过高(例如某些方法仅生成嘴部区域,其他部分与参考图像相同)。因此,我们将 F-SIM 视为基于总体的参考指标,更接近相应的真实值(GT)表示性能更好。
  • Fréchet Video Distance (FVD):用于视频级别的评估。
  • SyncNet 得分:评估唇部同步质量,这是说话人头像应用中的关键方面。
  • Expression-FID (E-FID):用于评估生成视频中面部表情的表现力。具体而言,使用面部重建技术提取表情参数,计算这些表情参数的 FID,量化生成视频与真实数据集之间的表情差异。

定性评估

  • 与早期方法对比
    • Wav2Lip 在仅使用单一参考图像作为输入时,通常会生成模糊的嘴部区域,并且视频表现为静态头部姿态和极少的眼睛运动。
    • DreamTalk 使用的样式剪辑可能会扭曲原始面孔,同时限制面部表情和头部动作的动态性
    • 与 SadTalker 和 DreamTalk 相比,本文方法能够生成更大范围的头部运动和更动态的面部表情
      在这里插入图片描述
  • 跨风格头像生成
    • 参考图像来自 Civitai,由不同的文本到图像(T2I)模型生成,包括真实风格、动漫风格和 3D 风格。相同的语音音频输入被用于为这些角色生成动画,在不同风格中达到了大致一致的唇部同步效果。
      在这里插入图片描述
  • 丰富的面部表情与动作
    • 具有显著音调特征的音频时能够生成更丰富的面部表情和动作。例如,第三行的例子表明,高音调的语音会引发角色更为强烈和生动的表情。此外,利用运动帧可以扩展生成视频的时长,我们能够根据输入音频的长度生成更长的视频。如图 5 和图 6 所示,我们的方法在大幅运动的情况下仍能保持角色身份的一致性。
      在这里插入图片描述
      在这里插入图片描述

定量评估

  • 图 3 展示了互联网数据集中包含更广泛的面部表情和更大的头部运动范围,同时伴随参考角色的多样姿态。这种多样性可能对性能指标产生负面影响,如表 1 所示。但本文结果在视频质量评估中具有显著优势,表现为较低的 FVD 得分。此外,本文方法在单帧质量上也优于其他方法,表现在改进的 FID 得分上。尽管 Wav2Lip 由于使用 SyncNet 作为判别器在 SyncNet 信心分数上表现最佳,但本文方法在生成生动面部表情方面表现卓越,体现于 E-FID 分数上。进一步分析显示,即使在不使用 250 小时数据集的情况下,本文的模型在 FVD 和 E-FID 等指标上仍表现出色。额外数据有助于增强视频内容的动态性和生成更丰富的表情。
    在这里插入图片描述

消融实验

速度层的影响

速度层旨在确保连续生成的视频片段之间头部运动频率的一致性。在推理过程中,为每帧分配一个恒定的速度值。实验表明,速度层显著提高了头部运动的稳定性,与未使用速度层的基线相比,“速度方差”和“平均速度方差”均显著降低。语音驱动的场景速度分配为 0.1-1.0,而唱歌场景速度更高(1.0-1.3),以适应更快的头部动作。超过 1.5 的速度可能导致动作过快和抖动。

  • “无速度”(No Speed)表示未使用速度层的模型结果。
  • “速度方差”(Velocity Variance)反映了单个视频序列内旋转速度的一致性。
  • “平均速度方差”(VMV)测量不同片段之间头部旋转速度均值的变化。
    在这里插入图片描述
面部定位器的控制效果

面部定位器将脸部区域作为输入,并定义面部动作的许可范围,从而影响头部运动的范围。图 7 显示(白色是指定的人脸框,紫色是生成视频中检测的人脸框),当输入适当大小的脸部区域时,角色仅表现出最小的头部运动;而输入更广的区域时,允许角色在说话过程中有更大范围的头部摆动,输入增加高度的区域则促进点头动作。
在这里插入图片描述

此外,输入均匀的白色掩膜未提供具体指导,允许在任意位置生成面部。紫色边框可能超出预定的白色面部区域,表明面部定位器仅对头部动作施加弱约束,允许超越其边界的运动。

Conclusion

  • EMO 摒弃了传统的中间信号依赖,基于 diffusion 方案实现音频到视频的驱动。官网展示的实验效果很惊艳。
  • 代码未开源,空 repo 也能获得 7k+ star,很强
  • 补充材料中说不使用 Voxceleb 数据集是因为该数据集以面部中心为焦点,导致摄像机运动不稳定。另外 250h 的自建数据集主要增强了面部表情的丰富性和视频内容的动态性。所以数据集的选择和构建还是有讲究的。
  • 目前模型的局限性
    • 暂时不支持文本、情感设定来做一些显示的控制,音频音调控制可能不一定符合用户期望
    • 手部和身体动作很少,因为数据集以头部区域为主,包含手部的帧仅占 3%
    • 实时性能暂时无法保证,而实时性是数字人大规模应用很重要的依赖。EMO 在 A100 GPU 上运行 40 次去噪步骤时,每 12 帧(一个片段)耗时约 18 秒。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/474842.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity脚本基础规则

Unity脚本基础规则 如何在Unity中创建一个脚本文件? 在Project窗口中的Assets目录下,选择合适的文件夹,右键,选择第一个Create,在新出现的一栏中选择C# Script,此时文件夹内会出现C#脚本图标,…

基于YOLOv8深度学习的无人机航拍小目标检测系统(PyQt5界面+数据集+训练代码)

本研究提出并实现了一种基于YOLOv8深度学习模型的无人机航拍小目标检测系统,旨在解决高空环境下汽车目标检测的技术难题。随着无人机技术的发展,航拍图像已广泛应用于交通监控、城市管理、灾害应急等多个领域。然而,由于无人机通常在较高的飞…

Excel如何把两列数据合并成一列,4种方法

Excel如何把两列数据合并成一列,4种方法 参考链接:https://baijiahao.baidu.com/s?id=1786337572531105925&wfr=spider&for=pc 在Excel中,有时候需要把两列或者多列数据合并到一列中,下面介绍4种常见方法,并且提示一些使用注意事项,总有一种方法符合你的要求:…

VSCode自定义插件创建教程

文章目录 一、前言二、插件维护三、调试插件四、使用 vsce 生成 vsix 插件五、问题:打开调试窗口后,输入helloworld并没有指令提示六、插件创建实战七、拓展阅读 一、前言 对于前端程序猿来讲,最常用的开发利器中VSCode首当其冲,…

HarmonyOS Next 关于页面渲染的性能优化方案

HarmonyOS Next 关于页面渲染的性能优化方案 HarmonyOS Next 应用开发中,用户的使用体验至关重要。其中用户启动APP到呈现页面主要包含三个步骤: 框架初始化页面加载布局渲染 从页面加载到布局渲染中,主要包含了6个环节: 执行页…

深度学习之目标检测的技巧汇总

1 Data Augmentation 介绍一篇发表在Big Data上的数据增强相关的文献综述。 Introduction 数据增强与过拟合 验证是否过拟合的方法:画出loss曲线,如果训练集loss持续减小但是验证集loss增大,就说明是过拟合了。 数据增强目的 通过数据增强…

记录下,用油猴Tampermonkey监听所有请求,绕过seesion

油猴Tampermonkey监听所有请求,绕过seesion 前因后果脚本编写 前因后果 原因是要白嫖一个网站的接口,这个接口的页面入口被隐藏掉了,不能通过页面调用,幸好之前有想过逆向破解通过账号密码模拟登录后拿到token,请求该…

百度遭初创企业指控抄袭,维权还是碰瓷?

“ 抄袭指控引发网友热议,有人支持其立场,也有人认为工具类产品在界面设计上相似度高是行业常态。 ” 转载|科技新知 原创 作者丨晓伊 编辑丨蕨影 一年一度的百度世界大会刚刚落幕,一家初创企业却站出来公开指责百度抄袭自家产品&#xff…

golang通用后台管理系统09(系统操作日志记录)

1.日志工具类 package log/**** 日志记录 wangwei 2024-11-18 15:30*/ import ("log""os""path/filepath""time" )// 获取以当前日期命名的日志文件路径 func getLogFilePath() string {currentDate : time.Now().Format("2006-…

迁移学习理论与应用

迁移学习(Transfer Learning)是一种机器学习技术,旨在将一个任务(源任务)上学到的知识迁移到另一个相关但不完全相同的任务(目标任务)上,从而提高目标任务的学习效果。这种方法的核心…

Azure Kubernetes Service (AKS)资源优化策略

针对Azure Kubernetes Service (AKS)的资源优化策略,可以从多个维度进行考虑和实施,以提升集群的性能、效率和资源利用率。以下是一些关键的优化策略: 一、 Pod资源请求和限制 设置Pod请求和限制:在YAML清单中为所有Pod设置CPU和…

Vue3 虚拟列表组件库 virtual-list-vue3 的使用

Vue3 虚拟列表组件库 virtual-list-vue3 的基本使用 分享个人写的一个基于 Vue3 的虚拟列表组件库,欢迎各位来进行使用与给予一些更好的建议😊 概述:该组件组件库用于提供虚拟化列表能力的组件,用于解决展示大量数据渲染时首屏渲…

qt之QFTP对文件夹(含嵌套文件夹和文件)、文件删除下载功能

一、前言 主要功能如下: 1.实现文件夹的下载和删除,网上很多资料都是单独对某个路径的文件操作的,并不能对文件夹操作 2.实现目标机中含中文名称自动转码,有些系统编码方式不同,下载出来的文件会乱码 3.实现ftp功能…

SpringBoot登录功能实现思路(验证码+拦截器+jwt)

总括 用户输入用户名和密码和验证码即可进行登录 验证码 VerifyCode:生成验证码的工具类 /*** 生成验证码的工具类*/ public class VerifyCode {private int w 70;//设置缓冲区的宽private int h 35;//设置缓冲区的宽private Random r new Random();//从字体…

小米路由器用外网域名访问管理界面

本文在Redmi AX3000 (RA81)设置,其他型号路由器的管理界面端口可能各不相同。 开始之前需要保证路由器SSH功能正常,如果没有SSH可以参考这里。 1. 给WAN口开放80端口 可以通过下载mixbox的firewall插件或者其他防火墙插件开放端口。 2. 把域名解析到路…

杰发科技AC7801——ADC定时器触发的简单使用

使用场景 在需要多次采样结果的情况下,比如1s需要10w次的采样结果,可以考虑使用定时器触发采样,定时器设置多少的时间就会多久采样转换一次。 再加上使用dma,采样的结果直接放在dma的数组里面。 实现了自动采样,自动…

pytest结合allure做接口自动化

这是一个采用pytest框架,结合allure完成接口自动化测试的项目,最后采用allure生成直观美观的测试报告,由于添加了allure的特性,使得测试报告覆盖的内容更全面和阅读起来更方便。 1. 使用pytest构建测试框架,首先配置好…

现代分布式系统新法宝:基于单元的架构

- 前言 - 数十年来,IT 业界一直在努力掌握分布式系统。然而,随着系统日益复杂,给开发数字产品的组织带来巨大挑战。可以说,分布式系统最棘手的方面之一是面对故障时的可靠性,特别是现代分布式系统使用大量物理与虚拟资…

C#桌面应用制作计算器

C#桌面应用制作简易计算器,可实现数字之间的加减乘除、AC按键清屏、Del按键清除末尾数字、/-按键取数字相反数、%按键使数字缩小100倍、按键显示运算结果等...... 页面实现效果 功能实现 布局 计算器主体使用Panel容器,然后将button控件排列放置Pane…

python: generator IDAL and DAL using sql server 2019

其它数据库也是一样的思维方式 create IDAL # encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看:言語成了邀功盡責的功臣,還需要行爲每日來值班嗎 # 描述: # Author : geovindu,Geovin Du 涂聚文. # IDE : P…