cuda面试准备(一),架构调试

1 cuda架构

在这里插入图片描述

硬件方面

  • SP (streaming Process) ,SM (streaming multiprocessor) 是硬件(GPUhardware) 概念。而thread,block,grid,warp是软件上的(CUDA) 概念

  • SP:最基本的处理单元,streaming processor,也称为CUDA core,最后具体的指令和任务都是在SP上处理的。GPU进行并行计算,也就是很多个SP同时做处理。

  • SM: 多个SP加上其他的一些资源组成一个streaming multiprocessor。也叫GPU大核,其他资源如:warp scheduler,register, shared memory等。SM可以看做GPU的心脏(对比CPU核心),register和shared memory是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的threads因此,这些有限的资源就便每个SM中active warps有非常严格的限制,也就限制了并行能力,每个SM包念的SP数量依据GPU架构而不同

软件方面

  • Wrap:(线程束)GPU执行程序时的调度单位,一起执行,目前cuda的warp的大小为32,同在一个Warp :的线程,以不同数据资源执行相同的指令。
  • grid、block、thread: 在利用cuda进行编程时,一个grid分为多个block,而一个block分为多个thread.其中任务划分到是否影响最后的执行效果。划分的依据是任务特性和GPU本身的硬件特性。

强推

https://face2ai.com/program-blog/#GPU%E7%BC%96%E7%A8%8B%EF%BC%88CUDA%EF%BC%89

2 利用图形API和CUDA进行GPU通用计算的性能差别

需要将问题转化成图形学,而CUDA使用C语言编写,适合做通用计算
GPU指令和CPU指令 最大区别:CPU需要运行OS,不但要处理中断,还要负责存储器空间分配回收,GPU不需要做这些,所以GPU很空闲

3 GPU架构缺点

  1. 复杂性: GPU架构通常比CPU复杂,因为它们需要管理大量的并行单元、内存层次结构和调度器。这使得设计、开发和调试GPU架构变得更加复杂。

  2. 通用计算限制: 初衷是为图形渲染设计的GPU架构在执行通用计算时可能受到一些限制。例如,一些硬件特性和指令集可能不适用于所有类型的计算任务。

  3. 内存层次结构: GPU具有复杂的内存层次结构,包括全局内存、共享内存和寄存器等。管理和优化数据在这些内存层次之间的传输和访问是挑战之一,可能影响性能。

  4. 数据传输成本: 在GPU计算中,数据传输成本往往较高,特别是在主机内存和GPU内存之间传输数据。这可能导致在处理大量数据时产生性能瓶颈。

  5. 程序设计复杂性: 为了充分利用GPU的并行计算能力,需要编写高度并行的代码,涉及线程、块、网格等概念。这可能增加了程序设计的复杂性,容易引入并发错误。

  6. 并发调度和同步: 在GPU上管理并发执行和同步操作是复杂的任务。正确管理并发执行以避免竞态条件和死锁需要仔细的设计和编程。

如果让我设计GPU架构,我可能会考虑以下方面:

  1. 通用计算优化: 设计一种架构,既能够优化图形渲染任务,又能够高效执行通用计算任务。这可能涉及设计更多通用计算单元、灵活的指令集等。

  2. 内存和数据传输优化: 确保内存层次结构能够有效地管理数据传输和访问,最小化数据传输成本。可能需要更智能的缓存管理和数据预取策略。

  3. 简化编程模型: 设计更简化的编程模型,减少编写并行代码的复杂性。可能通过更高级别的抽象、自动并行化工具等来实现。

  4. 高效的并发管理: 设计一种可靠且高效的并发管理机制,能够自动处理并发调度、同步和互斥操作,降低并发编程的难度。

  5. 灵活性: 考虑在架构中引入一定程度的灵活性,以适应不同类型的计算任务。可能通过可配置的硬件模块、指令扩展等方式实现。

  6. 能效优化: 设计能够在高性能的同时保持良好能效的架构。可能需要在硬件级别上优化功耗管理和调度策略。

需要指出的是,设计一种全面优化且符合所有需求的GPU架构是一个极具挑战性的任务,涉及硬件、软件、算法等多个方面的考虑。实际的GPU架构设计通常需要平衡不同需求,并在性能、能效、成本等方面做出权衡。

GPU的缓存管理和数据预取策略

是为了最大程度地减少内存访问延迟,提高访存效率和整体计算性能。由于GPU具有复杂的内存层次结构(如寄存器、共享内存、全局内存等),在设计缓存管理和数据预取策略时需要考虑不同层次的内存以及数据访问模式。以下是一些常见的缓存管理和数据预取策略:

缓存管理策略:

  1. 层次化缓存: GPU通常具有多级缓存,如L1缓存、L2缓存等。较小但更快的L1缓存可以存储频繁使用的数据,而较大但稍慢的L2缓存可以存储更多的数据。合理地将数据分布到不同级别的缓存中可以减少内存访问延迟。

  2. 缓存行(Cache Line): 缓存通常以缓存行为单位进行数据加载,即加载一个缓存行大小的数据。设计合适的缓存行大小可以匹配数据访问模式,减少不必要的数据传输。

  3. 写缓冲(Write Buffer): 为了提高写入操作的效率,GPU可能会采用写缓冲,将写入操作缓存在缓冲区中,然后一次性写回内存。这可以降低写入操作的延迟。

数据预取策略:

  1. 空间局部性预取: 当GPU访问一个内存位置时,往往会连续访问相邻的内存位置。预取机制可以提前将相邻数据加载到缓存中,以利用空间局部性。

  2. 时间局部性预取: 当GPU多次访问同一内存位置时,预取机制可以提前将该数据加载到缓存中,以利用时间局部性。

  3. 非阻塞预取: 在数据预取时,可以使用非阻塞方式加载数据,以避免阻塞计算单元,提高并发性能。

  4. 自适应预取: 一些GPU架构具有自适应预取功能,可以根据访存模式动态调整预取策略,以适应不同的应用场景。

  5. 预取距离: 预取时加载数据的距离也是一个重要因素。加载过远的数据可能会浪费带宽,而加载过近的数据可能会引发访存竞争。因此,预取距离的选择需要考虑数据访问模式。

综合来看,缓存管理和数据预取策略的设计需要结合具体的GPU架构、应用场景和数据访问模式。优化这些策略可以在保持高性能的同时,减少内存访问的延迟,提高计算效率。

4 GPU通过并行执行成千上万个线程来隐藏延迟访问,这是其高性能计算的一个关键机制之一。

这种并行模型允许GPU在等待某些线程的数据访问结果时,可以切换到执行其他线程的计算,从而在某些情况下有效地隐藏内存访问延迟。

这种并行执行的机制可以分为以下几个方面:

  1. 线程块和网格: GPU任务被划分为多个线程块(Thread Block),每个线程块包含多个线程。线程块是调度的基本单元,多个线程块构成一个网格(Grid)。

  2. 调度器: GPU调度器将线程块分配给可用的多处理器(SM,Streaming Multiprocessor),并在多个线程块之间切换执行,以最大限度地利用可用的计算资源。

  3. 线程束: 在SM内部,线程块会被分成小的线程束(Thread Warp)。线程束中的线程可以同时执行相同的指令,从而减少指令调度的开销。

  4. 延迟隐藏: 当一个线程块等待某些数据的到来时(例如,从内存中加载数据),GPU可以切换到执行其他线程块,从而隐藏内存访问的延迟。

  5. 多级并行: GPU同时支持多个线程块在不同的SM上执行,每个SM内部又支持多个线程束的并行执行,从而实现多级并行的计算。即:GPU通常采用多级并行结构,如线程块(Thread Block)、线程束(Warps)等。线程块中的线程会被划分为多个线程束,每个线程束内的线程共享相同的指令流,但可以独立执行不同的数据操作。这种多级并行结构使得GPU能够同时执行大量的线程,进一步隐藏内存访问延迟。

这种并行模型在大规模并行计算中非常有效,尤其适用于需要大量数据并行计算的任务,如图像处理、深度学习训练等。通过同时执行多个线程块,GPU能够利用可用的计算资源来充分利用计算能力,即使在存在内存访问延迟的情况下也能保持高效率。

需要注意的是,有效利用并行模型需要开发者合理划分任务、优化数据访问模式,并且确保避免竞态条件和数据不一致性等问题。因此,在编写并行GPU代码时,开发者需要考虑线程同步、数据共享和优化等方面的问题。

5 列举一些常用的线程同步、数据共享和优化的方法

在GPU并行计算中,线程同步、数据共享和优化是非常重要的方面,可以影响程序的正确性和性能。以下是一些常用的方法:

线程同步方法:

  1. 栅栏同步(Barrier): 在线程块内部使用栅栏同步机制,确保所有线程在某个点上等待,直到所有线程都达到该点。

  2. 原子操作(Atomic Operations): 使用原子操作来确保在多个线程同时访问共享数据时的数据一致性,如原子加法、原子比较交换等。

  3. 互斥锁(Mutex): 可以使用互斥锁来保护临界区,防止多个线程同时访问共享资源。但在GPU中,锁可能引入较大的性能开销,因此需要慎重使用。

  4. Semaphore(信号量): 信号量是一种同步机制,允许一定数量的线程同时访问共享资源。GPU中使用信号量可以协调线程对有限资源的访问。

以下是关于常见线程同步方法的代码示例,以及它们的优缺点和适用范围。

示例 1: Barrier(栅栏)

__global__ void kernel_with_barrier() {// 执行一些计算操作// 等待所有线程完成计算,然后继续执行__syncthreads();// 继续后续操作
}

优点:

  • 适用于需要在线程块内进行协同操作的场景。
  • 提供了明确的同步点,确保所有线程在继续执行之前达到同步。

缺点:

  • 栅栏同步可能导致线程的等待时间增加,影响性能。

适用范围:

  • 在线程块内需要同步操作的情况下,如某些计算依赖其他线程的结果。

示例 2: Atomic Operations(原子操作)

__global__ void kernel_with_atomic(int* data) {int threadId = threadIdx.x;// 原子增加共享变量atomicAdd(data, threadId);// 继续后续操作
}

优点:

  • 适用于需要对共享变量进行原子操作的情况,以避免竞态条件, 使用原子操作来确保在多个线程同时访问共享数据时的数据一致性,如原子加法、原子比较交换等。
  • 确保数据的一致性,无需额外的锁。

缺点:

  • 原子操作可能引入性能开销。

适用范围:

  • 当多个线程需要更新共享变量时,以避免竞态条件。

示例 3: Mutex(互斥锁)

__global__ void kernel_with_mutex(int* data, mutex_t* lock) {int threadId = threadIdx.x;// 加锁lock_mutex(lock);// 访问共享资源(*data) += threadId;// 解锁unlock_mutex(lock);// 继续后续操作
}

优点:

  • 适用于需要保护共享资源的情况,确保一次只有一个线程能够访问。
  • 提供明确的同步和互斥机制。

缺点:

  • 使用互斥锁可能会导致性能下降,因为锁可能引起线程阻塞。

适用范围:

  • 在需要保护共享资源、避免并发冲突的情况下。

示例 4: Semaphore(信号量)

__global__ void kernel_with_semaphore(int* data, semaphore_t* sem) {int threadId = threadIdx.x;// 等待信号量wait_semaphore(sem);// 访问共享资源(*data) += threadId;// 释放信号量release_semaphore(sem);// 继续后续操作
}

优点:

  • 适用于需要限制对有限资源的并发访问数量的情况。
  • 可以防止资源的过度使用。

缺点:

  • 错误的使用信号量可能导致死锁或资源争夺等问题。

适用范围:

  • 当需要限制对某些资源的并发访问数量时,如连接池或线程池等。

请注意,这些示例只是基本演示,实际应用中需要根据具体需求和GPU编程框架进行适当的修改和实现。在选择线程同步方法时,需要权衡其性能、复杂性以及适用范围,并根据具体情况进行调整。

数据共享方法:

  1. 共享内存: 在线程块内部使用共享内存来共享数据,这种内存可以在线程块内高效地进行读写,有助于减少对全局内存的访问。
__global__ void kernel_with_shared_memory(float* input, float* output) {extern __shared__ float shared_data[];int tid = threadIdx.x;shared_data[tid] = input[tid];  // 将数据从全局内存拷贝到共享内存__syncthreads();  // 等待所有线程完成数据拷贝// 在共享内存中进行数据操作// ...output[tid] = shared_data[tid];  // 将数据从共享内存拷贝回全局内存
}
  1. 线程束通信: 在某些GPU架构中,线程束内的线程可以通过特定的指令进行快速通信,可以用于线程级别的数据共享。

优化方法:

  1. 内存访问模式优化: 优化内存访问模式,尽量保证线程在访问内存时是连续的,以提高缓存命中率。例如,使用合并访问、空间局部性等方法。
__global__ void optimized_memory_access(float* input, float* output) {int tid = blockIdx.x * blockDim.x + threadIdx.x;// 每个线程处理多个数据,减少全局内存访问次数for (int i = tid; i < N; i += blockDim.x * gridDim.x) {output[i] = input[i] * 2.0f;  // 计算并写回结果}
}
  1. 循环展开: 对循环进行展开,将多次迭代的计算放在同一个循环中,以减少循环开销。
__global__ void loop_unrolling(float* input, float* output) {int tid = threadIdx.x;int idx = blockIdx.x * blockDim.x + tid;// 循环展开,每次处理多个数据for (int i = 0; i < 4; ++i) {output[idx + i * blockDim.x] = input[idx + i * blockDim.x] * 2.0f;}
}
  1. 数据复用: 尽量复用计算中的中间结果,避免重复计算,减少计算开销。
__global__ void data_reuse(float* input, float* output) {int tid = blockIdx.x * blockDim.x + threadIdx.x;float value = input[tid];float result = value * 2.0f;// 多次使用同一个中间结果for (int i = 0; i < 10; ++i) {result += value;}output[tid] = result;
}
# 数据精度优化 避免使用过高的精度
__global__ void data_precision(float* input, double* output) {int tid = blockIdx.x * blockDim.x + threadIdx.x;double value = static_cast<double>(input[tid]);  // 将数据转换为双精度output[tid] = value * 2.0;
}
  1. 向量化: 使用SIMD(单指令多数据)指令集,将多个数据元素一起处理,提高计算密集型任务的性能。

  2. 避免分支: 尽量避免在并行代码中使用分支,因为分支可能导致线程束内的线程执行不同的路径,降低并行性。

  3. 减少全局内存访问: 尽量减少对全局内存的访问,使用共享内存、常量内存等来存储常用数据。

  4. 编译器优化: 使用适当的编译器标志和优化选项,以便编译器能够生成更高效的机器码。

  5. 并行模式选择: 根据问题的特点,选择适合的并行模式,如数据并行、任务并行等。

总的来说,GPU并行计算的优化是一个综合考虑硬件特性、算法、数据布局等多个方面的任务。需要根据具体的问题和硬件架构进行调整和优化,以实现最佳的性能和效率。

6 cuda编程同步方法及其示例代码

在CUDA编程中,有几种常见的同步方法用于协调线程之间的执行顺序和数据一致性。以下是一些常用的CUDA编程同步方法及其示例代码:

1. __syncthreads() 这是在线程块内同步线程的最常见方法。它确保在调用该函数之前的所有线程都完成了各自的操作,然后才允许线程继续执行。

示例代码:

__global__ void kernel_with_syncthreads(float* data) {int tid = threadIdx.x;// 执行一些操作// 等待所有线程完成操作,然后继续__syncthreads();// 继续后续操作
}

2. atomicAdd() 这是一种原子操作,用于对全局内存中的共享变量执行原子增加操作。它可以避免多个线程同时更新共享变量时的竞态条件。 允许多个线程在无竞争的情况下对共享变量执行原子更新,以避免竞态条件

示例代码:

__global__ void kernel_with_atomic_add(int* data) {int tid = threadIdx.x;// 原子增加共享变量atomicAdd(data, tid);// 继续后续操作
}

3. 互斥锁(Mutex): 通过CUDA提供的mutex库,可以在线程块内使用互斥锁来实现临界区的保护,确保一次只有一个线程可以进入。

示例代码:

#include <cuda_runtime.h>
#include <device_functions.h>__global__ void kernel_with_mutex(int* data, int* mutex) {int tid = threadIdx.x;// 加锁while (atomicCAS(mutex, 0, 1) != 0) {// 等待锁被释放}// 访问共享资源(*data) += tid;// 解锁atomicExch(mutex, 0);// 继续后续操作
}

4. 共享内存(Shared Memory): 共享内存是在线程块内部的线程共享的内存空间,可以用于在线程之间传递数据,以及提高数据访问效率。

示例代码:

__global__ void kernel_with_shared_memory(float* input, float* output) {extern __shared__ float shared_data[];int tid = threadIdx.x;shared_data[tid] = input[tid];// 等待共享内存中的数据准备完成__syncthreads();// 在共享内存中进行数据操作// ...output[tid] = shared_data[tid];
}
  1. Semaphore(信号量):

信号量是一种同步机制,可以用于控制多个线程对有限资源的访问。

示例代码:

__global__ void kernel_with_semaphore(int* data, semaphore_t* sem) {int tid = threadIdx.x;// 等待信号量wait_semaphore(sem);// 访问共享资源(*data) += tid;// 释放信号量release_semaphore(sem);
}
  1. Cooperative Groups(协作线程组):

协作线程组是CUDA 9及更高版本引入的概念,允许线程之间在更灵活的方式下进行同步。

示例代码:

#include <cooperative_groups.h>__global__ void kernel_with_cooperative_groups(float* input, float* output) {int tid = threadIdx.x;cooperative_groups::grid_group grid = cooperative_groups::this_grid();// 执行计算操作// 等待线程块内所有线程完成计算grid.sync();// 继续执行后续操作
}

这些同步方法可以帮助确保线程在执行计算时按预期的顺序进行,同时避免竞态条件和数据不一致性。选择合适的同步方法取决于具体的应用需求和情境。注意,错误的同步使用可能导致死锁、性能下降等问题,因此在实际编程中需要仔细设计和验证。

7 cuda11.4流并行相关

在CUDA编程中,**流(stream)是一种执行序列,可以用来表示在GPU上执行的一系列操作。**CUDA 11.4引入了新的流并行特性,使得在同一设备上可以并发执行多个流,从而进一步提高并行性和性能。以下是关于CUDA 11.4流并行相关的一些信息:

流(Stream):

流是一系列在GPU上执行的操作的序列。每个流内的操作按照添加到流中的顺序执行,但不同流之间的操作可以并行执行。CUDA 11.4引入了流优先级,允许开发者通过显式设置流的优先级来影响操作的调度顺序。

流并行性:

CUDA 11.4引入了新的流并行性特性,允许开发者在同一设备上并发执行多个流。这些流可以在不同的核心、SM(流处理器)上并行执行,从而提高了GPU的利用率和性能。
流并行是CUDA编程中的一个重要概念,它允许多个独立的计算流在GPU上并行执行,从而提高了并行性和性能。流并行可以用于同时执行多个独立的计算任务,从而更好地利用GPU资源。以下是有关流并行的一些进一步信息:

流(Stream):

在CUDA中,流是一系列GPU操作的序列,这些操作可以在设备上异步执行。每个流中的操作按照添加到流中的顺序执行,但不同流之间的操作可以并行执行。流的引入使得不同的计算任务可以同时执行,从而提高了整体的并行性。

流并行性的好处:

  • 资源利用率: 通过在同一设备上同时执行多个流,可以更好地利用GPU的计算资源,从而提高系统的资源利用率。
  • 任务隔离: 不同的流可以在不同的计算任务之间保持隔离,避免相互干扰。这对于一些需要并行执行的独立任务非常有用。
  • 响应性: 通过将一些计算任务放入不同的流中执行,可以使得GPU能够在执行计算的同时响应其他任务,提高系统的响应性。

流的创建和管理:

在CUDA中,可以使用cudaStreamCreate()创建流,使用cudaStreamDestroy()销毁流。可以使用cudaStreamS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/105210.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity 之`Physics.Raycast()`方法,射线检测

文章目录 总述参数解释形参前两个变量可以用Ray 来代替 返回值 总述 当你在Unity中使用Physics.Raycast()方法时&#xff0c;你实际上是在进行一种射线检测&#xff0c;以查看一条射线是否与场景中的碰撞体相交。这可以用来实现很多不同的功能&#xff0c;如点击选择物体、射击…

【Flutter】Flutter 使用 device_info_plus 获取设备的制造商、型号等信息

【Flutter】Flutter 使用 device_info_plus 获取设备的制造商、型号等信息 文章目录 一、前言二、安装和基本使用三、实际业务中的用法四、完整示例五、总结 一、前言 在这篇博客中&#xff0c;我将为你介绍一个非常实用的 Flutter 插件&#xff1a;device_info_plus。这个插件…

ESP32应用教程(1)— VL53L3CX距离传感器

文章目录 前言 1 产品概述 1.1 技术规格 1.2 系统框图 1.3 设备引脚分布 2 工作流程 2.1 系统功能描述 2.2 状态机描述 2.3 测距模式说明 3 控制接口 3.1 设备地址 3.2 IC写1个字节数据 3.3 IC读1个字节数据 3.4 IC写多个字节数据 3.5 IC读多个字节数据 3.6 IC…

本地编译angular提示内存溢出

本地遇到编译angular时&#xff0c;报如下错误&#xff1a; FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory 两种解决办法&#xff0c;具体如下&#xff1a; 设置环境变量&#xff0c;见图&#xff1a; 直接在…

Wireshark数据抓包分析之互联网控制报文协议_ICMP

一、实验目的: 通过使用wireshark抓取的ICMP数据包对这个ICMP控制报文进行分析 二、预备知识&#xff1a; 1.ICMP协议概述&#xff1a;ICMP是Internet Control Message Protocol的缩写&#xff0c;即互联网控制报文协议。它是TCP/IP协议族的一个子协议&#xff0c;用于IP主机、…

抖音web主页视频爬虫

需要抖音主页视频爬虫源码的发私信&#xff0c;小偿即可获得长期有效的采集程序。 比构造 s_v_web_id 验证滑块的方法更快&#xff0c;更稳定。

用pytorch实现Resnet

ResNet&#xff08;Residual Network&#xff09;是一种深度卷积神经网络架构&#xff0c;由Kaiming He等人于2015年提出。它在计算机视觉领域引起了革命性的变革&#xff0c;使得训练更深的神经网络成为可能&#xff0c;超越了传统网络架构的限制。 ResNet的主要创新在于…

LeetCode——二叉树篇(九)

刷题顺序及思路来源于代码随想录&#xff0c;网站地址&#xff1a;https://programmercarl.com 目录 669. 修剪二叉搜索树 108. 将有序数组转换为二叉搜索树 538. 把二叉搜索树转换为累加树 669. 修剪二叉搜索树 给你二叉搜索树的根节点 root &#xff0c;同时给定最小边界…

前端需要理解的数据治理与异常监控知识

1 数据治理 前端数据治理的重要指标是准确性和数据&#xff0c;一个数据对象包括数据值和其他元数据。 2 数据上报方式 2.1 Image 通过将采集的数据拼接在图片请求的后面&#xff0c;向服务端请求一个 1*1 px 大小的图片&#xff08;gif&#xff09;实现的&#xff0c;设置…

python3高级编程

文章目录 1. Python网络编程1.1 服务器端代码(Server)1.2 客户端代码(Client) 2. 多线程2.1 线程模块2.2 使用 threading 模块创建线程2.3 线程同步2.4 线程优先级队列&#xff08; Queue&#xff09; 3. 日期和时间4. SMTP发送邮件4.1 使用Python发送HTML格式的邮件4.2 Python…

WPF基础入门-Class1-布局

WPF基础入门 Class1&#xff1a;布局 1、Grid行列结构 *:按比例设置宽高&#xff0c;eg:0.6* <Grid><!--两行两列--><Grid.RowDefinitions><RowDefinition Height"*"></RowDefinition><RowDefinition></RowDefinition>…

【福利】Google Cloud Next ’23 精彩待发,Cloud Ace 作为联合赞助商提前发福利~

【Cloud Ace 是 Google Cloud 全球战略合作伙伴&#xff0c;在亚太地区、欧洲、南北美洲和非洲拥有二十多个办公室。Cloud Ace 在谷歌专业领域认证及专业知识目前排名全球第一位&#xff0c;并连续多次获得 Google Cloud 各类奖项。作为谷歌云托管服务商&#xff0c;我们提供谷…

什么是算法评价指标

在我们建立一个学习算法时&#xff0c;或者说训练一个模型时&#xff0c;我们总是希望最大化某一个给定的评价指标&#xff08;比如说准确度Acc&#xff09;&#xff0c;但算法在学习过程中又会尝试优化某一个损失函数&#xff08;比如说均方差MSE或者交叉熵Cross-entropy&…

html实现页面切换、顶部标签栏(可删、可切换,点击左侧超链接出现标签栏)

一、在一个页面&#xff08;不跨页面&#xff09; 效果&#xff1a; 代码 <!DOCTYPE html> <html><head><style>/* 设置标签页外层容器样式 */.tab-container {width: 100%;background-color: #f1f1f1;overflow: hidden;}/* 设置标签页选项卡的样式…

基于CMSIS的外设/设备驱动框架

先附上一张CMSIS的结构图 对于基于CMSIS的设备驱动框架开发涉及的文件有CMSIS目录下的&#xff0c;对外设驱动做了统一的驱动模型封装 /** \brief Access structure of the SPI Driver. */ typedef struct _ARM_DRIVER_SPI {ARM_DRIVER_VERSION (*GetVersion) (void)…

理解机制,再探单元工厂的实现原理

最近有点忙,好久没更新文章了,今天继续再研究一下单元工厂的实现机制。为什么我们要这么重视这一块的内容呢?因为用计算机的目的是为了处理大量数据,如果数据量不大,大多情况下用纸就好了,专门用个计算设备的便捷性也就体现不出来。而大量数据的呈现方式的多样性精髓就在…

成集云 | 抖店连接器客户静默下单催付数据同步钉钉 | 解决方案

源系统成集云目标系统 方案介绍 随着各品牌全渠道铺货&#xff0c;主播在平台上直播时客户下了订单后不能及时付款&#xff0c;第一时间客户收不到提醒&#xff0c;不仅造成了客户付款率下降&#xff0c;更大量消耗了企业的人力成本和经济。而成集云与钉钉深度合作&#xff0…

Android App的设计规范

Android App 设计规范是为开发者和设计师提供的一系列准则和建议&#xff0c;以确保应用在 Android 设备上的外观、交互和用户体验保持一致。以下是一些常见的 Android App 设计规范要点&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开…

晨控CK-GW208与三菱L系列PLC以TCP通讯手册

晨控CK-GW208是一款支持标准工业以太网协议的IO-LINK主站网关&#xff0c;方便用户快速便捷的集成到 PLC 等控制系统中。 CK-GW208主站网关集成 8 路 IO-LINK 通信端口&#xff0c;采用即插即用模式&#xff0c;无需繁琐的配置&#xff0c;减轻现场安装调试的工作量。为了满足…

前端需要理解的设计模式知识

设计模式的原则&#xff1a;1. 单一职责原则&#xff08;一个对象或方法只做一件事&#xff09; 2. 最少知识原则&#xff08;尽可能少的实体或对象间互相作用&#xff09; 3. 开放封闭原则&#xff08;软件实体具有可扩展且不可修改&#xff09; 设计模式是通过代码设计经验总…