一些零散的和编译相关的语法/flash-attn涉及语法扫盲

  1. #pragma once:一个编译指令,用于防止头文件被多次包含。当编译器遇到#pragma once时,它会确保该头文件在一个编译单元(一个.cpp文件及其包含的所有文件)中只会被包含一次。即使该文件被间接包含多次,编译器也会忽略多余的包含操作,从而加快编译速度并减少编译错误
    • #pragma once需要编译器追踪文件路径以确保文件只被包含一次,这增加了实现的复杂度
    • C和C++以及它们的标准早期并未包括#pragma once这种指令,所以为了保持与旧版代码的兼容性,和确保跨不同平台和编译器的代码能正常运行,编译器通常不会默认强制使用#pragma once
  2. __VA_ARGS__:在宏定义中,是用来表示可变参数的预处理器标记。
    • 调用BOOL_SWITCH时传递了一个lambda表达式:BOOL_SWITCH(flag, BoolConst, [&] { return some_function<BoolConst>(); });
    • BOOL_SWITCH定义如下:其中__VA_ARGS__就代表宏的可变参数,__VA_ARGS__()表示将这些可变参数当作一个可调用对象(通常是一个函数或lambda表达式)来调用
      #define BOOL_SWITCH(COND, CONST_NAME, ...)      \[&] {                                         \if (COND) {                                 \constexpr static bool CONST_NAME = true;  \return __VA_ARGS__();                     \} else {                                    \constexpr static bool CONST_NAME = false; \return __VA_ARGS__();                     \}                                           \}()
      
    • 则调用BOOL_SWITCH后展开后的代码就是:这里__VA_ARGS__()就代表了[&] { return some_function<BoolConst>(); }这个lambda函数的调用,()的作用就是让__VA_ARGS__所代表的lambda函数立即执行
      [&] {if (flag) {constexpr static bool BoolConst = true;return [&] { return some_function<BoolConst>(); }();} else {constexpr static bool BoolConst = false;return [&] { return some_function<BoolConst>(); }();}
      }()
      
  3. 函数模板:允许用户编写可以处理多种数据类型的通用函数,而无需为每种类型都分别编写函数实现。函数模板的基本定义形式如下:
    template<typename T>
    void function_name(T param){// 函数体
    }
    
    • typename T表示T是一个类型参数,可以用它来代表函数中使用的任何数据类型
    • 当调用一个函数模板时,编译器根据用户提供的参数类型自动推断出模板参数,并生成一个具体的函数实例。即,模版是一种编译时的机制,它不执行具体的代码,直到用户实际调用它时才会生成具体的代码
  4. 在flash-attention的flash_fwd_kernel.h文件中的combine_attn_seqk_parallel函数解释中,G老师提到了“代码中使用了大量的模板和元编程技术,使得函数能够灵活应对不同的配置参数”
    • 模板:是一种让程序可以编写通用代码的机制。用户可以在编写模板时不指定具体类型,而是在使用模板时指定,这样函数代码就可以处理多种类型
    • 元编程:允许程序在编译时而不是运行时生成或修改代码,这通常通过使用模板来实现,使得代码能够在编译时进行类型推导和其他计算。元编程是一种“编写程序来生成程序”的方法,元编程使得程序能够在编译时或运行时检查、生成或修改其他代码
      • static_assert是C++中一种元编程技术,用于在编译时检查条件。下面这行代码检查如果kMaxSplits大于128,编译器就会在编译阶段报错
        static_assert(kMaxSplits <= 128, "kMaxSplits must be <= 128");
        
      • 如下面是一个简单的使用bash脚本编写的元程序示例,同时也是一个生成式编程的例子
        #!/bin/bash
        # metaprogram
        echo '#!/bin/bash' >program
        for ((I=1; I<=992; I++)) doecho "echo $I" >>program
        done
        chmod +x program
        
    • 是什么:是在C和C++中由预处理器处理的指令。通过#define关键字定义,允许为代码中的表达式、常量或代码片段取别名,甚至定义具有参数的宏。宏会在预处理阶段展开,在编译前会被预处理器替换为其定义的内容
    • 举例:下面的SQUARE(x)是一个宏函数,接收参数x并将其替换为(x)*(x)
      #define SQUARE(x) ((x) * (x))
      
    • 条件编译:可使用预处理器的条件控制语句(如#ifdefifndef),将宏用于条件编译
      #ifdef DEBUG
      printf("Debug mode is enabled\n");
      #endif 
      
    • 缺点:
      • 无类型检查:宏在预处理阶段展开,而非编译时,所以编译器无法对宏参数进行类型检查。如上面的SQUARE("test")传入一个字符串,但预处理器仍会将“test”替换到宏定义中,导致无法预测的行为
      • 调试困难:由于宏是在预处理阶段替换的,调试时代码看起来会和原始代码不同,可能让问题更难追踪
    • 宏和const的区别
      • const是编译时常量,且具有类型信息。编译器可在编译阶段进行类型检查以确保传入的值类型正确
      • const变量可在调试时查看其值,而宏常量会在预处理阶段被替换,调试工具很难捕捉它们
      • const遵循C++的作用域规则,只在声明的作用域内可见,而宏是全局的。若多个文件中定义相同名称的宏,会导致冲突和错误
        • 常见作用域:【1】局部作用域(在函数、代码块等局部范围内声明的变量,只能在该范围内访问)、【2】类作用域(类的成员变量或函数,只能在该类的对象和成员函数中使用)、【3】命名空间作用域(在命名空间内声明的变量或函数,只能在同一命名空间或通过作用域解析符访问)
        • 全局:全局作用域中的标识符可在整个程序中访问。宏定义(#define)是一种预处理器指令,作用类似于全局替换。宏一旦定义,就会在整个源文件中全局替换
        • 原则上可以在b.cpp中include a.cpp来访问a.cpp中定义的宏,但这并不是推荐的做法(被include的.cpp文件可能会被编译多次,导致符号重复定义问题从而导致编译错误)。对于这种跨源文件使用的宏,一般会将宏定义放入一个共享的头文件(.h)中,并在各个源文件中include这个头文件
    • 下面是flash-attention中用宏进行模板化的CUDA内核函数声明的操作例子,感觉很新颖很灵活,用户可通过这种方式在不同的配置或类型下灵活定义内核函数,而不需要手动写大量重复的代码
      // Use a macro to clean up kernel definitions
      #define DEFINE_FLASH_FORWARD_KERNEL(kernelName, ...) \  // 这行代码定义了一个宏DEFINE_FLASH_FORWARD_KERNEL,它接受两个参数kernelName(内核函数名字)和__VA_ARGS__(这是个可变参数宏,允许传入不定数量的参数)
      template<typename Kernel_traits, __VA_ARGS__> \  // 这行代码使用模板的语法,Kernel_traits常用于在CUDA中描述内核函数的特性(如线程布局、块布局等)
      __global__ void kernelName(KERNEL_PARAM_MODIFIER const Flash_fwd_params params)  // 这行代码声明了一个CUDA内核函数
      
      • 使用:
      // 使用宏
      DEFINE_FLASH_FORWARD_KERNEL(MyKernel, typename T) // 上面的宏展开后会变成:
      template<typename Kernel_traits, __VA_ARGS__>
      __global__ void MyKernel(KERNEL_PARAM_MODIFIER const Flash_fwd_params params) 
      // 这就定义了一个名为MyKernel的CUDA内核函数,它接受模板参数Kernel_traits和T,并可以在调用时传入Flash_fwd_params结构体
      
  5. 编译和调试
    • 编译是把源代码编程二进制obj的过程(链接后成为可执行文件),会检查有无简单的语法问题(要不然编译器不认识)
    • 调试的话,先要提前生成二进制代码,所以需要先进行编译和链接,然后到断点后,调试器会帮你加int3中断,就停住了。
    • 调试是在程序运行后,根据运行状况来检查错误,是对已经存在的二进制文件进行调试,目的在于查找性能瓶颈和跟踪软件bug;编译器是在程序没有运行的时候帮你检查错误,目的在于把代码编译(再汇编,这里不太严谨,具体可看这篇)成二进制文件,即可执行的程序
      请添加图片描述
    • vscode每次调试都要重新编译项目,这是因为在项目运行时更改了系统时间,导致vs编译日志认为文件需要重新编译。解决办法见这篇
  6. pybind11库:
    • 是什么:是一个轻量级的头文件库,用于在C++和python之间创建绑定。它允许用户将C++函数、类等轻松暴露给python,使得python可以调用C++代码,而不用编写繁琐的python C API代码。
    • 使用说明:在CPP文件中使用pybind11将C++函数绑定为python函数;然后在py文件中import刚才绑定的库,并使用
    • 示例:
      • C++文件:
      #include <pybind11/pybind11.h>int add(int i, int j){return i+j;
      }PYBIND11_MODULE(example, m){m.def("add", &add, "A function which adds two numbers");
      }
      
      • python中使用:
      import example
      result = example.add(2, 3)
      print(result)
      
  7. 内联函数inline
    • 是什么:在编译阶段,编译器会尝试将内联函数的调用语句替换成函数体本身,从而避免实际的函数调用(参数传递、函数跳转、函数返回),如下例编译器会将square(5)替换成5*5,这样就避免了函数调用的过程
      inline int square(int x) {return x * x;
      }int main() {int result = square(5);
      }
      
    • 使用场景:内联函数通常用于一些短小、性能敏感、执行频繁的函数,以避免重复进行函数调用的开销。模板函数通常会被定义为内联函数,它们的实例化会在编译期展开
    • 代码膨胀:内联函数会导致代码膨胀,因为函数体被复制到被一个调用点,这会增加可执行文件的体积
  8. extern__shared__关键字
    • 在C/C++中,extern关键字用来声明一个全局变量或函数,表示这个变量或函数是在其他文件或作用域中定义的
    • 在CUDA中,当extern__shared__关键字一起使用时,表示动态分配的共享内存,所以shared memory的大小是在运行时确定的而不是编译时(shared memory不是固定的?)。在调用CUDA内核时,可通过第三个参数<<<gridDim, blockDim, sharedMemSize>>>(...);来指定共享内存的大小。如下的代码,在调用内核时制定了共享内存大小,然后smem_[]就会在运行时变成大小为1024字节的数组
      __gloval__ void myKernel(...){extern __shared__ char smem_[];  // 声明动态shared memory// 使用shared memory
      }size_t sharedMemSize = 1024;
      myKernel<<<gridDim, blockDim, sharedMemSize>>>(...);
      
    • __shared__关键字在CUDA中表示共享内存,供同一block(=SM,含多个warp)内的所有线程共享访问
  9. constexpr关键字:
    是C++11引入的关键字,表示常量表达式(constant expression),作用是让变量或函数的值在编译时就能计算完成并确定其值,而不是在运行时。在性能敏感的代码中,constexpr是一个非常有效的工具
    • constexprconst的区别:前者要求值在编译时计算得出;后者表示变量一旦初始化后就不能改变,但它不一定在编译时计算
  10. using语法
    using是C++中的一种类型别名声明语法,通常用于为复杂的类型创建别名,使代码更加简洁和可读。用法就是:using 新类型名 = 原类型名;。如using Element = elem_type;的作用就是为elem_type创建一个别名,这个新的别名叫做Element。使用了这个using后,代码中的Element就相当于elem_type

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443252.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用于图像识别的判别图正则化技术

本文所涉及所有资源均在 传知代码平台 可获取。 目录 论文概述 图正则化技术及其优点 算法流程 在标准BLS中嵌入判别图正则化的方法 模型整体架构 代码复现 图拉普拉斯矩阵的构建——generateLmatrix.py文件 复现模型整体架构——bls2deep_graph.py文件 顶层文件——GBLS.py文件…

Error_code: 1032; handler error HA_ERR_KEY_NOT_FOUND

Case1 : 表没有主键 show create table xxx desc table Case2 : 表是MEMORY表 show create table xxx desc table https://dev.mysql.com/doc/mysql-replication-excerpt/5.7/en/replication-features-memory.html

KDTS 实现MySQL至KingbaseES迁移实践

此文章以linux环境实践&#xff0c;KingbaseES一下使用KES代替。 KDTS KDTS工具安装KES时会一起安装&#xff0c;一般存在目录为&#xff1a;ClientTools目录下guitools文件夹中 启动 进入KDTS-WEB下bin目录&#xff0c;执行sh文件 cd /opt/Kingbase/ES/V8/ClientTools/guit…

70.【C语言】动态内存管理(重点)(3)

本文为数据结构打下基础 备注:数据结构需要掌握指针,结构体和动态内存管理 承接69.【C语言】动态内存管理(重点)(2)文章 目录 4.calloc函数 cplusplus网的翻译 提炼要点 使用 5.recalloc函数 使用说明 作用 调整内存空间的几种情况 1.原有空间之后有足够大的空间 …

自动猫砂盆是养猫新型智商税吗?测评2024年热门款智能猫砂盆分享

铲屎官们只要一察觉到猫主子拉屎&#xff0c;就要马上去铲掉&#xff0c;这不仅是为了猫砂盆中其他干净的猫砂&#xff0c;更是为了防止猫屎残留发臭&#xff0c;特别是便便这种东西&#xff0c;一旦放久了就很招虫子&#xff0c;家里出现这些虫子又要大扫除消杀&#xff0c;特…

使用Python接口自动化测试post请求和get请求,获取请求返回值

引言 我们在做python接口自动化测试时&#xff0c;接口的请求方法有get,post等&#xff1b;get和post请求传参&#xff0c;和获取接口响应数据的方法&#xff1b; 请求接口为Post时&#xff0c;传参方法 我们在使用python中requests库做接口测试时&#xff0c;在做post接口测试…

论文精读:基于概率教师学习的跨域自适应目标检测(ICML2022)

原文标题&#xff1a;Learning Domain Adaptive Object Detection with Probabilistic Teacher 中文标题&#xff1a;基于概率教师学习的域自适应目标检测 代码地址&#xff1a; GitHub - hikvision-research/ProbabilisticTeacher: An official implementation of ICML 2022 p…

计算机网络——ftp

在网络通信中&#xff0c;控制连接和数据连接是两种不同类型的连接&#xff0c;它们各自具有特定的功能和用途。 一、控制连接 定义与功能&#xff1a; 控制连接主要用于在通信双方之间传输控制信息&#xff0c;以建立、维护和终止数据连接。它负责协调和管理数据传输的过程&am…

图像数据增强库综述:10个强大图像增强工具对比与分析

在深度学习和计算机视觉领域&#xff0c;数据增强已成为提高模型性能和泛化能力的关键技术。本文旨在全面介绍当前广泛使用的图像数据增强库&#xff0c;分析其特点和适用场景&#xff0c;以辅助研究人员和开发者选择最适合其需求的工具。 数据增强的重要性 数据增强在深度学习…

架构设计笔记-7-系统架构设计基础知识

目录 知识要点 单选 案例分析 1.质量属性 / 管道过滤器 / 数据仓库风格 2.面向对象风格 / 控制环路风格 3.软件架构风格 / 架构风格选择 4.体系结构方案对比 5.面向对象风格 / 基于规则风格 6.解释器风格 / 管道过滤器风格 7.面向对象风格 / 解释器风格 8.软件架构复…

直击工博会 | 万物集与四大供应商强强联手,开启战略合作新纪元!

9月24日&#xff0c;第24届中国国际工业博览会在国家会展中心&#xff08;上海&#xff09;开幕。本届工博会设置数控机床与金属加工展、工业自动化展、节能与工业配套展、新一代信息技术与应用展等9大专业主题展&#xff0c;吸引28个国家和地区2600家企业参展。万物集作为参展…

Canal 扩展篇(阿里开源用于数据同步备份,监控表和表字段(日志))

1.Canal介绍 Canal把自己伪装成从数据库&#xff0c;获取mysql主数据库的日志&#xff08;binlog&#xff09;信息&#xff0c;所以要想使用canal就得先开启数据库日志 https://github.com/alibaba/canal Canal 主要用途是基于 MySQL 数据库增量日志解析&#xff0c;提供增量…

影刀RPA在智能客服上的运用

随着人工智能技术的不断发展&#xff0c;智能客服系统逐渐成为企业提升服务效率和质量的重要工具。影刀RPA&#xff08;Robotic Process Automation&#xff0c;机器人流程自动化&#xff09;作为一种模拟人类用户行为的技术&#xff0c;通过自动化执行重复性高、规则明确的任务…

1. Oracle 安装报错——环境变量过长

文章目录 1. 报错详细信息2. 解决方案2.1 方案一&#xff1a;修改配置文件cvu_prereq.xml2.2 方案二&#xff1a;修改环境变量配置 1. 报错详细信息 安装 Oracle 过程中&#xff0c;在执行 “先决条件检查” 时报错&#xff1a; 报错内容&#xff1a; This test checks wheth…

163页PPT罗兰贝格品牌战略升级:华为案例启示与电器集团转型之路

罗兰贝格作为一家全球顶级的战略管理咨询公司&#xff0c;其品牌战略升级理念在多个行业中得到了广泛应用。以下将以华为案例为启示&#xff0c;探讨电器集团的转型之路&#xff0c;并融入罗兰贝格品牌战略升级的思想。 一、华为案例的启示 华为与罗兰贝格联合撰写的《数据存…

MySQL【知识改变命运】03

表的基本操作 1&#xff1a;查看所有表2&#xff1a;创建表3&#xff1a;查看表结构4&#xff1a;修改表5&#xff1a; 删除表 前言&#xff1a;我们先了解一个知识&#xff1a; MySQL安装后会有MySQL服务——管理多个库——每个库管理多个表——每个表管理多行数据——数据行由…

鲁班到家上门安装维修系统源码开发之结构功能解析

随着物联网和智能家居的普及&#xff0c;消费者对便捷、高效的生活方式需求日益增加。鲁班到家作为一款专注于家居安装维修服务的平台&#xff0c;凭借其多渠道预约、智能派单、在线支付与费用明细透明等优势&#xff0c;在市场上赢得了广泛认可。本文将详细解析鲁班到家上门安…

【Unity踩坑】UWP项目安装包认证失败

问题&#xff1a;在Unity导出的VS项目&#xff0c;打包生成appx后&#xff0c;进行应用认证时失败。提示部分API不支持。 API __C_specific_handler in kernel32.dll is not supported for this application type. UnityPlayer.dll calls this API.API DXGIGetDebugInterface1 …

操作系统 | 学习笔记 | 王道 | 4.3 文件系统

4.3 文件系统 4.3.1 文件系统结构 文件系统(File system)提供高效和便捷的磁盘访问&#xff0c;以便允许存储、定位、提取数据。 用一个例子来辅助记忆文件系统的层次结构&#xff1a; 假设某用户请求删除文件"D:/工作目录/学生信息.xIsx"的最后100条记录。 用户需…

MongoDB集群模式详解及应用实战

目录 本节课内容&#xff1a; 集群搭建 1.创建3个目录&#xff1a; 2.编辑配置文件 ​编辑 3.启动&#xff1a; 4.看看&#xff1a; 5.另外&#xff0c;两个如上1&#xff0c;2&#xff0c;3步骤操作 &#xff0c;但是日志目录&#xff0c;端口什么的需要改一下即可。 …