flash attention的CUDA编程和二维线程块实现softmax

flash attention的CUDA编程和二维线程块实现softmax

news/2024/12/23 19:07:17/文章来源:https://blog.csdn.net/forrestguang/article/details/133071805

本文参考了链接添加链接描述

flash attention介绍

flash attention的介绍可以参考论文：FlashAttention: Fast and Memory-Efficient Exact Attention
with IO-Awareness，具体的数学公式参考下面这个图片：其中注意关于矩阵S有两个维度，softmax的操作维度是dim=1，用pytorch表示就是torch.softmax(S, dim=1)
在这里插入图片描述
对于flash attention来说，里面有两次矩阵乘法，对于这样的二维数组矩阵乘法，一般来说都会考虑使用二维线程块，但是我们之前实现的softmax都是以一维线程块来处理，其中专门用到了一个cub库的函数BlockReduce，经过本人测试，发现这个函数只能针对一维线程块做线程块内部的规约，不能用于二维线程块内部针对某个维度规约，因此在实现flash attention之前，我们需要编写一个二维线程块实现softmax的算法，其中注意BLOCK_DIM_x和BLOCK_DIM_y都必须要选取2的幂次方。

二维线程块实现softmax

之前我们实现一维线程块处理softmax的时候，参考链接添加链接描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/137118.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

FireFly PowerBASIC RAD编程，调用PowerBASIC COM对象

FireFly PowerBASIC RAD编程，调用PowerBASIC COM对象

一、序言初步看了看PowerBASIC编程，很类似用VC注册窗体后调用回调函数，先是一个Dialog new，然后添加组件 Control add ......， 然后在处理 Windows MSG和发给组件的消息，这种编程方式和早期DOS 25x80屏幕上编程一样&…

阅读更多...

$1千听歌猜歌名疯狂猜歌ACCESS\EXCEL数据库$

1千听歌猜歌名疯狂猜歌ACCESS\EXCEL数据库

就是从今年开始，各类的“猜”游戏开始火爆，先是猜图，比如看图猜明星、看图猜成语、看图猜电影、看图猜电视剧、看图猜背景、看图猜游戏、看图猜影视人物、看图猜景点等。然后又开始猜音频，猜音频最多的是歌。甚至现在的《一站到底…

阅读更多...

Python 数据分析学习路线

Python 数据分析学习路线

Python 数据分析学习路线第一阶段：Python语言基础第二阶段：数据采集和持久化第三阶段：数据分析第四阶段：数据挖掘与机器学习书籍介绍参与方式第一阶段：Python语言基础在学习数据分析之前，首先需要掌握P…

阅读更多...

探究Nginx应用场景

探究Nginx应用场景

1 静态资源 Nginx是一个流行的Web服务器和反向代理服务器，它可以用于托管静态资源。下面是一个简单的案例，展示了如何使用Nginx来提供静态资源。假设你有一个名为example.com的域名，并且你希望使用Nginx来托管位于/var/www/html目录下的静…

阅读更多...

知名IT网站博客园陷入绝境

知名IT网站博客园陷入绝境

我是卢松松，点点上面的头像，欢迎关注我哦！ 博客园陷入生死存亡的绝境。 5月份知名IT开发者网站发布文章称“博客园网站遇到困难了：寻求捐助”，并开通了捐助渠道。4个月过去了，好像效果并不明显&#xff…

阅读更多...

毕业设计|基于stm32单片机的app视频遥控抽水灭火小车设计

毕业设计|基于stm32单片机的app视频遥控抽水灭火小车设计

基于stm32单片机的app视频遥控抽水灭火水泵小车设计 1、项目简介1.1 系统构成1.2 系统功能 2、部分电路设计2.1 L298N电机驱动电路设计2.2 继电器控制电路设计 3、部分代码展示3.1 小车控制代码3.1 水泵控制代码 4 演示视频及代码资料获取 1、项目简介视频简介中包含资料http…

阅读更多...

iOS 17中的Safari配置文件改变了游戏规则，那么如何设置呢

iOS 17中的Safari配置文件改变了游戏规则，那么如何设置呢

Safari在iOS 17中最大的升级是浏览配置文件——能够在一个应用程序中创建单独的选项卡和书签组。这些也可以跟随你的iPad和Mac，但在本指南中，我们将向你展示如何使用运行iOS 17的iPhone。你可能有点困惑，为什么Safari中没有明显的位置可以添…

阅读更多...

TouchGFX之自定义控件

TouchGFX之自定义控件

在创建应用时，您可能需要TouchGFX中没有包含的控件。在创建应用时，您可能需要TouchGFX中没有包含的控件。但有时此法并不够用，当您需要全面控制帧缓冲时，您需要使用自定义控件法。 TouchGFX Designer目前不支持自定义控件的创建。…

阅读更多...

晚上弱光拍照不够清晰，学会这几招画面清晰效果好

晚上弱光拍照不够清晰，学会这几招画面清晰效果好

很多小伙伴喜欢夜晚拍摄，然而拍摄出来的照片经常画面偏暗甚至模糊不清，这是怎么回事？ 弱光环境是很多人都比较头疼的拍摄场合，由于光线弱曝光不好把控，并且还很容易出现细节性问题，想要将照片拍好就非常不…

阅读更多...

Cannot read properties of null bug解决方法

Cannot read properties of null bug解决方法

项目场景： vue3element plusts。问题描述本地运行没有任何错误，在生产环境中，当点击按钮，展示el-dialog时第一次正常，关闭时报错原因分析： 定位到el-dialog组件，最初认为是dialog中table依…

阅读更多...

IPO解读丨Arm破解市场质疑的答案，仍在AI中？

IPO解读丨Arm破解市场质疑的答案，仍在AI中？

时隔7年，移动设备芯片领域霸主Arm重回二级市场。IPO进程的推进，让这家全球芯片行业的基石公司，不得不面对来自市场的全方位的密集审视。而从股价来看，投资者对于Arm的态度始终处于摇摆中，从上市首日股价大涨25%&…

阅读更多...

黑马JVM总结（七）

黑马JVM总结（七）

（1）StringTable_编译器优化 “a”“b”对应#4：是去常量池中找ab的这个符号 astore 5：是把这个存入编号为5的局部变量 “ab”对应的指令 #4，跟“a”“b”对应#4下面弄是一样的在执行s3“ab”这行个代码时&#xf…

阅读更多...

全网最详细的自动化测试（Jenkins 篇）

全网最详细的自动化测试（Jenkins 篇）

学习 Jenkins 自动化测试的系列文章 Robot Framework 概念Robot Framework 安装Pycharm Robot Framework 环境搭建Robot Framework 介绍Jenkins 自动化测试 1. Robot Framework 概念 Robot Framework是一个基于Python的，可扩展的关键字驱动的自动化测试框架。 …

阅读更多...

Shiro 框架基本使用

Shiro 框架基本使用

文章目录 Shiro框架介绍Shiro 基本使用SimpleAccountRealmIniRealmJdbcRealmCustomRealm（自定义Realm） Shiro框架介绍 Apache Shiro是一个强大且易用的Java安全框架，它执行身份验证、授权、密码和会话管理。Shiro框架通过其三个核心组件&…

阅读更多...

微服务是个坏主意吗？

微服务是个坏主意吗？

曾几何时，我记得我的手指疯狂地敲打键盘，与庞大而杂乱的代码库搏斗。那是巨石的时代，代码就像古老的城堡一样，由一块块石头砌成一个令人印象深刻的庞然大物。几年过去了，时代变了。开发人员口中的流行语变成了“微服…

阅读更多...

Eclipse如何打开debug变量窗口

Eclipse如何打开debug变量窗口

今天笔者在使用Eclipse调试的时候，发现没有变量（Variables）监视窗口，真是头痛得很，最后摸索出一套显示变量窗口的操作如下： 点击other，找到Variables并点击最后调试代码，调试后如图…

阅读更多...

【小知识送书2】从不了解用户画像，到用画像数据赋能业务看这一本书就够了丨《用户画像：平台构建与业务实践》

【小知识送书2】从不了解用户画像，到用画像数据赋能业务看这一本书就够了丨《用户画像：平台构建与业务实践》

⭐简单说两句⭐ 作者：后端小知识 CSDN个人主页：后端小知识 🔎GZH：后端小知识 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 简单说两句 🎁本次送书1~3本取决于阅读量，阅…

阅读更多...

springboot整合aop，实现日志操作

springboot整合aop，实现日志操作

前言： 整合之前，我们要明白aop是什么，为什么要用aop，aop能帮我们做什么。答：AOP是面向切面编程（Aspect-Oriented Programming）的简称，它是一种编程思想，旨在在面向对象…

阅读更多...

虹科方案 | LIN/CAN总线汽车零部件测试方案

虹科方案 | LIN/CAN总线汽车零部件测试方案

文章目录摘要一、汽车零部件测试的重要性？二、虹科的测试仿真工具如何在汽车零部件测试展露头角？三、应用场景**应用场景1：方向盘开关的功能测试****应用场景2：各类型电机的控制测试****应用场景3：RGB氛围灯的功能测试…

阅读更多...

win系统环境搭建（六）——Windows安装nginx

win系统环境搭建（六）——Windows安装nginx

windows环境搭建专栏🔗点击跳转 win系统环境搭建（六）——Windows安装nginx 本系列windows环境搭建开始讲解如何给win系统搭建环境，本人所用系统是腾讯云服务器的Windows Server 2022，你可以理解成就是你用的windows10…

阅读更多...

最新文章

推荐文章