transformer稀疏注意力机制的发展

2017年谷歌发表史诗级的论文Attention is All you need提出Transformer,一种全新的神经网络。
存在一个问题训练的时候每个字都要训练,每增加一个token,算力需求是平方的往上翻的,输入10000个token,苏姚计算10000*10000=1亿次的注意力分数。

2020年openai发表了论文提出稀疏注意力机制,Long Sequences with Sparse Transformers
使用系数Transformer生成长序列。作者:Ilya Sutskever
提出俩个:
1、近邻关注
2、固定模式全局关注
openai在文本、图像和音频等多种数据类型上验证了稀疏注意力机制的有效性
原来处理1000个字要100万次,现在只需要10000次了。原来处理长文本时会存在内存爆炸,现在可以很好的规避。

2020年AI2发布Longformer,专注亿设计搞笑处理长文本序列任务。
这样transformer既可以查看近处的信息,又可以查看远处的信息。


2020年google推出了big bird:transformers for Longer Sequences。结构更加复杂的稀疏注意力机制。这样直接让transformer能够处理的序列增加8倍多。

2020年google发表了Rethinking Attention with Performers(Performers模型)
用数学的负责计算简化成简单计算。它本质上讲自注意力分解为低秩表示,利用核函数(如正交随机特征)来高效计算。

2022年斯坦福大学的团队推出了Flash Attention,与其研究看的范围,不如研究看的方式

Flash Attention2.0计算速度提升7倍以上,几乎不损失精度
 

 2024年上海科技大学和北京通用人工智能研究院的研究院们SparseK稀疏注意力机制
让AI学会取舍。

2025年deepseek发布了原生注意力机制Native Sparse Attention(NSA)
做了特别的硬件优化,充分利用GPU的张量和内存访问,NSA在处理长序列时实现了显著的加速效果。

 

 

稀疏化只为了在有限资源情况下处理长序列的高校和精确度计算。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28355.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不同类型光谱相机的技术差异比较

一、波段数量与连续性 ‌多光谱相机‌ 波段数:通常4-9个离散波段,光谱范围集中于400-1000nm‌。 数据特征:光谱呈阶梯状,无法连续覆盖,适用于中等精度需求场景(如植被分类)‌。 ‌高光谱相机…

Redis——缓存穿透、击穿、雪崩

缓存穿透 什么是缓存穿透 缓存穿透说简单点就是大量请求的 key 根本不存在于缓存中,导致请求直接到了数据库上,根本没有经过缓存这一层。举个例子:某个黑客故意制造我们缓存中不存在的 key 发起大量请求,导致大量请求落到数据库…

张岳教授:语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! AITIME 01 ICLR 2025预讲会特邀报告 AITIME 02 ICLR 2025预讲会西湖大学张岳老师实验室专场 01 AI生成文本的自动化检测 Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Ge…

javaweb自用笔记:Vue

Vue 什么是vue vue案例 1、引入vue.js文件 2、定义vue对象 3、定义vue接管的区域el 4、定义数据模型data 5、定义视图div 6、通过标签v-model来绑定数据模型 7、{{message}}直接将数据模型message展示出来 8、由于vue的双向数据绑定,当视图层标签input里的…

常见webshell工具的流量特征

1、蚁剑 1.1、蚁剑webshell静态特征 蚁剑中php使用assert、eval执行;asp只有eval执行;在jsp使用的是Java类加载(ClassLoader),同时会带有base64编码解码等字符特征。 1.2、蚁剑webshell动态特征 查看流量分析会发现…

C高级linux

#!/bin/bash# 提示用户输入成绩 echo "请输入一个成绩(0 - 100):" read score# 检查输入是否为有效的数字 if ! [[ $score ~ ^[0-9]$ ]]; thenecho "输入无效,请输入一个有效的数字。"exit 1 fi# 检查成绩是否…

牙齿缺陷分割数据集labelme格式2495张4类别

数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):2495 标注数量(json文件个数):2495 标注类别数:4 标注类别名称:["Tooth","Caries","C…

EasyDSS视频推拉流/直播点播平台:Mysql数据库接口报错502处理方法

视频推拉流/视频直播点播EasyDSS互联网直播平台支持一站式的上传、转码、直播、回放、嵌入、分享功能,具有多屏播放、自由组合、接口丰富等特点。平台可以为用户提供专业、稳定的直播推流、转码、分发和播放服务,全面满足超低延迟、超高画质、超大并发访…

spring boot + vue 搭建环境

参考文档:https://blog.csdn.net/weixin_44215249/article/details/117376417?fromshareblogdetail&sharetypeblogdetail&sharerId117376417&sharereferPC&sharesourceqxpapt&sharefromfrom_link. spring boot vue 搭建环境 一、浏览器二、jd…

python全栈-Linux基础

python全栈-Linux基础 文章目录 Linux安装/配置网络配置配置Linux远程登录配置虚拟机内部ip配置真机的ip安装XShell和Xftp目录结构用户和用户组用户管理添加用户useradd查看用户id修改用户usermod (选项)(参数)用户密码设置passed (选项)(参数)删除用户userdel [选项] 用户名 用…

LangGraph实战:构建智能文本分析流水线

LangGraph实战:构建智能文本分析流水线 1. 智能文本分析 LangGraph是基于图结构的工作流开发框架,通过节点函数和条件流转实现复杂业务逻辑。四大核心能力: 1.1 状态容器 统一管理流程执行上下文,支持JSON序列化存储 1.2 智能路由 基于条件判断实现动态分支跳转 1.3 可…

001-码云操作

码云操作 一、配置公钥1.官网地址1.进入 git bash2.查看生成的公钥3.设置到 Gitee4.测试 二、初始化一个项目1.新建仓库 一、配置公钥 方便后续提交代码不用填写密码 1.官网地址 官网地址:https://gitee.com/Git码云教程:https://gitee.com/help/arti…

【智慧零售技术实战】云里物里ESL方案解析:四色电子纸+批量刷新功能如何高效能改造传统卖场?

随着全球零售业加速数字化转型,越来越多的零售卖场采用电子价签替代纸质价签。近期,欧洲某知名电器商城(主营电子产品、家用电器及数码产品)正式上线云里物里数字化零售解决方案,构建数字化智显生态。该商城的商品覆盖…

FFmpeg-chapter3和chapter4-读取视频流(原理篇和实战篇)

ffmpeg网站:About FFmpeg 1 库介绍 (1)libavutil是一个包含简化编程函数的库,包括随机数生成器、数据结构、数学例程、核心多媒体实用程序等等。 (2)libavcodec是一个包含音频/视频编解码器的解码器和编…

使用GitLink个人建站服务部署Allure在线测试报告

更多技术文章,访问软件测试社区 文章目录 🚀前言🔑开通GitLink个人建站服务1. 前提条件2. 登录GitLink平台(https://www.gitlink.org.cn/login)3. 进入设置>个人建站>我的站点4. 新建站点5. 去仓部进行部署6. 安…

bge-large-zh-v1.5 与Pro/BAAI/bge-m3 区别

ge-large-zh-v1.5 和 Pro/BAAI/bge-m3 是两种不同的模型,主要区别在于架构、性能和应用场景。以下是它们的对比: 1. 模型架构 bge-large-zh-v1.5: 基于Transformer架构,专注于中文文本的嵌入表示。 参数量较大,适合处…

修改hosts文件,修改安全属性,建立自己的DNS

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

网络安全ctf试题 ctf网络安全大赛真题

MISC 1 签到 难度 签到 复制给出的flag输入即可 2 range_download 难度 中等 flag{6095B134-5437-4B21-BE52-EDC46A276297} 0x01 分析dns流量,发现dns && ip.addr1.1.1.1存在dns隧道数据,整理后得到base64: cGFzc3dvcmQ6IG5zc195eWRzIQ 解…

SimPO算法-Simple Preference Optimizationwith a Reference-Free Reward

偏好优化(preference optimization )算法大全: 本篇介绍下SimPO SimPO(Simple Preference Optimization)的设计核心在于简化偏好优化过程,同时提升模型的表现。其设计主要围绕两个关键点展开:长…

Netty笔记3:NIO编程

Netty笔记1:线程模型 Netty笔记2:零拷贝 Netty笔记3:NIO编程 Netty笔记4:Epoll Netty笔记5:Netty开发实例 Netty笔记6:Netty组件 Netty笔记7:ChannelPromise通知处理 Netty笔记8&#xf…