2017年谷歌发表史诗级的论文Attention is All you need提出Transformer,一种全新的神经网络。
存在一个问题训练的时候每个字都要训练,每增加一个token,算力需求是平方的往上翻的,输入10000个token,苏姚计算10000*10000=1亿次的注意力分数。
2020年openai发表了论文提出稀疏注意力机制,Long Sequences with Sparse Transformers
使用系数Transformer生成长序列。作者:Ilya Sutskever
提出俩个:
1、近邻关注
2、固定模式全局关注
openai在文本、图像和音频等多种数据类型上验证了稀疏注意力机制的有效性
原来处理1000个字要100万次,现在只需要10000次了。原来处理长文本时会存在内存爆炸,现在可以很好的规避。
2020年AI2发布Longformer,专注亿设计搞笑处理长文本序列任务。
这样transformer既可以查看近处的信息,又可以查看远处的信息。
2020年google推出了big bird:transformers for Longer Sequences。结构更加复杂的稀疏注意力机制。这样直接让transformer能够处理的序列增加8倍多。
2020年google发表了Rethinking Attention with Performers(Performers模型)
用数学的负责计算简化成简单计算。它本质上讲自注意力分解为低秩表示,利用核函数(如正交随机特征)来高效计算。
2022年斯坦福大学的团队推出了Flash Attention,与其研究看的范围,不如研究看的方式
Flash Attention2.0计算速度提升7倍以上,几乎不损失精度
2024年上海科技大学和北京通用人工智能研究院的研究院们SparseK稀疏注意力机制
让AI学会取舍。
2025年deepseek发布了原生注意力机制Native Sparse Attention(NSA)
做了特别的硬件优化,充分利用GPU的张量和内存访问,NSA在处理长序列时实现了显著的加速效果。
稀疏化只为了在有限资源情况下处理长序列的高校和精确度计算。