1.注意力机制

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

参考:注意力机制

文章目录

  • 前言
  • 一、注意力机制
    • 1.非参注意力池化层
      • K(x-x~i~)的选择
    • 2.参数化的注意力机制
    • 3.小结
  • 二、注意力分数
    • 一维注意力分数
    • 拓展到高纬度
    • 1.加性的注意力
    • 2.缩放点积注意力
    • 3.小结
  • 总结


前言

从心理学的角度上

  • 动物需要在复杂环境下有效关注值得注意的点;
  • 心理学框架:人类根据随意线索和不随意线索选择注意点

比如在一堆物品中,首先看到的是最显眼的一个物品,这叫不随意线索;再比如我想看书,然后我去找书,这叫随意线索。
Alt


一、注意力机制

  • 卷积、全连接、池化层都只考虑不随意线索;
  • 注意力机制则显示的考虑随意线索
    • 随意线索被称之为查询(query);
    • 每个输入是一个值(value)和不随意线索(key)的对;
    • 通过注意力池化层使查询与键进行匹配,引导得出最匹配的值(感官输入)。alt

1.非参注意力池化层

  • 给定数据(xi,yi),i=1,…,n,即key value pair,所有候选的东西;
  • 平均池化是最简单的方案:f(x)=(y1+y2+…+yn)/n,x表示要查询的东西,不管要查询的是哪个y,直接做均值,比较粗暴;
  • 更好的方案是Nadaraya-Watson核回归,K(x-xi)表示衡量x和xi距离的函数,对yi加权求和,即找到与x相近的xi的yi加权和,与x相近的xi的yi权值高,与x不相近的xi的yi权值高,权值高的yi的影响高于权值低的yi的影响;
    alt

K(x-xi)的选择

  • 使用高斯核(正态分布)
    alt
    那么有:
    alt
    softmax(n)表示给n一个0到1之间的值,用来表示权重。

2.参数化的注意力机制

在下面的查询 𝑥 和键 𝑥𝑖 之间的距离乘以可学习参数WW控制高斯分布的平滑程度。
alt
此处的w是一维的,只有大小没有方向

3.小结

  • 心理学认为人通过随意线索和不随意线索选择注意点;
  • 注意力机制中,通过query(随意线索)和Key(不随意线索)来有偏向性的选择输入;
    • 可以写成上一小节参数化的注意力机制的形式,其中softmax是注意力权重;
    • 60年代就有非参数的注意力机制;
    • 下面介绍多个不同的权重设计。

二、注意力分数

一维注意力分数

alt
如下图所示,a表示注意力分数函数(Attention scoring function),将a计算出来的权重,跟Value做一个加权求和,得到最后的输出Output。
alt

拓展到高纬度

上面所述的注意力机制的原理是一维层面的,现在将其扩展到高维,

  • 假设query q∈Rq,q为长为q的向量,m对key-value(k1,v1),…,这里ki∈Rk,vi∈Rv,kivi也是向量;
  • 注意力池化层:关键在于注意力分数函数怎么设计
    alt

下面提供两种注意力分数函数的设计思路

1.加性的注意力

  • 有3个可学的参数:Wk、Wq、V(不是键值对中的值)可学习的参数是 𝐖q∈ℝh*q 、 𝐖k∈ℝh*k 和 𝐰𝑣∈ℝ
  • alt

alt
其中,Wk是一个hk的矩阵,Wq是一个hq的矩阵,v是长为h的向量,tanh表示激活函数,Wkk的结果为长为h的向量,Wqq的结果为长为h的向量,结果相加,将V的转置与激活后的相加的结果相乘,最后得到一个值。

  • 等价于将query和key合并起来后放入一个隐藏大小为h输出大小为1的但隐藏层MLP,query和key可以是任意的长度。

2.缩放点积注意力

如果query和key都是同样的长度q,ki∈Rd,那么有:
alt
除以根号d可以让注意力函数a的值不会太大

  • 向量化版本
    • a(Q,K)是一个n*m的矩阵,第i行表示第i个query和key的权重;
    • f是一个n*m的矩阵,每i行表示第i个key对应的长度为v的向量。
      alt

3.小结

  • 注意力分数是query和key的相似度,注意力权重是分数的softmax结果;
  • 两种常见的分数计算:
    1) 将query和key合并起来进入一个单输出单隐藏层的MLP;
    2) 直接将query和key做内积,相当于query对key做投影,用投影表示他们的相似度。
data = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53194.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

注意力机制(Attention)

注意力机制分类 包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention)。 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播计算。软注意力机制指在选…

Attention机制理解笔记(空间注意力+通道注意力+CBAM+BAM)

Attention机制理解笔记 声明Attention分类(主要SA和CA)spitial attentionchannel attentionSA CA(spitial attentionchannel attention)加强SACA理解 空间注意力机制和通道注意力机制解释attention机制Attention模型架构1.空间注意力模型(spatial attention)2.通道注意力机制3…

【Attention】注意力机制在图像上的应用

【Attention】注意力机制在图像上的应用 [SeNet] Squeeze-and-Excitation Networks (CVPR2018)[Non-local] Non-local neural Networks (CVPR2018)[GCNet] Non-local Networks Meet Squeeze-Excitation Networks and Beyond 2019-…

注意力机制(Attention Mechanism)-SENet

引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的参数越多则模型的表达能力越强…

BahdanauAttention与LuongAttention注意力机制简介

在使用tensorflow时发现其提供了两种Attention Mechanisms(注意力机制),如下 The two basic attention mechanisms are: tf.contrib.seq2seq.BahdanauAttention (additive attention, ref.)tf.contrib.seq2seq.LuongAttention (multiplicat…

注意力机制详解系列(一):注意力机制概述

👨‍💻作者简介: 大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。公众号: GoAI的学习小屋,免费分享书籍、简历、导图等资料,更有交流群分享AI和大数据,加群方式公众号回复“加群”或➡️点击链接。 🎉专栏推荐: 目…

深入理解图注意力机制(Graph Attention Network)

©PaperWeekly 原创 作者|纪厚业 学校|北京邮电大学博士生 研究方向|异质图神经网络及其应用 介绍 图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络,Graph Attention Network (GAT) 引入了…

注意力机制详述

学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了。 这篇文章整理有关注意力机制(Attention Mechanism )的知识&#xff0c…

注意力机制Attention详解

注意力机制Attention详解 一、前言 2018年谷歌提出的NLP语言模型Bert一提出,便在NLP领域引起热议,之所以Bert模型能够火出圈,是由于Bert模型在NLP的多项任务中取得了之前所有模型都不能达到的出色效果。那么Bert模型它是如何提出的呢&#x…

注意力机制(Attention Mechanism)-ECANet

引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的参数越多则模型的表达能力越强…

注意力机制介绍(attention)

注意力机制是指我们将视觉注意力集中在图像的不同区域,或者将注意力集中在一句话中的某个词语,以下图为例: 人眼的视觉注意力允许我们以“高分辨率”关注某个特定区域(例如黄色框内的耳朵)同时以“低分辨率”处理周围的…

基于图像的场景三维建模

三月已过半旬,已是春暖花开的季节,也是我们科研爱好者最繁忙的一段时间。春天的到来,意味着新一届的学子即将离开学校,走向自己人生的第二段道路,也意味着您年伊始,所有的工作、项目、计划等都要开始步入正…

让运营人员相见恨晚的抖音自动化数据分析方案

让运营人员相见恨晚的抖音自动化数据分析方案 数据统计发现,目前抖音的用户数已超过5亿。流量时代,很多企业开始涌进这个庞大的流量池,基于抖音可以通过直播电商和广告投放等方式来挖掘商机。然而新机遇面前也是新的挑战,抖音类营…

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

Valley: Video Assistant with Large Language model Enhanced abilitY 大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,包括AI相关技术、ChatGPT、AI绘图等&…

【毕业设计】基于大数据的抖音短视频数据分析与可视化 - python 大数据 可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 5 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,…

跨国邮件诈骗团伙案例

如果某天你收到了这样一封邮件,啊,大体意思就是这人身患绝症且有一笔遗产,你是个幸运儿要你继承。 重点来了啊,他会伪造证件然后让你相信并按照对方的思路来,给他你的身份信息,例如身份证照片,你…

文献AI神器!司马阅(SmartRead)一键整理PDF论文摘要,轻松回答重点问题!

阅读本文大概需要 2.35 分钟。 在司马阅(SmartRead)、 Midjourney 等AI 内容生成工具大热,加上前几天OpenAI 开放API 功能后,许多工具串接AI 功能来实现不只是问答,而是更多图文影音内容的自动创造。我自己比较专注在文字内容、想法规划的部份…

如何持续架构治理?我们和 ChatGPT 聊了一会?

在上周的 QCon 北京 2022 大会上,我和我的同事黄雨青一起分享了《组织级架构治理的正确方式》,以帮助开发人员对组织级架构治理体系全貌一瞥,并厘清治理工具的设计思路和核心功能内容。 结合我们在 ArchGuard 的探索经验,我们&…

【AI提示】通过提供哪些具体要素,可以更好地引导chatGPT提供针对性、准确和完美的回答,以满足我的需求...

以下是几个AI副驾驶(ChatGPT、讯飞星火、阿里通义、Claude、Bing Chat)提供的回答: 一、ChatGPT 分析一下从你那得到完美回答所需提示的要素 从我那得到完美回答所需的要素可以归纳为以下几点: 1.清晰的问题陈述:一个…

blinker+esp8266-01s继电器模块+小爱同学,远程控制开关灯,有按键反馈

读者按照一下图片自行配置app #define BLINKER_WIFI #define BLINKER_MIOT_LIGHT #include <Blinker.h>#define LED 0 //定义继电器输入引脚为GPIO0//填入自己的信息 char auth[] " "; char ssid[] " "; char pswd[] " ";bool…