【机器学习合集】模型设计之注意力机制动态网络 ->(个人学习记录笔记)

文章目录

  • 注意力机制
    • 1. 注意力机制及其应用
      • 1.1 注意力机制的定义
      • 1.2 注意力机制的典型应用
    • 2. 注意力模型设计
      • 2.1 空间注意力机制
      • 2.2 空间注意力模型
      • 2.3 通道注意力机制
      • 2.4 空间与通道注意力机制
      • 2.5 自注意力机制
      • 2.5 级联attention
  • 动态网络
    • 1. 动态网络的定义
    • 2. 基于丢弃策略的动态网络
      • 2.1 随机深度残差网络
      • 2.2 模块丢弃残差网络
      • 2.3 BranchyNet网络
      • 2.4 Spatially Adaptive Computing Time(SACT)
    • 3. 基于注意力机制的动态网络
      • 3.1 动态卷积(Dynamic Convolution)
      • 3.2 动态空间模型(Dynamic RegionAware Convolution)
    • 4. 基于合并策略的动态网络
      • 4.1 Deep Rebirth
      • 4.2 RepVGG

注意力机制

  • 注意力机制(Attention Mechanism)是一种在深度学习模型中用于加强不同输入元素之间关联性的方法。它模拟了人类感知中的注意力过程,允许模型在处理数据时选择性地关注重要的信息,以提高性能。
    以下是有关注意力机制在模型设计中的重要性和应用:
  1. 自然语言处理(NLP)
    • 在自然语言处理中,注意力机制常用于机器翻译、文本摘要、问答等任务。通过注意力机制,模型可以在生成输出时关注输入序列中与当前生成标记相关的部分。
    • 注意力机制有助于提高翻译质量,生成更准确的摘要,以及在问答任务中定位正确的上下文信息。
  2. 计算机视觉
    • 在计算机视觉中,注意力机制可以用于目标检测、图像分类和图像分割。通过注意力机制,模型可以在处理图像时关注与任务相关的图像区域或特征。
    • 这有助于改善目标检测的准确性,特别是在多目标场景中,以及提高图像分类性能。
  3. 强化学习
    • 在强化学习中,注意力机制可以用于选择执行动作的策略。模型可以在每个时间步上选择性地关注不同状态或观察,以优化决策。
    • 注意力机制在增强学习中的应用可以提高智能体的性能,特别是在复杂环境中的任务。
  4. 自动编码器和生成对抗网络
    • 注意力机制还可以用于自动编码器(Autoencoders)和生成对抗网络(GANs)等模型,以改善特征提取和生成过程。
    • 通过引入注意力机制,模型可以更好地选择和生成重要的特征或样本。
  5. 跨模态任务
    • 在处理跨模态数据(例如,文本和图像的关联)时,注意力机制可以帮助模型在不同模态之间建立关联,以实现更精确的任务。
  • 总之,注意力机制是深度学习模型设计中的一个重要组成部分,可以提高模型的性能、可解释性和适应性。通过引入注意力机制,模型可以更有效地处理大量信息,选择性地关注重要信息,并在各种任务中获得更好的结果。因此,注意力机制已成为各种深度学习任务中的不可或缺的工具。

1. 注意力机制及其应用

1.1 注意力机制的定义

  • Attention,对图像中不同区域或者句子中的不同部分给予不同的权重,从而找到感兴趣的区域,抑制不感兴趣区域
    在这里插入图片描述

1.2 注意力机制的典型应用

  • 显著目标检测,图像修复,图像编辑
    在这里插入图片描述
  • 机器翻译,摘要生成,图像描述
    在这里插入图片描述

2. 注意力模型设计

2.1 空间注意力机制

  • 显著目标检测模型,Saliency Object Detection,预测显著目标概率图
    在这里插入图片描述

2.2 空间注意力模型

  • 动态容量网络,Dynamic Capacity Networks
    在这里插入图片描述
  • 空间变换网络,STN(spatial transform network)
    在这里插入图片描述

2.3 通道注意力机制

  • SENet ,2017年ImageNet分类冠军网络
    在这里插入图片描述

2.4 空间与通道注意力机制

  • CBAM,Convolutional Block Attention Module,同时从空间维度和通道维度进行Attention
    在这里插入图片描述

2.5 自注意力机制

  • 双线性模型,使用特征外积操作获得自注意力矩阵
    在这里插入图片描述
  • 非局部卷积,Non-local Network
    在这里插入图片描述

2.5 级联attention

  • Residual Attention Network(2018)
    在这里插入图片描述

动态网络

  • 动态网络(Dynamic Network)是一种神经网络架构,与传统的静态神经网络不同,它允许在模型训练和推理期间根据输入数据的特性动态调整网络结构。这种灵活性可以帮助网络更好地适应不同数据分布和任务需求。以下是一些关于动态网络的设计和应用方面的考虑:
  1. 自适应结构
    • 在动态网络中,网络结构可以根据输入数据的特性自动调整。这意味着网络可以动态地添加或删除层、模块或通道,以适应不同的输入数据。
    • 自适应结构可以提高模型的泛化性能,使其更适合于变化的数据分布,特别是在面对不平衡数据或噪声数据时。
  2. 注意机制
    • 动态网络通常使用注意力机制(Attention Mechanism),以根据输入数据的不同部分调整网络的关注度。这有助于模型更好地关注重要的信息。
    • 注意机制在自然语言处理(NLP)和计算机视觉中的动态网络中得到广泛应用,例如,自然语言问答和图像标注任务。
  3. 遗忘机制
    • 一些动态网络可以学习遗忘不需要的信息,从而提高模型的效率。这在处理长序列或大型数据时尤其有用。
    • 遗忘机制可以降低模型的计算复杂度,同时保持高性能。
  4. 模块化设计
    • 动态网络通常采用模块化的设计,模块可以根据需要堆叠或重复。这种设计使得网络更易于扩展和调整。
    • 模块化设计对于构建可重复使用的模型部分和快速迭代设计是有利的。
  5. 预测网络结构
    • 有些动态网络可以预测网络的结构,以更好地适应特定任务。这通常涉及到使用强化学习等方法来优化网络的结构。
    • 预测网络结构的方法对于模型设计的自动化和优化非常有前景。
  6. 实时决策
    • 动态网络可以用于实时决策,例如自动驾驶、机器人控制或游戏决策,因为它们能够根据实时输入进行动态调整。
  • 总之,动态网络是一种具有适应性和灵活性的神经网络架构,可以根据不同的任务和输入数据自动或手动地调整网络结构。这种灵活性使动态网络适用于各种不同的应用领域,尤其是需要适应变化的数据和任务要求的情况。

1. 动态网络的定义

  • 网络结构在训练或推理时表现出不同的结构、对不同的样本,表现出不同
    在这里插入图片描述

  • 研究动态网络原因:提高模型的泛化能力,减少计算量
    在这里插入图片描述

2. 基于丢弃策略的动态网络

2.1 随机深度残差网络

  • 残差网络可以看作是多个不同深度模型的集成,“Residual networks behave like ensembles of relatively shallow networks"
    在这里插入图片描述

2.2 模块丢弃残差网络

  • Blockdrop,学习丢弃策略的残差模块
    在这里插入图片描述

2.3 BranchyNet网络

  • 对于不同的样本,根据累积的嫡来决定是否提前退出推理,越简单的样本,计算量越小
    在这里插入图片描述

2.4 Spatially Adaptive Computing Time(SACT)

  • 对每一个残差单元的输出添加一个分支,用于预测halting score(累积概率,0~1)
    在这里插入图片描述

3. 基于注意力机制的动态网络

3.1 动态卷积(Dynamic Convolution)

  • 根据输入图像,采用注意力机制自适应地调整卷积参数
    在这里插入图片描述

3.2 动态空间模型(Dynamic RegionAware Convolution)

  • 根据输入图像不同特征图上不同区域,采用不同的卷积核进行计算
    在这里插入图片描述

4. 基于合并策略的动态网络

4.1 Deep Rebirth

  • 合并非tensor层,包括BN层,Pooling , Scale层,以及多个分支
    在这里插入图片描述

4.2 RepVGG

  • 训练时存在跳层连接,训练后合并连接
    在这里插入图片描述

注:部分内容来自阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/177827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Debian或Ubuntu静态交叉编译arm和aarch64

Debian或Ubuntu静态交叉编译arm和aarch64 介绍术语ARM架构前置条件从源代码编译一个简单的C程序configure和make交叉编译关于静态链接和依赖关系使用 musl libc 实现与 configure 和 make 进行交叉编译 ARM 正在获得越来越多的关注,并且越来越受欢迎。直接在这些基于…

深度学习_3 数据操作之线代,微分

线代基础 标量 只有一个元素的张量。可以通过 x torch.tensor(3.0) 方式创建。 向量 由多个标量组成的列表(一维张量)。比如 x torch.arange(4) 就是创建了一个1*4的向量。可以通过下标获取特定元素(x[3]),可以通…

Web3时代:探索DAO的未来之路

Web3 的兴起不仅代表着技术进步,更是对人类协作、创新和价值塑造方式的一次重大思考。在 Web3 时代,社区不再仅仅是共同兴趣的聚集点,而变成了一个价值交流和创新的平台。 去中心化:超越技术的革命 去中心化不仅仅是 Web3 的技术…

Linux进程概念(1)

📟作者主页:慢热的陕西人 🌴专栏链接:Linux 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 本博客主要内容为进程的概念做铺垫,主要介绍冯诺依曼体系结…

Pycharm安装jupyter和d2l

安装 jupyter: jupyter是d2l的依赖库,没有它就用不了d2l pycharm中端输入pip install jupyter安装若失败则: 若网速过慢,则更改镜像源再下载: pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ pip …

【ElasticSearch系列-03】ElasticSearch的高级句法查询Query DSL

ElasticSearch系列整体栏目 内容链接地址【一】ElasticSearch下载和安装https://zhenghuisheng.blog.csdn.net/article/details/129260827【二】ElasticSearch概念和基本操作https://blog.csdn.net/zhenghuishengq/article/details/134121631【二】ElasticSearch的高级查询Quer…

Mac之NVM|通过brew安装、更新、卸载、重新安装nvm

文章目录 导文通过brew安装NVM通过brew更新NVM通过brew卸载NVM通过brew重新安装NVM 导文 Mac之NVM 通过brew安装、更新、卸载、重新安装 通过brew安装NVM brew install nvm通过brew更新NVM brew upgrade nvm通过brew卸载NVM brew uninstall nvm通过brew重新安装NVM brew re…

快手协议算法最新版

快手的协议分析是指对快手算法系统进行分析,以了解其推荐内容和个性化用户体验的机制。 然而,一般来说,协议分析的目标是理解算法系统中各个组成部分的功能和作用,以及它们之间的相互关系。以下是一些常见的分析方向:…

Python 自动化(十六)静态文件处理

准备工作 将不同day下的代码分目录管理,方便后续复习查阅 (testenv) [rootlocalhost projects]# ls day01 day02 (testenv) [rootlocalhost projects]# mkdir day03 (testenv) [rootlocalhost projects]# cd day03 (testenv) [rootlocalhost day03]# django-admi…

springboot--多环境配置快速切换开发、测试、生产环境

多环境配置快速切换开发、测试、生产环境 前言1、使用1.1指定环境Profile({"dev","test"})Spring Profiles 提供一个隔离配置的方式,使其仅在特定环境生效 任何Component,Configuration或ConfigurationProperties 可以使用Profile标记&#xff…

损失函数总结(十四):RMSELoss、LogCosh Loss

损失函数总结(十四):RMSELoss、LogCosh Loss 1 引言2 损失函数2.1 RMSELoss2.2 LogCosh Loss 3 总结 1 引言 在前面的文章中已经介绍了介绍了一系列损失函数 (L1Loss、MSELoss、BCELoss、CrossEntropyLoss、NLLLoss、CTCLoss、PoissonNLLLos…

【2021集创赛】Risc-v杯一等奖:自适应噪声环境的超低功耗语音关键词识别系统

本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。 团队介绍 参赛单位:东南大学 队伍名称:Hey Siri 指导老师:刘波 参赛队员:钱俊逸、张人元、王梓羽 总决赛奖项:全国一等奖 摘要…

Redis高可用(主从复制,哨兵,集群)

Redis主从复制 主从复制,是指将一台Redis服务器的数据,复制到其他的Redis服务器。前者称为主节点(Master),后者称为从节点(slave);数据的复制是单向的,只能由主节点到从…

OpenGL ES相关库加载3D 车辆模型

需求类似奇瑞的这个效果,就是能全方位旋转拖拽看车,以及点击开关车门车窗后备箱等 瑞虎9全景看车 (chery.cn) 最开始收到这个需求的时候还有点无所适从,因为以前没有做过类似的效果,后面一经搜索后发现实现的方式五花八门&#xf…

sqli 靶场 Level23-Level30 wp

level-23 (注释被过滤) 抓包,查看正常请求和响应。 略 尝试是否存在注入 id1’,id1’,成周期性变化 尝试 POC POC: id1andextractValue(1,concat(0x7e,user()))-- 结果:failed。怀疑–被过滤掉了,尝试…

深度学习实战:基于TensorFlow与OpenCV的手语识别系统

文章目录 写在前面基于TensorFlow与OpenCV的手语识别系统安装环境一、导入工具库二、导入数据集三、数据预处理四、训练模型基于CNN基于LeNet5基于ResNet50 五、模型预测基于OpenCV 写在后面 写在前面 本期内容:基于TensorFlow与OpenCV的手语识别系统 实验环境&…

PFMEA详解结构分析——Sun FMEA软件

FMEA从1949年诞生到今天已经发生过多次更新,最新版本是2019年6月发布的《AIAG VDA FMEA手册》。新手册借鉴了AIAG的方框图、参数图、流程图等工具的运用,也借鉴了VDA的五步过程导向法,并在此基础上头尾各增加一步,形成了FMEA七步法…

云原生安全日志审计

记得添加,把配置文件挂载进去 - mountPath: /etc/kubernetes/auditname: audit-policyreadOnly: true.....- hostPath:path: /etc/kubernetes/audit/type: DirectoryOrCreatename: audit-policy/etc/kubernetes/manifests/kube-apiserver.yaml 具体配置文件如下 a…

阿里云2023年双11大促活动优惠券领取与使用及特惠云服务器产品购买规则汇总

2023年阿里云双11大促活动正在火热进行中,今年的双11活动还是延续了去年金秋云创季的活动名称,对于大部分用户来说,最为关心的是活动优惠券与云服务器的优惠政策,在我们领取双11优惠券和购买双11活动云服务器的时候,应…

京东大数据平台(京东数据分析):9月京东牛奶乳品排行榜

鲸参谋监测的京东平台9月份牛奶乳品市场销售数据已出炉! 9月份,牛奶乳品市场销售呈大幅上涨。鲸参谋数据显示,今年9月,京东平台牛奶乳品市场的销量为2000万,环比增长约65%,同比增长约3%;销售额为…