卷积神经网络 - 结构化输出篇

序言

卷积神经网络( CNN \text{CNN} CNN)作为深度学习领域的重要分支,凭借其强大的特征提取与学习能力,在图像和视频处理领域取得了显著成就。其结构化输出的特性,更是为复杂任务的解决提供了有力支持。本文旨在简要概述卷积神经网络的结构化输出机制,探讨其如何通过精细设计的网络架构,实现对输入数据的深度理解和高效处理。

结构化输出

  • 卷积神经网络可以用于输出高维的结构化对象,而不仅仅是预测分类任务的类标签或回归任务的实数值。
    • 通常这个对象只是一个张量,由标准卷积层产生。
    • 例如,模型可以产生张量 S \bold{S} S,其中 S s , j , k S_{s,j,k} Ss,j,k是网络的输入像素 ( j , k ) (j,k) (j,k)属于类 i i i的概率。
    • 这允许模型标记图像中的每个像素,并绘制沿着单个对象轮廓的精确掩模。
  • 经常出现的一个问题是输出平面可能比输入平面要小,如基本卷积函数的变体篇 - 图例2所示。
    • 用于对图像中单个对象分类的常用结构中,网络空间维数的最大减少来源于使用大步幅的池化层。
    • 为了产生与输入大小相似的输出映射,我们可以避免把池化放在一起( Jain et al., 2007 \text{Jain et al., 2007} Jain et al., 2007)。
    • 另一种策略是单纯地产生一张低分辨率的标签网格 ( Pinheiroand Collobert, 2014, 2015 \text{Pinheiroand Collobert, 2014, 2015} Pinheiroand Collobert, 2014, 2015)。
    • 最后,原则上可以使用具有单位步幅的池化操作。
  • 对图像逐个像素标记的一种策略是先产生图像标签的原始猜测,然后使用相邻像素之间的交互来修正该原始猜测。
    • 重复这个修正步骤数次对应于在每一步使用相同的卷积,该卷积在深层网络的最后几层之间共享权重 ( Jain et al., 2007 \text{Jain et al., 2007} Jain et al., 2007)。
    • 这使得在层之间共享参数的连续的卷积层所执行的一系列运算,形成了一种特殊的循环神经网络( Pinheiro and Collobert, 2014, 2015 \text{Pinheiro and Collobert, 2014, 2015} Pinheiro and Collobert, 2014, 2015)。
    • 图例1给出了这样一个循环卷积网络的结构。
  • 一旦对每个像素都进行了预测,可以使用各种方法来进一步处理这些预测,以便获得图像在区域上的分割 ( Briggman et al., 2009; Turaga et al., 2010; Farabet et al.,2013 \text{Briggman et al., 2009; Turaga et al., 2010; Farabet et al.,2013} Briggman et al., 2009; Turaga et al., 2010; Farabet et al.,2013)。
    • 一般的想法是假设大片相连的像素倾向于对应着相同的标签。图模型可以描述相邻像素间的概率关系。
    • 或者,卷积网络可以被训练来最大化地近似图模型的训练目标 ( Ning et al., 2005; Thompson et al., 2014 \text{Ning et al., 2005; Thompson et al., 2014} Ning et al., 2005; Thompson et al., 2014)。

  • 图例1:用于像素标记的循环卷积网络的示例。
    • 用于像素标记的循环卷积网络的示例
      在这里插入图片描述

    • 说明:

      • 输入是图像张量 X \bold{X} X,它的轴对应图像的行、列和通道(红,绿,蓝)。
      • 目标是输出标签张量 Y ^ \hat{Y} Y^,它遵循每个像素的标签的概率分布。
      • 该张量的轴对应图像的行、列和不同类别。并不是单次输出 Y ^ \hat{Y} Y^,循环网络通过使用 Y ^ \hat{Y} Y^的先前估计作为创建新估计的输入,来迭代地改善其估计。
      • 相同的参数用于每个更新的估计,并且估计可以如我们所愿地被改善任意多次。
      • 每一步使用的卷积核张量 U \bold{U} U,是用来计算给定输入图像的隐藏表示的。
      • 核张量 V \bold{V} V用于产生给定隐藏值时标签的估计。
      • 除了第一步之外,核 W \bold{W} W都对 Y ^ \hat{Y} Y^进行卷积来提供隐藏层的输入。
      • 在第一步中,此项由零代替。
      • 因为每一步使用相同的参数,所以这是一个循环网络的例子,如后续篇章:序列建模:循环和递归网络中所述。

总结

  • 卷积神经网络的结构化输出,主要依赖于其独特的层级结构与算法设计。
  • 从数据输入层开始, CNN \text{CNN} CNN通过卷积层提取图像或视频中的局部特征,这些特征在通过 ReLU \text{ReLU} ReLU等激活函数进行非线性变换后,被进一步传递到池化层进行降维与特征选择。
  • 随后,全连接层将提取的高级特征整合为最终的输出向量或矩阵,以实现分类、检测、分割等多种任务。尤为重要的是, CNN \text{CNN} CNN通过卷积核的共享与滑动窗口机制,实现了对输入数据的全局感知与局部细节捕捉,从而能够生成具有高度结构化特征的输出。
  • 此外,随着网络深度的增加与技术的不断创新, CNN \text{CNN} CNN在结构化输出方面的能力也在不断提升,为更广泛的应用场景提供了可能。

往期内容回顾

卷积神经网络 - 基本卷积函数的变体篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/393423.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ | Leetcode C++题解之第328题奇偶链表

题目: 题解: class Solution { public:ListNode* oddEvenList(ListNode* head) {if (head nullptr) {return head;}ListNode* evenHead head->next;ListNode* odd head;ListNode* even evenHead;while (even ! nullptr && even->next…

DAMA学习笔记(十一)-元数据管理

1.引言 元数据最常见的定义是“关于数据的数据”。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系…

SQL注入(闯关游戏)

目录 关卡1 关卡2 关卡3 关卡4 关卡5 关卡6 关卡7 关卡8 关卡9 关卡10 关卡11 关卡12 关卡13 关卡14 关卡15 关卡16 关卡17 关卡18 关卡19 关卡20 关卡21 关卡22 关卡23 关卡24 关卡1 (联合查询) ?gid1 第一件事情就是逃脱单引号的控制——》为了闭…

表字段显示tip

需求背景: 生成的报表,前端只展示字段名称,计算逻辑没有解释,使用方频繁“骚扰”,实在受不了,增加一个字段tip,实现效果(下图): 代码 结合使用el-table-colu…

[Unity实战]Mirror网络与Addressable场景管理

前言 很遗憾,Mirror包括UNET的场景管理不支持Addressables。我做手机游戏,需要实现服务器广播场景切换,但主程序没有场景,热更代码和资源都在AB包里。我已经在Google上搜索了一段时间,没有找到有用的解决方案。 Redd…

unity VR项目3DUI:人物头部旁“说话框”,功能:1.永远朝向相机 2.打字效果 3.UI不会被模型遮挡 4.切换位置 5.文字自动根据内容扩充

提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、UI搭建1.创建基节点2.创建Canvas3.添加永远看向相机代码4.创建UI背景,设置相关操作1.锚点设置2.添加组件:Vertical Layout Group、Content Size Fitter…

上海冷链配送新篇章 华鼎冷链科技以卓越服务餐饮品牌

在快速发展的上海餐饮连锁行业中,冷链运输作为保障食品安全与品质的关键环节,正迎来前所未有的发展机遇与挑战。华鼎冷链科技作为该领域的佼佼者,正引领着上海乃至全国冷链运输行业的新风尚。 华鼎冷链科技的成功并非一蹴而就。首先&#xff…

视频融合技术

三维视频融合技术遵循数字孪生多源数据融合的原则,比视频窗口、矩阵更加直观高效,省去了人脑理解空间的时间,可有效提升数字孪生城市在物联感知操作、虚实融合交互等方面的能力,动静一体、虚实结合,让三维场景“动起来…

MATLAB基础应用精讲-【数模应用】配对样本Wilcoxon检验(附MATLAB、R语言和python代码实现)

目录 知识储备 常用的统计假设检验的方法 算法原理 什么是Wilcoxon符号秩检验? 何时使用Wilcoxon符号秩检验 适用条件 SPSS-符号秩检验 一统计理论 二实例分析 三拓展知识 SAS --配对样本Wilcoxon符号秩检验 SPSSAU 配对样本Wilcoxon检验案例 1、背景 2、理论 …

SQL注入sqli-labs-master关卡一

本文环境搭建使用的是小皮,靶机压缩包:通过百度网盘分享的文件:sqli-labs-php7-master.zip 链接:https://pan.baidu.com/s/1xBfsi2lyrA1QgUWycRsHeQ?pwdqwer 提取码:qwer 下载解压至phpstudy的WWW目录下即可。 第一…

无缝协作的艺术:Codigger 视频会议(Meeting)的用户体验

在当今数字化的时代,远程协作已经成为工作和学习中不可或缺的一部分。然而,远程协作也面临着诸多挑战,如沟通不畅、信息同步不及时、协作工具的复杂性等。而 Codigger 视频会议(Meeting)作为一款创新的工具&#xff0c…

计算机的错误计算(五十四)

摘要 回复网友关于正确计算计算机的错误计算(五十一)与(五十二)中所述案例时的 3点注意事项。 问:对于计算机的错误计算(五十一)中的案例 ,由(五十二)知&a…

数据结构第九讲:二叉树

数据结构第九讲:二叉树 1.实现链式结构二叉树1.1二叉树的节点结构1.2创建二叉树节点1.3前中后序遍历1.3.1前序遍历1.3.2中序遍历1.3.3后序遍历1.3.4总结 1.4二叉树结点的个数1.4.1错误示范1.4.2实现方法 1.5二叉树叶子结点的个数1.6二叉树第k层结点的个数1.7二叉树的…

计算机语言-CSP初赛知识点整理

历年真题 [2020-CSP-J-第2题] 编译器的主要功能( ) A. 将源程序翻译成机器指令代码 B. 将源程序重新组合 C. 将低级语言翻译成高级语言 D. 将一种高级语言翻译成另一种高级语言 [2021-CSP-J-第1题] 以下不属于面向对象程序设计语言的是()。 A. C B. Pyt…

CLOS架构

CLOS Networking CLOS Networking 是指使用 Clos 网络拓扑结构(Clos Network Topology)进行网络设计的一种方法。该方法是由贝尔实验室的工程师 Charles Clos 在1950年代提出的,以解决电路交换网络的可扩展性和性能问题。随着现代计算和网络…

P33-模拟实现字符串相关函数

模拟实现strcpy strcpy函数是C语言中的字符串拷贝函数,用于将一个字符串复制到另一个字符串中。 函数原型如下: char* strcpy(char* destination, const char* source);参数说明: destination:目标字符串的指针,用于存…

北大和鹏城实验室联合推出的图像视频统一多模态大模型Chat-UniVi(CVPR 2024)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding 论文信息 paper:CVPR 2024 code:https://github.com/PKU-YuanGroup/Chat-UniVi 训练130亿大模型仅3天,北大提出Chat-UniVi…

Tomcat 漏洞

一.CVE-2017-12615 1.使用burp抓包 把get改成put jsp文件后加/ 添加完成后访问 木马 然后木马的网址 在哥斯拉测试并且添加 添加成功 然后我们就成功进去啦、 二.弱口令 点击后输入默认用户名、密码:tomcat/tomcat 登陆之后上传一个jsp文件 后缀改成war 然后访问我…

android compose设置圆角不起作用

进度条progress设置背景圆角不起作用: 源码: Composablefun CircularProgress(modifier: Modifier, vm: TabarCmpViewModel?) {if (vm?.showLoading?.value ! true) returnBox(modifier modifier.background(Color(0x99000000)).defaultMinSize(minW…

【深度学习】【语音TTS】OpenVoice v2,测评,中英文语料,Docker镜像,对比GPT-SoVITS、FishAudio、BertVITS2

https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md 实际体验OpenVoice v2的TTS效果。 文章目录 环境启动 jupyter代码代码分析主要模块和功能测试一些别的中文和中英文混合总结优点缺点对比GPT-SoVITS、FishAudio、BertVITS2使用我的Docker镜像快速体验OpenVo…