(论文阅读34-39)理解CNN

34.文献阅读笔记

简介

题目

Understanding image representations by measuring their equivariance and equivalence

作者

Karel Lenc, Andrea Vedaldi, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

关键词

equivariance, invariance, and equivalence.

研究问题

尽管梯度直方图和深度卷积神经网络在图像表达上非常重要,但是我们对它们的理论了解仍然很受限。

a good representation should combine invariance and discriminability。

一个好的表达应该结合不变形和判别性。但这种定性是相当模糊的;例如,通常不清楚一个表示中包含哪些不变性以及它们是如何获得的。

提出了一种新的方法来研究图像表示。

研究方法

investigate three key mathematical properties of representations: equivariance, invariance, and equivalence.

研究三个数学属性:等变性、不变性和等价性。

等变性研究输入图像的变换是如何被表示编码的,不变性是变换没有影响的一种特殊情况。

等价性研究两个表示,例如CNN的两个不同参数化,是否捕获相同的视觉信息。

经验性的建立这些方法通过introducing transformation(转换) and stitching(拼接)(允许交换不同网络部分的拼接层)(验证等价性) layers in CNNs

研究结论

浅层表示和最先进的深度CNNs的前几层以一种容易预测的方式与图像变形进行转换,并且它们在不同的体系结构中可以互换,因此是等效的。更深层的层共享这些特性的一部分,但程度较低,更具有任务特异性。

创新不足

额外知识

geometric invariances:几何不变性。

Image representations:textons , histogram of oriented gradients (SIFT and HOG , bag of visual words , sparse and local coding, super vector coding, VLAD, Fisher Vectors, and the latest generation of deep convolutional networks.

35.文献阅读笔记

简介

题目

Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images

作者

Anh Nguyen, Jason Yosinski, Jeff Clune, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images-CSDN博客

关键词

DNN安全性、“fooling images”

研究问题

人类视觉和当前DNN之间的有趣差异,并提出了关于DNN计算机视觉通用性的问题。

研究方法

生成一张人类无法分辨的图片,却能够让DNN以99%的置信度相信这是某个物体 。我们使用进化算法或者梯度上升来得到这样的图片。

multi-dimensional archive of phenotypic elites MAP-Elites ,这个算法可以让我们同时的进化出一个群体,如:ImageNet的1000个类。

多种不同的方法生成图片,称为“fooling images”:

1.普通的EA算法,对图片的某个像素进行变异、进化

2.CPPN EA算法,可以为图像提供一些几何特性,如对称等

3.梯度上升

研究结论

会将人类无法识别的图案以非常高的置信度归为某个label。当经过重新训练的DNNs学会将负面例子分类为fool image时,即使经过多次再训练迭代,也可以产生一批新的fool image来愚弄这些新网络。

过拟合程度更低,更难去欺骗.

数据集的类别越多,越难被攻击

创新不足

额外知识

在MNIST数据集上,由于数据量小,得到的网络模型的容量小,更容易生成fooling images,也跟难通过利用fooling images重新训练模型的方式来提高其防御能力

在ImageNet数据集上,数据量大,类别多,得到的网络模型的容量大,更难生成fooling images,不过由于其容量大,能够通过重新训练的方式提高防御能力

36.文献阅读笔记

简介

题目

Understanding Deep Image Representations by Inverting Them

(反演)

作者

Aravindh Mahendran, Andrea Vedaldi,  CVPR, 2015

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

关键词

Understanding of Image Representations、Inverting

研究问题

给定一幅图像的编码,在多大程度上有可能重建图像本身?

研究方法

贡献了一个通用的框架来反演表示。

Hog、sift代表浅层表示法。

CNN表示深层表示法。

展示了如何将 HOG 和 DSIFT 作为 CNN 来实现,从而简化其导数的计算。

将反演技术分别应用于浅层表示(HOG 和 DSIFT)和深层表示(CNN)的分析。

反转只使用最终图像代码,即研究的是网络输出保留了哪些信息。

使用自然图像先验。

损失函数:欧氏距离

研究结论

CNN中的几个层保留了图像的精确信息,具有不同程度的几何和光度不变性。

基于梯度下降优化目标函数的反演浅层和深层表示的优化方法。与替代方案相比,一个关键的区别是使用图像先验,如Vβ范数,可以恢复由表示去除的低级图像统计。应用于卷积神经网络,可视化显示了每一层所代表的信息。特别是,很明显,在网络中形成了一个渐进的、更具有不变性和抽象性的图像内容的概念。

创新不足

方法只使用图像表示和通用自然图像先验的信息,以随机噪声作为初始解,因此只捕捉到表示本身所包含的信息。

额外知识

图像表示:sift->bag of visual words->cnns

37.文献阅读笔记

简介

题目

Object Detectors Emerge in Deep Scene CNNs

作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

原文链接

http://arxiv.org/abs/1412.6856

关键词

理解CNN

研究问题

理解这些深层架构的内层所学习到的表象。

手工特征的表征结构往往是清晰的、可解释的,而对于深度网络来说,学习到的表征的性质是什么以及它为什么能如此出色地工作,仍然不清楚。

学习场景分类(即将图像分类为办公室、餐厅、街道等),为研究 CNN 在物体识别以外的任务中学到的内部表示提供了机会。

场景类别由其包含的物体定义,并在一定程度上由这些物体的空间配置定义。物体代表了场景的分布式代码(即不同场景类别之间共享物体类)。重要的是,在场景中,物体的空间配置虽然紧凑,但自由度要大得多。正是这种松散的空间依赖性,使得场景表示不同于大多数对象类(大多数对象类各部分之间没有松散的交互)。

研究方法

展示了目标检测器是通过训练CNN来进行场景分类的。由于场景是由物体组成的,用于场景分类的CNN自动发现有意义的物体检测器,代表学习到的场景类别。随着物体检测器作为学习识别场景的结果而出现。

只使用场景,不使用对象级的监督。

进行了一个简单的实验,以确定每个网络不同层所偏好的图像类型的差异:创建了一组 20 万张图像,其中以场景为中心的图像和以物体为中心的图像分布大致相同,并将它们同时运行于两个网络,记录每一层的激活情况。对于每一层,我们将获得平均激活度(特定层所有空间位置的总和)最大的前 100 张图像。图 1 显示了每一层的前 3 幅图像。我们观察到,对于两个网络来说,pool1和pool2等较早的层更偏好类似的图像,而较晚的层则倾向于更专注于场景或物体分类的特定任务。

给定一幅被网络正确分类的图像,我们希望简化这幅图像,使其保留尽可能少的视觉信息,同时对同一类别仍有较高的分类得分。简化后的图像(命名为最小图像表示)将使我们能够突出导致高分类得分的元素。为此,我们在梯度空间中处理图像。

研究了以下两种不同的方法。

在第一种方法中,我们给定一幅图像,创建边缘和区域的分割,然后从图像中迭代移除分割。每次迭代时,我们都会移除正确分类分数下降最小的片段,直到图像被错误分类为止。最后,我们会得到原始图像的表示形式,该表示形式大约包含了网络正确识别场景类别所需的最小信息量。图 2 展示了这些最小图像表征的一些示例。

物体似乎为网络识别场景贡献了重要信息。例如,在卧室的情况下,这些最小图像表征通常包含床的区域,或者在美术馆类别中,包含墙上画作的区域。

第二种方法:我们使用 SUN Database (Xiao et al., 2014)的全注释图像集生成最小图像表征(有关该数据集的详细信息),而不是进行自动分割。我们采用与第一种方法相同的程序,使用数据库中提供的ground-truth object segments。

对于卧室,在87 %的情况下,最小表示保留了床。卧室的其他物品为墙壁( 28 % )和窗户( 21 % )。对于美术馆来说,最小的图像表征包括绘画( 81 % )和图片( 58 % );在游乐园中,旋转木马( 75 % ),骑马( 64 % ),过山车( 50 % );书店以书柜( 96 % )、书( 68 % )、书架( 67 % )为主。这些结果表明,目标检测是网络构建的表示的重要组成部分,以获得用于场景分类的判别信息。

数据驱动的方法来估计每一层中每个单元的感受野(RF)。

作为输入,我们使用由 200k 张图像组成的图像集,其中场景和物体的分布大致相同(与第 2 章类似)。然后,我们选出给定单元激活度最高的 K 幅图像。对于 K 幅图像中的每一幅图像,我们现在要确定的是图像中哪些区域会导致高单元激活。为此,我们对每幅图像进行多次复制,并在图像的不同位置添加小的随机遮挡物(大小为 11×11 的图像斑块)。具体来说,我们以 3 为步长的密集网格生成遮挡物,这样每张原始图像就会有大约 5000 个遮挡图像。现在,我们将所有被遮挡的图像输入同一个网络,并记录与使用原始图像相比激活度的变化。如果差异很大,我们就知道给定的补丁(patch)很重要,反之亦然。这样,我们就能为每张图像建立差异图。

随着层数的加深,RF 的大小逐渐增大,激活区域也变得更具语义意义。我们使用不同单元的特征图来分割图像。RF 的实际大小远远小于理论大小,尤其是在后面几层。总之,通过这种分析,我们可以精确地聚焦于每个图像的重要区域,从而更好地理解每个单元。

研究结论

物体检测器是在学习对场景类别进行分类的过程中出现的,这表明单个网络可支持多个抽象层次(如边缘、纹理、物体和场景)的识别,而无需多个输出或网络。训练一个网络完成多项任务并将最后一层作为输出是很常见的做法,而在这里,我们展示了可以在每一层提取可靠的输出。由于物体是构成场景的部分,因此在网络的内层会学习到能区分不同场景的物体检测器。请注意,只有对特定场景识别任务有参考价值的物体才会出现。同一个网络可以在一次前向传递中完成物体定位和场景识别。

创新不足

额外知识

与 ImageNet-CNN 的特征相比,Places-CNN 的深度特征在场景相关的识别任务中往往表现更好。

receptive fields (RFs):感受野

38.文献阅读笔记

简介

题目

Inverting Visual Representations with Convolutional Networks

作者

Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

原文链接

http://arxiv.org/abs/1506.02753

关键词

重建彩色图像。

研究问题

提出了一种新方法来分析特征表示保留了哪些信息,丢弃了哪些信息。对模式识别任务有用的特征表示应集中于输入图像中对任务重要的属性,而忽略输入图像中无关的属性。

研究方法

浅层特征。我们反转了三种传统的计算机视觉特征表示:定向梯度直方图(HOG)、尺度不变特征变换(SIFT)和局部二值模式(LBP)。我们选择这些特征是有原因的。目前已经有了反转 HOG 的方法,因此我们可以与现有的方法进行比较。LBP 的有趣之处在于它不可微,因此基于梯度的方法无法反转它。SIFT 是一种基于关键点的表示法,因此网络必须将不同的关键点拼接成一张平滑的图像。

在提取特征之前,我们将图像转换为灰度图像

任务是重建彩色图像。特征不包含任何颜色信息,因此要预测颜色,网络就必须分析图像内容,并利用在训练过程中学到的自然图像先验信息。

很多时候,网络都能正确预测颜色,尤其是天空、大海、草地和树木。在其他情况下,网络无法预测颜色(例如图 3 最上面一行中的人),导致某些区域呈灰色。偶尔,网络也会预测出错误的颜色,如图 3 底行。

研究结论

图像的颜色和粗略轮廓可以从更高网络层的激活中重建,甚至可以从预测的类概率中重建。

隐含地学习自然图像先验。

将我们的方法应用于 AlexNet 卷积网络学习到的表征,可以得出以下几个结论: 1)网络各层(包括最后的 FC8 层)的特征都保留了图像中物体的精确颜色和大致位置;2)在较高层中,输入图像的几乎所有信息都包含在非零激活模式中,而不是其精确值中;3)在 FC8 层中,输入图像的大部分信息都包含在那些不在网络预测前 5 位的类别的小概率中。

创新不足

额外知识

 "层的输出 "指的是该层最后一个处理步骤的输出。例如,第一个卷积层 CONV1 的输出是经过 ReLU、池化和归一化后的结果

39.文献阅读笔记

简介

题目

Visualizing and Understanding Convolutional Networks

作者

Matthrew Zeiler, Rob Fergus, ECCV, 2014.

原文链接

https://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

关键词

特征可视化技术

研究问题

深入了解中间特征层的功能和分类器的功能

研究方法

介绍了一种新颖的可视化技术。

将特征激活投射回输入像素空间。还通过遮挡部分输入图像对分类器输出进行敏感性分析,揭示场景中哪些部分对分类很重要。

deconvnet layer:(反卷积层)

研究结论

随着层数的增加,它们显示出许多直观可取的特性,如组成性、不断增加的不变性和类别区分度。该模型在进行分类训练的同时,对图像中的局部结构高度敏感,而不仅仅是利用广泛的场景背景。对模型的消融研究表明,网络的最小深度,而不是任何单独的部分,对模型的性能至关重要。

创新不足

额外知识

消融研究以发现不同模型层的性能贡献。

Ablation study(消融研究、消融学习、消融实验)_Accelerating的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/193124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模拟业务流程+构造各种测试数据,一文带你测试效率提升80%

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

(五)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB

一、七种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)简介 1、蜣螂优化算法DBO 蜣螂优化算法(Dung beetle optimizer,DBO)由Jiankai Xue和Bo Shen于2022年提出,该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁…

基于乌鸦算法优化概率神经网络PNN的分类预测 - 附代码

基于乌鸦算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于乌鸦算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于乌鸦优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神经网络的光滑…

【Python】jupyter notebook(学习笔记)

Jupyter Notebook初见 1、Jupyter Notebook介绍 web版的ipython 编程、写文档、记笔记、展示 格式.ipynb 2、为什么使用Jupyter Notebook? 画图方面的优势:图像的生成不会堵塞后面代码的执行数据展示方面的优势:生成的数据可以保存在文件中 3、J…

《QT从基础到进阶·二十一》QGraphicsView、QGraphicsScene和QGraphicsItem坐标关系和应用

前言: 我们需要先由一个 QGraphicsView,这个是UI显示的地方,也就是装满可见原色的Scene,然后需要一个QGraphicsScene 用来管理所有可见的界面元素,要实现UI功能,我们需要用各种从QGraphicsItem拼装成UI控件…

MySQL MVCC机制详解

MySQL MVCC机制详解 MVCC, 是Multi Version Concurrency Control的缩写,其含义是多版本并发控制。这一概念的提出是为了使得MySQL可以实现RC隔离级别和RR隔离级别。 这里回顾一下MySQL的事务, MySQL的隔离级别和各种隔离级别所存在的问题。 事务是由 …

redis基线检查

1、禁止使用 root 用户启动 | 访问控制 描述: 使用root权限来运行网络服务存在较大的风险。Nginx和Apache都有独立的work用户,而Redis没有。例如,Redis的Crackit漏洞就是利用root用户权限替换或增加authorize_keys,从而获取root登录权限。 加固建议: 使用root切换到re…

新版软考高项试题分析精选(二)

请点击↑关注、收藏,本博客免费为你获取精彩知识分享!有惊喜哟!! 1、除了测试程序之外,黑盒测试还适用于测试( )阶段的软件文档。 A.编码 B.总体设计 D.数据库设计 C.软件需求分析 答案&a…

NSSCTF第12页(2)

[CSAWQual 2019]Unagi 是xxe注入,等找时间会专门去学一下 XML外部实体(XXE)注入 - 知乎 【精选】XML注入学习-CSDN博客 【精选】XML注入_xml注入例子-CSDN博客 题目描述说flag在/flag下 发现有上传点,上传一句话木马试试 文件…

一文搞懂CAN总线协议

1.基础概念 CAN 是 Controller Area Network 的缩写(以下称为 CAN),是 ISO 国际标准化的串行通信协议。在北美和西欧,CAN 总线协议已经成为汽车计算机控制系统和嵌入式工业控制局域网的标准总线,并且拥有以 CAN 为底层…

指针传2

几天没有写博客了,怎么说呢?这让我总感觉缺点什么,心里空落落的,你懂吧! 好了,接下来开始我们今天的正题! 1. ⼆级指针 我们先来看看代码: 首先创建了一个整型变量a,将…

在 HarmonyOS 上实现 ArkTS 与 H5 的交互

介绍 本篇 Codelab 主要介绍 H5 如何调用原生侧相关功能,并在回调中获取执行结果。以“获取通讯录”为示例分步讲解 JSBridge 桥接的实现。 相关概念 Web组件:提供具有网页显示能力的 Web 组件。 ohos.web.webview:提供 web 控制能力。 …

<C++> 优先级队列

目录 前言 一、priority_queue的使用 1. 成员函数 2. 例题 二、仿函数 三、模拟实现 1. 迭代器区间构造函数 && AdjustDown 2. pop 3. push && AdjustUp 4. top 5. size 6. empty 四、完整实现 总结 前言 优先级队列以及前面的双端队列基本上已经脱离了队列定…

Ansible 企业实战详解

一、ansible简介1. ansible是什么2.ansible的特点ansible的架构图 二、ansible 任务执行1、ansible 任务执行模式2、ansible 执行流程3、ansible 命令执行过程 二 .Ansible安装部署1.yum安装2.ansible 程序结构3、ansible配置文件查找顺序4、ansible配置文件5.ansible自动化配置…

electronjs入门-编辑器应用程序

我们将在Electron中创建一个新项目,如我们在第1章中所示,名为“编辑器”,我们将在下一章中使用它来创建编辑器;在index.js中,这是我们的主要过程;请记住为Electron软件包放置必要的依赖项: npm…

uniapp基础学习笔记01

文章目录 本博客根据黑马教程学习uniapp一、技术架构二、创建项目2.1 Hbuilder创建2.2 插件安装2.3 微信开发者工具配置与运行2.3.1 简单修改基础页面 2.4 pages.json和tabBar2.4.1 pages.json与tabBar配置2.4.2 案例 三、uniapp与原生开发的区别 本博客根据黑马教程学习uniapp…

安装node.js指定任意版本详解

Node.js是一种基于Chrome V8引擎的JavaScript运行时环境。它允许开发人员使用JavaScript编写服务器端和网络应用程序。与传统的JavaScript在浏览器中执行不同,Node.js使得JavaScript可以在服务器端运行。 Node.js具有以下特点: 1. 非阻塞式I/O&#xf…

Java设计模式-结构型模式-适配器模式

适配器模式 适配器模式应用场景案例类适配器模式对象适配器模式接口适配器模式适配器模式在源码中的使用 适配器模式 如图:国外插座标准和国内不同,要使用国内的充电器,就需要转接插头,转接插头就是起到适配器的作用 适配器模式&…

springboot国际化

1.环境配置 这里插入图片描述](https://img-blog.csdnimg.cn/024d6bc95623485eb6da4d998a892458.png) 2.文件配置 第一个默认环境 第二个英文环境 第三个中文环境 3.变量配置 调整语言 原理: 找到MessageSourceAutoConfiguration 中的 利用代碼的方式獲取国…

图论11-欧拉回路与欧拉路径+Hierholzer算法实现

文章目录 1 欧拉回路的概念2 欧拉回路的算法实现3 Hierholzer算法详解4 Hierholzer算法实现4.1 修改Graph,增加API4.2 Graph.java4.3 联通分量类4.4 欧拉回路类 1 欧拉回路的概念 2 欧拉回路的算法实现 private boolean hasEulerLoop(){CC cc new CC(G);if(cc.cou…