图像在神经网络中的预处理与后处理的原理和作用(最详细版本)

1. 问题引出及内容介绍

相信大家在学习与图像任务相关的神经网络时,经常会见到这样一个预处理方式。

self.to_tensor_norm = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

具体原理及作用稍后解释,不知道大家有没有想过,将这样一个经过改变的图像数据输入到网络中,那么输出的结果也是这种类似改动过的,那岂不是真实的数据了

所以一般会有个后处理的代码,如下:

def tensor2img(img):img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)img = img.clip(min=0, max=255).astype(np.uint8)return img

为什么这样就可以将改动过的数据恢复原样了,后处理的代码看着也不像预处理的逆过程啊。

先来分析一下代码,了解其处理过程,最后再推理出这两个互为逆过程。

2. 预处理

transforms.ToTensor()

transforms.ToTensor()是PyTorch中的一个图像转换方法,用于将PIL图像或numpy数组转换为PyTorch张量。具体来说,它会执行以下操作:

  1. 将图像或数组的数据类型从uint8(0-255)转换为float32(0.0-1.0)。
  2. 对图像进行标准化处理,即将像素值除以255,将其缩放到0到1之间。
  3. 如果输入是一个多通道的图像(例如RGB图像),它会重新排列通道,将通道维度放在第一个维度上

下面是我翻译的源码的注释,包含了输入的要求:

torchvision.transforms.ToTensor 类用于将 PIL 图像 numpy 数组转换为张量。这个转换不支持 torchscript。

将一个 PIL 图像或 numpy 数组(大小为 H x W x C,其中 H 表示高度,W 表示宽度,C 表示通道数)的像素值范围从 [0, 255] 转换为范围在 [0.0, 1.0] 的 torch.FloatTensor,其形状为 (C x H x W)。这种转换只有在以下情况下才会进行:

  • 如果 PIL 图像的模式为(L、LA、P、I、F、RGB、YCbCr、RGBA、CMYK、1)之一
  • 如果 numpy 数组的数据类型为 np.uint8。(因为uint8的类型的取值范围是0-255

在其他情况下,转换后的张量将不会进行缩放。

两者内容互为补充,相信足够理解这个代码了,如果不够理解,没事,我自己写个代码解释:

上述数值被分别除以255得到转换后的张量,现在应该有更直观的理解了。

transforms.Normalize()

transforms.Normalize()是PyTorch中的一个图像转换方法,用于对张量进行标准化处理。具体来说,它执行以下操作:

  1. 对每个通道进行均值归一化:将每个通道的像素值减去均值,以使每个通道的均值为0。
  2. 对每个通道进行标准差归一化:将每个通道的像素值除以标准差,以使每个通道的标准差为1。

在给定的示例中,(0.5, 0.5, 0.5)表示每个通道的均值,(0.5, 0.5, 0.5)表示每个通道的标准差。这个转换将图像的每个通道的像素值从0到1的范围,调整到-1到1的范围内。

上述的预处理的两个步骤可以概括为归一化或者标准化,为什么需要这两个步骤呢,我举例子加以说明

  1. 加速收敛

    • 例子:假设有一个深度神经网络,其输入是未经归一化的图像数据,像素值范围是0到255。如果使用简单的梯度下降法进行优化,由于像素值的范围很大,梯度更新可能会非常缓慢。通过将数据归一化到0到1之间,梯度更新将更加稳定,从而加快收敛速度。
  2. 提高模型性能

    • 例子:考虑一个用于手写数字识别的卷积神经网络(CNN)。如果输入图像的亮度差异很大,网络可能会对亮度较高的图像更加敏感。通过归一化亮度,网络可以更专注于识别数字的形状和结构,而不是亮度。
  3. 稳定性

    • 例子:在处理图像数据时,如果某些像素值异常高(例如,由于光照条件的变化),这可能会导致数值计算中的溢出问题。通过归一化,可以将这些极端值限制在一个较小的范围内,从而提高数值稳定性。
  4. 防止过拟合

    • 例子:在一个包含多种类型图像的数据集中,如果某些类型的图像具有更高的对比度,网络可能会偏向于学习这些特征,从而忽视其他类型的图像。通过归一化,可以减少这种偏差,使网络能够更均匀地学习所有类型的图像。
  5. 适应不同初始化

    • 例子:使用He初始化或Xavier初始化等方法为神经网络的权重赋予初始值时,这些方法通常假设输入数据已经被归一化。如果输入数据未经归一化,权重初始化的效果可能会大打折扣。
  6. 节省计算资源

    • 例子:在进行大规模图像处理时,如果输入数据未经归一化,那么在浮点数运算中可能会遇到数值溢出的问题,这需要使用更高精度的数据类型,从而增加计算资源的消耗。归一化可以减少这种情况的发生。
  7. 改善梯度下降的效率

    • 例子:在训练一个深度神经网络时,如果输入数据未经归一化,梯度可能会在某些方向上过大,在其他方向上过小。这会导致优化过程中的锯齿现象,使得找到全局最小值变得更加困难。归一化有助于平衡梯度的大小,使优化过程更加平滑。

3. 后处理

img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)

这行代码的作用是将PyTorch张量转换为numpy数组,并执行以下操作:

  1. img.permute(0, 2, 3, 1):这一步是对张量的维度进行重新排列,将通道维度移到最后一个维度上。这通常是因为在PyTorch中,图像的通道维度是第二个维度,而在numpy数组中,通常是最后一个维度。所以这一步是为了将数据转换为numpy数组后,通道维度的顺序与numpy数组的约定相匹配。

  2. .cpu().numpy():这一步将PyTorch张量移动到CPU上,并将其转换为numpy数组。通常,在GPU上进行计算后,需要将数据移回CPU上才能调用numpy方法。

  3. + 1:这一步将数组中的所有元素加1,将范围从[-1, 1]映射到[0, 2]

  4. * 127.5:这一步将数组中的所有元素乘以127.5,将范围从[0, 2]映射到[0, 255],将数据重新缩放到uint8范围内。

  5. np.round():这一步对数组中的所有元素执行四舍五入操作,将浮点数转换为整数。

综合起来,这行代码的作用是将PyTorch张量(范围在[-1, 1]之间)转换为numpy数组,并将其值重新映射到uint8范围内(0-255),并将浮点数转换为整数。
 

 img = img.clip(min=0, max=255).astype(np.uint8)

这行代码的作用是确保numpy数组中的数值范围在0到255之间,并将其类型转换为无符号8位整数(uint8),以便表示图像像素值。

4. 推导逆过程

先把代码放一起进行比较

预处理:
self.to_tensor_norm = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])后处理:
def tensor2img(img):img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)img = img.clip(min=0, max=255).astype(np.uint8)return img

下面是推导过程:

完结撒花!
不足之处还请大家指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316754.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【国标语音对讲】EasyCVR视频汇聚平台海康/大华/宇视摄像头GB28181语音对讲配置

一、背景分析 近年来,国内视频监控应用发展迅猛,系统接入规模不断扩大,涌现了大量平台提供商,平台提供商的接入协议各不相同,终端制造商需要给每款终端维护提供各种不同平台的软件版本,造成了极大的资源浪…

基于Vue3的Axios异步请求

基于Vue3的Axios异步请求 1. Axios安装与应用2. Axios网络请求封装3. axios网络请求跨域前端解决方案server.proxy 1. Axios安装与应用 Axios是一个基于promise的网络请求库,Axios.js.中文文档:https://axios.js.cn/ 安装:npm install --sa…

vuetify3.0+tailwindcss+vite最新框架

1、根据vuetify官网下载项目 安装vuetify项目 2、根据tailwindcss官网添加依赖 添加tailwindcss依赖 3、 配置main.ts // main.ts import "./style.css"4、使用 <template><h1 class"text-3xl font-bold underline">Hello world!</…

【消息队列】延迟消息

延时消息 延迟消息死信交换机延迟消息的插件 延迟消息 生产者发送消息时指定一个时间&#xff0c;消费者不会立刻收到消息&#xff0c;而在指定时间之后才收到消息 比如说演唱会的票&#xff0c;抢上了但是迟迟未支付&#xff0c;但是库存已经占用&#xff0c;就需要用到延迟消…

75、堆-前K个高频元素

思路 这道题还是使用优先队列&#xff0c;是要大根堆&#xff0c;然后创建一个类&#xff0c;成员变量值和次数。大根堆基于次数排序。前k个就拿出前k的类的值即可。代码如下&#xff1a; class Solution {public int[] topKFrequent(int[] nums, int k) {if (nums null || …

电商技术揭秘三十五:智能风控功能架构浅析

相关系列文章 电商技术揭秘相关系列文章合集&#xff08;1&#xff09; 电商技术揭秘相关系列文章合集&#xff08;2&#xff09; 电商技术揭秘二十八&#xff1a;安全与合规性保障 电商技术揭秘二十九&#xff1a;电商法律合规浅析 电商技术揭秘三十&#xff1a;知识产权保…

刷题训练之前缀和

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;熟练掌握前缀和算法。 > 毒鸡汤&#xff1a;学习&#xff0c;学习&#xff0c;再学习 ! 学&#xff0c;然后知不足。 > 专栏选自&#xff1a;刷题…

智能私信软件:转化率提升的神器

在数字化营销领域&#xff0c;利用智能私信软件策略提升转化率已经成为一种不可忽视的趋势。随着人工智能技术的发展&#xff0c;这些软件变得越来越智能&#xff0c;能够根据用户的行为和偏好提供个性化的沟通体验。在这篇文章中&#xff0c;我们将探讨如何有效地运用智能私信…

分布式WEB应用中会话管理的变迁之路

优质博文&#xff1a;IT-BLOG-CN Session一词直译为“会话”&#xff0c;意指有始有终的一系列动作&#xff0f;消息。Session是Web应用蓬勃发展的产物之一&#xff0c;在Web应用中隐含有“面向连接”和“状态保持”两个含义&#xff0c;同时也指代了Web服务器与客户端之间进行…

BM25检索算法 python

1.简介 BM25&#xff08;Best Matching 25&#xff09;是一种经典的信息检索算法&#xff0c;是基于 TF-IDF算法的改进版本&#xff0c;旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数&#xff0c;用于估计文档D与用户查询Q之间的相关性。它是一种…

Docker-compose部署LTC同步节点

1、下载ltc程序包&#xff0c;litecoin下载地址 下载页 mkdir /data/docker-compose/ltc cd /data/docker-compose/ltc https://github.com/litecoin-project/litecoin/releases/download/v0.21.3/litecoin-0.21.3-x86_64-linux-gnu.tar.gz2、编写dockerfile和bitcoin.conf b…

JVM (Micrometer)监控SpringBoot(AWS EKS版)

问题 怎样使用JVM (Micrometer)面板&#xff0c;监控Spring&#xff1f;这里不涉及Prometheus和Grafana&#xff0c;重点介绍与Micrometer与Springboot&#xff0c;k8s怎样集成。 pom.xml 引入依赖&#xff0c;如下&#xff1a; <properties><micrometer.version&…

【蓝桥杯C++A组省三 | 一场勇敢的征途与致19岁的信】

随着4.13西大四楼考场的倒计时结束… 就这样蓝桥杯落幕了 省三的名次既满足又不甘心&#xff0c;但又确乎说得上是19岁途中的又一枚勋章 从去年得知&#xff0c;纠结是否要报名、到寒假开始战战兢兢地准备、陆续开始创作博客&#xff0c;记录好题和成长……感谢你们的关注&…

2024年十五届蓝桥杯省赛大学B组真题(Java完整版)

2024年十五届蓝桥杯省赛大学B组真题&#xff08;Java&#xff09; 前言&#xff1a; 赛后一直犹豫要不要对比赛进行复盘出个题解&#xff0c;拖到了现在&#xff0c;终于也是等到比赛结果出来&#xff0c;看到没有辜负个人期望成功取得省一&#xff0c;决定在国赛前对省赛进行…

使用 Python 代码实现 ICMP Timestamp 请求和回应

前言 ICMP&#xff08;Internet Control Message Protocol&#xff09;是在IP网络上传输控制消息的协议。其中&#xff0c;ICMP Timestamp请求和回应是ICMP协议中的一种消息类型&#xff0c;用于获取和同步网络设备的时间戳信息。 ICMP Timestamp请求和回应的工作原理如下&am…

STM32与Proteus的串口仿真详细教程与源程序

资料下载地址&#xff1a;STM32与Proteus的串口仿真详细教程与源程序 资料内容 包含LCD1602显示&#xff0c;串口发送接收&#xff0c;完美实现。 文档内容齐全&#xff0c;包含使用说明&#xff0c;相关驱动等。 解决了STM32的Proteus串口收发问题。 注意&#xff1a;每输…

【酱浦菌-爬虫项目】爬取百度文库文档

1. 首先&#xff0c;定义了一个变量url&#xff0c;指向百度文库的搜索接口 ‘https://wenku.baidu.com/gsearch/rec/pcviewdocrec’。 2. 然后&#xff0c;设置了请求参数data&#xff0c;包括文档ID&#xff08;docId&#xff09;和查询关键词&#xff08;query&#xff09;。…

debian gnome-desktop GUI(图形用户界面)系统

目录 &#x1f31e;更新 &#x1f3a8;安装 &#x1f34e;分配 &#x1f6cb;️重启 &#x1f511;通过VNC连接 debian gnome-desktop &#x1f31e;更新 sudo apt update sudo apt -y upgrade &#x1f3a8;安装 sudo apt -y install task-gnome-desktop 这个过程比…

【HTTP协议】了解http需要学习哪些内容

HTTP&#xff08;Hypertext Transfer Protocol&#xff09;是超文本传输协议&#xff0c;互联网上应用最广泛的一种协议&#xff0c;它负责在客户端和服务器之间传输数据。本文将从HTTP协议的基本原理、请求-响应模型、常见特性以及应用场景等方面进行总结。 1. HTTP基本原理 …

WordPress缓存插件有哪些?好用的缓存插件分享

目前WordPress缓存插件有&#xff1a;WP Rocket、WP Super Cache、W3 Total Cache、Sucuri、NitroPack、SiteGround Optimizer、LiteSpeed Cache、WP-Optimize、Hummingbird、Cache Enabler、Comet Cache。 在当今的数字世界中&#xff0c;拥有一个高效的网站对于吸引和留住用…