图像处理篇---图像预处理


文章目录

  • 前言
  • 一、通用目的
    • 1.1 数据标准化
      • 目的
      • 实现
    • 1.2 噪声抑制
      • 目的
      • 实现
        • 高斯滤波
        • 中值滤波
        • 双边滤波
    • 1.3 尺寸统一化
      • 目的
      • 实现
    • 1.4 数据增强
      • 目的
      • 实现
    • 1.5 特征增强
      • 目的
      • 实现:
        • 边缘检测
        • 直方图均衡化
        • 锐化
  • 二、分领域预处理
    • 2.1 传统机器学习(如SVM、随机森林)
      • 2.1.1 特点
      • 2.1.2 预处理重点
        • 灰度化
        • 二值化
        • 形态学操作
        • 特征工程
    • 2.2 深度学习(如CNN、Transformer)
      • 2.2.1 特点
      • 2.2.2 预处理重点
        • 通道顺序调整
        • 批量归一化
        • 高级增强
        • 预训练模型适配
    • 2.3 其他领域
      • 2.3.1医学影像(如MRI、CT)
        • 去伪影
        • 标准化
      • 2.3.2 卫星遥感
        • 多光谱融合
        • 辐射校正
      • 2.3.3 工业检测
        • 背景分割
        • 高动态范围
  • 三、工具与库
    • 3.1 OpenCV
    • 3.2 PIL/Pillow
    • 3.3 scikit-image
    • 3.4 TensorFlow
    • 3.5 PyTorch
  • 四、总结
    • 4.1 目标检测
    • 4.2 语义分割
    • 4.3 低光照场景


前言

图像预处理是机器学习和计算机视觉任务中至关重要的一环,其核心目的是通过对原始图像进行优化和调整提升模型性能、降低噪声干扰、增强关键特征,并适应模型的输入要求。以下是分领域的详细说明:


一、通用目的

1.1 数据标准化

目的

目的:统一输入数据的分布,避免因像素值范围差异(如0-255或0-1)导致模型训练不稳定。

实现

#归一化到 [0, 1]
image_normalized = image / 255.0
#标准化(均值中心化 + 方差归一化)
image_standardized = (image - mean) / std

1.2 噪声抑制

目的

目的:消除图像中的随机噪声(如高斯噪声、椒盐噪声),提升特征提取的鲁棒性

实现

高斯滤波

高斯滤波:cv2.GaussianBlur()

中值滤波

中值滤波:cv2.medianBlur()

双边滤波

双边滤波:保留边缘的同时去噪,cv2.bilateralFilter()

1.3 尺寸统一化

目的

目的:确保所有输入图像尺寸一致,适配模型输入层(如CNN要求固定尺寸)。

实现

resized_image = cv2.resize(image, (width, height))

1.4 数据增强

目的

目的:通过**几何变换(旋转、翻转、裁剪)颜色扰动(亮度、对比度调整)**扩充数据集,防止过拟合。

实现

#使用OpenCV或深度学习框架(如TensorFlow的ImageDataGenerator)
flipped = cv2.flip(image, 1)  # 水平翻转
rotated = cv2.rotate(image, cv2.ROTATE_90_CLOCKWISE)

1.5 特征增强

目的

目的:突出目标区域的关键特征(如边缘、纹理)

实现:

边缘检测

边缘检测:Sobel算子、Canny算子

直方图均衡化

直方图均衡化:cv2.equalizeHist()(增强对比度)

锐化

锐化:拉普拉斯算子或自定义卷积核

二、分领域预处理

2.1 传统机器学习(如SVM、随机森林)

2.1.1 特点

特点:依赖手工提取特征(如HOG、LBP、颜色直方图)。

2.1.2 预处理重点

灰度化

灰度化:减少计算量,cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

二值化

二值化:cv2.threshold()(如文档OCR任务

形态学操作

形态学操作:腐蚀、膨胀(去除小斑点或连接断裂区域

特征工程

特征工程:提取统计特征(均值、方差)或结构特征。

2.2 深度学习(如CNN、Transformer)

2.2.1 特点

特点:端到端学习特征,但依赖大量数据和标准化输入。

2.2.2 预处理重点

通道顺序调整

通道顺序调整:适配框架要求(如TensorFlow的HWC格式或PyTorch的CHW格式)。

批量归一化

批量归一化:在数据加载阶段统一处理(如torchvision.transforms.Normalize)。

高级增强

高级增强:MixUp、CutMix等基于混合样本的策略。

预训练模型适配

预训练模型适配:输入需与预训练数据分布一致(如ImageNet的均值方差)。

2.3 其他领域

2.3.1医学影像(如MRI、CT)

去伪影

去伪影:消除扫描过程中的运动伪影或设备噪声

标准化

标准化:使用Z-score或直方图匹配**(不同设备间的数据一致性**)。

2.3.2 卫星遥感

多光谱融合

多光谱融合:合并不同波段的图像(如红外与可见光)。

辐射校正

辐射校正:消除大气干扰。

2.3.3 工业检测

背景分割

背景分割:提取ROI(如产品表面缺陷检测)。

高动态范围

高动态范围(HDR):处理过曝或欠曝区域

三、工具与库

3.1 OpenCV

OpenCV:基础操作(滤波、几何变换、颜色空间转换)。

3.2 PIL/Pillow

PIL/Pillow:简单的图像增强(缩放、裁剪)。

3.3 scikit-image

scikit-image:高级滤波和特征提取(如局部二值模式)。

3.4 TensorFlow

TensorFlow:tf.image模块

3.5 PyTorch

PyTorch:torchvision.transforms

四、总结

图像预处理的选择需结合具体任务:

4.1 目标检测

目标检测:可能更关注多尺度输入颜色增强

4.2 语义分割

语义分割:需保留空间信息,避免过度下采样

4.3 低光照场景

低光照场景:需Retinex算法或深度学习去噪(如AutoEncoder)。

通过合理设计预处理流程,可显著提升模型泛化能力收敛速度


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34939.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习中的向量的样子-DCN

深度学习中向量都是 竖着的,譬如 DCN中的计算逻辑

OBS推WebRTC流,并添加毫秒级时间显示

作者在用OBS推WebRTC流,并用浏览器观看推送的实时流。另外就是想看一下延迟有多少。采用一台电脑,流媒体服务器为SRS,相关配置比较简单,可以自行搜索。 推送的流 http://localhost:1985/rtc/v1/whip/?applive&streamlivestr…

【MySQL】多表操作 —— 外键约束

目录 多表关系一对一关系一对多/多对一关系多对多关系 外键约束基本概念一对多/多对一创建外键约束外键约束下的数据操作数据插入数据删除 删除外键约束 多对多创建外键约束外键约束下的数据操作数据插入数据删除 删除外键约束 多表关系 MySQL 多表之间的关系可以概括为&#…

82.HarmonyOS NEXT 性能优化指南:从理论到实践

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT 性能优化指南:从理论到实践 文章目录 HarmonyOS NEXT 性能优化指南:从理论到实践1. 性能优化概述1.1 性能指…

树莓派急速安装ubuntu;映射磁盘与储存磁盘文件;ubuntu映射整个工程;保存系统工作状态

一、用途 在使用树莓派上下载ubuntu时,需要一张sd卡,当你需要给这张卡做备份的时候,可以是使用磁盘映射软件,从而达到备份的目的 同时有一些大佬发布了ubuntu的映射文件,可以直接使用该文件,然后还原他的整…

Qt 控件概述 QPushButton 与 QRadioButton

目录 QPushButton setIcon 设置图标 setShortCut 设置快捷键 setAutoRepeat : 设置是否连发 ​编辑RadioButton 槽函数 单选按钮的分组排异 QPushButton QPushButtoon继承于QAbstractButton(抽象类); QAbstract中与QPushButton关联性极大的属性 ​ setIcon…

HR9110 玩具单通道直流电机驱动器

1、描述 HR9110是应用于直流电机方案的单通道H桥驱动器芯片。HR9110的H桥驱动部分采用低导通电阻的PMOS和NMOS功率管。低导通电阻保证芯片低的功率损耗,使得芯片安全工作更长时间。此 外HR9110拥有低待机电流、低静态工作电流。这些性能使能HR9110易用于玩具方案。…

Mac 使用 Crossover 加载 Windows Steam 游戏库,实现 Windows/Mac 共享移动硬盘

Mac 使用 Crossover 加载 Windows Steam 游戏库,实现 Windows/Mac 共享移动硬盘 1. 在Crossover上安装Steam2. Steam容器加载移动硬盘3. 配置Steam库 前言:本文介绍了如何在Crossover上安装Steam并加载外接移动硬盘,实现在Window上下载的游戏…

ubuntu 24 安装 python3.x 教程

目录 注意事项 一、安装不同 Python 版本 1. 安装依赖 2. 下载 Python 源码 3. 解压并编译安装 二、管理多个 Python 版本 1. 查看已安装的 Python 版本 2. 配置环境变量 3. 使用 update-alternatives​ 管理 Python 版本 三、使用虚拟环境为项目指定特定 Python 版本…

沐数科技数据开发岗笔试题2025

描述性统计 标准差 答案: A 解析: 标准差 衡量数据集中数值变化或离散程度的一种度量。它反映了数据集中的各个数值与数据集的平均值(均值)之间的偏离程度。标准差越大,表明数据的分布越分散;标准差越小,表明数据…

ChatGPT-4

第一章:ChatGPT-4的技术背景与核心架构 1.1 生成式AI的发展脉络 生成式人工智能(Generative AI)的演进历程可追溯至20世纪50年代的早期自然语言处理研究。从基于规则的ELIZA系统到统计语言模型,再到深度学习的革命性突破&#x…

vulkanscenegraph显示倾斜模型(5.3)-相机

前言 在Vulkan中,相机的概念并非由API直接提供,而是由应用程序实现。相机的核心功能包括视图变换和投影变换:视图变换将世界坐标系中的物体转换到相机坐标系,投影变换则将相机坐标系中的物体转换到投影空间。在VSG(Vul…

【Pycharm】Pycharm无法复制粘贴,提示系统剪贴板不可用

我也没有用vim的插件,检查了本地和ubutnu上都没有。区别是我是远程到ubutnu的pycharm,我本地直接控制windowes的pycharm是没问题的。现象是可以从外部复制到pycharm反之则不行。 ctl c ctlv 以及右键 都不行 参考:Pycharm无法复制粘贴&…

MySQL 8 设置允许远程连接(Windows环境)

🌟 MySQL 8 设置允许远程连接(Windows环境) 在开发和部署应用时,经常需要从远程主机连接到MySQL数据库。默认情况下,MySQL仅允许本地连接,因此需要进行一些配置才能允许远程访问。今天,我将详细…

Prosys OPC UA Gateway:实现 OPC Classic 与 OPC UA 无缝连接

在工业自动化的数字化转型中,设备与系统之间的高效通信至关重要。然而,许多企业仍依赖于基于 COM/DCOM 技术的 OPC 产品,这给与现代化的 OPC UA 架构的集成带来了挑战。 Prosys OPC UA Gateway 正是为解决这一问题而生,它作为一款…

欢乐力扣:基本计算器

文章目录 1、题目描述2、思路代码括号 1、题目描述 基本计算器。  给你一个字符串表达式 s ,请你实现一个基本计算器来计算并返回它的值。  注意:不允许使用任何将字符串作为数学表达式计算的内置函数,比如 eval() 。 2、思路 本人也不太会&#xff0c…

SVN学习笔记

svn:版本控制软件 解决:1.协作开发 2.远程开发 3.版本回退 服务端软件: VisualSVN http://www.visualsvn.com 客户端软件:Tortoisesvn http://tortoisesvn.net/downloads 1.checkout(检出) 第一查更新数据到本地, 2.update&#xf…

Mysql表的查询

一:创建一个新的数据库(companydb),并查看数据库。 二:使用该数据库,并创建表worker。 mysql> use companydb;mysql> CREATE TABLE worker(-> 部门号 INT(11) NOT NULL,-> 职工号 INT(11) NOT NULL,-> 工作时间 D…

[ISP] 人眼中的颜色

相机是如何记录颜色的,又是如何被显示器还原的? 相机通过记录RGB数值然后显示器显示RGB数值来实现颜色的记录和呈现。道理是这么个道理,但实际上各厂家生产的相机对光的响应各不相同,并且不同厂家显示器对三原色的显示也天差地别&…

Cursor插件市场打不开解决

问题现象: cursor搜索插件的时候提示错误,无法搜索安装插件 error while fetching extensions.failed to fetch 问题原因 cursor默认安装使用的并不是vs code的插件市场,国内网络有时候打不开 解决 修改插件市场地址并重启cursor 打开cur…