「Pytorch」CopyPaste 数据增强

数据增广是提升模型泛化能力重要的手段之一,CopyPaste 是一种新颖的数据增强技巧,已经在目标检测和实例分割任务中验证了有效性。利用 CopyPaste,可以合成文本实例来平衡训练图像中的正负样本之间的比例。相比而言,传统图像旋转、随机翻转和随机裁剪是无法做到的。

CopyPaste 主要步骤包括:

  1. 随机选择两幅训练图像;
  2. 随机尺度抖动缩放;
  3. 随机水平翻转;
  4. 随机选择一幅图像中的目标子集;
  5. 粘贴在另一幅图像中随机的位置。

这样就比较好地提升了样本丰富度,同时也增加了模型对环境的鲁棒性。如下图所示,通过在左下角的图中裁剪出来的文本,随机旋转缩放之后粘贴到左上角的图像中,进一步丰富了该文本在不同背景下的多样性。

在这里插入图片描述

参考代码:

#  !/usr/bin/env  python
#  -*- coding:utf-8 -*-
# @Time   :  2024.07
# @Author :  绿色羽毛
# @Email  :  lvseyumao@foxmail.com
# @Blog   :  https://blog.csdn.net/ViatorSun
# @Note   :import os
import cv2
import json
import logging
import random
import numpy as npimport matplotlib.pyplot as pltdef create_operators(op_param_list, global_config=None):"""create operators based on the configArgs:params(list): a dict list, used to create some operators"""assert isinstance(op_param_list, list), ('operator config should be a list')ops = []for operator in op_param_list:assert isinstance(operator,dict) and len(operator) == 1, "yaml format error"op_name = list(operator)[0]param = {} if operator[op_name] is None else operator[op_name]if global_config is not None:param.update(global_config)op = eval(op_name)(**param)ops.append(op)return opsdef transform(data, ops=None):""" transform """if ops is None:ops = []for op in ops:data = op(data)if data is None:return Nonereturn data# CopyPaste示例的类
class CopyPasteDemo(object):def __init__(self, ):self.data_dir = "/media/sun/Data/Dataset/OCR_Data/det/train/"self.label_file_list = "/media/sun/Data/Dataset/OCR_Data/det/train.txt"self.data_lines = self.get_image_info_list(self.label_file_list)self.data_idx_order_list = list(range(len(self.data_lines)))transforms = [{"DecodeImage": {"img_mode": "BGR", "channel_first": False}},{"DetLabelEncode": {}},{"CopyPaste": {"objects_paste_ratio": 1.0}},]self.ops = create_operators(transforms)# 选择一张图像,将其中的内容拷贝到当前图像中def get_ext_data(self, idx):ext_data_num = 1ext_data = []next_idx = idxload_data_ops = self.ops[:2]while len(ext_data) < ext_data_num:next_idx = (next_idx + 1) % len(self)file_idx = self.data_idx_order_list[next_idx]data_line = self.data_lines[file_idx]data_line = data_line.decode('utf-8')substr = data_line.strip("\n").split("\t")file_name = substr[0]label = substr[1]img_path = os.path.join(self.data_dir, file_name)data = {'img_path': img_path, 'label': label}if not os.path.exists(img_path):continuewith open(data['img_path'], 'rb') as f:img = f.read()data['image'] = imgdata = transform(data, load_data_ops)if data is None:continueext_data.append(data)return ext_data# 获取图像信息def get_image_info_list(self, file_list):if isinstance(file_list, str):file_list = [file_list]data_lines = []for idx, file in enumerate(file_list):with open(file, "rb") as f:lines = f.readlines()data_lines.extend(lines)return data_lines# 获取DataSet中的一条数据def __getitem__(self, idx):file_idx = self.data_idx_order_list[idx]data_line = self.data_lines[file_idx]try:data_line = data_line.decode('utf-8')substr = data_line.strip("\n").split("\t")file_name = substr[0]label = substr[1]img_path = os.path.join(self.data_dir, file_name)data = {'img_path': img_path, 'label': label}if not os.path.exists(img_path):raise Exception("{} does not exist!".format(img_path))with open(data['img_path'], 'rb') as f:img = f.read()data['image'] = imgdata['ext_data'] = self.get_ext_data(idx)outs = transform(data, self.ops)except Exception as e:print("When parsing line {}, error happened with msg: {}".format(data_line, e))outs = Noneif outs is None:returnreturn outsdef __len__(self):return len(self.data_idx_order_list)if __name__ == '__main__':copy_paste_demo = CopyPasteDemo()idx = 1data1 = copy_paste_demo[idx]print(data1.keys())print(data1["img_path"])print(data1["ext_data"][0]["img_path"])infos = copy_paste_demo.data_lines[idx]infos = json.loads(infos.decode('utf-8').split("\t")[1])img3 = data1["image"].copy()plt.figure(figsize=(15, 10))plt.imshow(img3[:, :, ::-1])# 原始标注信息for info in infos:xs, ys = zip(*info["points"])xs = list(xs)ys = list(ys)xs.append(xs[0])ys.append(ys[0])plt.plot(xs, ys, "r")# 新增的标注信息for poly_idx in range(len(infos), len(data1["polys"])):poly = data1["polys"][poly_idx]xs, ys = zip(*poly)xs = list(xs)ys = list(ys)xs.append(xs[0])ys.append(ys[0])plt.plot(xs, ys, "b")plt.show()

生成后的图像
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/372647.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML5文本标签、图像标签、超链接

一、文本样式标签 字体样式标签&#xff1a; 加粗&#xff1a;<strong>…</strong> 斜体&#xff1a; < em >…</ em> eg&#xff1a; <h3>徐志摩人物简介</h3> <p> <strong>1910</strong>年入杭州学堂<br/> &l…

java之循环练习题

思路分析&#xff1a; 代码&#xff1a; public static void main(String[] args) {int sum0;for (int i1;i<100;i){for (int j1;j<i;j) {sum j;}}System.out.println(sum);} 结果为&#xff1a;

uniapp上架到appstore遇到的问题

1、appstore在美国审核&#xff0c;需要把服务器接口的国外访问权限放开 2、登陆部分 a、审核时只能有密码登陆&#xff0c;可以通过接口响应参数将其他登陆方式暂时隐藏&#xff0c;审核成功后放开即可 b、需要有账号注销功能 3、使用照相机和相册功能时需要写清楚描述文案

制作问卷表单二维码的方法,扫码登记信息更快捷

为了更好地收集用户信息&#xff0c;现在很多场景下会使用生成二维码的方式&#xff0c;让用户可以扫码自行填写相关信息&#xff0c;从而提高获取信息的效率以及填写数据的便捷性。那么用于收集用户数据的表单二维码是如何生成的呢&#xff1f;其实方法很简单&#xff0c;现在…

leetcode 283.移动零

leetcode 283.移动零 自己刷题并且进行记录一下 题解 c class Solution { public:void moveZeroes(vector<int>& nums) {int count 0;for (int i 0; i < nums.size(); i) {if(nums[i] ! 0) {nums[count] nums[i];if (count !i) {nums[i] 0;}count;}}} };

使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-飞船动画(三)

文章目录 开发思路飞船尾焰左右移动动画唯一名称的添加 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击&#xff08;一&#xff09; 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-激光组件&#xff08;二&#xff09; 开发思路 整体开发还是基于组件的思维。相比…

录音的内容怎么做二维码?支持多种音频格式使用的制作技巧

怎么把录制的音频文件做成二维码呢&#xff1f;现在用二维码来存储内容是一种很常用的方式&#xff0c;让其他人扫描二维码来查看内容&#xff0c;从而提升内容传输的速度。比如现在很多人会将音频生成二维码&#xff0c;其他人可以通过扫码在手机上播放音频内容&#xff0c;那…

rfid资产管理系统解决方案 rfid固定资产管理系统建设方案

在现代化的仓库储备中&#xff0c;仅仅完成对货物进出的简单批次处理已经不再足够&#xff0c;对库内货品的种类、数量、生产属性、垛位等信息的清晰记录变得至关重要。然而&#xff0c;传统的资产管理方式如条形码在长期使用中逐渐暴露出不耐脏、数据存储量小、读取间隔短、不…

【Linux进阶】文件和目录的默认权限与隐藏权限

1.文件默认权限&#xff1a;umask OK&#xff0c;那么现在我们知道如何建立或是改变一个目录或文件的属性了&#xff0c;不过&#xff0c;你知道当你建立一个新的文件或目录时&#xff0c;它的默认权限会是什么吗&#xff1f; 呵呵&#xff0c;那就与umask这个玩意儿有关了&…

html——VSCode的使用

快捷键 快速生成标签&#xff1a;标签名tab 保存文件&#xff1a;CtrlS 设置自动保存【文件】→【自动保存】 快速查看网页效果&#xff1a;右击→Open in Default Browser 快捷键&#xff1a;altb 注意&#xff1a;必须安装了open in brows…

批量下载手机中APP程序中文件

需求 利用 adb pull 下载手机中app的某目录 adb pull 命令本身不支持直接下载整个目录&#xff08;文件夹&#xff09;及其所有子目录和文件作为一个单一的操作。但是&#xff0c;可以通过一些方法来间接实现这一目的。 方法 1. 首先将要下载的目录进行 tar 打包 # 在 And…

【软件测试】 1+X初级 功能测试试题

岗位管理模块需求说明书 人资管理员登录系统&#xff0c;在“岗位管理”模块&#xff0c;可以对系统中岗位数据进行维 护。岗位管理需求包括用户&#xff08;UI&#xff09;页面、业务规则两部分。 UI 页面 岗位管理&#xff1a;列表页 岗位管理&#xff1a;“添加岗位”窗口 …

Docker 使用基础(1)—镜像仓库

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;秒針を噛む—ずっと真夜中でいいのに。 0:34━━━━━━️&#x1f49f;──────── 4:20 &#x1f504; ◀️ ⏸ …

ST7789 linux4.x驱动

文章目录 ST7789 linux4.x驱动设备树配置驱动程序编译驱动测试驱动 ST7789 linux4.x驱动 设备树配置 pinctrl_ecspi2_cs_1: ecspi2_cs_grp-1 {fsl,pins <MX6UL_PAD_CSI_DATA01__GPIO4_IO22 0x40017059>; };pinctrl_ecspi2_1: escpi2grp {fsl,pins <MX6UL_PAD_CSI_…

数字系统与进制转换

数字系统 数字逻辑是计算机科学的基础&#xff0c;它研究的是如何通过逻辑门电路&#xff08;与门、或门、非门等&#xff09;实现各种逻辑功能。数字系统则是由数字逻辑电路组成的系统&#xff0c;可以实现各种复杂的运算和控制功能。在计算机科学中&#xff0c;数字逻辑和数…

项目记录:C语言学生成绩排名程序

一个很简单的小项目&#xff0c;大一的学生作业。我简单介绍一下相关功能和代码之类的吧~ 本来题目不强制要求菜单的&#xff0c;我有点强迫症加了菜单。 【1】题目&#xff1a; 一个班40名学生&#xff0c;期末有10门课程成绩&#xff0c;要求计算并输出如下数据&#xff1a; …

Xilinx Vitis 2020工程源目录修改

目录 1 背景2 分析3 解决4 使用4.1 修改路径4.2 编译工程4.2.1 清理工程4.2.2 编译工程 1 背景 Xilinx Vitis可以做standalone程序开发,不过其工程中使用的路径为绝对路径。工程更换位置后编译将会显示错误。例如&#xff1a;源目录为D:/work,复制到同事电脑上放到C:/work(同事…

注册中心组成结构和基本原理解析

假如你正在设计和开发一个分布式服务系统&#xff0c;系统中存在一批能够独立运行的服务&#xff0c;而在部署上也采用了集群模式以防止出现单点故障。显然&#xff0c;对于一个完整的业务系统而言&#xff0c;这些服务之间需要相互调用并形成复杂的访问链路&#xff0c;一种可…

HTML(29)——立体呈现

作用&#xff1a;设置元素的子元素是位于3D空间中还是平面中 属性名&#xff1a;transform-style 属性值&#xff1a; flat&#xff1a;子级处于平面中preserve-3d:子级处于3D空间 步骤&#xff1a; 父级元素添加 transform-style:preserve-3d 子级定位调整子盒子的位置&a…

14-54 剑和诗人28 - 用于实时嵌入查找的向量检索

介绍 LLM 成功的关键因素是向量嵌入的使用。通过将文本转换为数字向量表示&#xff0c;我们可以将语义含义映射到数学向量空间。这使得模型能够根据向量之间的相似性在语言中概括模式。 随着我们的模型和数据集变得越来越大&#xff0c;高效地存储、组织和检索这些嵌入变得至关…