风格迁移——CAP-VSTNet训练自己数据集并推理测试(详细图文教程)

在这里插入图片描述

目录

  • 一、CAP-VSTNet
  • 二、源码包准备
  • 三、环境准备
  • 四、数据集准备
    • 4.1 源码包中数据集
    • 4.2 动漫风格数据集
    • 4.3 MS_COCO数据集
  • 五、训练
    • 5.1 训练配置参数修改
    • 5.2 开始训练
      • 5.2.1 训练真实感模型
      • 5.2.2 训练艺术感感模型
    • 5.3 训练过程
    • 5.4 模型输出保存
  • 六、测试
    • 6.1 单帧图片测试
      • 6.1.1 测试配置参数修改
      • 6.1.2 启动测试
        • 6.1.2.1 真实感测试
        • 6.1.2.2 艺术感测试
      • 6.1.3 测试结果
    • 6.2 视频测试
      • 6.2.1 测试配置参数修改
      • 6.2.2 启动测试
        • 6.2.2.1 真实感测试
        • 6.2.2.2 艺术感测试
  • 七、效果展示
    • 7.1 单帧图片效果
    • 7.1 视频效果
  • 八、总结

一、CAP-VSTNet

CAP-VSTNet是2023年提出的风格迁移网络,它在处理风格迁移时表现出了优秀的性能。这个网络包括一个新的可逆残差网络和一个无偏线性变换模块,用于多功能风格转移。CAP-VSTNet的主要目标是解决内容相似度损失(包括特征和像素相似度)问题,这是导致逼真和视频风格迁移中出现伪影的主要问题。

根据相关研究,CAP-VSTNet在多功能风格转移上表现出了有效性,并且可以产生较好的定性和定量结果。这意味着CAP-VSTNet能够在保留内容相似性的同时,实现高质量的风格迁移。

二、源码包准备

本教程配套源码包获取方法文章末扫码到公众号「视觉研坊」中回复关键字:风格迁移CAP-VSTNet。获取下载链接。

官网源码包下载链接:CAP-VSTNet

论文:论文

在我提供的源码包中含有训练集和测试集,也包含已经训练好的模型权重文件,下载我提供的源码包解压后的样子如下:

在这里插入图片描述

三、环境准备

下面是我自己训练和测试的环境版本,仅供参考,其它版本也行:

在这里插入图片描述

四、数据集准备

4.1 源码包中数据集

我提供的源码包中有部分测试集,如下:

在这里插入图片描述

4.2 动漫风格数据集

动漫风格的数据集下载链接:https://link.zhihu.com/?target=https%3A//github.com/TachibanaYoshino/AnimeGAN/releases/download/dataset-1/dataset.zip

直接将上面链接复制到迅雷中下载,速度很快。

上面链接中数据集由6656张真实的风景照片组成,涵盖了三种独特的动漫风格:Hayao,Shinkai,和Paprika。每种风格的动漫图像都是通过从相应电影的视频帧中随机裁剪得到的。此外,数据集还包括各种尺寸的图像,以便进行测试。具体的数据集信息如下图所示:

在这里插入图片描述

此数据集中,部分动漫风格图如下:

在这里插入图片描述

4.3 MS_COCO数据集

MS_COCO数据集数据集比较大,里面都是现实生活中的照片,总共82783张照片,压缩包有12.58G,MS_COCO数据集下载链接为:MS_COCO数据集,此数据集也可以直接将连接复制到迅雷中下载,速度较快。

此数据集中部分图如下:

在这里插入图片描述

五、训练

5.1 训练配置参数修改

训练配置参数在train.py脚本中,参数很多,学者根据自己需求调整参数训练。

在这里插入图片描述

注:如果电脑显存较小,把batch_size设置为1。我自己训练,batch_size设为2时,显存大概占用8.6G。

5.2 开始训练

启动训练可以在trian.py脚本中修改好参数后直接点击run运行,或者使用命令方式训练。

在终端启动训练命令见下:

5.2.1 训练真实感模型

训练真实感模型使用命令:

python train.py --mode photorealistic --train_content data/train_content  --train_style data/train_stytle

5.2.2 训练艺术感感模型

训练艺术感感模型使用命令:

python train.py --mode artistic --train_content data/train_content  --train_style data/train_stytle --lap_weight 1 --rec_weight 1

5.3 训练过程

启动训练后,终端输出的训练过程如下:

在这里插入图片描述

5.4 模型输出保存

上面训练过程中的模型自动保存到根目录下的logs文件夹中,如下:

在这里插入图片描述

六、测试

6.1 单帧图片测试

6.1.1 测试配置参数修改

在这里插入图片描述

6.1.2 启动测试

启动测试有两种方法,第一种在image_transfer.py脚本中直接修改好参数,点击run运行。

第二种是在终端使用命令测试,见下:

6.1.2.1 真实感测试

真实感测试命令:

python image_transfer.py --mode photorealistic --ckpoint checkpoints/photo_image.pt --content data/content/01.jpg  --style data/style/01.jpg
6.1.2.2 艺术感测试

艺术感测试命令:

python image_transfer.py --mode artistic --ckpoint checkpoints/art_image.pt --content data/content/02.jpg  --style data/style/02.png

6.1.3 测试结果

测试结果自动保存到output文件夹中,如下:

在这里插入图片描述

6.2 视频测试

6.2.1 测试配置参数修改

在这里插入图片描述

6.2.2 启动测试

启动测试有两种方法,第一种在video_transfer.py脚本中直接修改好参数,点击run运行。

第二种是在终端使用命令测试,见下:

6.2.2.1 真实感测试

真实感测试命令为:

python video_transfer.py --mode photorealistic --ckpoint checkpoints/photo_video.pt --video data/content/03.avi  --style data/style/03.jpeg
6.2.2.2 艺术感测试

仪式感测试命令为:

python video_transfer.py --mode artistic --ckpoint checkpoints/art_video.pt --video data/content/04.avi  --style data/style/04.jpg

终端的实际输出如下:

在这里插入图片描述

最终的视频保存同6.1.3。

七、效果展示

7.1 单帧图片效果

下面展示图中,左侧为原始图,中间为风格图,右侧为风格迁移后的图:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.1 视频效果

CSDN平台不能放视频,转换后的视频效果,我会上传到其它平台上,后续更新放视频链接。

八、总结

以上就是风格迁移CAP-VSTNet训练自己数据集并推理测试的详细图文教程,希望能帮你快速上手!

总结不易,多多支持,谢谢!

感谢您阅读到最后!关注公众号「视觉研坊」,获取干货教程、实战案例、技术解答、行业资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/322076.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode—163. 缺失的区间【简单】Plus

2024每日刷题&#xff08;126&#xff09; Leetcode—163. 缺失的区间 实现代码 class Solution { public:vector<vector<int>> findMissingRanges(vector<int>& nums, int lower, int upper) {int n nums.size();vector<vector<int>> an…

数字工厂管理系统如何实现生产过程透明化

随着科技的飞速发展&#xff0c;数字化转型已成为制造业不可逆转的趋势。数字工厂管理系统作为实现生产自动化、智能化的重要工具&#xff0c;其在提升生产效率、降低运营成本、优化资源配置等方面的作用日益凸显。其中&#xff0c;实现生产过程的透明化是数字工厂管理系统的重…

HTML Audio标签src使用base64字符

源码&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>Audio src base64</title> </head> <body><audio controls><source src"data:audio/mp3;base64,//OIxAAAAAAAAAA…

嵌入式linux学习第三天汇编语言点灯

嵌入式linux学习第三天汇编语言点灯 今天学习如何在linux板子上点灯。 I.MX6U GPIO 详解 我们发现I.MX6U GPIO是分为两类的&#xff0c;&#xff1a;SNVS 域的和通用的。在讨论i.MX6U或类似的复杂微处理器时&#xff0c;了解其GPIO&#xff08;通用输入输出&#xff09;引脚…

IoTDB 入门教程 基础篇③——基于Linux系统快速安装启动和上手

文章目录 一、前文二、下载三、解压四、上传五、启动六、执行七、停止八、参考 一、前文 IoTDB入门教程——导读 二、下载 下载二进制可运行程序&#xff1a;https://dlcdn.apache.org/iotdb/1.3.1/apache-iotdb-1.3.1-all-bin.zip 历史版本下载&#xff1a;https://archive.…

【软考高项】三十六、资源管理6个过程

一、规划资源管理 1、定义、作用 定义&#xff1a;定义如何估算、获取、管理和利用团队以及实物资源的过程作用&#xff1a;根据项目类型和复杂程度确定适用于项目资源的管理方法和管理程度 2、输入 项目管理计划 质量管理计划、范围基准项目章程 项目文件 需求文件…

ComStar系统架构介绍

中国外汇交易中心为适应市场需要&#xff0c;开发推出了ComStar外汇资金交易管理系统&#xff0c;该系统能够快速响应市场变化及监管机构的新要求&#xff0c;通过与交易中心银行间市场的外汇交易系统无缝连接&#xff0c;为市场成员提供了更为高效、便利、安全稳定的外汇资金业…

项目管理-项目绩效域2/2

项目管理&#xff1a;每天进步一点点~ 活到老&#xff0c;学到老 ヾ(◍∇◍)&#xff89;&#xff9e; 何时学习都不晚&#xff0c;加油 八大绩效域包括&#xff1a;“团干部 策划开公交” 团队、干系人、不确定性、测试、规划、开发方法与生命周期、项目工作、交付。 上节…

Unity 性能优化之光照优化(七)

提示&#xff1a;仅供参考&#xff0c;有误之处&#xff0c;麻烦大佬指出&#xff0c;不胜感激&#xff01; 文章目录 前言一、测试目的一、实时光源是什么&#xff1f;二、开始测试1.场景中只有一个光照的数值情况2.添加4个点光源后4.结果 总结 前言 实时光源数量越多&#x…

学习软考----数据库系统工程师25

关系规范化 1NF&#xff08;第一范式&#xff09; 2NF&#xff08;第二范式&#xff09; 3NF&#xff08;第三范式&#xff09; BCNF&#xff08;巴克斯范式&#xff09; 4NF&#xff08;第四范式&#xff09; 总结

【vue+el-upload】当action=“#“,代表不使用默认上传,使用自定义上传,http-request获取文件流

el-upload有多种上传行为&#xff1a; 1、立即上传&#xff1a; 当 action 属性被赋予一个有效的 URL 时&#xff0c;一旦用户选择了文件&#xff0c;el-upload 组件会立即自动将文件上传到指定的服务器地址。 2、不立即上传&#xff08;自定义触发&#xff09;&#xff1a; 如…

nlp课设 - 基于BERT 的情感分类

基于BERT 的情感分类 主要论文&#xff1a; BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding&#xff08;双向Transformer 的预训练&#xff09; 核心技术&#xff1a; Embedding 、Attention --> Transformer 任务简介、拟解决问题…

音源分离|数据集|MUSDB18-HQ

一、说明 MUSDB18-HQ是MUSDB18数据集的未压缩版本。它由总共150首不同风格的完整歌曲组成&#xff0c;包括立体声混音和原始源&#xff0c;分为训练子集和测试子集。 其目的是作为设计和评估源分离算法的参考数据库。这种信号处理方法的目的是从一组混合物中估计一个或多个源&a…

2023年谷歌拒了228万应用,禁了33.3万账号,开发者们应如何应对2024的挑战?

谷歌在上周一公布了去年如何应对恶意应用和恶意行为。 报告指出&#xff0c;去年谷歌在Google Play平台上&#xff0c;通过不断升级安全系统、更新政策规定、运用先进的机器学习技术&#xff0c;以及严格把关应用审核流程&#xff0c;成功阻止了高达228万个不合规的应用程序上架…

2024牛客五一集训派对day2 Groundhog Looking Dowdy 个人解题思路

前言&#xff1a; 被实验室教练要求要打的这次五一牛客的训练赛&#xff0c;这些区域赛难度的题对于大一的我来说难度实在是太高了&#xff0c;我和我的队友只写了一些非常简单的签到题&#xff0c;其他题目都没怎么看&#xff08;我们太弱了&#xff09;&#xff0c;但我可以分…

使用Gradio搭建聊天UI实现质谱AI智能问答

使用Gradio搭建聊天UI实现质谱AI智能问答 一、调用智谱 AI API二、使用Gradio搭建聊天UI三、将流式处理添加到交互式聊天机器人 一、调用智谱 AI API 1、获取api_key 智谱AI开放平台网址&#xff1a; https://open.bigmodel.cn/overview 2、安装库pip install zhipuai 3、执…

[笔试训练](十六)

目录 046:字符串替换 047:神奇数 048:DNA序列 046:字符串替换 字符串替换_牛客题霸_牛客网 (nowcoder.com) 题目&#xff1a; 题解&#xff1a; 简单模拟题~ class StringFormat { public:string formatString(string str, int n, vector<char> arg, int m) {strin…

API开发的必备神器:华为云CodeArts API实用体验入门篇

今天我想给大家推荐一款API全生命周期研发与管理工具&#xff1a;华为云CodeArts API。 作为互联网软件的开发者&#xff0c;在软件研发的过程中&#xff0c;API的开发、调试、测试是必不可少的。之前我使用的是Postman这类工具来辅助开发&#xff0c; Postman在接口调试方面确…

WPF TextBox文本框 输入提示

思路 Grid标签里面创建Label和TextBox&#xff0c;这是一个整体。 TextBox 为空显示 Label OR TextBox 不为空隐藏 Label 。 注意 两个标签的前后顺序。 TextBox文本的背景颜色设置为透明&#xff0c;不然会无法看到 Label 内容。 ElementNametxtStoreName&#xff1a;指定…

Microsoft Universal Print 与 SAP 集成教程

引言 从 SAP 环境打印是许多客户的要求。例如数据列表打印、批量打印或标签打印。此类生产和批量打印方案通常使用专用硬件、驱动程序和打印解决方案来解决。 Microsoft Universal Print 是一种基于云的打印解决方案&#xff0c;它允许组织以集中化的方式管理打印机和打印机驱…