探索 GAN 的演变之路

图片

2014 年,在论文Generative Adversarial Networks中,首次提出了 GAN,其核心思想是“生成”与“对抗”。GAN 由一个生成器 G(Generator)和一个判别器 D(Discriminator)构成,前者用于捕捉数据分布,后者用于判别某个样本是否来自训练数据而非 G。进一步而言,G 的目标就是尽量生成真实的图片去欺骗判别网络 D,使D 犯错;而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。二者互相博弈,共同进化。

  • 论文地址:https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

  • 开源地址:https://github.com/goodfeli/adversarial

一经提出,就在原始 GAN 的基础上,针对多样化应用场景,众多 GAN 变体应运而生。如:DCGAN[1]InfoGANs[2]Wasserstein GAN[3]

迄今为止,这一领域已涌现出大量杰出的开源成果。本文旨在整理这些相关的开源模型及数据集,以加速开发者的研究步伐,使他们能够便捷地获取所需的算法与数据资源。

GFP-GAN

GFP-GAN 是由腾讯 PCG 开发的利用生成人脸先验 GFP 的人脸复原模型,可以解决如何从低分辨率低质量的真实图像中获得较好的先验知识,复原人脸图像的问题。

图片

  • 参考论文:Towards Real-World Blind Face Restoration with Generative Facial Prior (CVPR 2021)

  • 论文地址:https://arxiv.org/abs/2101.04061

  • 开源地址:https://github.com/TencentARC/GFPGAN

★star:35.9K

DragGAN

DragGAN 模型,是一种革命性交互式图像操作方式,允许用户将图像中的任意点“拖动”到目标位置,来精确控制照片主体的位置、姿态、表情、大小和角度等。主要包括了两个组件:

  • 基于特征的运动监督,驱动手柄点向目标位置移动

  • 新的点追踪方法,利用辨别式GAN特征来定位手柄点的位置

  • 参考论文:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (SIGGRAPH 2023)

  • 论文地址:https://arxiv.org/abs/2305.10973

  • 开源地址:https://github.com/XingangPan/DragGAN

★star:35.7K

趋动云『社区项目』中相关项目体验教程:

  • 部署AIGC神器【DragGAN】:https://open.virtaicloud.com/web/project/detail/460837982233415680

StyleGAN

StyleGAN 是由英伟达开源的一款人脸生成器,借用风格迁移的思路对传统的 GAN 进行了革新,能在粗糙、中度、精细三个层面调节图像生成,所生成的人物肖像与背景均极为逼真,达到了与真实图像难辨真伪的高度。

Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集,包含 70,000 张高质量的 PNG 图像,分辨率为1024×1024,在年龄、种族、角度、光照和图像背景方面具有比 CELEBA-HQ 更多的变化,同时在配饰(如眼镜、太阳镜、帽子等)的覆盖范围上也更加丰富。

图片

  • 参考论文:A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019)

  • 论文地址:https://arxiv.org/abs/1812.04948

  • 开源地址:https://github.com/NVlabs/stylegan

  • FFHQ数据集:https://github.com/NVlabs/ffhq-dataset

★star:14.2K

CycleGAN

CycleGAN 是一种基于深度学习的模型,用于无配对图像到图像的转换(翻译)。在此之前,作者提出的 Pix2Pix,也可以做图像转换,与 CycleGAN 的区别在于,pix2pix 模型必须要求成对数据(paired data),而 CycleGAN 利用非成对数据也能进行训练(unpaired data)。

图片

  • 参考论文:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (ICCV 2017)

  • 论文地址:https://arxiv.org/pdf/1703.10593

  • 开源地址:https://github.com/junyanz/CycleGAN

  • CycleGAN 和 pix2pix数据集:https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix/blob/master/docs/datasets.md;https://efrosgans.eecs.berkeley.edu/cyclegan/datasets/

★star:12.4K

StarGAN

在前面提到的 Pix2Pix 和 CycleGAN 模型,两者的不同点是一个解决了有Pair 对数据的图像翻译问题;一个解决了 Unpaired 数据下的图像翻译问题。共同点都是解决了一对一的问题,即一个领域到另一个领域的转换。

高丽大学& Clova Research 开源的 StarGAN 则是将多领域转换用统一框架实现的算法,解决了之前每一个领域转换,都需要重新训练一个模型的繁琐问题。

图片

如下图所示,在同一种模型下,可以做多个图像转换任务,比如更换头发颜色,更换表情,更换年龄等。

图片

  • 参考论文:StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation (CVPR 2018)

  • 论文地址:https://arxiv.org/abs/1711.09020

  • 开源地址:https://github.com/yunjey/stargan

★star:5.2K

相隔一年之久,在 StarGAN 的基础上,Clova Research 提出 StarGAN v2,不仅实现人到人的随意转换,猫、狗、虎、豹各种动物也可以无缝切换,同时解决了图像-图像转换模型中要么只满足生成图像的多样性,要么是满足在多个域上的可扩展性的问题。

图片

另外,还开源了一个质量更高、变化范围更宽的动物面孔(AFHQ)数据集,由 15,000 张 512 × 512 分辨率的高质量图像组成。该数据集包括猫、狗和野生动物三个领域,每个领域提供 5000 张图像。

  • 参考论文:StarGAN v2: Diverse Image Synthesis for Multiple Domains (CVPR 2020)

  • 论文地址:https://arxiv.org/abs/1912.01865

  • 开源地址:https://github.com/clovaai/stargan-v2

  • AFHQ数据集:https://github.com/clovaai/stargan-v2/blob/master/README.md#animal-faces-hq-dataset-afhq

★star:3.5K

参考资料

[1].Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,https://arxiv.org/abs/1511.06434.
[2].InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,https://arxiv.org/abs/1606.03657.
[3].Wasserstein GAN,https://arxiv.org/abs/1701.07875.


趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人:

📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

趋动云

连接算力・连接人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478849.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue实训---5-路由搭建

回顾之前的代码 我们在my-vue-project\src\router\index.js中的代码如下: // 什么是路由?路由就是url地址和组件的对应关系 // 1.引入vue-router import { createRouter, createWebHashHistory } from vue-router// 2.定义路由 const routes [{path: …

【GAMES101笔记速查——Lecture 19 Cameras,Lenses and Light Fields】

本章节内容:相机、棱镜、光场 计算机图形学的两种成像方法: 1.合成方法:光栅化、光线追踪(展示出现实没有的东西) 2.捕捉方法:相机(捕捉现实已有的东西) 目录 1 相机 1.1 针孔相…

MacOS系统上Jmeter 录制脚本遇到的证书坑位

一、JMeter介绍与安装 1,下载及安装 jmeter官网地址 二、录制百度链接https请求时,需要导入jmeter相关证书到macos系统的更目录中. 导入方式,直接拖入mac的系统中,始终新人就可以; 三、jmeter 创建相关的录制组件…

软件团队的共担责任

问责制被认为是个人与其社会系统之间的纽带,它创造了一种将个人与其行为和绩效联系起来的身份关系。在入门系列的第一篇文章《超越工具和流程:成功软件开发团队的策略》中,我们介绍了问责制的概念,并提出了以下定义: …

【Python爬虫实战】深入解析 Scrapy:从阻塞与非阻塞到高效爬取的实战指南

🌈个人主页:易辰君-CSDN博客 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html ​ 目录 前言 一、阻塞和非阻塞 (一)阻塞 (二)非阻塞 二、Scrapy的工作…

【Python数据分析五十个小案例】电影评分分析:使用Pandas分析电影评分数据,探索评分的分布、热门电影、用户偏好

博客主页:小馒头学python 本文专栏: Python数据分析五十个小案例 专栏简介:分享五十个Python数据分析小案例 在现代电影行业中,数据分析已经成为提升用户体验和电影推荐的关键工具。通过分析电影评分数据,我们可以揭示出用户的…

第八篇:CamX RawHdr Feature Enable

CamX RawHdr Feature Enable RawHdr feature介绍: 试用于拍照场景,输入3张Raw,输出一张Raw。 对应的pipeline: camxSWMFMergeRaw.xml (usecases: UsecaseZSL) featureGraph: RTRawHDRBayer2YUVJPEG ​ RT -> RawHdr -> Bayer2Yuv -> JPEG RTRawHDRBayer2YUVJPE…

Python毕业设计选题:基于django+vue的期货交易模拟系统的设计与实现

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 系统首页 期货信息 个人中心 管理员登录界面 管理员功能界面 用户管理 期货公司管理…

文件内容扫描工具

简介 文件扫描助手是一款基于Vite Vue 3 Electron技术栈开发的跨平台桌面应用程序。它提供了强大的文件内容搜索功能,支持Word、Excel、PDF、PPT等常见办公文档格式。用户可以通过关键词快速定位到包含特定内容的文件,极大地提高了文件管理和查找效率…

数据结构--AVL树(平衡二叉树)

✅博客主页:爆打维c-CSDN博客​​​​​​ 🐾 🔹分享c、c知识及代码 🐾 🔹Gitee代码仓库 五彩斑斓黑1 (colorful-black-1) - Gitee.com 一、AVL树是什么?(含义、性质) 1.AVL树的概念 AVL树是最…

【算法】连通块问题(C/C++)

目录 连通块问题 解决思路 步骤: 初始化: DFS函数: 复杂度分析 代码实现(C) 题目链接:2060. 奶牛选美 - AcWing题库 解题思路: AC代码: 题目链接:687. 扫雷 -…

24.11.26 Mybatis2

resultMap 中的标签和属性 如果是主键列 一般用id标签对应 propertyjava对象的属性 column 数据库中的列( javaType实体类数据类型 jdbcType数据库列的数据类型 ) 不需要配置 <id property"empno" column"empno" />如果是普通列 一般用result对…

Redis设计与实现第14章 -- 服务器 总结(命令执行器 serverCron函数 初始化)

14.1 命令请求的执行过程 一个命令请求从发送到获得回复的过程中&#xff0c;客户端和服务器都需要完成一系列操作。 14.1.1 发送命令请求 当用户在客户端中输入一个命令请求的时候&#xff0c;客户端会把这个命令请求转换为协议格式&#xff0c;然后通过连接到服务器的套接字…

ArcGIS pro中的回归分析浅析(加更)关于广义线性回归工具的补充内容

在回归分析浅析中篇的文章中&#xff0c; 有人问了一个问题&#xff1a; 案例里的calls数据貌似离散&#xff0c;更符合泊松模型&#xff0c;为啥不采用泊松而采用高斯呢&#xff1f; 确实&#xff0c;在中篇中写道&#xff1a; 在这个例子中我们为了更好地解释变量&#x…

【面试题】2025年百度校招Java后端面试题

文章目录 前言一、网络IO1、服务器处理并发请求有哪几种方式&#xff1f;2、说一下select&#xff0c;poll&#xff0c;epoll的区别&#xff1f;3、Java 有一种现代的处理方式&#xff0c;属于异步I/O&#xff0c;是什么&#xff1f;redis&#xff0c;nginx&#xff0c;netty 是…

【Zookeeper 和 Kafka】为什么 Zookeeper 不用域名?

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

RiceChem——用于评估大语言模型在教育领域自动长答卷评分 (ALAG) 的数据集

摘要 论文地址:https://arxiv.org/abs/2404.14316 源码地址&#xff1a;https://github.com/luffycodes/automated-long-answer-grading 迄今为止&#xff0c;教育领域的自然语言处理&#xff08;NLP&#xff09;主要集中在简答题评分和自由文本作文评分方面。然而&#xff0c…

Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚

我的个人主页 我的专栏&#xff1a;Java-数据结构&#xff0c;希望能帮助到大家&#xff01;&#xff01;&#xff01;点赞❤ 收藏❤ 前言&#xff1a;在 Java编程的广袤世界里&#xff0c;数据结构犹如精巧的建筑蓝图&#xff0c;决定着程序在数据处理与存储时的效率、灵活性以…

【04】Selenium+Python 手动添加Cookie免登录(实例)

一、什么是Cookie&#xff1f; Cookie 是一种由服务器创建并保存在用户浏览器中的小型数据文件。它用于存储用户的相关信息&#xff0c;以便在后续访问同一网站时可以快速检索这些信息。Cookie 主要用于以下几个方面&#xff1a; 1.状态管理&#xff1a; Cookie 可以保存用户…

GitLab|应用部署

创建docker-compose.yaml文件 输入docker-compose配置 version: 3.8 services:gitlab:image: gitlab/gitlab-ce:15.11.2-ce.0restart: alwayscontainer_name: gitlab-ceprivileged: truehostname: 192.168.44.235environment:TZ: Asia/ShanghaiGITLAB_OMNIBUS_CONFIG: |exter…