图像超分——Real-ESRGAN快速上手

契源

想必每个自媒体行业从业者都面临过这样一种情况:从网络上找到一张素材做封面,然而素材图片往往太模糊。那么,有没有办法对其进行高清修复呢?这就是计算机视觉领域的子领域图像超分所研究的主要问题。

在我的专业课上,曾使用复现过图像超分领域的两个经典算法SRCNN和FSRCNN,但是效果一般。具体内容可以参见我之前写的博文:https://zstar.blog.csdn.net/article/details/125613142

最近我在2021ICCV上看到图像超分的Real-ESRGAN这篇论文。
论文标题:Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
论文链接:https://arxiv.org/abs/2107.10833

该论文是腾讯ARC实验室的研究成果,作者同时开源了该算法的代码。
仓库地址:https://github.com/xinntao/Real-ESRGAN

下面是论文里的一张效果对比图,可以看出和同类算法相比,Real-ESRGAN的效果还是挺惊艳的。

各算法效果对比图

理论简介

首先声明,图像超分不是我的主要研究方向,下面我就以一个“外行人”的视角简单理解一下Real-ESRGAN这个算法的原理。
如果读者对理论不感兴趣,可以跳到下一节的实践部分。

大致原理

Real-ESRGAN并不是一个凭空开创的算法,从名字上也可以看出,它是对ESRGAN算法的改进。图像超分中这条发展脉络可以这样追溯:SRCNN->SRGAN->ESRGAN->Real-ESRGAN。

看到GAN,就知道Real-ESRGAN采用的也是GAN的架构。首先是将高清图片作为数据集,然后通过下面这些步骤(涂污(blur)、下采样(Downsampling)、添加噪声(Noise)、JPEG压缩(Compression))来生成低分辨率的模糊图片。

图片处理过程
然后,将这些处理后的图片输入到生成器(Generator)之中,生成1倍、2倍和4倍高清放大的图片。

在这里插入图片描述
最后,将生成的图片和真实的高清图片混杂在一起,输入到判别器(Discriminator)中进行判别,如果能够“骗过”判别器,就说明生成的图片质量不错。

论文创新

相较于ESRGAN,Real-ESRGAN主要有下面三点创新:

  • 提出了一个高阶降解过程来模拟实际降解过程,并利用sinc滤波器来模拟常见的振铃和超调伪象。
  • 采用了一些必要的修改(例如,光谱归一化的U-Net鉴别器)来增加鉴别器的能力和稳定训练动态。
  • 用纯合成数据训练的Real-ESRGAN能够还原大多数真实世界的图像,获得比以往作品更好的视觉性能,在真实世界的应用中更加实用。

论文局限

论文最后提到该算法有下面三点局限:

  • 一些恢复的图像(尤其是建筑和室内场景)由于混叠问题,容易出现扭曲的线条。
  • GAN训练在一些样本上引入了一些伪影。
  • 它无法消除现实世界中分布外退化。

更多详细的模型构建,算法处理细节请阅读原论文。

实践上手

光说不练假把式,下面就到了快乐的实践环节了。

超便捷方式

作者为了方便别人快速使用它的成果,直接打包好了一个exe程序,以至于不需要配环境也能直接使用。
我下载的是Windows版本,顺便分享在此https://pan.baidu.com/s/18n71xRPZL7uRcnlwSnWrdQ?pwd=iznh

作者提供了五种模型:

  • realesr-animevideov3-x2:2倍分辨率视频
  • realesr-animevideov3-x3:3倍分辨率视频
  • realesr-animevideov3-x4:4倍分辨率视频
  • realesrgan-x4plus:4倍分辨率照片
  • realesrgan-x4plus-anime:4倍分辨率动画图片

作者提供的模型

使用时,只需要在命令行中根据所需选择下面的命令输入:

转换图片:

1. ./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png
2. ./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png -n realesr-animevideov3
3. ./realesrgan-ncnn-vulkan.exe -i input_folder -o outputfolder -n realesr-animevideov3 -s 2 -f jpg
4. ./realesrgan-ncnn-vulkan.exe -i input_folder -o outputfolder -n realesr-animevideov3 -s 4 -f jpg

转换视频:

1. Use ffmpeg to extract frames from a video (Remember to create the folder `tmp_frames` ahead)ffmpeg -i onepiece_demo.mp4 -qscale:v 1 -qmin 1 -qmax 1 -vsync 0 tmp_frames/frame%08d.jpg2. Inference with Real-ESRGAN executable file (Remember to create the folder `out_frames` ahead)./realesrgan-ncnn-vulkan.exe -i tmp_frames -o out_frames -n realesr-animevideov3 -s 2 -f jpg3. Merge the enhanced frames back into a videoffmpeg -i out_frames/frame%08d.jpg -i onepiece_demo.mp4 -map 0:v:0 -map 1:a:0 -c:a copy -c:v libx264 -r 23.98 -pix_fmt yuv420p output_w_audio.mp4

相关参数解释:

Usage: realesrgan-ncnn-vulkan.exe -i infile -o outfile [options]...-h                   show this help"-i input-path        input image path (jpg/png/webp) or directory"-o output-path       output image path (jpg/png/webp) or directory"-s scale             upscale ratio (can be 2, 3, 4. default=4)"-t tile-size         tile size (>=32/0=auto, default=0) can be 0,0,0 for multi-gpu"-m model-path        folder path to the pre-trained models. default=models"-n model-name        model name (default=realesr-animevideov3, can be realesr-animevideov3 | realesrgan-x4plus | realesrgan-x4plus-anime | realesrnet-x4plus)"-g gpu-id            gpu device to use (default=auto) can be 0,1,2 for multi-gpu"-j load:proc:save    thread count for load/proc/save (default=1:2:2) can be 1:2,2,2:2 for multi-gpu"-x                   enable tta mode"-f format            output image format (jpg/png/webp, default=ext/png)"-v                   verbose output"

作者还提供Linux和Mac脚本,如有需要可以去上面的仓库中下载。

源代码方式

如果需要在Real-ESRGAN算法上做一些研究,就必须把它的源代码clone下来了,此外,还必须在本地装好pytorch环境。

在此基础上,还需要手动安装basicsrfacexlibgfpgan这三个库。
gfpgan库安装比较简单,直接使用pip安装即可。

pip install gfpgan

其它两个库用pip安装可能会报错,需要将这两个库的源代码clone下来,然后在目录下输入下面的命令进行安装。

python setup.py develop

这两个库的我也备份在此:

BasicSR:https://pan.baidu.com/s/1fNXn3uCFW4SGCwGXfZQJtw?pwd=yz3j

facexlib:https://pan.baidu.com/s/1UANS3Z5ue08S7JGAZZMkaw?pwd=idu8

安装好后,还需要将作者提供的训练好的模型权重放到如图所示的位置下:

模型权重位置

下面是两个主函数:

  • inference_realesrgan.py:推理图片
  • inference_realesrgan_video.py:推理视频

以推理图片为例,使用时,只需修改下面几个参数:

在这里插入图片描述

  • input:输入图片路径或者文件夹路径,若是文件夹路径,则批量将文件夹下所有图片进行转化
  • model_name:选择模型名字
  • outscale:放大倍数,尽量和模型中的x保持一致。

实践效果

下面先看使用anime模型对动漫图像进行修复,我这里选择了《Bleach》里面的主角黑崎一护:

请添加图片描述

可以看到,修复之后,一护的头发棱角变得清晰可见。

下面再尝试对真人照片进行修复,我选择了常驻嘉宾毕导的照片,选这张照片的原因不仅是这张照片原本分辨率就不高,而且图片中包含了文字、砖墙纹理和人物,修复难度更高。

请添加图片描述
可以看到图中地板、墙壁的修复效果还是显著的。然而,毕导的脸部修复依然没有想象中的清晰;x4修复之后,背景上的文字被AI“脑补”成了方块字。。

总体看来,对于三次元的照片修复效果不如二次元图片,也有可能是模特颜值的原因(狗头)…

代码备份

本次实验所用到的代码备份如下(包含作者提供的预训练权重):
https://pan.baidu.com/s/1dNTVgz4F_53xSOOBIL_0Ag?pwd=kmdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61566.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每周CV论文推荐】基于GAN的图像数据增强有哪些经典论文值得阅读

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。 当前基于GAN的二维图像生成领域的发展已经非常成熟,GAN不仅可以用于从零生成图像数…

移动互联网社交江湖已定,抖音为何仍不放过微信?

进入2023年,抖音集团依然放不下“社交梦”。 2022年12月30日,抖音官网上线了一款名为“抖音聊天”的桌面端聊天软件,提供Windows和Mac两个版本,进入软件需使用抖音App扫码登录。 这并不是抖音集团首次推出社交产品。2019年以来&am…

抖音为什么这么火,从运营角度分析它的优缺点!

抖音竞品分析报告详见公众号文章:https://mp.weixin.qq.com/s?__biz=Mzg3MjA0MTg0OA==&mid=2247484702&idx=1&sn=1f346c39a2dfc796a60676ca7231a12e&chksm=cef41909f983901fc79e44ebdce8800f3907b90f48f1aeb35cd7aa04a3a95dd4d2a1d57fd4c6&token=1078838…

抖音推出聊天软件

最近,抖音又在折腾社交了,从抖音官网获悉,日前,抖音推出桌面端聊天软件“抖音聊天”,支持Windows、Mac双端,版本号为1.0.0。 想下载体验的小伙伴直接在公众号后台回复:“抖音聊天”。 我下载下来…

基于科大讯飞实现语音识别功能

实现电脑端语音识别,并提供常用参数设置、简单的复制、剪切、清空等操作,使用方便,只需双击打开即可运行,基于科大讯飞的语音识别,识别正确率高,识别响应快,适合将平时说话快速转化为文字&#…

好消息——教你如何入门人工智能

新手入门人工智能还是有点难的,要有一定的数学和编程基础,我是先学的Python编程基础,报了一个公司的网课,(但是公司倒闭了,资料全在它网上我想回头温习都不能了😭)。然后再开始学习机器学习,一定…

Mixlab推荐:未来,在于问题而非答案,我们请你提个问题

如果问题是通往未来的启航点, 你会提出一个面向未来的问题是什么? 5月,在临近未来学家俱乐部成立五周年之际,我们特别策划了「向未来提问」的活动,邀请全球未来学家、趋势专家,以及身边的成年人、小朋友&am…

微软全球合伙人姜大昕被曝大模型创业

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 大模型比武场战火纷飞了半年有余,左有OpenAI动作频频,右有Meta开源Llama2,开闭源方面,均被巨鳄占领山头,创业投资也已经进入了新阶段。 现在再下场,会不会晚了&…

【CP2K教程(三)】元动力学 (Metadynamics)与增强采样

1. Simple metadynamics simulation guide 2. 集合变量配位数函数 3. Biochemical systems metadynamics 4. 自由能面绘图软件graph.sopt 5. cp2k和plumed联用简单案例 6. Tree diagram of keywords ralated to metadynamics 7. CP2K元动力学中获取重构势能面的方法 8.…

AI 未来已至,向量数据库站在新的节点上

“AI 的 iPhone 时刻已经到来。” 在刚刚结束的 NVIDIA GTC Keynote 中,这句话被 NVIDIA CEO 黄仁勋反复提及,长达 1 个多小时的分享中,生成式 AI 相关的内容占据了绝大部分比重。他表示,生成式 AI 的火热能力为企业带来了挑战&a…

司马阅SmartRead:国内AI文档对话神器上线!

众所周知,如果训练模型不及时更新,AI就不具备创造新知识的能力,这也是有时大语言模型会“胡说八道”的原因。但换一个角度,如果我们使用自己挑选过的知识库,主动将自己的数据给AI,AI就会成为实实在在的超级…

微软深夜放炸弹!GPT-4 Office全家桶发布,10亿打工人被革命

最新:GPT-4应用,来源:ScienceAI、新智元 【导读】AI桌面革命深夜打响,GPT-4全面接入微软Office全家桶,势必颠覆人类办公! 未来和 AI 一起工作是这样的。 「用人工智能重塑生产力」,微软老早就在…

微软深夜放炸弹!GPT-4 Office全家桶发布,10亿打工人被革命!

编|梦晨 丰色 源|量子位 一觉醒来,工作的方式被彻底改变。 微软把AI神器GPT-4全面接入Office,这下ChatPPT、ChatWord、ChatExcel一家整整齐齐。 CEO纳德拉在发布会上直接放话:今天,进入人机交互的新时代&am…

微软Office全家桶版GPT-4定价每月30美元

7 月 19 日,在 Microsoft Inspire 大会上,微软宣布了其基于OpenAI旗下GPT-4的应用商业化最新进展,并公布了与Facebook母公司Meta在开源大模型方面的新合作。 微软 CEO 萨提亚・纳德拉表示「我们现在已经到达了新的临界点,自然语言…

关于元宇宙的畅想,2050 年这些高科技都会成为现实!

大家好,我是比特桃。最近 ChatGPT 非常火,各种热搜应接不暇。从科技圈到金融圈再到生活圈,好像一夜之间所有人都在聊ChatGPT。AI 发展已经到了即将爆发的时刻,ChatGPT正在将大型科技公司的处理能力与AI紧密的结合起来。这个想象空…

科技云报道:国内AI大模型鏖战,上演科技罗生门

科技云报道原创。 ChatGPT的狂热从年初持续至今,这份狂热不仅仅来源于用户层,从业者、投资人以及企业可以说有过之无不及。 于是,这些投资人、从业者以及企业将狂热转化,宣布入局大模型赛道并推出相关产品。一时间,大…

马斯克:把你们的代码都打印出来

程序员的成长之路 互联网/程序员/技术/资料共享 关注 阅读本文大概需要 5 分钟。 来自:杨净 丰色 发自 凹非寺量子位 QbitAI 来,将付费服务涨价3倍,一周干不好就卷铺盖走人! 没想到,马斯克对推特员工下的第一个“最后…

苹果手机使用技巧篇:教你完美使用好苹果手机的5个方法

使用苹果手机的时候,你知道多少苹果手机使用技巧是能够给你在日常生活中带来更好的体验感吗?熟练的运用一些苹果手机上的一些技巧能够给你自己带来很多的便利和节省一些不必要的时间,那么你都会一些苹果手机中的什么技巧呢?对于刚…

苹果手机使用技巧篇:教你完美使用好苹果手机的4个方法

想如何的把苹果手机使用完美呢?一些重要的苹果手机技巧就不能不知道,那么这些重要的苹果手机使用技巧是如何设置的呢?对于不知道如何去操作和设置苹果中那些使用技巧的小伙伴们有福了,小编为了让大家如何去完美使用好苹果手机&…

基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)

背景 到目前为止,我们已经看到了ChatGPT的能力及其所能提供的强大功能。然而,对于企业应用来说,像ChatGPT这样的封闭源代码模型可能会带来风险,因为企业自身无法控制他们的数据。尽管OpenAI公司声称用户数据不会被存储或用于训练…