持续更新
Progressive Multi-Scale Residual Network for Single Image Super-Resolution
- 论文链接:https://arxiv.org/pdf/2007.09552.pdf
- 代码:PMRN (暂未公开)
- 发表时间:2020.7
- 网络结构:
1)包括三个部分特征提取、非线性特征抽取、重建;
2)非线性特征抽取主要由PMRB模块构成;
3)普通的多尺度是通过卷积层不同核大小实现的,当卷积核比较大时,所需参数量和计算量都比较大,本文以递归的形式采用相同卷积核尺寸(3*3)实现多尺度(递归结构换一种解释方法,个人认为创新性不大):
4)在PMRB中还采用了channel-Attention和pixel-Attention构成CPA:
5)损失函数为 l 1 l_1 l1loss;
Blind Super-Resolution Kernel Estimation using an Internal-GAN
- 论文链接:https://arxiv.org/pdf/1909.06581v4.pdf
- 代码:KernelGAN
- 2019
- 算法结构:
1)利用kernelGAN估计一幅真实LR图像的降质核;
2)输入为真实的LR图像,从图像中随机切出的3000个 64 × 64 64\times64 64×64的图像块送入全卷积生成器G中,生成尺度缩小s倍的LR图像块,此处的损失函数除了对抗损失外,还有生成LR图像与对输入的 64 × 64 64\times64 64×64进行bicubic降采样间的MSE损失,还有对G模拟kernel核的限制;
3)如何从G中提取对应的模拟核:对G输入1,输出即为模拟核;
4)判别器,判断真实LR图像块和生成的LR图像块的真假,输出为像素级;
5)超分采用ZSSR算法;
Real-World Super-Resolution via Kernel Estimation and Noise Injection
- 论文链接:http://openaccess.thecvf.com/content_CVPRW_2020/papers/w31/Ji_RealWorld_SuperResolution_via_Kernel_Estimation_and_Noise_Injection_CVPRW_2020_paper.pdf
- 代码:RealSR
- CVPR2020, NTIRE2020 RWSR双赛道冠军
- 算法结构:
1)提出新的数据制作方案:统计模糊核与真实噪声分布并用于制作训练数据对,确保生成的LR图像具有与源域图像相似的属性;2)判别器采用块判别器,可以去除伪影;
2)计算模糊核,参考KernelGAN,满足的约束条件为
a r g m i n ∣ ∣ ( I s r c ∗ k ) ↓ s − I s r c ↓ s ∣ ∣ 1 + ∣ 1 − ∑ k i , j ∣ + ∣ ∑ k i , j ⋅ m i , j ∣ + ∣ 1 − D ( ( I s r c ∗ k ) ↓ s ) ∣ ( 4 ) arg min||(I_{src}*k)\downarrow _s-I_{src}\downarrow _s||_1+|1-\sum k_{i,j}|+|\sum k_{i,j} \cdot m_{i,j}|+|1-D((I_{src}*k)\downarrow _s)| (4) argmin∣∣(Isrc∗k)↓s−Isrc↓s∣∣1+∣1−∑ki,j∣+∣∑ki,j⋅mi,j∣+∣1−D((Isrc∗k)↓s)∣(4)
( I s r c ∗ k ) ↓ s (I_{src}*k)\downarrow _s (Isrc∗k)↓s表示利用核k进行降采样的LR图像, I s r c ↓ s I_{src}\downarrow _s Isrc↓s表示基于理想核进行降采样的LR图像。第二项为正则化项,第三项为边界惩罚项;
2)提取噪声:如果某个块的方差小于设定的阈值,则将其纳入到降质池中。这个规则可以描述为 σ ( n i ) < v ( 7 ) \sigma(n_i) \lt v (7) σ(ni)<v(7);
4)RealSR降质算法:
Perceptual Extreme Super Resolution Network with Receptive Field Block
- 论文链接:https://arxiv.org/abs/2005.12597
- 代码:暂未开源
- CVPR2020, NTIRE2020 感知极限超分赛道冠军
- 网络结构(基于ESRGAN):
1)RRDB模块
2)RRFDB模块
3)RFB模块
关注不同层次的细节,且减少运算量和参数量;
4)上采样模块
最近邻插值法上采样关注空间的特征转换,亚像素层关注depth-to-space,两者交替结合效果更好;
5)训练时,先PSNR-oriented训练,将其作为预训练模型,然后添加内容损失和对抗损失进行微调;
6)最终采用网络插值,取在测试集上最好的十个模型进行网络集成
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models
- 论文链接:https://arxiv.org/pdf/2003.03808.pdf
- 项目代码:https://github.com/adamian98/pulse
- CVPR2020
- 网络结构:
1)网络是styleGAN;
2)生成器生成 1024 × 1024 1024\times1024 1024×1024的人脸图像,然后对生成的人脸图像进行32倍bicubic降采样,与真实的LR图像做 l 2 l_2 l2loss,生成一张图像时,进行100次微调,使得生成图像降采样后和原始的LR图像相似;(训练过程的代码还未公开,训练的一些步骤我现在还不清楚,跟进后再补充)
Guided Frequency Separation Network for Real-World Super-Resolution
- 论文链接:https://openaccess.thecvf.com/content_CVPRW_2020/papers/w31/Zhou_Guided_Frequency_Separation_Network_for_Real-World_Super-Resolution_CVPRW_2020_paper.pdf
- 代码工程:https://github.com/fzuzyb/2020NTIRE-Guided-Frequency-Separation-Network-for-RWSR
- 网络结构:
- 分两个阶段,第一阶段:无监督数据生成(通过HR图像生成LR图像,gan);第二阶段:监督SR(基于第一阶段生成的成对LR-HR图像进行训练);
- 基于DSGAN的改进;
- 第一阶段的gan网络,生成器的主要单元为CARB(Color Attention Residual Block),其中AdaIN的使用使得能够控制color shift,生成器的输入为bicubic将采用的HR图像块,生成器及判别器细节如下所示:
生成器损失函数: L G = λ t 1 ∗ L l o w + λ t 2 ∗ L p e r + λ t 3 ∗ L h i g h L_G=\lambda_{t1}*L_{low}+\lambda_{t2}*L_{per}+\lambda_{t3}*L_{high} LG=λt1∗Llow+λt2∗Lper+λt3∗Lhigh
其中:
F L ( ) F_L() FL()表示高斯低通滤波器;
判别器损失函数定义:
- 第二阶段:利用前一阶段的网络生成LR图像,构成LR-HR图像对,然后基于LSGAN进行训练,判别器分为高低频提取特征,细节如下:
此阶段的生成器损失函数除了对抗损失和 l 1 l_1 l1损失外,另添加了边缘损失:
其中 F E F_E FE表示Canny边缘检测器。
Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution
-
论文链接:https://arxiv.org/abs/2003.07018
-
代码工程:https://github.com/guoyongcs/DRN
-
网络结构:
- 图中黑色箭头是正向网络,先降采样提取特征再超分,红色箭头为对偶网络,从得到的超分图像中退质出低分图像;
- loss函数:引入额外的对偶回归Loss:
L p ( ) L_p() Lp()是多个尺度图像的loss;
在没有成对数据集时,采用半监督学习,引入部分的成对数据集用于训练,整体损失函数为:
- 1 S p ( x i ) 1_{Sp}(x_i) 1Sp(xi)表示当 x i x_i xi输出成对数据集时,该函数等于1,反之等于0。
训练策略:
Dual Super-Resolution Learning for Semantic Segmentation
- 论文链接:论文
- 代码工程:https://github.com/wanglixilinx/DSRL
- 网络结构:
1)将超分用于语义分割,构成多任务网络结构;
2)包括三大模块:语义分割超分(SSSR,网络结构图的上分支),单幅图像超分(SISR,网络结构图的下分支),特征相似度(FA,网络结构图的中间部分);
3)特征相似度计算表达式为:
- 最终的loss函数: