视频超分辨率论文笔记

持续更新

Video Super-Resolution via Deep Draft-Ensemble Learning

  • 论文链接:http://openaccess.thecvf.com/content_iccv_2015/papers/Liao_Video_Super-Resolution_via_ICCV_2015_paper.pdf
  • 代码:http://www.cse.cuhk.edu.hk/leojia/projects/DeepSR/
  • ICCV, 2015
  • 网络结构:
    在这里插入图片描述
  1. 两步骤:第一步前项重建:通过TV-l1(20个 α \alpha α)和MDP(motion detail preserving)两种光流法生成HR候选级Z,这些候选通道堆叠,最后一个通道是reference LR帧经过bicubic得到的bicubic input;第二步采用CNN融合所有候选HR得到重建的HR图像帧;
  2. 预上采样,上采样方法为bicubic;
  3. 如果视频帧是RGB多通道的,每个通道都单独训练和测试;
  4. loss: L = l 1 l o s s + λ T V l o s s L= l_1 loss + \lambda TV loss L=l1loss+λTVloss
  • 贡献点:
  1. 采用CNN整合HR candidates

Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR Applications

  • 论文连接:https://arxiv.org/ftp/arxiv/papers/1904/1904.11176.pdf
  • 代码:https://github.com/sooyekim/Deep-SR-ITM (matlab)
  • CVPR 2019 oral
  • 网络结构:
    在这里插入图片描述
  1. 初始图像分解为base layer I b I_b Ib和detail layer I d I_d Id,再与原始图像在通道上进行concat,作为上下两个分支的输入
    I b i n = [ I I b ] , a n d I d i n = [ I I d ] I_{b}^{in}=[I I_b], and I_{d}^{in}=[I I_d] Ibin=[IIb],andIdin=[IId]
  1. Residual blocks. 文中设计了4中不同的残差模块: ResBlock,ResModBlock,ResSkipBlock and ResSkipModBlock。Resblock 采用Pre-activation,为标准的残差模块。
  1. Deep SR-IRM 通过逐元素相乘,引入空间可变和图像自适应的调制。我的理解,网络的第二个分支相当于生成一个空间通道的注意力,然后对第一个分支的结果进行相乘。

LEARNING TEMPORAL COHERENCE VIA SELFSUPERVISION FOR GAN-BASED VIDEO GENERATION

  • 论文连接:https://arxiv.org/abs/1811.09393v3
  • 代码:https://github.com/thunil/TecoGAN
  • 2018 (此部分参考https://zhuanlan.zhihu.com/p/62610640)
  • 网络结构:
    在这里插入图片描述
    在这里插入图片描述
  1. 整体VSR包含三个组件:循环生成器、流估计网络和时空判别器;
  2. 循环生成器G:基于低分辨率输入循环地生成高分辨率视频帧;
  3. 流估计网络 F :学习帧与帧之间的动态补偿,帮助生成器和时空判别器 D s , t D_{s,t} Ds,t;
  4. 训练时,G和F一起训练;
  5. 时空判别器 D s , t D_{s,t} Ds,t是本文的重要贡献,既考虑空间因素又考虑时间因素,对时间不连贯的结果进行惩罚:
    在这里插入图片描述
    x x x为LR图像帧, g g g为生成图像帧, y y y为真实的HR帧;图像帧输入前进行通道concat;
  6. 本文的另一创新点为提出Ping-Pong(PP)损失函数,可以成功移除漂移伪影,同时保留适当的高频细节,改进了时间的连贯度。该研究使用具备ping-pong ordering 的扩展序列来训练网络,如图 5 所示。即最终附加了逆转版本,该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示:
    在这里插入图片描述
    在这里插入图片描述
    7.损失函数如下表,其中 g g g为生成图像帧, b b b为ground truth, ϕ \phi ϕ为采用VGG19或 D s , t D_{s,t} Ds,t提取的特征,表示感知损失(用cosin相似度)。
    在这里插入图片描述
    8.本文另一贡献是提出两个新的metric,衡量时间连续性
    在这里插入图片描述

Neural Supersampling for Real-time Rendering

  • 论文:https://research.fb.com/wp-content/uploads/2020/06/Neural-Supersampling-for-Real-time-Rendering.pdf
  • 代码:未公开
  • 发表时间:2020 SIGGRAPH
  • 网络结构:
    在这里插入图片描述
  1. 渲染的LR视频具有颜色、深度和运动向量;
  2. 本网络结构包含四个模块:特征提取(Feature Extaction)、时间重映射(Temporal Reprojection)、特征重新加权(Feature Reweighting)、重建(重建);
  3. 特征提取模块(如上图中的绿色模块):1)3层卷积;2)输入为:颜色和深度图;3)除了当前帧,其他帧参数共享;4)输出为8通道特征,与原始4通道堆叠变成12通道特征;
  4. 时间重映射(如上图中的橙色模块):对特征在warp前zero上采样,对运动向量采用双线性插值上采样,运动向量记录的是当前帧到前一帧的运动,因此,相隔较多的帧采用迭代warp,如frame-2先warp到frame-1再warp到当前帧;
  5. 特征重映射:因为运动矢量不能记录帧间的动态遮挡(如前一帧遮挡了,但当前帧未遮挡)及阴影变化,因此warp的帧会产生伪影,因此采用该模块解决;1)输入:当前帧和前边所有帧concat;2)3层卷积;3)为每个帧的每个像素生成一个0到10之间的权重,其中10是超参数;4)将输入的每帧与对应的权重图相乘;
  6. 重建:U-Net网络,如上图中的蓝色模块;
  7. loss: l o s s ( X , X ^ ) = 1 − S S I M ( X , X ^ ) + w ⋅ ∑ i = 1 5 ∣ ∣ c o n v i ( X ) − c o n v i ( X ^ ) ∣ ∣ 2 2 loss(X,\hat{X})=1-SSIM(X,\hat{X})+w\cdot\sum_{i=1}^{5}||conv_i(X)-conv_i(\hat{X})||_2^2 loss(XX^)=1SSIM(X,X^)+wi=15convi(X)convi(X^)22,其中 w = 0.1 w=0.1 w=0.1
  8. 运行时间:在Titan V上可以实时;
  9. 贡献点:提出神经超采样网络用于渲染的低分视频,能够实时地重建高分视频(主要用于3D动画);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29206.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【超分辨率】SRCNN论文笔记

论文名称:Image Super-Resolution Using Deep Convolutional Networks 论文下载地址:https://arxiv.org/pdf/1501.00092.pdf 翻译参考:https://blog.csdn.net/PPLLO_o/article/details/90040801 1.论文概述 1.SRCNN算是深度学习在图像超分辨…

版面分析:[ICCV2017] Fast CNN-based document layout analysis

论文链接:https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w18/Oliveira_Fast_CNN-Based_Document_ICCV_2017_paper.pdf 自动文档布局分析是认知计算和从文档图像中提取信息的过程中的关键步骤,如特定领域知识数据库创建、图形和图像…

论文笔记之数据增广(1):mixup

mixup:BEYOND EMPIRICAL RISK MINIMIZATION 文章:https://arxiv.org/pdf/1710.09412.pdf 代码:github 作者:张宏毅 mixupBEYOND EMPIRICAL RISK MINIMIZATION 摘要背景 引入贡献 方法 公式理解 实验讨论 摘要 如今大规模深度…

【图像超分辨率重建】——EnhanceNet论文精读笔记

2017-EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis(EnhanceNet) 基本信息 作者: Mehdi S. M. Sajjadi Bernhard Scholkopf Michael Hirsch 期刊: ICCV 引用: * 摘要: 单一图像超分辨率是指从…

旷视CVPR2019图卷积多标签图像识别Multi-Label Image Recognition with Graph Convolutional Networks论文详解

背景:GCN刚出来,很多很容易想到的idea会被运用起来,很容易产生一些paper。我们解析此篇论文,了解其中原理,一来看看如何将图卷积应用于目前技术上,二来看到底如何快速的把准确率刷到state of the art以便发…

Hierarchical Modular Network for Video Captioning【论文阅读】

Hierarchical Modular Network for Video Captioning 发表:CVPR 2022代码:HMNidea:现有方法在有监督学习的框架下比较生成句子与标注,没有对语义有详尽的探索。基于此,作者考虑从三个层面来连接视频特征和语义&#x…

CVPR2019超分辨率文章:Meta-SR,任意输入upsample factor的超分辨率网络

论文地址 CVPR2019的新文章,主要是针对以前超分辨率问题中需要固定上采样因子的问题作出的改进。 摘要 随着DNN的发展,超分辨率技术得到了巨大的改进。但是,超分辨率问题中的任意scale factor问题被忽视了很久。前面的很多工作都是把不同s…

GAIDC大会:飞桨邀你来大模型技术与应用论坛

深度学习大规模预训练模型的兴起,以其极强的通用能力和突破性的效果,正推动通用人工智能(AGI)快速发展,并带来了AI研发应用新范式,逐步改变AI生态格局。近期以大规模语言模型为基础的技术工作,展…

人工智能大模型多场景应用原理解析

​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan 前言 在上篇文章《人工智能大模型之ChatGPT原理解析》中分享了一些大模型之ChatGPT的核心原理后,收到大量读者的反馈,诸如:在了解了核心原理后想进一步了解未来的发展…

3日行程安排

22号 13:30出发到峡山码头坐船--横山岛景区 峡山码头 船费:来回70r 固定开船时间:9:30,12:00,14:00 或者🈵️12人自动开船,最晚4点有船返回 岛上风景 逛山海“小普陀”寺庙普南禅院,被誉为宁…

托福备考经验心得

综述 托福备考准备经验与心得。全部都是个人的反思,带有个人的观点色彩,按需自取即可。首先是几个深刻的经验教训: 对备考的强度要有一个基本的把握,之前一方面在忙别的事情一方面备考感觉自己成效不是特别明显 (可能是我本人能…

初识托福TOEFL口语

对于想要准备托福的童鞋,并不怎么了解托福考试内容的可以看一看,本文主要给大家分享下托福考试中口语部分介绍。 托福考试中总共有4个部分,第一个部分是Reading(阅读),第二个部分是(Listening&…

chatgpt赋能Python-pycharm自动纠错

Pycharm自动纠错:提高开发效率,减少犯错 随着Python语言的流行,Pycharm成为了众多Python工程师的首选IDE之一。Pycharm具有丰富的功能,其中之一就是自动纠错。本文将介绍Pycharm自动纠错的优点和如何正确使用它来提高开发效率&am…

KFC - VME = 50

KFC - VME 50 CalHeightFromPointToPlane.java_spencer_tseng的博客-CSDN博客

kfc 商家地址获取

简单获取商家地址(kfc) 学习源址 基本的查找url,请求方式我也是在上面的链接中学到的,在此就不赘述了,只是重点分享和记录一下自己遇到的一些bug 代码 import requestsurl http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?opkeyw…

java实现kfc点餐系统

一、题目分析 1.1、题目要求 正常餐品结算和找零。基本套餐结算和找零。使用优惠劵购买餐品结算和找零。可在一定时间段参与店内活动(自行设计或参考官网信息)。模拟打印小票的功能(写到文件中)。 基本要求:程序设计风…

html网页肯德基设计代码作业,Illustrator设计一幅肯德基广告单页制作教程

给各位Illustrator软件的使用者们来详细的解析分享一下设计一幅肯德基广告单页的制作教程。 教程分享: 首先来看一下最终效果图: 本幅广告页面我们很常见,就是一幅肯德基广告页面。在现实生活中,同学可以细心观察身边的事物&#…

kfc扫描点餐系统java_Java实现KFC点餐系统过程解析

这篇文章主要为大家详细介绍了java实现KFC点餐系统,模拟肯德基快餐店的收银系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 同学们应该都去麦当劳或肯德基吃过快餐吧?请同学们参考肯德基官网的信息模拟肯德基快餐店的收银…

python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址

随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我们可以…

爬虫爬取国内肯德基门店信息

预期效果 爬取每个城市(300城市)所有的肯德基门店信息,保存到excel中,效果如下: 代码实现 import requests import csv import jsondef getData(page,key):urlhttp://www.kfc.com.cn/kfccda/ashx/GetStoreList.as…