交互式视频风格化 水记

交互式视频风格化 水记

《Interactive Video Stylization Using Few-Shot Patch-Based Training》

项目主页:

Interactive Video Stylization

https://github.com/OndrejTexler/Few-Shot-Patch-Based-Training

https://github.com/OndrejTexler/Few-Shot-Patch-Based-Training

BV1Sf4y117qy AI又来抢饭碗?一边画一边动,无需建模,实时完成渲染!

一边动,一边画,自己就变二次元!华人小哥参与的黑科技:实时交互式视频风格化

之所以看这篇,是想看看他是怎么做到让画过的部分跟着人一起动的

是不是用某种方法显式或者隐式地建立了语义坐标系?

他用了 ARAP 图像配准做网格变形。

应该可以看作 EbSynth (也就是 《Stylizing Video by Example》)的后续工作

主要是做了实时性的改进,而且允许并行渲染了

功能

输入若干关键帧,每帧要风格化的区域mask(可以是全图风格化),对应的风格化后关键帧

输出会将关键帧的风格化效果传播到其他帧上

特点是,不需要一帧一帧地按顺序渲染,所有帧可以并行渲染,也可以只渲染其中几帧。

这意味着他没有用光流之类的方法来 warp 要风格化的区域,没有使用时域信息,而是实打实的能直接 align 要风格化的区域。

好吧,他是用的 ARAP 网格变形来 align 的。

这个任务叫做 keyframe-based video stylization ,本文之前的 SOTA 是 [Jamriška et al]

训练方法

在这里插入图片描述主要使用 [Futschik et al. 2019] 中基于 U-net 的图像翻译框架,原本用于风格化人脸。

但是用在本任务上产生的结果,质量远低于 SOTA ,有两个原因:

  • 一个原因是,原模型是在一个很大的风格化数据集上训练的(由FaceStyle [Fišer et al. 2017] 生成),而本任务中无法使用这么大的数据集,导致严重的过拟合,模型会直接重构出当前关键帧,降低对其他关键帧的风格化能力。即使使用数据增强也没用。
  • 另一个原因是,由于原始方法没有显式考虑时间一致性,生成的帧序列会在时间尺度上产生很多闪烁。

解决方案:

  • 为了减少过拟合,使用了 patch-based 的训练策略,每次输入一个小 patch 来训练,这样可以有效减少需要的训练数据量,减少过拟合,提高对其他关键帧的泛化能力,提高生成效果。
  • 提出了一种抑制闪烁的方案,该方案不需要衡量时间一致性。

Patch-based 训练策略

每次从 mask 过的关键帧上随机截取一个小 patch,送入一个基于 U-net 的图像翻译框架(来自于 [Futschik et al. 2019] ),生成一个 patch,然后与风格化关键帧上对应的 patch 计算 loss,这里的 loss 使用的是 L1 loss + 对抗loss + VGG loss (来自于 [Futschik et al. 2019]) 。

注意,这里的 U-net 是一个全卷积结构,所以能输入任意大小的图片。

虽然导致当前帧的loss变高了,但是能明显降低其他帧的loss(与当前 SOTA 的 [Jamriška et al] 比较)。

超参搜索

尽管 patch-based 训练策略已经可观的提升了效果,但是对关键超参的调整还是必要的。

原始的超参可能会导致很差的推理质量,尤其是当训练速度对我们来说很重要的时候。此外,我们还需要在风格化质量与实时性之间做平衡。

我们制定了一个优化问题,使用网格搜索求解。

包含四个参数:patch 尺寸,batch尺寸(每个batch包含多少patch),学习率,残差块数量。

目标是:最小化与 [Jamriška et al. 2019] (当前SOTA,也就是 EbSynth) 生成的结果之间的差距。(注意只有微调超参时才使用了这个)

损失函数:使用 [Futschik et al. 2019] 的 loss (训练时也用的这个)。

约束条件是:训练时间 与 单个视频的推理时间 是固定的。(分别是 30秒 和 0.06秒)

因为约束的时间较短,所以用网格搜索是可行的。

时间一致性

尽管 [Futschik et al. 2019] 发现这个方法天然的具有一定的时间一致性,但是还是会出现很多闪烁。

闪烁的原因有两个:时间尺度的噪声,视觉上的歧义。

即使是很小的时间噪声,也会被外观翻译网络放大。

为了抑制噪声,使用了一个在时域工作的双边滤波器的运动补偿变体 [Bennett and McMillan 2005]

滤波器只有在对象具有独特且多变的纹理的时候很有效,如果缺乏足够独特的视觉信息(比如有一片完全同色的区域),就会出现视觉上的歧义。

解决 视觉歧义:

使用一个额外的输入层来显式的提升网络的鉴别能力。

在这里插入图片描述

该层由一组稀疏的随机分布的二维高斯组成,每个二维高斯都有一个独特的随机生成的颜色。

为了补偿视频中的运动,这些高斯被看作是粘在网格上的点。

网格由 as-rigid-as-possible (ARAP) 图像配准技术 [Sýkora et al. 2009] 变形。

该方法重复两个步骤:

  1. 块匹配(block-matching)估计网格上每个点的最优平移
  2. 利用ARAP变形模型,局部加强刚性来规范网格结构

该配准方法可以独立应用于每个帧,不需要时域信息。

之所以使用高斯,而不是直接编码像素坐标,例如 [Jamriška et al.2019; Liu et al. 2018]

是因为,随机着色提供更好的定位和稀疏性,以及旋转对称性,减少了局部失真的影响。

如果发生极端非平面变形(比如头部转动)或者强遮挡(比如有多个场景平面)的情况,需要提供额外的关键帧或将场景分割成多层。每个关键帧或场景层都有自己的专用变形网格。在补充材料的 2:56 处展示了这一点。

没看出来他怎么展示的,让头转一下就行了?网格呢?网格长啥样啊?

完全没解释是怎么引入额外关键帧或者分割场景的,估计是因为和提到的两篇做法一样吧。只能看看那两篇了,最坏情况可能只有看源码才行。

推理过程

经过训练过程,我们已经得到一个 根据 用户给定风格 微调过的 U-net 。

推理过程很简单。

直接把当前帧整个喂给 U-net ,然后得到风格化的当前帧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41513.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用树莓派做一个家庭语音助手/智能音箱

一、前言 这学期闲来无事,于是搞了个简单的家庭语音助手,其主要实现的功能有: 语音唤醒;控制家电;询问时间和日期;询问天气情况;查询垃圾分类;播报新闻;微信小程序远程…

英伟达 gsync demo NVIDIA 钟摆测试

英伟达 gsync demo NVIDIA 钟摆测试 不知道为什么网上没有共享资源的帖子 共享一下网址 顺带记录作用 https://www.nvidia.com/coolstuff/demos#!/ 进去就第一个就是钟摆测试,还有好多英伟达的其他demo 觉得方便的可以点赞支持一下

英伟达RTX 4070最新测评来了!光追效果更棒,但仅限于2k游戏

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 英伟达RTX 4070开卖,4799元的价格也是让不少人心动。 由于之前矿难一波,英伟达30系显卡失去了不少人的信任,大伙儿的目光也都放在了40系显卡上。 现在4070性价比卡终于姗姗来迟,它实际性能…

【分享NVIDIA GTC大会干货】与Jetson嵌入式平台工程师的深度挖掘问答

Connect with the Experts: A Deep-Dive Q&A with Jetson Embedded Platform Engineers [CWES52132] NVIDIA Jetson 是世界领先的边缘人工智能计算平台。它具有高性能和低功耗的特点,是机器人、无人机、移动医疗成像和智能视频分析等计算密集型嵌入式应用的理想…

(一) nvidia jetson orin nvcsi tegra-capture-vi camera相关内容梳理 之 vi相关代码分析

背景:对于nvidia 的jetson orin 的camera,其内部是如何实现的尼?硬件方面的pipeline是怎么关联的,其内部有哪些camera相关的modules?对于这些modules,软件上又是怎么去实现?设备树如何去抽象这些modules?分析完后,给我们一个camera sensor,如何进行bring up?本文将会…

NVIDIA英伟达又发布了哪些黑科技?

Intel市值现在基本只有NVIDIA的1/6了,真是风水轮流转。NVIDIA不仅凭借AI浪潮实现逆袭大力发展GPU、AI专用硬件,顺便把CPU也做了。 下面简略介绍NVIDIA GTC 2023主题演讲中提到的一些方向。 总结一下: 发布了量子控制链路,入局量子…

生死看淡,不服就GAN(九)----英伟达力作PGGAN实战,生成高清图片

一、前言 2017年,NVIDIA Research 网站发布了一篇颇为震撼的GAN论文:Progressive Growing of GANs for Improved Quality, Stability, and Variation(简称PGGAN),通过使用渐增型GAN网络和精心处理的CelebA-HQ数据集&a…

太赞了,英伟达又一突破,输入关键词就可以生成直逼摄影师的大片

整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 英伟达又一次突破了,这么逼真的照片竟然不是来自摄影师或是设计师! 近日,英伟达官方推出 GauGAN2 的人工智能系统,它是其 GauGAN 模型的继承者&#x…

2019计算机考研学校录取统计,2019各大考研名校热专拟录取分数统计,你要考多少分才有希望?...

原标题:2019各大考研名校热专拟录取分数统计,你要考多少分才有希望? 除了报录比,拟录取的初试分数是最直观让你感受到你离上岸院校的距离,下面是列出的个别院校的考研录取最低分、最高分以及平均分,希望大家…

计算机考研评分标准,考研复试评分标准来啦!

原标题:考研复试评分标准来啦! 今天给大家整理了复试评分标准以及复试成绩评定表,大家可以参考一下,做到心中有数才能有条不紊。 知道老师给分都是从哪几方面给的,这样才可以更有目的的去准备,同时注意提高…

考研复试打分表公布?评分细则已出!

计算机与软件考研: 下面的内容是转载网络上的,不是特别针对计算机专业的,但是英语,面试等很多部分依然可以作为参考 只要还没出成绩 考研人就没有一天不在焦虑的 但凡想做点儿放松的事来安慰自己 结果却是是更加焦虑 想开始准备复…

不妙,2023年浙大mpa的复试形势比想象的更严峻,又在突突突涨……

都知道浙大MPA项目卷,但都没想到这么卷! 很多浙大mpa的考生在一开始的备考初期因为对该项目的认知了解不够清晰从而会导致联考过后功亏一篑。因为是在职类考生群体,因此不少考生会认为以自己的实力和基础应该能够鱼跃龙门榜上有名&#xff0…

23考研重大软院数一英一391分经验帖

今年这情况之后,所有前人的经验帖作废。 前言: 本校本专业生一战上岸,属于考研界难度最低的一档。 今年有个初试439的怪物,属于是蚌了,第二名也有419,第三名就断档了,我初试第五。 政治78&#…

前100名分数都超过383分!复旦大学计算机考研分数统计

前段时间我们提到了中国科学技术大学软件学院(科软),北京大学软件与微电子学院(软微)的计算机考研成绩,大批考生400分以上。但计算机考研爆炸的并不只有这两所大学,还有一些学校也有很多高分考生…

老学长的浙大MPA现场复试经验分享

作为一名在浙大MPA项目已经毕业的考生来说,很荣幸受到杭州达立易考周老师的邀请,给大家分享下我的复试经验,因为听周老师说是这几年浙大MPA因疫情情况,已经连续几年都是线上个人复试了,而今年疫情社会面较为平稳的情况…

考研计算机考多少算高分,考研究生需要多少分才能录取 考多少算高分

研究生入学考试总分为500分。由于学校和专业不同,各高校的成绩也不尽相同。每年考研的分数线不是很大,考生可以参照往年的分数线来判断自己是否可以进入复试。 考研能考多少分 首先,让我们来谈谈硕士研究生的第一条测试线:每个类别…

330分能进复试的计算机相关专业排行榜(985院校)(共118个专业)

注意:初试科目以最新信息为准,已经考虑到目前为止的23改考信息。近4年的复试分数线是评估考试难度的重要参考信息,但是由于复录比、所在地区阅卷尺度不同,平均分信息不能完全反映某个专业的考试难度,同学们报考的时候还…

浙大MPA常规批复试上岸经验分享

在经历笔试和面试的备考后,去年终于来到了复试环节,好在通过自己的不懈努力和不放松的精神,最终成功上岸,现在把个人的备考经验做整理为大家做个参考! 一、复试前准备: 在正式复试前建议一定要对浙大MPA项…

考研初试占比高,复试压力小院校合集~

下面是全校的比例,计算机考研比例不一定相同。 择校择业是考研备考中的大事! 考研的成败很大程度取决于你是否选择了正确的院校和专业。正确的选择不仅对当下的考研成败有着重要的影响,而且对于日后的就业或者读博都影响深远。考研菌提醒大家…

计算机考研多少是高分,考研多少分算高分 总分500考380难吗

对于考研的同学来说,多少分算高分?考研380分好考吗?下文有途网小编给大家整理了考研多少分算高的相关信息,供参考! 考研总分500考380分有多难 需要大家注意的是,考研和高考的分数完全不是一个概念上的&…