以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题

本文首发于公众号:机器感知

以对象为中心的视频编辑;SDXL高质量缩小版;Transformer在FPGA上实现12.8倍速度提升;深入研究ViT固有问题

VASE: Object-Centric Appearance and Shape Manipulation of Real Videos

图片

现有方法通过文生图模型来做视频编辑任务,然而这些方法大多使用文本编辑整个视频帧,其只专注于提高帧之间的时间一致性。本文引入了一个以对象为中心的框架,旨在控制对象的外观,特别是执行精确和明确的结构修改。此方法以预训练的图像条件扩散模型为基础,集成了处理时间维度的层,并给出了实现外观控制的训练策略和架构修改。该方法在图像驱动的视频编辑任务上具有与SOTA方案相似的性能,并展示了新颖的外观编辑功能。

FED-NeRF: Achieve High 3D Consistency and Temporal Coherence for Face Video Editing on Dynamic NeRF

图片

GAN-NeRF使得面部编辑能够保持3D视图一致性,但在编辑视频序列时同时实现多视图一致性和时间连贯性仍然是一个巨大的挑战。本文提出了一种基于动态面部GAN-NeRF结构的全新面部视频编辑架构,该架构利用视频序列来恢复潜码和3D面部几何形状。由于面部几何形状的估计是在逐帧基础上进行的,这可能会引入抖动问题,由此作者提出了一种稳定器来保持面部表情的平滑变化,进而维持时间连贯性。与现有的2D或3D方法相比,该方法作为开创性的4D面部视频编辑器达到了SOTA水平。

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

图片

本文介绍了两种Stable Diffusion XL(SDXL)缩小的变体,Segmind Stable Diffusion(SSD-1B)和Segmind-Vega,分别通过渐进式移除具有1.3B和0.74B参数的UNets实现,并在减少模型大小的同时并保持生成质量。该方法涉及消除U-Net结构中的残差网络和transformer块,从而显著减少参数和延迟。小模型通过知识迁移模拟原始SDXL,取得了与数十亿参数的SDXL相当的结果。

A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

图片

Transformer取得了优于CNN和RNN的准确率,但许多Transformer模型需要大量的参数,增加了计算复杂性。为此,本文提出了一种基于Neural ODE的混合模型,相比基于ResNet的模型,参数大小减少了94.6%,且准确率没有下降。在FPGA设备上部署该模型后,通过QAT量化方案进一步减少FPGA资源占用,实现了超轻量级的Transformer模型。此外,该模型还通过在FPGA上存储网络的权重来最小化内存传输开销,实现了更快的推理速度。最终,该FPGA实现相对于ARM Cortex-A53 CPU实现了12.8倍的速度提升和9.21倍的能效提升。

Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors

图片

本文提出了一种名为“denoising diffusion variational inference (DDVI)”的近似推断算法,该算法依赖于扩散模型作为变分后验,并通过引入辅助潜在变量来增强变分后验。该方法易于实现,适合于黑盒变分推断,并且优于基于归一化流或对抗网络的替代类近似后验。当应用于深度潜在变量模型时,该方法变成了去噪扩散VAE(DD-VAE)算法,该算法应用在生物学Thousand Genomes数据集上时超过了强大的基线。

Diffbody: Diffusion-based Pose and Shape Editing of Human Images

图片

当前的人体姿态和体型编辑方法存在数据集偏差和身份失真问题,本文提出了一种能够进行高强度编辑且保留身份的方法。该方法首先将输入图像投影到3D模型上,然后改变身体姿态和体型。由于初始的纹理化身体模型存在遮挡和体型不准确的问题,本文提出了一种迭代细化方法,首先对整个身体进行弱噪声处理,然后对脸部进行弱噪声处理。此外,还通过自监督学习对text embeddings进行微调,以增强真实感。

Denoising Vision Transformers

图片

本文针对Vision Transformers(ViTs)中存在的固有问题进行了深入研究:这些模型的特征图展现出网格状伪影,对下游任务中的ViTs性能造成不利影响。研究发现,这一根本问题源自输入阶段的postional embeddings。为了解决这一问题,作者提出了一种新型噪声模型,该模型可广泛应用于所有ViTs。具体来说,噪声模型将ViT输出分解为三个部分:一个不受噪声伪影影响的语义项和两个依赖于像素位置的伪影相关项,这种分解通过在每个图像的基础上强制实施交叉视图的特征一致性来实现。该方法称为Denoising Vision Transformers(DVT),不需要重新训练现有的预训练ViTs,并且可立即应用于任何基于Transformer的架构。作者在各种代表性ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了该方法,实验表明,DVT在语义和几何任务中的多个数据集上取得了一致且显著地效果提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233475.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端学习笔记 3:Vue 工程

前端学习笔记 3:Vue 工程 上一篇文章介绍了如何在单一 Html 页面中使用 Vue,本文介绍如何从头开始用 Vue 构建一个前端工程项目。 1.环境准备 Vue 框架代码的创建依赖于 Node.js,因此需要先安装 Node.js。 2.创建和启动 2.1.创建 通过以…

MongoDB高级集群架构设计

两地三中心集群架构设计 容灾级别 RPO & RTO RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。RTO(Recovery Time Objective):即恢复时间目标&…

OpenHarmony内存泄漏指南 - 解决问题(综合)

本系列文章旨在提供定位与解决OpenHarmony应用与子系统内存泄露的常见手段与思路,将会分成几个部分来讲解。首先我们需要掌握发现内存泄漏问题的工具与方法,以及判断是否可能存在泄漏。接着需要掌握定位泄漏问题的工具,以及抓取trace、分析tr…

智能计价器Scratch-第14届蓝桥杯Scratch省赛真题第5题

5. 智能计价器(80分) 背景信息:A城市的出租车计价:3公里以内13元,基本单价每公里2.3元(超过3公里的部分,不满1公里按照1公里收费),燃油附加费每运次1元。例如:3.2公里的…

自动化测试报告生成(Allure)

之前尝试使用过testNG自带的测试报告、优化过reportNG的测试报告,对这两个报告都不能满意。后经查找资料,发现有个神器: Allure(已经有allure2了,笔者使用的就是allure2),生成的测试报告与上述…

【回溯算法】n-皇后

导航 题目来源题目描述示例思路完整代码 题目来源 n-皇后 题目描述 按照国际象棋的规则,皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 给你一…

【Linux Shell】9. 流程控制

文章目录 【 1. if else 判断 】1.1 if1.2 if else1.3 if elif else1.4 实例 【 2. case 匹配 】【 3. 循环 】3.1 for 循环3.2 while 循环3.3 until 循环3.4 无限循环3.5 跳出循环3.5.1 break 跳出所有循环3.5.2 continue 仅跳出当前循环 【 1. if else 判断 】 1.1 if fi 是…

【算法】递归算法理解(持续更新)

这里写目录标题 一、递归算法1、什么情况下可以使用递归?2、递归算法组成部分3、案例:求n的阶乘4、编写一个递归函数来计算列表包含的元素数。5、通过递归找到列表中最大的数字。6、通过递归的方式实现二分查找算法。 一、递归算法 递归(Rec…

“单项突出”的赢双科技IPO加速,比亚迪是最强助力?

近日,新能源汽车核心部件供应商赢双科技首次递表科创板,其凭借旋转变压器产品就坐稳了新能源车企主要供应商的地位,从核心业务及业绩情况来看,赢双科技不愧为“单项冠军”。 据悉,赢双科技本次IPO拟募资8.47亿元&…

3.9 EXERCISES

矩阵加法需要两个输入矩阵A和B,并产生一个输出矩阵C。输出矩阵C的每个元素都是输入矩阵A和B的相应元素的总和,即C[i][j] A[i][j] B[i][j]。为了简单起见,我们将只处理元素为单精度浮点数的平方矩阵。编写一个矩阵加法内核和主机stub函数&am…

P9 视频码率及其码率控制方式

前言 从本章开始我们将要学习嵌入式音视频的学习了 ,使用的瑞芯微的开发板 🎬 个人主页:ChenPi 🐻推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ 🔥 推荐专栏2: 《Linux C应用编程(概念类)_C…

一款开源的MES系统

随着工业4.0的快速发展,制造执行系统(MES)成为了智能制造的核心。今天,将为大家推荐一款开源的MES系统——iMES工厂管家。 什么是iMES工厂管家 iMES工厂管家是一款专为中小型制造企业打造的开源MES系统。它具备高度的可定制性和灵…

Jenkins集成部署java项目

文章目录 Jenkins简介安装 Jenkins简介 Jenkins能实时监控集成中存在的错误,提供详细的日志文件和提醒功能,还能用图表的形式形象的展示项目构建的趋势和稳定性。 官网 安装 在官网下载windows版本的Jenkins 但是我点击这里浏览器没有反应&#xff0…

关于自增和自减的一些细节问题

目录 基本概念 1.运算 2.输出 基本概念 在这里简单回顾一下自增和自减:顾名思义,自就是同一变量的值发生变化,自增就是该变量值加1,自减就是该变量值减1。 自增和自减又可以根据运算符的位置不同分为前缀式和后缀式。前缀就是…

hfish蜜罐docker部署

centos 安装 docker-CSDN博客Docker下载部署 Docker是我们推荐的部署方式之一,当前的版本拥有以下特性: 自动升级:每小时请求最新镜像进行升级,升级不会丢失数据。数据持久化:在宿主机/usr/share/hfish目录下建立dat…

Unity 使用Sprite绘制一条自定义图片的线

Unity 使用Sprite绘制一条自定义图片的线 前言项目场景布置代码编写总结 运行效果感谢 前言 遇到一个需要绘制自定义形状的需求。那只能利用Sprite来绘制一条具有自定义图片的线,通过代码动态设置起点、终点以及线宽,实现灵活的线条效果。 项目 场景…

2024.1.3力扣每日一题——从链表中移除节点

2024.1.3 题目来源我的题解方法一 递归方法二 栈方法三 反转链表方法四 单调栈头插法 题目来源 力扣每日一题;题序:2487 我的题解 方法一 递归 当前节点对其右侧节点是否删除无影响,因此可以对其右侧节点进行递归移除。 若当前节点为空&am…

BLE Mesh蓝牙组网技术详细解析之Access Layer访问层(六)

目录 一、什么是BLE Mesh Access Layer访问层? 二、Access payload 2.1 Opcode 三、Access layer behavior 3.1 Access layer发送消息的流程 3.2 Access layer接收消息的流程 3.3 Unacknowledged and acknowledged messages 3.3.1 Unacknowledged message …

Python selenium实现断言3种方法解析

1.if ...else ...判断进行断言 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 from time import * from selenium import webdriver def login(user"admin",pwd"123456"): driver webdriver.Chrome() driver.implicitly_wait(10)…

RedisInsight - Redis官方可视化工具

一、RedisInsight 简介 RedisInsight 是一个直观高效的 Redis GUI 管理工具,它可以对 Redis 的内存、连接数、命中率以及正常运行时间进行监控,并且可以在界面上使用 CLI 和连接的 Redis 进行交互(RedisInsight 内置对 Redis 模块支持&#…