[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[paper | proj]

  • 给定FLAME,基于每个三角面片中心初始化一个3D Gaussian(3DGS);当FLAME mesh被驱动时,3DGS根据它的父亲三角面片,做平移、旋转和缩放变化;
  • 3DGS可以视作mesh上的辐射场;
  • 为实现高保真的avatar,本文提出一种蒙皮(binding)继承策略,在优化过程中,保持蒙皮对3DGS的控制;
  • 本文贡献如下:
    • 提出GaussianAvatars,通过将3DGS绑定至FLAME模型,实现可驱动的head avatars;
    • 设计了一种蒙皮继承策略,使得在保持蒙皮控制的情况下,3DGS的新增和移除。

近期工作

静态场景表征

  • NeRF用神经网络,以辐射场的形式存储场景;
  • 后续工作将场景表征为voxel grids、使用voxel hashing、或使用tensor decomposition,加速渲染;
  • PointNeRF使用点云表征场景;
  • 3D Gaussian Splatting使用各向异性3D Gaussian,实现实时渲染和优异的视觉效果;
  • Mixture of Volumetric Primitives使用surface-aligned volumes实现高视觉保真度的快速渲染;

动态场景表征

  • Basic Design:基于NeRF的方法,输入4D坐标(x, y, z, t),输出密度和颜色。例如:K-Plane、4K4D等。这类方法虽然效果不错,但是无法显式控制内容;
  • Deformation MLP:学习静态标定空间,通过MLP将其他时间下的空间映射回标准空间;
  • Proxy geometry:
  • Liu等人 [25] 基于SMPL移动后的最近三角面片,将观察空间中的点warp回标定空间;
  • Peng等人 [34] 基于SMPL的骨架和神经蒙皮系数(neural blending weights)变形点;
  • 前向变形(forward deformation)[13, 18, 20, 23, 48] 和cage-based deformation [54];
  • 不同于上述方法,本文将3DGS附着在三角面片上,并显式地移动他们,避免使用标定空间,并可使用mesh finetuning。

头像重建与驱动

  • Thies等人 [41] 实现了数字人的实时人脸跟踪和面部重现(face reenactment);
  • Gafni等人 [8] 从单目视频中以表情系数作为控制信号,学习NeRF;
  • Grassal等人 [10] 向FLAME中添加偏移量,增强几何,通过基于表情控制的纹理域,实现动态纹理;
  • IMavatar [51] 基于神经隐式方程学习3D可形变数字人,通过iterative root-finding实现标定空间到观察空间的映射;
  • HeadNeRF [11] 学习一个基于NeRF的参数化头模;
  • INSTA [55] 通过寻找FLAME上最近三角面片,将查询点映射回标定空间;
  • Zheng [52] 探索了基于点的表征和可导的点渲染方法,在标定空间中定义点集,学习受FLAME表情系数控制的形变场,以驱动数字人;
  • AvatarMAV [46] 定义了标定辐射场和运动场;
  • 不同于INSTA,本文在3DGS和三角面片间建立一致性关联。

方法

  • 根据给定的多视角图片和相机参数,估计每帧图片中的FLAME参数;
  • 建立三角面片和3DGS的关系;
  • 可导渲染得到图片与GT图片算损失,用于训练模型;
  • 在训练过程中,通过蒙皮继承策略(binding inheritance strategy)控制3DGS增删后与三角面片的对应关系。

绑定3DGS与三角面片

给定三角面片,本文计算:

  • 均值位置T:给定三角面片的三条边,计算对应的均值位置;
  • 构造旋转矩阵R:1)三角面片的某条边;2)三角面片的法向向量;3)与前两者垂直的第三边;
  • 放缩变量k:通过三角形中一条边及其垂线的平均长度来计算标量k,以描述三角面片缩放;

对于对应的3DGS,在局部空间定义其位置\mu,旋转矩阵r,各向异性缩放系数s

  • 初始化时,\mu为局部零点位置,r为单位旋转矩阵,s为单位矢量。
  • 渲染时,将其从局部空间转换为全局空间:

本文将三角面片的缩放系数s,嵌入到公式5和6中,使得3DGS的局部位置和缩放与三角面片的缩放相关。这使得全局定义的学习率可以适用于局部。

蒙皮继承策略

  • 稠密:对于具有较大view-space positional gradient的3DGS,如果该点较大则拆分为两个,如果较小则复制一个新的;确保新3DGS和旧的足够近,这样可以将新点绑定至旧点对应的三角面片;
  • 剪枝:在3DGS原有剪枝的技术上,确保每个三角面片具有至少一个3DGS。有些脸部区域(眼球)常被遮挡,很有可能由于剪枝,导致眼球部分的3DGS被去掉。

优化和正则

  • 渲染图像损失如下,可以保证对已有场景有不错效果,但是对新表情和位置效果不佳(存在spike和blob伪影)

具有阈值的位置损失(Position loss with threshold)

在蒙皮继承策略中,本文通过拆分和复制增加新的3DGS。理想情况下,新增的3DGS应该与面片相邻。但是经过优化后,无法保证他们相邻。为解决该问题,本文引入了位置正则项:

\epsilon_{position}=1,确保3DGS和它的父亲三角面片足够近。

具有阈值的放缩损失(Scaling loss with threshold)

如果某个3DGS相较于它的父亲三角面片更大,三角面片的小角度旋转,会在3DGS上被放大,导致伪影。为解决该问题,本文引入了放缩正则项:

\epsilon_{scaling}=0.6,确保3DGS不会太大。

最终损失

其中,\lambda_{position}=0.01\lambda_{scaling}=1。这两项确保常被遮挡的区域(眼球、牙齿)可以被保留。

实现细节

  • Adam,位置学习率为5e-3,放缩学习率为1.7e-2;
  • 除了3DGS,FLAME的translation、joint rotation和表情系数也会fine-tune,学习率分别为:1e-6,1e-5和1e-3。
  • 训练600k iters,从10k iters之后,每2k iters执行3DGS的更新和蒙皮继承策略,每60k iters,重新设置3DGS的不透明度。

实验

  • 数据集:NeRSemble数据集上的9个目标,每个目标包含10种表情和16个视角。
  • 测试:1)新视角生成(novel-view synthesis);2)自重演(self-reenactment);3)跨ID重演(cross-identity reenactment)。

数字人重建

消融实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/220621.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能优化算法应用:基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.算术优化算法4.实验参数设定5.算法结果6.…

SD-WAN网络的可扩展性解析

SD-WAN组网以其卓越的可扩展性而脱颖而出,为企业提供了一个灵活适应不断扩张和增长需求的网络解决方案。SD-WAN组网通过轻松实现规模调整、拓扑变更以及多种接入方式的切换,确保网络的高效性和可管理性。对于正处于快速发展时期的企业而言,SD…

在IDEA中使用Git 、远程仓库克隆工程到本地

4.1 在IDEA中配置Git 安装好IntelliJ IDEA后,如果Git安装在默认路径下,那么idea会自动找到git的位置,如果更改了Git的安装位置则需要手动配置下Git的路径。 选择File→Settings打开设置窗口,找到Version Control下的git选项: 选择git的安装目录后可以点击“Test”按钮测…

探讨小鹏汽车CAN通讯协议分析破解过程数据研究技术应用

当前新能源电动汽车设计日益复杂,为提高舒适性、功能性、提升性能和确保更高的安全性,很多汽车的设计中融入了更复杂的功能。包括了雷达、激光雷达、自适应巡航、L2以上自动驾驶系统,高级驾驶辅助系统、盲区监测等等。安装在汽车上的传感器和…

Java中线程状态的描述

多线程-基础方法的认识 截止目前线程的复习 Thread 类 创建Thread类的方法 继承Thread类,重写run方法实现Runnable接口,重写run方法使用匿名内部类继承Thread类,重写run方法使用匿名内部类实现Runnable接口,重写run方法使用Lambda表达式 run方法中的所有的代码是当前线程对…

oracle 锁表解决办法

相关表介绍 V$LOCKED_OBJECT(记录锁信息的表)v$session(记录会话信息的表)v$sql(记录 sql 执行的表)dba_objects(用来管理对象,表、库等等) 查询锁表的 SID select b.…

滑动窗口最大值(LeetCode 239)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路方法一:暴力法方法二:优先队列方法三:单调队列 参考文献 1.问题描述 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动…

【Trino权威指南(第二版)】Trino的架构、trino架构组件、 trino连接器架构的细节、trino的查询执行模型

文章目录 一. Trino架构1. 架构概览2. 协调器3. 发现服务4. 工作节点 二. 基于连接器的架构三. 查询执行模型1. 解析—>查询计划2. 查询计划 —> 分布式查询计划3. 运行阶段3.1. 基础概念切片:并行单元page 与 exchange算子pipeline切片的driverOperator 3.2.…

大数据技术14:FlinkCDC数据变更捕获

前言:Flink CDC是Flink社区开发的flink-cdc-connectors 组件,这是⼀个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。 https://github.com/ververica/flink-cdc-connectors 一、CDC 概述 CDC 的全称是 Change …

深度学习 Day19——P8YOLOv5-C3模块实现

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 文章目录 前言1 我的环境2 代码实现与执行结果2.1 前期准备2.1.1 引入库2.1.2 设置GPU(如果设备上支持GPU就使用GPU,否则使用C…

嵌入式软件测试(黑盒测试)---三年嵌入式软件测试的理解

文章内容为本人这三年来在嵌入式软件测试(黑盒)上的一些积累吧,说起来也挺快的,毕业三年的时间就这样过去了,在两家公司工作过(现在这家是第二家),这几年的测试项目基本都是围绕着嵌…

类型转换(C++)

1.5 类型转换1.5.1 隐式类型转换1.5.2 显示类型转换 1.5 类型转换 类型转换分为隐式转换和显示转换 写C/C代码的时候,有时候不可避免的会使用类型转换,良好的代码风格中应该避免隐式转换,隐式转换有时候会产生不易察觉的问题。 1.5.1 隐式…

翻译: ChatGPT Token消耗粗略计算英文就是除以四分之三

在这个视频中,我想带你快速浏览一些例子,以建立对在软件应用中使用大型语言模型的实际成本的直观感受。让我们来看看。这是一些示例价格,用于从不同的大型语言模型获取提示和回应,这些模型对开发者可用。即,如果你在你…

【MYSQL】-库的操作

💖作者:小树苗渴望变成参天大树🎈 🎉作者宣言:认真写好每一篇博客💤 🎊作者gitee:gitee✨ 💞作者专栏:C语言,数据结构初阶,Linux,C 动态规划算法🎄 如 果 你 …

【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(四)用户管理、部门管理模块

第一篇:【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(一)搭建项目 第二篇:【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(二)日志输出中间件、校验token中间件、配置路由、基础工具函数。 …

第三讲GNSS相关时间系统和转换 第四讲观测值的产生和分类 | GNSS(RTK)课程学习笔记day2

说明:以下笔记来自计算机视觉life吴桐老师课程:从零掌握GNSS、RTK定位[链接],从零掌握RTKLIB[链接]。非原创!且笔记仅供自身与大家学习使用,无利益目的。 第三讲 GNSS相关时间系统和转换 GPS卫星的位置在时间过程中是…

Java基础语法之内部类

什么是内部类 就是在一个类中又定义了另一个类 分类 实例内部类 即未被static修饰的内部类 1.外部类中的任何成员都可以在内部类里面直接访问,不管这个成员是什么权限 2.内部类对象的创建必须是在有外部类成员的前提下 这是错误的,那如何实例化呢&a…

你知道在MyBatis中传参的#{}和${}的区别吗???

首先我们先将其区别列举出来: 首先演示sql注入: 基于上两篇博客的准备工作,继续开发:MyBatis的删除、修改、插入操作!!!-CSDN博客 #{}的使用 UserMapper.java: User testLogin(User user); U…

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测 目录 时序预测 | Python实现GRU-XGBoost组合模型电力需求预测预测效果基本描述程序设计参考资料预测效果 基本描述 该数据集因其每小时的用电量数据以及 TSO 对消耗和定价的相应预测而值得注意,从而可以将预期预测与当前…

手把手教你搭建谷歌Gemini

前言 谷歌上周推出了一款名为 Gemini 的多模态大模型,并且现在发布了免费开放的 Gemini API 供开发者使用。根据谷歌提供的定价信息,Gemini 有两种收费方式。免费版本每分钟可以进行 60 次请求,足够满足个人用户的需求。收费版本目前暂不可用…