GHuNeRF: Generalizable Human NeRF from a Monocular Video

研究背景

  1. 研究问题:这篇文章要解决的问题是学习一个从单目视频中泛化的人类NeRF模型。尽管现有的泛化人类NeRF已经取得了令人印象深刻的成果,但它们需要多视图图像或视频,这在某些情况下可能不可用。此外,一些基于单目视频的人类自由视点渲染工作无法泛化到未见过的身份。
  2. 研究难点:该问题的研究难点包括:如何在大规模人体运动中建模、如何在单目视频中有效地聚合跨帧信息、如何在训练和推理过程中提高效率。
  3. 相关工作:该问题的研究相关工作有:传统的3D人体重建方法、神经场景表示与渲染、神经辐射场(NeRF)及其在人体建模中的应用、以及现有的泛化人类NeRF方法。这些方法在多视图设置下取得了显著成果,但在单目视频设置下仍存在泛化问题。

研究方法

这篇论文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。具体来说,

1、可见性感知特征聚合:首先,提出了一种可见性感知特征聚合方案,以计算顶点级别的特征。由于遮挡问题,一个顶点在视频的某些帧中可能是可见的。通过考虑可见性信息,能够跨不同时间步收集有用的信息,从而补偿多视图信息的缺失。公式如下:

其中,vgvg​ 表示目标SMPL上的一个顶点,{v1,v2,...,vT}{v1​,v2​,...,vT​} 表示观测帧中对应的SMPL顶点,bibi​ 表示顶点vivi​的可见性。

2、基于注意力机制的时间对齐特征增强:由于SMPL顶点的稀疏性和体积分辨率的限制,基于SMPL顶点的特征体积只能表示人体的整体几何形状,但精度不足。为了解决这个问题,提出了一种基于注意力机制的时间对齐点特征增强方法。通过学习从目标帧到观测帧的变换映射,将目标空间中的3D采样点映射到观测帧中。公式如下: 

其中,popo​ 是目标空间中的3D采样点,TT 是基于SMPL的姿态参数和关节位置的变换矩阵,wgwg​ 是混合权重。

3、表面引导的点采样:为了提高训练和推理的效率,采用了一种表面引导的点采样策略。与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。

4、体积渲染:使用体积渲染技术为每个像素渲染RGB值。公式如下:

其中,NkNk​ 表示沿每条光线上的采样点数量,δkδk​ 是相邻采样点之间的距离。

实验设计

  1. 数据集:在ZJU-MoCap数据集和People-Snapshot数据集上进行了评估。ZJU-MoCap数据集包含9个动态人体视频,每个主体由21个同步相机捕获的多摄像机系统拍摄。People-Snapshot数据集包含单目视频,捕捉表演者在保持A姿势时旋转。
  2. 评估指标:采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为评估指标。
  3. 训练细节:使用Adam优化器进行训练,学习率为1e−41e−4,批量大小为1。训练和推理均使用512×512512×512的图像大小。在每个RTX 3090Ti GPU上进行训练,共训练500个epoch,每个epoch迭代500次。

结果与分析

1、ZJU-MoCap数据集:在ZJU-MoCap数据集上的定量结果显示,GHuNeRF在单目视频输入下达到了与多视图输入方法相当的性能。对于已见身份,GHuNeRF的PSNR为27.32,SSIM为0.936;对于未见身份,GHuNeRF的PSNR为24.55,SSIM为0.911。

2、People-Snapshot数据集:在People-Snapshot数据集上的定量结果显示,GHuNeRF在单目视频输入下显著优于NHP。对于未见身份,GHuNeRF的PSNR为23.20,SSIM为0.889。 

3、交叉数据集泛化:将People-Snapshot数据集上训练的模型直接应用于ZJU-MoCap数据集,交叉数据集泛化的PSNR为23.20,与在ZJU-MoCap数据集上训练的模型相当。

4、定性结果:定性结果显示,GHuNeRF能够生成高保真度的图像,并且在某些情况下比NHP生成更多细节。3D重建结果也显示,GHuNeRF能够预测更真实的3D人体形状。

总体结论

本文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。通过引入可见性感知特征聚合、时间对齐特征增强和表面引导的点采样策略,GHuNeRF在单目视频输入下实现了与多视图输入方法相当的性能。实验结果表明,GHuNeRF在ZJU-MoCap和People-Snapshot数据集上均表现出色,具有较高的泛化能力和高质量的渲染结果。

优点与创新

  1. 首次尝试:本文首次提出了从单目视频中学习通用人类NeRF模型的任务。
  2. GHuNeRF方法:提出了GHuNeRF方法,包括可见性感知体积特征聚合和时间对齐的特征增强,以跨视频帧聚合信息,用于自由视点图像合成。
  3. 性能表现:在ZJU-MoCap数据集上实现了与现有多视图视频方法相当的性能,并且在仅使用单目视频的情况下,性能优于现有工作。
  4. 表面引导采样策略:引入了表面引导采样策略,提高了训练和推理的效率,并通过假设远处区域为空空间来隐式规范3D几何形状。
  5. 多视角和单目训练:在多视角(MVT)和单目(MoT)设置下均进行了实验,验证了方法的有效性。

不足与反思

  1. 泛化能力有限:当训练和测试数据显著不同时,泛化能力仍然有限。
  2. 失败案例:在补充材料中展示了一些失败案例,例如在People-Snapshot数据集上训练的模型在ZJU-MoCap数据集上的预测颜色不正确。主要原因是两个数据集的光照条件差异显著,且People-Snapshot数据集中从未见过黄色衬衫。

创新点

1、GHuNeRF利用SMPL模型来构建特征体积,从而处理大规模人体运动。具体来说,GHuNeRF首先使用SMPL模型将每个顶点的特征表示从2D图像空间投影到目标空间的3D空间。然后,通过SparseConvNet将顶点级别的特征扩散到附近的3D空间,形成一个特征体积。这个特征体积虽然能够表示人体的整体几何形状,但由于SMPL顶点的稀疏性和体积分辨率的限制,其精度不足。为了提高精度,GHuNeRF进一步通过注意力机制将时间对齐的点特征与体积特征融合,从而增强特征体积的表示能力。

2、GHuNeRF中的可见性感知特征聚合方案通过考虑顶点的可见性信息来计算顶点级别的特征。具体来说,对于目标SMPL上的每个顶点vgvg​,其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi​)得到的,其中bibi​表示顶点vivi​的可见性。

3、GHuNeRF采用了表面引导的点采样策略来提高训练和推理的效率。具体来说,与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。此外,GHuNeRF还通过使用ResNet18提取图像特征,并使用SparseConvNet进行特征扩散和注意力机制增强,进一步优化了网络结构和计算效率。实验结果表明,这些策略显著提高了GHuNeRF的训练和推理效率,同时在合成图像和3D人体重建的质量上也表现出色。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/463510.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux - grep的正则用法

新建u.txt,文本内容如图: 搜寻特定字符串 利用中括号[]搜寻集合字符 行首与行位字符^$ 任意一个字符.与重复字符*限定连续RE字符范围{} 总结:

项目模块十五:HttpResponse模块

一、模块设计思路 存储HTTP应答要素&#xff0c;提供简单接口 二、成员变量 int _status; // 应答状态码 unordered_map<string, string> _headers; // 报头字段 string _body; // 应答正文 bool _redirect_flag; // 是否重定向信息 stri…

从零开始的c++之旅——继承

1. 继承 1.继承概念及定义 继承是面向对象编程的三大特点之一&#xff0c;它使得我们可以在原有类特性的基础之上&#xff0c;增加方法 和属性&#xff0c;这样产生的新的类&#xff0c;称为派生类。 继承 呈现了⾯向对象程序设计的层次结构&#xff0c;以前我们接触的…

6.1、实验一:静态路由

源文件获取&#xff1a;6.1_实验一&#xff1a;静态路由.pkt: https://url02.ctfile.com/f/61945102-1420248902-c5a99e?p2707 (访问密码: 2707) 一、目的 理解路由表的概念 会使用基础命令 根据需求正确配置静态路由 二、准备实验 1.实验要求 让PC0、PC1、PC2三台电脑…

logback日志级别动态切换四种方案

生产环境中经常有需要动态修改日志级别。 现在就介绍几种方案 方案一&#xff1a;开启logback的自动扫描更新 配置如下 <?xml version"1.0" encoding"UTF-8"?> <configuration scan"true" scanPeriod"60 seconds" debug…

Qt字符编码

目前字符编码有以下几种&#xff1a; 1、UTF-8 UTF-8编码是Unicode字符集的一种编码方式(CEF)&#xff0c;其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节&#xff0c;当然&#xff0c;也可以更长。 2、UTF-16 UTF-16是Unicode字符编码五层次…

postman 获取登录接口中的返回token并设置为环境变量的方法 postman script

postman是一个比较方便的API开发调试工具&#xff0c; 我们在访问API时一般都需要设置一个token来对服务进行认证&#xff0c; 这个token一般都是通过登录接口来获取。 这个postman脚本放到登录接口的sctipt--> post-response里面即可将登陆接口中返回的token值设置到postma…

使用Django REST framework构建RESTful API

使用Django REST framework构建RESTful API Django REST framework简介 安装Django REST framework 创建Django项目 创建Django应用 配置Django项目 创建模型 迁移数据库 创建序列化器 创建视图 配置URL 配置全局URL 配置认证和权限 测试API 使用Postman测试API 分页 过滤和排序…

消息队列面试——打破沙锅问到底

消息队列的面试连环炮 前言 你用过消息队列么&#xff1f;说说你们项目里是怎么用消息队列的&#xff1f; 我们有一个订单系统&#xff0c;订单系统会每次下一个新订单的时候&#xff0c;就会发送一条消息到ActiveMQ里面去&#xff0c;后台有一个库存系统&#xff0c;负责获取…

Rust 力扣 - 1493. 删掉一个元素以后全为 1 的最长子数组

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 本题我们能转换成求只包含一个0的子数组的最长长度 如果数组中不存在0&#xff0c;则结果为数组长度减一 我们使用一个left指针指向子数组的左边界&#xff0c;然后我们遍历子数组的右边界&#xff0c;我们记录…

在 Windows 系统上,在两台机器上测试 MySQL 集群实现实时备份的基本步骤:

在两台机器上测试 MySQL 集群实现实时备份的基本步骤&#xff1a; 一、环境准备 机器配置 确保两台机器&#xff08;假设为服务器 A 和服务器 B&#xff09;能够互相通信&#xff0c;例如它们在同一个局域网内&#xff0c;并且开放了 MySQL 通信所需的端口&#xff08;默认是 3…

常见的开源软件许可证及其应用案例

目录 引言 开源的定义 开源许可证的种类 常见的开源许可证及其应用案例 结论 引言 开源软件在过去几十年中迅速发展&#xff0c;已经成为软件开发的重要组成部分。开源不仅仅是一种技术模式&#xff0c;更是一种文化和社区精神。本文将详细介绍开源的定义、开源许可证的种…

校招回顾 | “青春不散场,梦想正起航”,极限科技(INFINI Labs)亮相湖北工业大学 2025 秋季校园招聘会

10 月 31 日&#xff0c;极限科技&#xff08;INFINI Labs&#xff09; 受邀参加 湖北工业大学 2025 届秋季校园招聘会&#xff0c;这不仅是一次与满怀激情的青年学子们的深度碰撞&#xff0c;更是一场关于青春与未来的美好邂逅。让我们一起回顾校招现场的精彩瞬间&#xff0c;…

基于python的机器学习(一)—— 基础知识(Scikit-learn安装)

目录 一、机器学习基础 1.1 机器学习概述 1.2 监督学习、无监督学习和强化学习 1.3 聚类、分类、回归、标注 1.3.1 聚类 1.3.2 分类 1.3.3 回归 1.3.4 标注 1.4 机器学习、人工智能和数据挖掘 1.5 机器学习的三个要素 二、Scikit-learn 机器学习库 2.1 Scikit-lea…

第五篇: 使用Python和BigQuery进行电商数据分析与可视化

使用Python和BigQuery进行电商数据分析与可视化 大数据分析对于电商业务的洞察至关重要。在这篇文章中&#xff0c;我们将使用Python结合Google BigQuery来分析电商数据集&#xff0c;以最畅销商品和平均订单价格最高的前10位客户为主题&#xff0c;展示如何通过数据可视化提供…

基于SpringBoot+Vue的快递物流信息查询系统设计与实现【前后端分离】

基于SpringBootVue的快递物流信息查询系统设计与实现 摘要 随着电子商务的快速发展&#xff0c;快递物流系统的重要性愈发突出。针对用户对快递信息的实时查询需求&#xff0c;本系统结合Spring Boot和Vue技术&#xff0c;设计并实现了一个高效、易用的快递物流信息查询系统。系…

开源免费的API网关介绍与选型

api网关的主要作用 API网关在现代微服务架构中扮演着至关重要的角色&#xff0c;它作为内外部系统通信的桥梁&#xff0c;不仅简化了服务调用过程&#xff0c;还增强了系统的安全性与可管理性。例如&#xff0c;当企业希望将内部的服务开放给外部合作伙伴使用时&#xff0c;直…

WPF+MVVM案例实战(十七)- 自定义字体图标按钮的封装与实现(ABC类)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1、案例效果1、按钮分类2、ABC类按钮实现1、文件创建2、字体图标资源3、自定义依赖属性4、按钮特效样式实现 3、按钮案例演示1、页面实现与文件创建2、依赖注入3 运…

使用MongoDB Atlas构建无服务器数据库

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用MongoDB Atlas构建无服务器数据库 MongoDB Atlas 简介 注册账户 创建集群 配置网络 设置数据库用户 连接数据库 设计文档模式…

【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏

【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏 目录 文章目录 【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏目录摘要研究背景问题与挑战如何解决创新点算法模型实验效果代码推荐阅读指数&…