CVPR 2025 | 文本和图像引导的高保真3D数字人高效生成GaussianIP

小小宣传一下CVPR 2025的工作GaussianIP。
arXiv:https://arxiv.org/abs/2503.11143
Github:https://github.com/silence-tang/GaussianIP

欢迎star, issue~

摘要

文本引导的3D人体生成随着高效3D表示及2D升维方法(如SDS)的发展而进步。然而,当前的方法存在训练时间长且结果往往缺乏细腻的面部和服装细节的问题。本文提出了GaussianIP,一个有效的两阶段框架,用于从文本和图像提示中生成保持身份特征的高真实度3D人体模型。我们的核心见解是利用以人类为中心的知识来促进生成过程。在第一阶段,我们提出了一种新颖的自适应人体蒸馏采样(AHDS)方法,可以快速生成与图像提示具有高身份一致性的、外观真实的3D人体模型。相比传统的SDS方法,AHDS更好地符合以人为中心的生成过程,在显著减少训练步骤的同时提升了视觉质量。为了进一步提升脸部和衣物区域的视觉质量,我们在第二阶段设计了一个视图一致性细化(VCR)策略。具体来说,它通过相互注意力和距离引导注意力融合,迭代地产生来自第一阶段多视角图像的细节增强结果,确保跨视角的3D纹理一致性。然后可以通过直接使用refine后的图像执行重建任务,从而获得优化后的3D人体。广泛实的验表明GaussianIP在视觉质量和训练效率上均优于现有方法,特别是在生成保持身份特征的结果方面表现突出。我们的代码已开源。

方法

在这里插入图片描述

Adaptive Human Distillation Sampling

Gaussian Initialization

在SMPL-X neutral的mesh表面密集地采样100000个空间位置作为三维人体高斯的初始位置,其余属性的初始化参考HumanGaussian。

Distillation Sampling with Human-centric Prior

由于3D人类生成任务的独特性,直接从通用扩散先验中蒸馏可能不是最佳选择。因此,GaussianIP结合了一个专注于面部特征的扩散模型和姿态条件控制网络(ControlNet),创建了一个特定于人类的扩散先验。为了准确表示不同视角下面部特征(如眼睛、耳朵等)的可见性,本方法采用了一种视视角感知的姿态骨架修剪策略。
在训练过程中,GaussianIP通过重新设计原始SDS的得分差异提出了人体蒸馏采样(HDS)引导机制,以充分利用给定的文本和图像条件。这种方法将得分差异 分解为校正项 和条件项 ,并根据不同的时间步长应用不同的得分差异建模策略。通过我们重新设计的得分差异,生成的人体面部会更加真实,没有过饱和的问题,并且与给定的身份图像提示具有较好的对齐程度。

Adaptive Human-specific Timestep Scheduling

在这里插入图片描述
为了加速3D人体生成的训练过程,我们提出了一种自适应的人体特定时间步长调度策略。这一策略专为3D人体生成任务量身定制,通过构建非递增的时间步长与训练步骤(t-i)曲线,使得整个生成过程更加高效且精确。
我们将整个3D人体生成流程自然划分为三个协同阶段:首先是几何形状和基础纹理的建立,接着是中级纹理的发展,最后是精细面部特征及服装细节的完善。针对每个阶段,我们分配了特定的时间步长范围,以确保更多的训练步骤被用于模型几何结构的建立和复杂细节的表现上,而过渡阶段则相对减少步骤需求。
为了达到理想的训练效果,我们采用了一个经过优化的权重概率密度函数(PDF),即双段高斯函数WDG(t; s1, s2, T),来表示时间步长的概率分布。这不仅有助于避免过大的初始时间步长导致的过度模糊,也防止了过小的时间步长引起的梯度方差过高问题。通过解决一个优化问题,我们确定了最佳参数设置,确保每个阶段的累积概率符合预期的训练步骤比例。
此外,为了确保不同阶段间的平滑过渡并防止纹理过度饱和,我们为每个阶段设定了下限值,并在这个范围内采样最终的时间步长。AHDS可减少大约30%的训练步骤,并提升了生成结果的视觉质量。

View-consistent Refinement Mechanism

我们设计一种为了解决由AHDS训练结果中可能存在的轻微纹理平滑问题而设计的refine策略。该机制旨在进一步增强基于AHDS训练结果的细节表现,并确保多视角图像间的一致性。
首先,我们提出了关键视图细化(Key Views Refinement)方法,通过将主视图(前、后、左、右)的注意力键值注入到特定关键视图的去噪过程中,保证关键视图与主视图之间外观的一致性。为了避免因不可见区域特征导致的纹理漂移,我们扩展了自注意力键值,使得两个视图可以互相作为参考。
其次,为了实现相邻关键视图间平滑过渡的细化效果,我们设计了一个中间特征传播(Intermediate Features Propagation)过程。此过程根据相对距离引导注意力融合,将相邻关键视图的注意力特征融合进中间视图的去噪过程中,以确保中间视图具有与其邻近视图一致的高纹理一致性。
最终,这些经过细化且在纹理和语义上相互对齐的多视角图像,可以直接应用于第一阶段生成的3D人体高斯优化,通过直接应用重建损失来进一步提升模型质量。整个视图一致性细化机制不仅提升了服装等细节的表现力,同时也增强了不同视角下视觉效果的一致性和真实性,从而提高了整体3D人体模型的质量。

实验

定性比较

在这里插入图片描述

定量比较

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38459.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Model Context Protocol:下一代AI系统集成范式革命

在2023年全球AI工程化报告中,开发者面临的核心痛点排名前三的分别是:模型与业务系统集成复杂度(58%)、上下文管理碎片化(42%)、工具调用标准化缺失(37%)。传统API集成模式在对接大语言模型时暴露明显短板:RESTful接口无法承载动态上下文,GraphQL缺乏工具编排能力,gR…

多模态大模型常见问题

1.视觉编码器和 LLM 连接时,使用 BLIP2中 Q-Former那种复杂的 Adaptor 好还是 LLaVA中简单的 MLP 好,说说各自的优缺点? Q-Former(BLIP2): 优点:Q-Former 通过查询机制有效融合了视觉和语言特征…

EasyRTC轻量级Webrtc音视频通话SDK,助力带屏IPC在嵌入式设备中的应用

一、市场背景 随着人们生活水平的提高,对于家居安全和远程监控的需求日益增长,带屏IPCam不仅满足了用户实时查看监控画面的需求,还提供了诸如双向语音通话、智能报警等丰富的功能,极大地提升了用户体验。 此外,技术的…

Linux安装JDK

1、下载JDK https://www.oracle.com/cn/java/technologies/downloads/#java11 2、安装 2.1、创建安装目录 mkdir /usr/local/jdk 2.1、将下载的tar.gz上传到服务器 使用tar -zxvf jdk-8u311-linux-x64.tar.gz解压后剪切到 /usr/local/jdk目录:mv xxx /usr/local/j…

基于基于eFish-SBC-RK3576工控板的智慧城市边缘网关

此方案充分挖掘eFish-SBC-RK3576的硬件潜力,可快速复制到智慧园区、交通枢纽等场景。 方案亮点 ‌接口高密度‌:单板集成5GWiFi多路工业接口,减少扩展复杂度。‌AIoT融合‌:边缘端完成传感器数据聚合与AI推理,降低云端…

CSS 学习笔记 - 蓝桥杯重点整理

1. CSS 基础语法 核心知识点 选择器 声明块结构三种引入方式&#xff1a;行内/内部/外部常用选择器类型&#xff1a;标签/类/ID/通配符 <!-- 行内样式 --> <p style"color: red;">红色文字</p><!-- 内部样式 --> <style>/* 标签选…

UML的使用

process on 在线使用 UML概念 UML &#xff1a;统一建模语言(Unified Modeling Language&#xff0c;是用来设计软件的可视化建模语言。 1. 类图 1.1 概念 类图&#xff08;Class Diagram&#xff09;是UML中用于描述系统静态结构的图形化工具。它展示了系统的类、接口、它…

【C++】入门

1.命名空间 1.1 namespace的价值 在C/C中&#xff0c;变量&#xff0c;函数和后面要学到的类都是大量存在的&#xff0c;这些变量&#xff0c;函数和类的名称将存在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xff0c;…

数据库练习2

目录 1.向heros表中新增一列信息&#xff0c;添加一些约束&#xff0c;并尝试查询一些信息 2.课堂代码练习 插入语句 INSERT INTO 删除语句DELETE和TRUNCATE 更新语句UPDATE和replace 查询语句SELECT 条件查询 查询排序 聚合函数 分组查询 3.题目如下 一、单表查询 …

w266农产品直卖平台的设计与实现

&#x1f64a;作者简介&#xff1a;多年一线开发工作经验&#xff0c;原创团队&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339;赠送计算机毕业设计600个选题excel文…

2025新版懒人精灵零基础安装调试+lua基础+UI设计交互+常用方法封装+项目实战+项目打包安装板块-视频教程(初学者必修课)

2025新版懒人精灵零基础安装调试lua基础UI设计交互常用方法封装项目实战项目打包安装板块-视频教程(初学者必修课)&#xff1a; 1.懒人精灵核心API基础和lua基础视频教程&#xff1a;https://www.bilibili.com/video/BV1Vm9kYJEfM/ 温馨提示&#xff1a;所有视频请用电脑浏览…

CCF-CSP认证 202206-2寻宝!大冒险!

题目描述 思路 有一张绿化图和藏宝图&#xff0c;其中绿化图很大&#xff08;二维数组在限定的空间内无法存储&#xff09;&#xff0c;而藏宝图是绿化图中的一部分&#xff0c;对于绿化图和藏宝图&#xff0c;左下角的坐标为(0, 0)&#xff0c;右上角的坐标是(L, L)、(S, S)&…

Qt下集成大华网络相机SDK示例开发

文章目录 前言一、下载并集成大华网络相机SDK二、示例实现功能三、示例完整代码四、下载链接总结 前言 近期在Qt环境下进行大华网络相机的使用&#xff0c;发现官网下载的SDK中提供的示例没有Qt的demo&#xff0c;通过学习其提供的MFC示例代码&#xff0c;我在这里也实现了一个…

[学习笔记] 部署Docker搭建靶场

前言 我们需要部署Docker来搭建靶场题目&#xff0c;他可以提供一个隔离的环境&#xff0c;方便在不同的机器上部署&#xff0c;接下来&#xff0c;我会记录我的操作过程&#xff0c;简单的部署一道题目 Docker安装 不推荐在物理机上部署&#xff0c;可能会遇到一些问题&…

网络华为HCIA+HCIP IPv6

目录 IPv4现状 IPv6基本报头 IPv6扩展报头 IPv6地址 IPv6地址缩写规范 ​编辑 IPv6地址分配 IPv6单播地址分配 IPv6单播地址接口标识 IPv6常见单播地址 - GUA &#xff08;2 / 3 开头&#xff09; IPv6常见单播地址 - ULA IPv6常见单播地址 - LLA IPv6组播地…

可视化动态表单动态表单界的天花板--Formily(阿里开源)

文章目录 1、Formily表单介绍2、安装依赖2.1、安装内核库2.2、 安装 UI 桥接库2.3、Formily 支持多种 UI 组件生态&#xff1a; 3、表单设计器3.1、核心理念3.2、安装3.3、示例源码 4、场景案例-登录注册4.1、Markup Schema 案例4.2、JSON Schema 案例4.3、纯 JSX 案例 1、Form…

C++::多态

目录 一.多态的概念 二.多态的定义及实现 二.1多态的构成条件 二.2虚函数 1.虚函数的写法 2.虚函数的重写/覆盖 3.协变 二.3析构函数的重写 二.4override和final关键字 ​编辑二.5重载/重写/隐藏的对比 三.多态的运行原理&#xff08;一部分&#xff09; 四.多态的常…

Mistral AI发布开源多模态模型Mistral Small 3.1:240亿参数实现超越GPT-4o Mini的性能

法国人工智能初创公司Mistral AI于2025年3月正式推出新一代开源模型Mistral Small 3.1 &#xff0c;该模型凭借240亿参数的轻量级设计&#xff0c;在多项基准测试中表现优异&#xff0c;甚至超越了Google的Gemma 3和OpenAI的GPT-4o Mini等主流专有模型。 1、核心特性与优势 多…

从零开发数据可视化

一、可视化模版展示 二、知识及素材准备 div css 布局flex布局Less原生js jquery 的使用rem适配echarts基础 相关js、images、font百度网盘下载链接&#xff1a; 通过百度网盘分享的文件&#xff1a;素材1 链接: https://pan.baidu.com/s/1vmZHbhykcvfLzzQT5USr8w?pwdwjx9…

WSL git文件异常 所有文件均显示已修改

如图&#xff0c;文件中没有任何修改&#xff0c;但是都显示多了一个^M 原因&#xff1a;是因为在Windows系统中git clone的文件夹&#xff0c;在WSL中会显示冲突。 解决方案&#xff1a;删掉之前在windows下git clone的文件夹&#xff0c; 然后在WSL中重新git clone