GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting 论文解读

目录

一、概述

二、相关工作

1、多视图的三维重建

2、前馈重建

三、LRM

1、编码器

2、解码器

3、NeRF渲染

四、GS-LRM 

1、输入处理

2、Transformer

3、损失函数

五、实验

六、局限


一、概述

        该论文提出了一种利用稀疏输入图像高效预测3D高斯原语的方法,也是第一个基于Transformer架构以及大量数据集生成通用,可扩展的,高效的3DGS大型重建模型的方法GS-LRM,他的前身是LRM。

(1)将输入图像分块为patch tokens,并且通过自注意力和MLP层的transformer来处理,最终回归3DGS原语参数。

(2)可以应用于不同数据集上训练处理物体和场景捕获,并且达到SOTA水平。

二、相关工作

1、多视图的三维重建

        以往的三维重建包括稀疏视角下的重建SfM和密集场景下的重建MVS,都是基于点云的且渲染效果不佳。

        近期深度学习发展,也诞生了基于深度学习的MVS,并且运用前馈的方式达到高质量渲染。

        对于该论文,最重要的点就是通过多视角的transformer来生成3DGS原语,在保证渲染质量的同时,满足更大的数据量,这也是以往使用成本体积方法的一大挑战。

2、前馈重建

        以往的前馈重建考虑基于CNN的方法使用point splatting或者不透明度生成的方式来估计点或者多视角图像(MPIs),而我们采用GS splatting的方式,相当于结合了这两种方法,并且进行又一次创新。

        LRM方法基于三平面NeRF作为场景表示,存在分辨率受限和渲染效率低问题。

        PixelSplat使用epipolar-based的方法,更加关注场景级别重建,LGM使用U-Net的方法更加关注对象的生成。

        该论文直接用一个通用的Transformer来回归3DGS原语,密集的自注意力层更为有效的学习多视角和一般的重建先验(深度,光追),渲染效果也优于epipolar-based和U-Net-based的并行工作。

三、LRM

        LRM网络架构分为三个部分:编码器(单图像->图像特征),解码器(图像特征->三维三平面空间表示),NeRF渲染(三平面表示->渲染神经辐射场)

1、编码器

        编码器使用一个自蒸馏训练的模型DINO,用来学习图像中显著内容的结构和纹理,相比于ResNet,DINO能够表示更为精细的结构和纹理信息;相比于使用普通的ViT或者CLIP一类聚合特征的方法,LRM使用了整个特征序列,保留序列信息。

        DINO模型采用ViT-B/16架构,将图像编码为1025个token,每个token为32*32*768,图像特征为h_i

2、解码器

        首先我们处理相机特征为c,相机特征为一个20维参数向量,包括4*4相机外参矩阵flatten后的16维,相机焦距2维,相机主点2维。之后将相机特征引入一个MLP中映射为一个高维相机嵌入\tilde{c}

        然后将相机嵌入\tilde{c}与图像特征h_i进行concat,得到三平面隐藏特征f^{init},或者叫可学习的嵌入,通道为1024维。

        将f^{init}输入到解码器,解码器由三部分构成,交叉注意力、自注意力、MLP三部分,其中交叉注意力与原始图像特征进行交叉注意运算,经过每一个部分都要使用高维相机嵌入\tilde{c}对隐藏特征f^{init}进行自适应归一化操作,来调制隐藏特征。最终保证输出编码器的特征为1024维特征。

3、NeRF渲染

        将编码器的输出经过反卷积+上采样,得到三平面特征,并通过MLP回归得到NeRF渲染参数,通过体渲染得到3D模型。

四、GS-LRM 

        GS-LRM相较于LRM最大的提高在于,不再使用原有的encoder-decoder框架,而是使用完全基于transformer的架构。

1、输入处理

        对于同一物体,每次使用多视角图片叠加Plucker光线作为输入(一般是四视角),对于图片的处理类似于ViT,将图片进行进行9通道的拆分,然后将9通道进行concat后放入线性层升维到高维特征。

2、Transformer

        对于输入图像张量引入L层的Transformer模块,不断重复Transformer模块,输出特征T_{ij}^L

        将特征输入到线性层,回归输出每个像素的12个高斯参数,包括3维RGB,3维尺度变化,4维旋转四元数、1维不透明度、1维光线距离。

        利用12个高斯参数对每个像素进行渲染,得到Merged Gaussians完整的3DGS模型。

3、损失函数

        损失函数使用MSE和基于VGG的LPIPS。

五、实验

        对于场景数据论文使用Objaverse数据集训练,并使用Amazon Barkeley数据集和Google数据集进行推理,对于对象数据集完全依赖于Realstate10K。

        在场景数据集(ABO和GSO数据集)和对象数据集(RealState10k)上都取得了SOTA性能。

六、局限

        局限包括三个部分:分辨率限制,相机参数已知,无法估计不可见部分而出现重建幻觉。

参考1:LRM: Large Reconstruction Model for Single Image to 3D 

参考2:GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/445723.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙--WaterFlow 实现商城首页

目录结构 ├──entry/src/main/ets // 代码区 │ ├──common │ │ ├──constants │ │ │ └──CommonConstants.ets // 公共常量类 │ │ └──utils │ │ └──Logger.ets // 日志打印类 │ ├──entryability │ │ └──EntryAbility.ets // 程序入口…

基于Python Django的在线考试管理系统

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

2013年国赛高教杯数学建模C题古塔的变形解题全过程文档及程序

2013年国赛高教杯数学建模 C题 古塔的变形 由于长时间承受自重、气温、风力等各种作用,偶然还要受地震、飓风的影响,古塔会产生各种变形,诸如倾斜、弯曲、扭曲等。为保护古塔,文物部门需适时对古塔进行观测,了解各种变…

AI测试之 TestGPT

如今最火热的技术莫非OpenAI的ChatGPT莫属,AI技术也在很多方面得到广泛应用。今天我们要介绍的TestGPT就是一个软件测试领域中当红的应用。 TestGPT是什么? TestGPT是一家总部位于以色列特拉维夫的初创公司 CodiumAI Ltd.,发布的一款用于测…

Flutter Transform 学习

Transform可以在其子组件绘制时对其应用一些矩阵变换来实现一些特效,允许在渲染子部件之前对它们进行变换。 一、Transform构造函数与属性 class Transform extends SingleChildRenderObjectWidget {/// Creates a widget that transforms its child.const Transform({super.k…

231水果滑块喜+1

有需求可以联系博主 let v Died_in2021

飞机大战ai通过dqn实现

借鉴 飞机大战源码 github 王者荣耀ai训练(试了一下,发现电脑带不动,就改了一点,训练其他游戏) 源码 通过网盘分享的文件:PlaneWar (2).zip [链接](https://pan.baidu.com/s/1N4OorR7b36Zml8MadGmI6g?pwd1234&#xf…

经纬恒润荣获2024中国汽车供应链大会创新成果奖

2024年9月24日-26日,2024中国汽车供应链大会暨第三届中国新能源智能网联汽车生态大会在武汉隆重举办。本届大会以“新挑战、新对策、新机遇——推动中国汽车供应链可持续发展”为主题,集聚政府主管领导、行业专家、汽车及零部件企业精英和主流媒体&#…

Journey Training:o1的一次复现尝试,极长思维链的合成

知乎:啦啦啦啦(已授权)链接:https://zhuanlan.zhihu.com/p/902522340 论文:O1 Replication Journey: A Strategic Progress Report链接:https://github.com/GAIR-NLP/O1-Journey 这篇论文记录了一次o1复现尝…

《Java基础》变量和数据类型

综述 在开始学习变量之前,我们思考一下为什么需要使用变量。 首先我们从小开始学习加法减法的时候,后来我们再学更难的东西就是代数,其中的x和y是我们要求解的内容,这些内容就是变量。 变量是人的思维的提升,没有变量…

armv7-a mmu 配置

L1 page table ​ L1 page table 将 32位内核的整个 4GB 地址空间划分为 4096 个大小相等的部分(entry),每个部分映射 1 MB 范围内的虚拟内存空间。 ​ 每个条目 (entry) 可以保存指向二级转换的地址,也可以保存用于表示这 1MB …

胤娲科技:AI绘梦师——一键复刻梵高《星空》

想象一下,你手中握有一张梵高的《星空》原图,只需轻轻一点,AI便能化身绘画大师,一步步在画布上重现那璀璨星河。 这不是科幻电影中的桥段,而是华盛顿大学科研团队带来的“Inverse Painting”项目,正悄然改变…

uniapp__微信小程序使用秋云ucharts折线图双轴

1、子组件 <template><view class"charts-box"><qiun-data-charts type"line":opts"computedOpts":chartData"chartData"/></view> </template><script> export default {props: {chartData: {t…

后端——eclipse实现前端后端的交互(2)

1.新建前后端文件 新建HTML文件和后端交互Servlet文件。新建文件的地址也有所要求&#xff0c;Servlet文件要在JavaResources下的src中。HTML文件在WebContent下 2. 引入jqury文件 后端与前端的互传需要通过jQuery的ajax,所以要传入jQuery的包到eclipse中&#xff0c;传入位置…

Apache HTTP Server 配置SSL证书(Windows)

Apache2.4.39 HTTP Server 配置SSL证书 1. 申请证书 申请证书步骤(略) 证书名称如下: ca-bundle.crt xxx_com.crt xxx_com.key2. 配置 证书位置:Apache2.4.39\conf\ssl Apache2.4.39\conf\ssl修改两个配置文件: 0localhost_80.conf <VirtualHost *:80>Rewrite…

QGroundControl最新版本MacOS平台编译(使用CMakeLists.txt)

1.下载源码: git clone https://github.com/mavlink/qgroundcontrol.git --recursive 2.安装依赖: brew install GStreamer 设置环境变量:GST_PLUGIN_PATH 安装SDL2: brew install SDL2

【记录】PPT|PPT 箭头相交怎么跨过

众所周知&#xff0c;在PPT中实现“跨线”效果并非直接可行&#xff0c;这一功能仅存在于Visio中。然而&#xff0c;通过一些巧妙的方法&#xff0c;我们可以在PPT中模拟出类似的效果。怎么在PPT中画交叉但不重叠的线-百度经验中介绍了一种方法&#xff0c;而本文将介绍一种改进…

浅谈虚拟电厂在分布式光伏发电应用示范区中的应用及前景

0引言 随着电力体制改革的持续推进&#xff0c;电力市场将逐步建立和完善&#xff0c;未来的售电主体也将随着配售电业务的逐步放开而日益多元化&#xff0c;新的政策不断鼓励分布式电源和微电网作为独立的配售电市场主体推动运营模式的创新。与微电网所采取的就地应用为控制目…

springboot001基于SpringBoot的在线拍卖系统(论文+源码)_kaic

医护人员排班系统 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了医护人员排班系统的开发全过程。通过分析医护人员排班系统管理的不足&#xff0c;创建了一个计算机管理医护人员排班系统的方案。文章介绍了医…

InfluxDB持久层封装

InfluxDB持久层封装 了解如何使用spring-boot来操作InfluxDB数据库&#xff0c;首先我们来看下整个的系统结构图例&#xff1a; 对比下mybatis中的执行流程&#xff1a; 1_自动装配 首先&#xff0c;我们来看下第一步自动装配&#xff1a;依赖spring-boot自动装配出InfluxDB对…