Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。

关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。

在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。

为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。

第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。

这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。

研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。

MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。

为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向

误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。

MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。

此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。

MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。

总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。

MELON: NeRF with Unposed Images Using Equivalence Class Estimation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/281877.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QML TextField 默认无法鼠标选中内容

1.import QtQuick.Controls 2.0 后的TextField默认无法选中内容如下图: 2.增加属性设置 selectByMouse: true 可以选中内容了 TextField{ selectByMouse: true text:"1234567890987654321" } 效果如下:

安装调试kotti_ai:AI+互联网企业级部署应用软件包@riscv+OpenKylin

先上结论:riscvOpenKylin可以安装pyramidkottikotti_ai 但是paddle_serving_client无法安装,项目的AI实现部分需要改用其它方法,比如onnx。最终onnx也没有装成,只好用飞桨自己的推理。 安装kotti pip install kotti 安装kotti和…

【Git】第一课:Git的介绍

简介 什么是Git? Git是一个开源的分布式版本控制系统,用于跟踪代码的改变和协同开发。它最初由Linus Torvalds为了管理Linux内核开发而创建,现已成为开源软件开发中最流行的版本控制系统,没有之一。Git允许多人同时在不同的分支上工作&…

将main打包成jar;idea打包main为jar包运行

将main打包成jar&#xff1b;idea打包main为jar包运行 适用场景&#xff1a;可以封装一些小工具。 配置jar Maven中添加 <packaging>jar</packaging>将其打包为jar。 设置运行入口main 编译jar 看到jar输出 运行效果&#xff1a; 其中&#xff0c;三方依赖也被…

DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

摘要 与前代类似&#xff0c; DEYOv2 采用渐进式推理方法 来加速模型训练并提高性能。该研究深入探讨了一对一匹配在优化器中的局限性&#xff0c;并提出了有效解决该问题的解决方案&#xff0c;如Rank 特征和贪婪匹配 。这种方法使DEYOv2的第三阶段能够最大限度地从第一和第二…

【IEEE】Multimodal Machine Learning: A Survey and Taxonomy

不废话&#xff0c;先上思维导图&#xff0c;哈哈哈&#xff01; 论文题目Machine Learning: A Survey and Taxonomy作者Tadas Baltrusaitis , Chaitanya Ahuja , and Louis-Philippe Morency状态已读完会议或者期刊名称IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE IN…

电机与直线模组选型

一。普通电机选型 普通电机选型&#xff08;一&#xff09; 三相异步电机 定子&#xff1a;产生旋转磁场 转子&#xff1a;切割磁场&#xff0c;产生洛伦兹力 结构简单&#xff0c;成本低&#xff0c;稳定 效率较低&#xff0c;转速不稳定 N60f/P 定子旋转速度&#xff1a;150…

ubuntu系统下如何使用vscode编译和调试#小白入门#

编程环境&#xff1a;ubuntu系统为18.04.1&#xff0c;vscode版本为1.66.2 一、VSCode切换中文显示&#xff1a; 1、vscode安装完成后启动,在左侧externsions中搜索“简体中文”插件&#xff0c;并完成安装&#xff1a; 2、选择右下角齿轮形状的"Manage"&#xff…

运动想象 (MI) 迁移学习系列 (14) : EEGNet-Fine tuning

运动想象迁移学习系列:EEGNet-Fine tuning 0. 引言1. 主要贡献2. 提出的方法2.1 EEGNet框架2.2 微调 3. 实验结果3.1 各模型整体分类结果3.2 算法复杂度比较3.3 不同微调方法比较 4. 总结欢迎来稿 论文地址&#xff1a;https://www.nature.com/articles/s41598-021-99114-1#cit…

【HTTP完全注解】范围请求

范围请求 范围请求是HTTP的一种内容协商机制&#xff0c;该机制允许客户端只请求资源的部分内容。范围请求在传送大的媒体文件&#xff0c;或者与文件下载的断点续传功能搭配使用时非常有用。 范围请求的工作流程 范围请求通过在HTTP请求标头Range中表明需要请求的部分资源的…

可视化日记——极坐标绘制雷达图

目录 一、创建极坐标 二、数据集准备 三、划分角度 四、指定半径 五、绘制 一、创建极坐标 Python中没有直接画雷达图的函数&#xff0c;若要绘制需要先创建画布和极坐标轴域&#xff0c;再设定角度与半径的参数&#xff08;极坐标中角度与半径确定一个点的位置&#xff…

专业135+总分400+重庆邮电大学801信号与系统考研经验重邮电子信息与通信工程,真题,大纲,参考书。

今年分数出来还是比较满意&#xff0c;专业801信号与系统135&#xff0c;总分400&#xff0c;没想到自己也可以考出400以上的分数&#xff0c;一年的努力付出都是值得的&#xff0c;总结一下自己的复习心得&#xff0c;希望对大家复习有所帮助。专业课&#xff1a;&#xff08;…

(ROOT)KAFKA详解

生产篇 使用 /** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information regarding copyright ownership.* The ASF licenses this file to Y…

设计模式学习笔记 - 设计原则与思想总结:2.运用学过的设计原则和思想完善之前性能计数器项目

概述 在 《设计原则 - 10.实战&#xff1a;针对非业务的通用框架开发&#xff0c;如何做需求分析和设计及如何实现一个支持各种统计规则的性能计数器》中&#xff0c;我们讲解了如何对一个性能计数器框架进行分析、设计与实现&#xff0c;并且实践了一些设计原则和设计思想。当…

macOS 通过 MacPorts 正确安装 MySQL 同时解决无法连接问题

如果你通过 sudo port install 命令正常安装了 MySQL&#xff0c;再通过 sudo port load 命令启动了 MySQL Server&#xff0c;此刻却发现使用 Navicat 之类的 GUI 软件无法连接&#xff0c;始终返回无法连接到 127.0.0.1 服务器。这是一个小坑&#xff0c;因为他默认使用了 So…

Git——GitHub远端协作详解

目录 Git&GitHub1、将内容Push到GitHub上1.1、在GitHub上创建新项目1.2、upstream1.3、如果不想要相同的分支名称 2、Pull下载更新2.1、Fetch指令2.2、Fetch原理2.3、Pull指令2.4、PullRebase 3、为什么有时候推不上去3.1、问题复现3.2、解决方案一&#xff1a;先拉再推3.3…

vue+element 前端实现增删查改+分页,不调用后端

前端实现增删查改分页&#xff0c;不调用后端。 大概就是对数组内的数据进行增删查改分页 没调什么样式&#xff0c;不想写后端&#xff0c;当做练习 <template><div><!-- 查询 --><el-form :inline"true" :model"formQuery">&l…

Git 仓库瘦身与 LFS 大文件存储

熟悉 Git 的小伙伴应该都知道随着 Git 仓库维护的时间越来越久&#xff0c;追踪的文件越来越多&#xff0c;git 存储的 objects 数量会极其庞大&#xff0c;每次从远程仓库 git clone 的时候都会墨迹很久。如果我们不小心 git add 了一个体积很大的文件&#xff0c;且 git push…

云原生部署手册02:将本地应用部署至k8s集群

&#xff08;一&#xff09;部署集群镜像仓库 1. 集群配置 首先看一下集群配置&#xff1a; (base) ➜ ~ multipass ls Name State IPv4 Image master Running 192.168.64.5 Ubuntu 22.04 LTS1…

大模型赋能机器狗,西工大离线具身智能研究取得新突破!

“啪嗒啪嗒…”&#xff0c;一只机器狗在街上迈着规律的步伐&#xff0c;拉着牵引绳的盲人&#xff0c;在它的带领下越过沿路障碍&#xff0c;平稳地行走着。电子导盲犬能否取代传统导盲犬&#xff0c;解决视障人士一犬难求的困境&#xff1f;西工大团队在此方面开展研究攻关&a…