利用 Zero-1-2-3 进行多视图 3D 重建:从单图像到多视图 3D 模型的生成

3D 模型生成在计算机视觉领域有着广泛的应用,从虚拟现实到自动驾驶,基于单张图像的 3D 重建技术正在迅速发展。这篇博客将带你深入探索如何使用 Zero-1-2-3 框架进行多视图 3D 重建,通过详细解析该框架中的代码结构和功能,帮助你理解其工作原理并实际应用到 3D 模型生成中。

一、项目概述

Zero-1-2-3 是一个通过扩散模型(Diffusion Models)将单张 2D 图像转换为 3D 网格模型的项目。与传统的 3D 重建技术不同,Zero-1-2-3 采用了一个基于图像生成的多阶段流程,利用不同视角的多张图片推理,生成高精度的 3D 模型。

该项目使用了以下几个重要的组件:

  • Zero-1-2-3 模型:基于预训练的扩散模型,生成目标图像的多视角图像。
  • Segment Anything Model (SAM):用于处理图像中的前景和背景。
  • 多视角生成:从单张输入图像开始,通过多阶段生成多个视角下的图片,再进行 3D 重建。
二、代码解析

Zero-1-2-3 的代码逻辑分为多个部分,包括图像预处理、多视角生成、推理过程、3D 模型重建等。在本博客中,我们会详细解析每一部分的核心功能。

1. 图像预处理

在 3D 重建过程中,输入图像的预处理尤为重要。首先我们使用 Segment Anything Model (SAM) 对图像进行分割,去除背景噪声,将前景进行提取,并对图像进行缩放,使其适应网络的输入。

def preprocess(predictor, raw_im, lower_contrast=False):raw_im.thumbnail([512, 512], Image.Resampling.LANCZOS)image_sam = sam_out_nosave(predictor, raw_im.convert("RGB"), pred_bbox(raw_im))input_256 = image_preprocess_nosave(image_sam, lower_contrast=lower_contrast, rescale=True)torch.cuda.empty_cache()return input_256

在这个函数中,我们首先对图像进行了缩放,确保其尺寸适应 512x512 的输入格式。然后通过 SAM 模型预测并分割图像中的前景部分,最后将图像数据转换为张量供后续的模型使用。

2. 第一阶段视角生成

在第一阶段,我们从输入图像生成多视角的图片。通过生成不同角度的图像,Zero-1-2-3 可以在生成过程中推理出物体的深度和形状。

def stage1_run(model, device, exp_dir, input_im, scale, ddim_steps):stage1_dir = os.path.join(exp_dir, "stage1_8")os.makedirs(stage1_dir, exist_ok=True)output_ims = predict_stage1_gradio(model, input_im, save_path=stage1_dir, adjust_set=list(range(4)), device=device, ddim_steps=ddim_steps, scale=scale)stage2_steps = 50zero123_infer(model, exp_dir, indices=[0], device=device, ddim_steps=stage2_steps, scale=scale)polar_angle = estimate_elev(exp_dir)gen_poses(exp_dir, polar_angle)if polar_angle <= 75:output_ims_2 = predict_stage1_gradio(model, input_im, save_path=stage1_dir, adjust_set=list(range(4,8)), device=device, ddim_steps=ddim_steps, scale=scale)else:output_ims_2 = predict_stage1_gradio(model, input_im, save_path=stage1_dir, adjust_set=list(range(8,12)), device=device, ddim_steps=ddim_steps, scale=scale)torch.cuda.empty_cache()return 90 - polar_angle, output_ims + output_ims_2

第一阶段使用 predict_stage1_gradio 函数生成四个不同视角下的图像,并通过极角估计 (estimate_elev) 计算输入图像的极角位置,进而根据极角生成更多视角的图片。这个过程有助于模拟物体在不同视角下的外观。

3. 第二阶段视角推理

第二阶段我们为每一个视角进一步生成四张图片,从而获得更详细的 3D 信息。这使得物体的表面和轮廓可以通过多个角度的图像捕获。

def stage2_run(model, device, exp_dir, elev, scale, stage2_steps=50):if 90 - elev <= 75:zero123_infer(model, exp_dir, indices=list(range(1,8)), device=device, ddim_steps=stage2_steps, scale=scale)else:zero123_infer(model, exp_dir, indices=list(range(1,4)) + list(range(8,12)), device=device, ddim_steps=stage2_steps, scale=scale)

第二阶段将为每个生成的视角图像推理更多细节,从而为最终的 3D 重建提供更多的信息。

4. 3D 重建

在视角生成完成之后,我们进入最终的 3D 重建阶段。该过程基于生成的多视角图像,通过扩展方法将它们重建为 3D 网格模型。

def reconstruct(exp_dir, output_format=".ply", device_idx=0, resolution=256):exp_dir = os.path.abspath(exp_dir)main_dir_path = os.path.abspath(os.path.dirname("./"))os.chdir('reconstruction/')bash_script = f'CUDA_VISIBLE_DEVICES={device_idx} python exp_runner_generic_blender_val.py \--specific_dataset_name {exp_dir} \--mode export_mesh \--conf confs/one2345_lod0_val_demo.conf \--resolution {resolution}'print(bash_script)os.system(bash_script)os.chdir(main_dir_path)ply_path = os.path.join(exp_dir, f"mesh.ply")if output_format == ".ply":return ply_pathreturn convert_mesh_format(exp_dir, output_format=output_format)

在这个函数中,使用 Blender 等工具进行 3D 网格重建,并将生成的 3D 模型导出为 .ply 格式。用户可以选择将其转换为 .obj.glb 格式,方便在不同平台上查看和使用。

三、整体流程
  1. 图像输入:首先,用户输入一张 2D 图像,模型会对其进行预处理,提取图像中的前景部分。
  2. 多视角生成:通过多阶段推理,模型生成该图像在不同视角下的表现,涵盖物体的多个角度。
  3. 极角估计:根据生成的图像,模型估算出输入图像的极角,并根据极角生成更多细节图像。
  4. 3D 重建:最终,所有视角图像被用来进行 3D 重建,生成 3D 网格模型。
四、总结

Zero-1-2-3 项目展示了基于扩散模型的 3D 重建技术,其核心优势在于无需复杂的每个形状优化过程,通过简单的前向推理即可生成高质量的 3D 模型。对于希望快速进行 3D 模型生成的开发者,该框架提供了强大的功能和便捷的使用方式。希望本文能帮助你理解该项目的工作原理,并激发你对 3D 重建领域的兴趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/422730.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ArcGIS Pro实操第七期】栅格数据合并、裁剪及统计:以全球不透水面积为例

【ArcGIS Pro实操第七期】批量裁剪&#xff1a;以全球不透水面积为例 准备&#xff1a;数据下载ArcGIS Pro批量裁剪数据集1 数据拼接2 数据裁剪3 数据统计&#xff1a;各栅格取值3.1 栅格计算器-精确提取-栅格数据特定值3.2 数据统计 4 不透水面积变化分析 参考 准备&#xff1…

python学习第八节:爬虫的初级理解

python学习第八节&#xff1a;爬虫的初级理解 爬虫说明&#xff1a;爬虫准备工作&#xff1a;分析网站url分析网页内容 爬虫获取数据&#xff1a;1.使用urllib库发起一个get请求2.使用urllib库发起一个post请求3.网页超时处理4.简单反爬虫绕过5.获取响应参数6.完整请求代码 解析…

STM32——玩转超声波传感器

目录 1.什么是超声波&#xff1f; 超声波的基本特点&#xff1a; 2.超声波传感器介绍&#xff1a;HC-SR04 HC-SR04 主要特点&#xff1a; HC-SR04 接线如下&#xff1a; HC-SR04 工作原理&#xff1a; 如何编写超声波测距代码&#xff1f; 编写逻辑&#xff1a; 编写思…

JavaWeb项目打包、部署至Tomcat并启动的全程指南(图文详解)

前言 我们想要部署一个javaWeb项目到tomcat上&#xff0c;需要了解一些概念 什么是tomcat&#xff1f; Tomcat 是 Apache 软件基金会&#xff08;Apache Software Foundation&#xff09;下的一个开源项目&#xff0c;主要用于实现 Java Servlet、JavaServer Pages&#xff08;…

SpinalHDL之数据类型(六)

本文作为SpinalHDL学习笔记第五十九篇,介绍SpinalHDL的Vec数据类型。 目录: 1.描述(Description) 2.声明(Declaration) 3.操作符(Operators) ⼀、描述(Description) Vec是定义了⼀组带有标号的信号的复合信号(基于SpinalHDL基础类别)。 ⼆、声明(Declaration) 声明向量的…

远程桌面内网穿透是什么?有什么作用?

远程桌面内网穿透指的是通过特定技术手段&#xff0c;将处于内网中的电脑或服务器&#xff0c;通过外部网络&#xff08;互联网&#xff09;进行访问。内网穿透的主要作用是解决在内网环境下&#xff0c;远程设备与外部互联网之间的连接问题&#xff0c;允许用户从外部访问内网…

Docker部署tenine实现后端应用的高可用与负载均衡

采用Docker方式的Tengine 和 keepalived 组合模式可以实现小应用场景的高可用负载均衡需求 目录 网络架构一、环境准备二、软件安装1. 下载Tenine镜像2. 下载Keepalived镜像3. 制作SpringBoot镜像 三、软件配置1. 创建应用容器2. 代理访问应用3. 创建Keepalived4. 测试高可用 网…

【计算机网络】UDP 协议详解及其网络编程应用

文章目录 一、引言二、UDP1、UDP的协议格式2、UDP 报文的解包和分用3、UDP面向数据报的特点 三、UDP输入输出四、UDP网络编程 一、引言 UDP&#xff08;User Datagram Protocol&#xff0c;用户数据报协议&#xff09;是一种网络通信协议&#xff0c;它属于传输层的协议。是一…

【Qt】子控件选择器

子控件选择器 有些控件内部包含了多个 "⼦控件" . ⽐如 QComboBox 的下拉后的⾯板, ⽐如 QSpinBox 的上下按钮等。 可以通过⼦控件选择器 :: , 针对上述⼦控件进⾏样式设置. 参考⽂档 Qt Style Sheets Reference 中 List of Sub-Controls 例子&#xff1a;设置下拉…

智慧交通:关键技术及应用场景

智慧交通是指通过信息和通信技术&#xff0c;对交通系统进行全面感知、高效管理和智能控制的一种交通管理模式。随着城市化进程的加速和交通需求的增长&#xff0c;智慧交通技术应运而生&#xff0c;为实现交通安全、高效、环保等目标提供了新的途径。 1. 关键技术 物联网技术…

Leetcode Hot 100刷题记录 -Day15(螺旋矩阵)

螺旋矩阵 问题描述&#xff1a; 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]]输出&#xff1a;[1,2,3,6,9,8,7,4,5] 示例 2&#xff1a; 输…

Docker数据挂载本地目录

docker内的数据映射可以不通过数据卷&#xff0c;直接映射到本地的目录。下面将以mysql容器示例&#xff0c;完成容器的数据映射。 注意&#xff1a;每一个不同的镜像&#xff0c;将来创建容器后内部有哪些目录可以挂载&#xff0c;可以参考DockerHubDocker Hub Container Ima…

07 vue3之组件及生命周期

组件基础 每一个.vue 文件呢都可以充当组件来使用 每一个组件都可以复用 组件的生命周期 简单来说就是一个组件从创建 到 销毁的 过程 成为生命周期 在我们使用Vue3 组合式API 是没有 beforeCreate 和 created 这两个生命周期的 onBeforeMount() 在组件DOM实际渲染安装之前…

跑DecoupleSegNets遇到的问题

论文&#xff1a;[ECCV-2020]: Improving Semantic Segmentation via Decoupled Body and Edge Supervision 代码&#xff1a;https://github.com/lxtGH/DecoupleSegNets 不想用 ./scripts/train/train_cityscapes_ResNet50_deeplab.sh&#xff0c;直接改train.py 原来citisca…

常量指针、指针常量及常量指针常量

目录 1. 常量指针&#xff08;Pointer to Constant&#xff09; 2. 指针常量&#xff08;Constant Pointer&#xff09; 3. 常量指针常量&#xff08;Constant Pointer to Constant&#xff09; 常量指针&#xff1a;指针指向的值不能改&#xff0c;但指针本身可以指向其他地…

Java+selenium+chrome+linux/windows实现数据获取

背景&#xff1a;在进行业务数据获取或者自动化测试时&#xff0c;通常会使用模拟chrome方式启动页面&#xff0c;然后获取页面的数据。在本地可以使用windows的chromedriver.exe进行打开chrome页面、点击等操作。在linux 下通常使用无界面无弹窗的方式进行操作。接下来是实现方…

IP网络广播服务平台任意文件上传漏洞

文章目录 免责声明搜索语法漏洞描述漏洞复现修复建议 免责声明 本文章仅供学习与交流&#xff0c;请勿用于非法用途&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任 搜索语法 icon_hash"-568806419"漏洞描述 该系统在upload接口处可上传任…

YOLOv8改进 | 模块缝合 | C2f 融合RFAConv和CBAM注意力机制 【二次融合 小白必备】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

自动化任务的错误处理:编写健壮的自动化脚本,处理Office应用中的错误和异常情况

目录 引言 一、自动化任务概述 二、自动化脚本编写基础 2.1 环境准备 2.2 脚本结构 2.3 示例代码 三、Office应用中的错误和异常情况处理 3.1 文件访问权限问题 3.2 文件格式不兼容 3.3 宏病毒和安全性问题 3.4 控件错误和插件问题 四、异常处理与日志记录 4.1 捕…

FPGA技术赋能云数据中心:提高性能与效率

随着现代科技的迅猛发展和大数据时代的推动&#xff0c;云数据中心已成为众多企业的核心基础设施。然而&#xff0c;伴随数据处理需求的不断增长&#xff0c;传统硬件架构在性能、功耗和灵活性方面面临诸多挑战。为了解决这些问题&#xff0c;FPGA&#xff08;现场可编程门阵列…