CV每日论文--2024.6.14

1、ICE-G: Image Conditional Editing of 3D Gaussian Splats

中文标题:ICE-G:3D 高斯斑点的图像条件编辑

简介:近年来,出现了许多技术来创建高质量的3D资产和场景。然而,当涉及到这些3D对象的编辑时,现有方法要么速度慢、要么牺牲质量,要么无法提供足够的自定义能力。

为解决这一问题,我们提出了一种新颖的方法,可以快速编辑单个参考视图的3D模型。

我们的技术分为以下几个步骤:

1. 对编辑图像进行分割。

2. 利用DINO特征在选定的分割视图之间匹配语义对应区域。

3. 自动将编辑图像中特定区域的颜色或纹理以语义合理的方式应用到其他视图。

这些编辑后的视图可以作为更新的数据集,以进一步训练和重新设计3D场景,从而得到最终的编辑后3D模型。

我们的框架支持多种编辑任务,包括手动本地编辑、基于对应关系的风格转移,以及从多个示例图像中组合不同风格。

我们使用高斯斑点作为主要的3D表示形式,因为它们速度快且易于本地编辑。不过,我们的技术也适用于其他方法,如NeRFs。

通过多个实验案例,我们展示了该方法能够产生更高质量的结果,同时提供了精细的编辑控制能力。

项目主页:ice-gaussian.github.io

2、Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

中文标题:超越 LLaVA-HD:深入研究高分辨率大型多模态模型

简介:高分辨率的清晰视觉对于大型多模态模型(LMM)的视觉感知和推理至关重要。现有方法通常采用直接的分辨率放大方法,使用全局分支和局部分支(被切片的图像补丁)的组合。这意味着更高分辨率需要更多的局部补丁,导致计算开销过高,同时局部图像标记的优势可能会降低全局上下文。

为解决这些问题,我们提出了一个新的框架和优化策略:

1. 我们使用适配器的混合物从全局视角提取上下文信息,基于不同适配器在不同任务上的优秀表现。

2. 对于局部补丁,我们引入了可学习的查询嵌入来减少图像标记数量,并通过基于相似性的选择器进一步选择最重要的标记。

我们的实验结果表明,"少即是多"的模式,即利用更少但更有信息量的局部图像标记可以提高性能。

此外,我们提倡一种交替训练的方式,确保全局和局部方面的平衡学习,因为端到端训练无法产生最佳结果。

最后,我们还引入了一个对图像细节要求高的挑战性数据集,以增强局部压缩层的训练。

所提出的SliME方法在只有200万个训练数据的情况下,在各种基准测试中取得了领先的性能。

3、Real3D: Scaling Up Large Reconstruction Models with Real-World Images

中文标题:Real3D:使用真实世界图像放大大型重建模型

简介:本文介绍了Real3D,这是第一个可以使用单视角真实世界图像进行训练的大型重建模型(LRM)系统。通常,训练单视角LRM的默认策略是使用大规模合成3D资源或多视角捕获的数据集,采用完全监督的方法进行训练。但这些资源难以超越现有数据集的规模,也不一定代表物体形状的真实分布。

为了解决这些限制,本文提出了一种新颖的自我训练框架,可以同时利用现有的合成数据和多样化的单视角真实图像。我们提出了两种无监督损失函数,即像素级和语义级损失函数,即使对于没有地面真实3D或新视角的训练样本,也可以对LRM进行监督。

为了进一步提高性能并扩大图像数据,我们开发了一种自动数据筛选方法,从野外图像中收集高质量的样本。

实验结果表明,Real3D在包括真实和合成数据以及域内和域外形状的四种不同评估设置中始终优于先前的工作。

代码和模型可以在此处找到:https://hwjiang1510.github.io/Real3D/。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/349539.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数组(C语言)(详细过程!!!)

目录 数组的概念 一维数组 sizeof计算数组元素个数 二维数组 C99中的变⻓数组 数组的概念 数组是⼀组相同类型元素的集合。 数组分为⼀维数组和多维数组,多维数组⼀般比较多见的是二维数组。 从这个概念中我们就可以发现2个有价值的信息:(1)数…

flask_sqlalchemy时间缓存导致datetime.now()时间不变问题

问题是这样的,项目在本地没什么问题,但是部署到服务器过一阵子发现,这个时间会在某一刻定死不变。 重启uwsgi后,发现第一条数据更新到了目前最新时间,过了一会儿再次发送也变了时间,但是再过几分钟再发就会…

软件测试--Mysql快速入门

文章目录 软件测试-mysql快速入门sql主要划分mysql常用的数据类型sql基本操作常用字段的约束:连接查询mysql内置函数存储过程视图事务索引 软件测试-mysql快速入门 sql主要划分 sql语言主要分为: DQL:数据查询语言,用于对数据进…

基于Verilog表达的FSM状态机

基于Verilog表达的FSM状态机 1 FSM1.1 Intro1.2 Why FSM?1.3 How to do 在这里聚焦基于Verilog的三段式状态机编程; 1 FSM 1.1 Intro 状态机是一种代码实现功能的范式;一切皆可状态机; 状态机编程四要素:– 1.状态State&#…

通用大模型与垂直大模型:双轨并进的人工智能未来

在人工智能(AI)的浩瀚宇宙中,大模型以其强大的学习能力和广泛的适用性,正逐步成为推动技术进步和产业革新的核心动力。在这股浪潮中,通用大模型与垂直大模型如同两颗璀璨的星辰,各自散发着独特的光芒,共同照亮了AI发展…

STL入门指南:从容器到算法的完美结合

目录 ​编辑 一、什么是STL 二、STL的版本 三、STL的六大组件 1. 容器(Containers): 2. 算法(Algorithms): 3. 迭代器(Iterators): 4. 仿函数(Functo…

中国算力基础设施“第一阵营”变局?

2024年6月IDC最新数据显示,2024年第一季度,联想服务器跃升至中国市场份额第三位。中国算力基础设施“第一阵营”正生变局。 在去年服务器本地化品牌联想问天发布之后,联想就发出了向国内服务器市场冲锋的信号。如今仅一年,就进入…

工业4.0下的PLC进化论:ARMxy计算机如何重塑自动化

智能物流系统的高效与精准成为企业竞争力的关键。在这个背景下,传统的PLC系统因其固有的局限性,如扩展性差、系统封闭等,开始显得力不从心。ARMxy工业计算机作为新一代的PLC替代方案,凭借其低功耗、高性能以及高度的灵活性&#x…

Android Studio历史版本

android studio的历史版本

自然语言处理领域的重大挑战:解码器 Transformer 的局限性

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

本地Zabbix开源监控系统安装内网穿透实现远程访问详细教程

文章目录 前言1. Linux 局域网访问Zabbix2. Linux 安装cpolar3. 配置Zabbix公网访问地址4. 公网远程访问Zabbix5. 固定Zabbix公网地址 💡推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【…

【机器学习】机器学习赋能医疗健康:从诊断到治疗的智能化革命

📝个人主页🌹:Eternity._ 🌹🌹期待您的关注 🌹🌹 ❀目录 📒1. 引言📙2. 机器学习在疾病诊断中的应用🧩医学影像分析:从X光到3D成像带代码&#x1…

我的考研经历

当我写下这篇文章时,我已经从考研 的失败中走出来了,考研的整个过程都写在博客日志里面了,在整理并阅读考研的日志时,想写下一篇总结,也算是为了更好的吸取教训。 前期日志模板:时间安排的还算紧凑&#x…

vivado HW_VIO

描述 虚拟输入/输出(VIO)调试核心hw_VIO可以监视和驱动内部 在编程的XilinxFPGA上实时显示信号。在没有物理访问的情况下 目标硬件,可以使用此调试功能来驱动和监视 存在于物理设备上。 VIO核心具有硬件探测器hw_probe对象,用于监…

DeepSpeed Monitoring Comm. Logging

Monitoring 支持多种后端:Tensorboard、WandB、Comet、CSV文件; TensorBoard例子: 自动监控:DeepSpeed自动把重要metric记录下来。只需在配置文件里enable相应的看板后端即可: {"tensorboard": {"enabl…

JVM 类加载器的工作原理

JVM 类加载器的工作原理 类加载器(ClassLoader)是一个用于加载类文件的子系统,负责将字节码文件(.class 文件)加载到 JVM 中。Java 类加载器允许 Java 应用程序在运行时动态地加载、链接和初始化类。 2. 类加载器的工…

机器学习与数据挖掘知识点总结(二)分类算法

目录 1、什么是数据挖掘 2、为什么要有数据挖掘 3、数据挖掘用在分类任务中的算法 朴素贝叶斯算法 svm支持向量机算法 PCA主成分分析算法 k-means算法 决策树 1、什么是数据挖掘 数据挖掘是从大量数据中发现隐藏在其中的模式、关系和规律的过程。它利用统计学、机器学…

[Shell编程学习路线]——深入理解Shell编程中的变量(理论与实例)

🏡作者主页:点击! 🛠️Shell编程专栏:点击! ⏰️创作时间:2024年6月12日11点40分 🀄️文章质量:95分 文章目录 ————前言———— 1 自定义变量 🫠…

vue聊天发送Emoji表情

在用web端写聊天发送表情的功能中,使用web端有系统自带的unicode表情会出现每端不统一的情况,不好用不能统一,在这里我想到了一个非常好的思路,可以解决这个问题! 那就是发送表情用图片的形式呈现,然后发给…

计算机网络 —— 运输层(UDP和TCP)

计算机网络 —— 运输层(UDP和TCP) UDPTCPUDP和TCP的异同点相同点不同点 我们今天来看运输层的两个重要的协议——UDP和TCP UDP UDP,全称为用户数据报协议(User Datagram Protocol),是互联网中一种核心的…