CV每日论文--2024.6.26

1、StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

中文标题:StableNormal:减少扩散方差以实现稳定且锐利的法线

简介:本文介绍了一种创新解决方案,旨在优化单目彩色输入(包括静态图片与动态视频)的高精度表面法向量预测,这一领域近期因采纳扩散先验而迎来重大突破。尽管前人研究已取得显著进展,但仍存在推理随机性与确定性任务本质之间的矛盾,加之繁复的整合步骤拖慢了整体效率。为克服这些挑战,我们提出StableNormal,一种旨在降低推理不确定性的方法,它生成精确且清晰的法向量预测,同时避免了额外的整合环节。StableNormal在恶劣成像环境(如极端光照条件、图像模糊及低质量输入)下展现出了卓越的适应能力,对于透明或反光表面以及复杂多物场景亦有出色表现。

具体而言,StableNormal采用自顶向下的策略,首先借助一步法向量估算器(YOSO)快速生成初步但可信的法向量预测,随后通过语义指导的细化流程(SG-DRN)对预测结果进行精炼,以恢复关键的几何细节。在诸如DIODE-indoor、iBims、ScannetV2和NYUv2等标准数据集上的实证分析,以及在表面重建与法向量增强等下游任务中的优异表现,均证明了StableNormal的有效性和竞争力。这些成果彰显了StableNormal在确保法向量预测既“稳定”又“精细”方面的独特优势,标志着利用扩散先验进行确定性估计的一次开创性尝试。

为了促进学术界与产业界的广泛应用,我们已在hf.co/Stable-X平台上开源了StableNormal的相关代码与模型,旨在推动该领域的进一步发展与创新。

2、FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

中文标题:FreeTraj:视频扩散模型中的免调整轨迹控制

简介:扩散模型在视频生成领域的卓越表现,已点燃了研究界对生成进程中融入路径调节机制的热情。尽管当前学术探讨多聚焦于依托训练的策略,如条件适配器,然而我们认为,扩散模型内蕴的灵活性足以支撑起生成内容的精妙调控,而无需附加训练环节。本研究遂提出一创新框架,无需任何微调,即能通过精准指引噪声生成与注意力分配,实现视频生成路径的自主控制。

具体讲,我们的工作可归纳为三步走:首先,我们揭示并剖析了几项启发式的案例,阐述了初始噪声对生成物动态轨迹的塑造作用。继而,我们推出了FreeTraj——一款免调参方案,它巧妙地调整了噪声采样流程及注意力机制,从而达成了对视频生成路径的精确操控。更进一步,我们对FreeTraj进行了升级拓展,使其能够应对时长更久、尺寸更大的视频生成需求,同时保持路径可控这一核心优势。借助上述设计,用户享有双重选择:既可手工定制路径,亦可启用LLM轨迹规划器以自动化路径生成。经由一系列综合实验,我们确证了此方法在强化视频扩散模型路径调控能力上的卓著成效,为生成式视频技术的前沿探索注入了新活力。

3、Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

中文标题:Cambrian-1:完全开放、以视觉为中心的多模式法学硕士探索

简介:本文献聚焦于Cambrian-1,一个视觉导向的多模态大型语言模型(MLLMs)系列。尽管强化的语言模型能显著提升多模态处理能力,视觉组件的设计决策却往往缺乏深入探究,与视觉表现学习领域的进展相脱节。这一鸿沟限制了模型在现实世界中对感官信息的精准理解。为填补此空白,本研究利用MLLMs与视觉引导微调作为桥梁,对一系列视觉表示进行评估,涵盖基于超自监督、强监督或二者结合的不同模型与架构,实验覆盖超过20种视觉编码器。我们深度剖析当前MLLM评估标准的局限性,解决跨任务结果整合与解析的难题,并引入一项全新的视觉导向基准——CV-Bench。为优化视觉理解,我们创新性提出空间视觉聚合器(SVA),一种动态、空间感知的连接机制,有效整合高分辨率视觉特征与MLLMs,同时精简令牌数量。此外,我们还探讨了从公开资源中筛选高质量视觉引导微调数据的方法,强调数据源平衡与分布多样性的重要性。综上所述,Cambrian-1不仅在性能上达到业界领先水平,更作为一份全面、开放的MLLMs视觉引导微调指南。我们分享模型权重、源代码、辅助工具、数据集以及详细的微调与评估流程。我们期待这一成果能够激发并加速多模态系统与视觉表现学习领域的革新与发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/361919.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCS的安装步骤

CCS的安装步骤 安装之前有几件重要的事情要做: 首先肯定是要下载安装包啦!点击此处是跳到官网下载地址安装包不能处的路径中不能包含中文关闭病毒防护和防火墙,以及其他杀毒软件最后是在重启后进行安装 主要的步骤如下: 找到安…

PDF转成清晰长图

打开一个宝藏网址在线PDF转换器/处理工具 - 在线工具系列 点击图下所示位置 按照图下所示先上传文件,设置转换参数后点击转换,等待 等待转换完成后,可以在转换结果处选择下载地址,点击即可进行下载使用了。对比了其他几个网站的转…

.NET C# Asp.Net Core Web API 配置 Nginx

.NET C# Asp.Net Core Web API 配置 Nginx 目录 .NET C# Asp.Net Core Web API 配置 Nginx1 创建Asp.Net Core Web API应用2 接口代码3 发布4 启动服务5 Nginx安装6 配置Nginx7 启动Nginx8 测试9 Nginx日志10 附: 1 创建Asp.Net Core Web API应用 2 接口代码 Weath…

高考志愿填报选专业,解读“冲稳保”三步策略

高考界流传着一句话“一分压倒千人”,在特定的分数段,比别人高一分,高考排名就比别人高一千并不是危言耸听,而利用好这些分数和排名,则有利于我们人生进入新的阶段。 纵观每年的高考,无论是老师考生还是家…

“北京到底有谁在啊”影视APP开发,解锁最简单的快乐

随着电视剧《玫瑰的故事》在腾讯视频APP热播,APP也增加了很多热度,一款丰富的影视APP,无论是热门大片、经典影视剧、还是最新综艺节目,能畅享无限精彩的影视内容! 开发影视APP,需要专业的技术服务商来解决…

[leetcode]k-th-smallest-in-lexicographical-order 字典序的第K小数字

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int getSteps(int curr, long n) {int steps 0;long first curr;long last curr;while (first < n) {steps min(last, n) - first 1;first first * 10;last last * 10 9;}return steps;}int find…

kettle使用手册 安装9.0版本 建议设置为英语

0.新建转换的常用组件 0. Generate rows 定一个字符串 name value就是字符串的值 0.1 String operations 字段转大写 去空格 1. Json input 来源于一个json文件 1.json 或mq接收到的data内容是json字符串 2. Json output 定义Jsonbloc值为 data, 左侧Fieldname是数据库查…

vue3-登录小案例(借助ElementPlus+axios)

1.创建一个vue3的项目。 npm create vuelatest 2.引入Elementplus组件库 链接&#xff1a;安装 | Element Plus npm install element-plus --save 在main.js中引入 import ElementPlus from "element-plus";import "element-plus/dist/index.css";ap…

SAP ABAP 常用实用类

文章目录 前言一、输出 展示 数据信息 a.将 JSON 格式化为可读 并以弹框形式输出 b.将内表内容以表格形式输出 c.弹框形式显示 HTML 内容。也能显示包含js 的html。也可以显示pdf 图片 二、输入 获取 数据信息 a.弹框 添加 输入框…

算法基础详解

大O记法 为了统一描述&#xff0c;大O不关注算法所用的时间&#xff0c;只关注其所用的步数。 比如数组不论多大&#xff0c;读取都只需1步。用大O记法来表示&#xff0c;就是&#xff1a;O(1)很多人将其读作“大O1”&#xff0c;也有些人读成“1数量级”。一般读成“O1”。虽…

DM达梦数据库转换、条件函数整理

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

系统运维面试题总结(网络基础类)

系统运维面试题总结&#xff08;网络基础类&#xff09; 网络基础类第七层&#xff1a;应用层第六层&#xff1a;表示层第五层&#xff1a;会话层第四层&#xff1a;传输层第三层&#xff1a;网络层第二层&#xff1a;数据链路层第一层&#xff1a;物理层 类似面试题1、TCP/IP四…

802.11漫游流程简单解析与笔记_Part2_02_wpa_supplicant、cfg80211、nl80211内核与驱动的关系

wpa、cfg80211、nl80211内核与驱动的关系示意图如下&#xff1a; nl80211和cfg80211都是内核定义的标准接口&#xff0c;目的是规范驱动和应用的统一调用&#xff0c;wpa中常出现nl80211就是通过内核的nl80211接口调用对应cfg80211的部分&#xff0c;进而控制驱动收发数据或切换…

windows 安装 Kubernetes(k8s)

windows 安装 docker 详情见&#xff1a; https://blog.csdn.net/sinat_32502451/article/details/133026301 minikube Minikube 是一种轻量级的Kubernetes 实现&#xff0c;可在本地计算机上创建VM 并部署仅包含一个节点的简单集群。 下载地址&#xff1a;https://github.…

安宝特方案 | AR术者培养:AR眼镜如何帮助医生从“看”到“做”?

每一种新药品的上市都需要通过大量的临床试验&#xff0c;而每一种新的手术工具在普及使用之前也需要经过反复的实践和验证。医疗器械公司都面临着这样的挑战&#xff1a;如何促使保守谨慎的医生从仅仅观察新工具在手术中的应用&#xff0c;转变为在实际手术中实操这项工具。安…

mysql岗位实习----教务系统管理

教务管理系统 一、DDL CREATE TABLE users (user_id int(11) NOT NULL AUTO_INCREMENT COMMENT 用户ID,username varchar(50) NOT NULL COMMENT 用户名,password varchar(255) NOT NULL COMMENT 密码,gender enum(男,女) NOT NULL COMMENT 性别,email varchar(100) DEFAULT N…

【0-1系列】从0-1快速了解搜索引擎Scope以及如何快速安装使用(下)

前言 近日&#xff0c;社区版家族正式发布V2024.5版本&#xff0c;其中&#xff0c;社区开发版系列重磅发布Scope开发版以及StellarDB开发版。 为了可以让大家更进一步了解产品&#xff0c;本系列文章从背景概念开始介绍&#xff0c;深入浅出的为读者介绍Scope的优势以及能力…

Renesas MCU使用SCI_I2C驱动HS3003

目录 概述 1 软硬件介绍 1.1 软件版本信息 1.2 认识HS3003 1.2.1 HS3003特性 1.2.2 HS3003寄存器 1.2.2.1 温湿度数据寄存器 1.2.2.2 参数寄存器 1.2.2.3 一个参数配置Demo 1.2.3 温湿度值转换 1.2.4 HS3003应用电路 1.2.4.1 PIN引脚定义 1.2.4.2 sensor 应用电路 …

怎样恢复数据?原来只要3个方法,真是救大命了

无论是工作文件&#xff0c;还是个人的照片、视频&#xff0c;手机数据都承载着我们的记忆和努力。但如果不小心删除了&#xff0c;我们该怎样恢复数据呢&#xff1f;其实&#xff0c;恢复数据并不是一件复杂的事情&#xff0c;只要掌握正确的方法&#xff0c;我们就能有效地找…

腾讯云CVM,CentOS8系统下部署Java-Web项目步骤详解

在CVM中部署项目首先要配置好JDK,Tomcat,Mysql(这里以Tomcat和Mysql为例)。部署JDK和Tomcat的步骤可以参考 CentOS7系统下部署tomcat,浏览器访问localhost:8080/_不积跬步&#xff0c;无以至千里&#xff1b;不积小流&#xff0c;无以成江河。-CSDN博客 我这里从Mysql的安装和设…