大模型日报|今日必读的 5 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Meta 领衔:一文读懂视觉语言建模(VLM)

人们正在尝试将大型语言模型(LLMs)扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手,到仅使用高级文本描述就能生成图像的生成模型,视觉语言模型(VLM)的应用将极大地影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要应对许多挑战。语言是离散的,而视觉是在一个维度更高的空间中发展的,其中的概念并不总是很容易被离散化。

为了更好地理解将视觉映射到语言背后的机制,来自 Meta 的研究团队及其合作者详细介绍了 VLM,希望能对任何想进入这一领域的人有所帮助。首先,他们介绍了什么是 VLM、VLM 如何工作以及如何训练 VLM。然后,他们介绍并讨论了评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言,但他们也讨论了将 VLM 扩展到视频的问题。

论文链接:
https://arxiv.org/abs/2405.17247

2.Transformer 可以通过正确的嵌入进行算术运算

Transformer 在算术任务中表现不佳,似乎在很大程度上是由于它们无法跟踪大跨度数字中每个数字的准确位置。

来自马里兰大学的研究团队及其合作者,通过为每个数字添加嵌入,编码其相对于数字开头的位置,从而解决了这一问题。除了这些嵌入本身带来的提升外,他们还展示了这一修复措施能够通过输入注入和递归层等架构修改进一步提高性能。

在解决位置问题后,他们也研究了 Transformer 的逻辑外推能力——它们能否解决比训练数据更大、更复杂的算术问题?他们发现,只用一个 GPU 对 20 位数字进行为期一天的训练,就能达到 SOTA,在 100 位加法问题上实现高达 99% 的准确率。最后,他们还发现,计算能力的提高还能改善其他多步推理任务,包括排序和乘法。

论文链接:
https://arxiv.org/abs/2405.17399

3.清华朱军团队推出高保真 4D 重构模型 Vidu4D

视频生成模型由于能够生成逼真而富有想象力的画面而受到特别关注。此外,据观察,这些模型还表现出很强的 3D 一致性,大大提高了它们作为世界模拟器的潜力。

在这项工作中,清华大学朱军团队推出了一种新颖的重构模型——Vidu4D,其能从单个生成的视频中精确重构出 4D(即连续的 3D 呈现),解决了与非刚性和帧失真相关的难题。这种能力对于创建保持空间和时间一致性的高保真虚拟内容至关重要。

Vidu4D 的核心为动态高斯曲面(DGS)技术。DGS 优化时变翘曲函数,将高斯曲面(曲面元素)从静态状态转换为动态翘曲状态。这种变换可以精确地描绘运动和变形随时间的变化。

为了保持曲面对齐高斯曲面的结构完整性,他们设计了基于连续翘曲场的翘曲状态几何正则化,用于估计法线。此外,他们还对高斯曲面的旋转和缩放参数进行了细化,从而大大减轻了翘曲过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D 还包含一个新颖的初始化状态,为 DGS 中的翘曲场提供了一个正确的起点。Vidu4D 配备了现有的视频生成模型,整个框架在外观和几何方面都展示了高保真文本到 4D 的生成。

论文链接:
https://arxiv.org/abs/2405.16822
项目地址:
https://vidu4d-dgs.github.io/

4.谷歌新研究:将扩散模型提炼为一步生成器模型

虽然扩散模型可以学习复杂的分布,但采样需要一个计算昂贵的迭代过程。现有的蒸馏方法可以实现高效采样,但也有明显的局限性,例如采样步骤很少就会导致性能下降,依赖于训练数据访问,或可能无法捕捉到完整分布的寻模优化。

来自 Google DeepMind、Google Research 和加州大学洛杉矶分校的研究团队,提出了 EM Distillation(EMD)方法,这是一种基于最大似然法的方法,可将扩散模型提炼为一步生成器模型,同时将感知质量的损失降到最低。该方法从期望最大化(EM)的角度出发,使用扩散教师先验和推断生成器潜变量联合分布的样本来更新生成器参数。

他们开发了一种重新参数化的采样方案和一种噪音消除技术,共同稳定了蒸馏过程。他们进一步揭示了该方法与现有的最小化模式搜索 KL 方法之间的联系。在 ImageNet-64 和 ImageNet-128 上,就 FID 分数而言,EMD 优于现有的一步法生成方法,与之前的文本到图像扩散模型蒸馏方法相当。

论文链接:
https://arxiv.org/abs/2405.16852

5.Collaborative Video Diffusion:利用相机控制生成一致的多视频

视频生成方面的研究最近取得了诸多进步,能够根据文本提示或图像生成高质量视频。在视频生成过程中增加控制是未来的一个重要目标,而最近根据摄像机轨迹调节视频生成模型的方法则在这方面取得了进步。

然而,从多个不同的摄像机轨迹生成同一场景的视频仍然具有挑战性。解决这一多视频生成问题的方法,除其他应用外,还能利用可编辑的摄像机轨迹生成大规模三维场景。

为此,来自斯坦福大学、香港中文大学的研究团队提出了协同视频扩散(collaborative video diffusion,CVD),其包括一个新颖的跨视频同步模块,该模块利用对极注意力机制,促进从不同摄像机姿态渲染的同一视频的相应帧之间的一致性。在用于视频生成的相机控制模块基础上进行训练,CVD 生成的由不同相机轨迹呈现的多个视频的一致性明显优于基线,这一点已在大量实验中得到证实。

论文链接:
https://arxiv.org/abs/2405.17414
项目地址:
https://collaborativevideodiffusion.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/334194.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux环境基础开发工具使用

一.Linux第一个小程序-进度条 1.版本一: 1: process.c ? ? 2: process,h ? ?? 3: main.c ? ? ?? buffers 1…

LeetCode题练习与总结:有序链表转换二叉搜索树--109

一、题目描述 给定一个单链表的头节点 head ,其中的元素 按升序排序 ,将其转换为平衡二叉搜索树。 示例 1: 输入: head [-10,-3,0,5,9] 输出: [0,-3,9,-10,null,5] 解释: 一个可能的答案是[0,-3,9,-10,null,5],它表…

OpenHarmony迎来首个互联网技术统一标准,鸿蒙OS生态走向如何?

开源三年半,OpenHarmony(以下简称“开源鸿蒙”)迎来了新进展。在5月25日召开的「OpenHarmony开发者大会」上,鸿蒙官宣了开源鸿蒙设备统一互联技术标准。 一直以来,各行业品牌操作系统相互独立、难以协同,成为其互联互通的痛点。为进一步解决…

3d火灾救援模拟仿真培训软件复用性强

消防VR安全逃生体验系统是深圳VR公司华锐视点引入了前沿的VR虚拟现实、web3d开发和多媒体交互技术,为用户打造了一个逼真的火灾现场应急逃生模拟演练环境。 相比传统的消防逃生模拟演练,消防VR安全逃生体验系统包含知识讲解和模拟实训演练,体…

前端自动将 HTTP 请求升级为 HTTPS 请求

前端将HTTP请求升级为HTTPS请求有两种方式&#xff1a; 一、index.html 中插入meta 直接在首页 index.html 的 head 中加入一条 meta 即可&#xff0c;如下所示&#xff1a; <meta http-equiv"Content-Security-Policy" content"upgrade-insecure-requests&…

Python图像处理库全面详细解析

目录 引言 PIL和Pillow&#xff1a;基础但强大的图像处理 PIL到Pillow的演变 功能亮点 实际应用案例 Pillow的适用场景 结论 ​编辑 OpenCV&#xff1a;计算机视觉的瑞士军刀 OpenCV的核心特点 功能亮点 实际应用案例 OpenCV的适用场景 结论 ​编辑 Scikit-Imag…

Linux echo命令(在终端输出文本)

文章目录 Linux Echo命令深度解析简介命令语法常见选项- -n&#xff1a;不输出行尾的换行符&#xff0c;这意味着输出后不会换到下一行。- -e&#xff1a;启用反斜杠转义的解释&#xff0c;允许使用特殊字符。- -E&#xff1a;禁用反斜杠转义的解释&#xff08;默认选项&#x…

【哈希】闭散列的线性探测和开散列的哈希桶解决哈希冲突(C++两种方法模拟实现哈希表)(1)

&#x1f389;博主首页&#xff1a; 有趣的中国人 &#x1f389;专栏首页&#xff1a; C进阶 &#x1f389;其它专栏&#xff1a; C初阶 | Linux | 初阶数据结构 小伙伴们大家好&#xff0c;本片文章将会讲解 哈希函数与哈希 之 闭散列的线性探测解决哈希冲突 的相关内容。 如…

【论文阅读】Rank-DETR(NIPS‘23)

paper:https://arxiv.org/abs/2310.08854 code:https://github.com/LeapLabTHU/Rank-DETR

conda 环境找不到 libnsl.so.1

安装prokka后运行报错 perl: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory 通过conda list 可以看到 有libsnl 2.00版本&#xff0c;通过修改软链接方式进行欺骗

ssm137基于SSM框架的微博系统+vue

微博系统网站的设计与实现 摘 要 网络技术和计算机技术发展至今&#xff0c;已经拥有了深厚的理论基础&#xff0c;并在现实中进行了充分运用&#xff0c;尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代&#xff0c;所以对于信息的宣传和管理就…

【已解决】C#设置Halcon显示区域Region的颜色

前言 在开发过程中&#xff0c;突然发现我需要显示的筛选区域的颜色是白色的&#xff0c;如下图示&#xff0c;这对我们来说不明显会导致我的二值化筛选的时候存在误差&#xff0c;因此我们需要更换成红色显示这样的话就可以更加的明显&#xff0c;二值化筛选更加的准确。 解…

arcgisPro精确移动要素某一点至指定点位

1、打开要素&#xff0c;如下&#xff1a; 2、选择移动工具&#xff0c;如下&#xff1a; 3、选择需要移动的要素&#xff0c;如下&#xff1a; 4、按住Ctrl键&#xff0c;移动锚点的位置至三角形顶点位置&#xff0c;如下&#xff1a; 5、拖动锚点至上面多边形的左上角点&…

线性稳压电路和开关稳压电路

稳压二极管稳压电路 电网电压增大&#xff0c;导到u1端的电压增大&#xff0c;从而使输出电压&#xff0c;稳压二极管两端的电压增大&#xff0c;稳压二极管两端电压增大&#xff0c;使流过的电注增大。那么&#xff0c;流过线性电阻R的总电流增大。 Ur电压增大&#xff0c;从…

软考结束。有什么要说的

1. 竟然是机试&#xff0c;出乎我意料。是 考试机构觉得笔试成本高了么。这次的考试是机试&#xff0c;相比以往有所不一样。感言是不是以后都会在固定地点考试也说不准。 2. 遇到年轻人。 这次旁边的一个女同学第一次参加&#xff0c;还像我询问了一些关于软考的事。我是有…

安卓开机启动阶段

目录 概述一、boot_progress_start二、boot_progress_preload_start三、boot_progress_preload_end四、boot_progress_system_run五、boot_progress_pms_start六、boot_progress_pms_system_scan_start七、boot_progress_pms_data_scan_start八、boot_progress_pms_scan_end九、…

家用洗地机哪个品牌好?家用洗地机排行榜前十名

随着洗地机逐渐进入大众视野&#xff0c;这种集吸、拖、洗功能于一体的清洁工具&#xff0c;凭借其高效便捷的特点&#xff0c;成为家庭清洁的新宠。洗地机不仅能够减少地面清洁时间&#xff0c;节省体力&#xff0c;还能提高清洁效果。然而&#xff0c;面对琳琅满目的洗地机品…

YOLOv10详细解读 | 一文带你深入了解yolov10的创新点(附网络结构图 + 举例说明)

前言 Hello大家好&#xff0c;我是Snu77&#xff0c;继YOLOv9发布时间没有多久&#xff0c;YOLOv10就紧接着发布于2024.5.23号&#xff08;不得不感叹YOLO系列的发展速度&#xff0c;但要纠正大家的观点就是不是最新的就一定最好&#xff09;&#xff01; 本文给大家带来的是…

体验SmartEDA的高效与便捷,电子设计从未如此简单

SmartEDA&#xff1a;革新电子设计&#xff0c;让高效与便捷触手可及 在快节奏的现代生活中&#xff0c;科技日新月异&#xff0c;各行各业都在寻求更高效、更便捷的解决方案。对于电子设计行业而言&#xff0c;SmartEDA的出现&#xff0c;无疑是一场革命性的变革。它以其高效…

【ARM+Codesys案例】T3/RK3568/树莓派+Codesys枕式包装机运动控制器

枕式包装机是一种包装能力非常强&#xff0c;且能适合多种规格用于食品和非食品包装的连续式包装机。它不但能用于无商标包装材料的包装&#xff0c;而且能够使用预先印有商标图案的卷筒材料进行高速包装。同时&#xff0c;具有稳定性高、生产效率高&#xff0c;适合连续包装、…