【知识库系列】MPR/多模态方向观察:图像视频与3D生成

多模态背后的backbone会长成什么样?

各种模态到梯度下降到最后会不会都差不多?

Sora 是不是已经被追上了?

我们真的把视频数据都用好了吗?

知识库完整文档:

MPR/多模态方向观察:图像视频与3D生成:https://miracleplus.feishu.cn/docx/Rl21d6hmOohXplxhrgccFxAqnJb?from=from_copylink

Manifesto

多模态,3D和视频生成是三个相关又各自独立的领域,他们在技术和应用领域上有所交叉。

1,多模态(Multimodality)

多模态技术指的是结合多种感官输入或输出的方式,例如视觉,听觉,触觉等。在人工智能领域,多模态通常指的是结合不同类型数据的分析和处理,如文本,图像和声音。

多模态学习是人工智能的一个重要分支,它涉及理解和生成能够同时处理多种数据类型的模型。

2,3D(三维)生成

3D技术涉及到创建和操作三维空间中的物体和场景,这包括3D建模,打印,动画和渲染等,在计算机图形学中,3D技术是创建逼真视觉效果的基础,广泛应用于电影,游戏和虚拟现实等领域。

3,视频生成:

视频生成指的是用计算机算法来创建视频生成的过程,可以是简单的动画,也可以是复杂的场景和角色模拟。

视频生成技术可以是结合3D模拟来创建三维动画,也可以使用机器模拟来生成逼真的内容

随着技术的发展,这三个领域正不断融合:

多模态与3D:在3D的创建过程中,多模态可以增强用户体验,通过结合视觉和听觉,可以增加3D的体验。

多模态与视频生成:多模态能帮助视频生成,从视觉和听觉的角度更好的理解和模拟真实世界。

一,多模态研究综述:

跨模态生成:

跨模态生成主要分为图像生成和视频生成两个部分

图像生成:

在图像生成领域,早期较为流行的架构为GAN(Generative Adversarial Network),模型通过generator 和 discriminator两个模块互相竞争来进行图像生成,Generator 大量生成多样性图像,Discriminator通过识别以及大量分类来识破generator 的生成。

在GAN 系列工作中,较为知名的style GAN,Circle GAN, 其中style GAN可以后期生成高分辨的人形图像,是GAN后期的最为流行的应用架构。

 近年来,图像生成领域占据主导地位的是扩散模型- diffusion models,扩散模型通过对图像数据的加噪/去噪的过程进行建模,从而实现图像的生成。

无论是GAN模型还是Diffusion Model,早期的工作都是从conditional generation开始,尽管模型可以生成高质量的图像,但用户无法对生成结果进行控制,因此后期的一个研究方向是condition/controllable  generation开始,其中最流行的是text to image generation,除此之外还包括spatial layout condition ,image condition (in- context) 等。

视频生成

与图像生成类似,早期的视频生成模型也是以GAN为主,不再赘述,近年来,扩散模型已在视频生成领域占据了主导地位,从早期图像迁移到视频领域,实现了text to video。

跨模态理解:

1,从训练数据,模型结构,评估方式等对大模型进行了分类。

2,很全面的列举了各种多模态多模型理解模型,以及他们在模型结构上的共性。

多模态幻觉:

多模态幻觉是模型在生成输出时生成了和图像不符的信息。一般是由大模型对图片的理解不够准确,或生成时过度依赖文本情境而忽略图片情境而导致的。

提升训练数据标注质量,改进训练方式,改进解码方式,对生成结果进行后处理。

这篇综述对多模态幻觉原因,评测benchmark以及在不同阶段的缓解方法进行了总结,对多模态幻觉的研究可以消除幻觉,提升模型的可靠度和用户信任外,更有利于揭示多模态模型的内在机制和潜在缺陷,推动模型架构和训练方法的改进。

片段定位:

如果多模态大模型能理解表示图片/视频中的部分内容的文本输入输出,那么这个大模型就能完成更低颗粒度的任务,如grounding,dense captioning.

在图片-文本多模态大模型中拥有grounding能力的模型包括Qwen-VL,InternLM-XComposer等,在视频,文本等大模型中,拥有grounding能力的大模型包括VTimeLM,TimeChat,HawkEye。

具身智能:

具身智能旨在识别和理解环境中的物体,来实现类似人类对环境的感知和与周围环境的交互,目前学术研究中具身智能方面最热门的问题包括具身规划,具身控制和具身问答。一些研究使用多模态大模型来统一解决各种具身智能问题。

视频理解中高效帧采样的单帧偏置问题

虽然理论上视频是新增了时间维度的帧的序列,但实践中对视频中的帧进行等距采样作为多模态大模型的输入一般是并不是最优解;有时很长的一段视频中只有一小段和问题相关,甚至只需要一帧中的静态画面就能回答很多问题。因此对于视频-文本多模态大模型,如何对视频进行更高效的帧采样对算法和性能都有重要影响,是一个关键研究问题。

3D生成

单场景3D重建:

神经网络辐射场与3D高斯颇溅是单场景3D重建近几年最常用的AI网络。二者区别于NeRF是利用神经网络隐式存储3D空间信息,3D Gaussian Splatting 是通过显式存储3D高斯隧球来保存3D信息。

多模态3D重建:

Toy data multi-model 3D diffusion

最经典的是zero1-to-3.该方法在image diffusion的基础上引入了camera matrix当作控制变量,对大模型微调得到了3D diffusion模型,这样我们获得了根据输入文字的图片/描述生成对应3D场景的多模态能力。

但重建出的物体质量极低,meta提出了3D Gen,3D Gen是通过集成Meta 3D AssetGen 和 Meta 3D TextureGen 模型的能力合理重建toy data 相对高质量的纹理,也保持了较好的几何合理性与连续性。

目录:

多模态研究综述:浩瀚学术中的拼图

跨模态生成

图像生成

视频生成

跨模态理解

简介

重要学术问题

3D生成

单场景3D重建

多场景3D重建

工程化观察:给开发者的工具箱

跨模态生成

图像生成

视频生成

3D生成

多模态生成

开源工具

闭源工具

图片理解工具

视频理解工具

训练和部署工作

Benchmark动态

技术与发展的探讨

多模态与视觉生成

Diffusion vs AR

理解 vs 生成

内容生成 vs 视觉模型

数据质量 vs scaling law

多模态与3D生成

NeRF vs 3DGS vs 几何表征

数据集构建与scaling 

精度。成本与应用范围

商业化赛道观察

万物灵犀 (3D扫描)

C端商业模式

B端商业模式

创源引擎(3D世界生成)

极佳科技(世界模型与多模态数据)

圆桌校友思考

补充内容:

年初,Sora的横空出世并引起广泛关注就是一个明显信号。多模态模型的运行可以大致分成两个过程:一是对多模态模型世界的理解,第二就是生成。以Sora视频生成类模型为例,它的运行不仅需要更大的内存带宽,对算力的需求也非常大。运行时,模型首先需要专门的图像处理引擎对视频或图片进行理解。这个过程中几乎每秒都要处理上千个Token才能实现实时理解。对于视频来说,一秒钟至少要生成30帧,同时还要考虑上下文的联系,连续30秒需要的算力非常之高。在理解的基础上,模型还要做生成。这对处理器的带宽又会提出新的要求。

也就是说,多模态模型的运行对芯片的算力和带宽以及成本、功耗都将有着更高的要求。Sora推出以来,其推广速度并不如人们想象得那么快,这与它对AI芯片的高需求有着莫大关系。当前的AI芯片很难支撑如此庞大的算力、带宽需求,而对算力带宽提出高需求的同时又会急剧推高成本。据测算,多模态模型的芯片成本将远高于目前的大语言模型。

蔡一茂指出,相对传统架构而言,存内计算或是突破多模态大模型发展中算力瓶颈的一个重要方向。如前所述,存内计算相对传统计算架构无论在算力还是带宽方面都有明显提升。存内计算相对传统计算另外一个重要优势是可以大幅降低成本。随着Flash、DRAM等存储容量的大幅度提高,芯片的单位成本也将不断降低。同时存内计算可以大幅减少数据搬运,这对降低芯片的运行功耗非常有利。

存内计算是一种将计算单元嵌入到内存中的计算范式,旨在解决传统冯·诺依曼架构中的“内存墙”和“功耗墙”问题。北京大学集成电路学院院长蔡一茂在接受记者采访时就表示,在越来越接近物理极限的情况下,单纯依靠传统工艺集成的方式推进摩尔定律,难度和成本都在急剧上升。另一方面,随着AI时代的到来,对传统芯片架构也将带来新的挑战,用户更加看重AI芯片在算力、存储、缓存带宽等方面的整体表现,因此寻求芯片架构上的创新对延续摩尔定律非常重要。这个架构创新就包括存内计算技术。

针对多模态的商业化应用方向观察,在图像视频与3D生成领域快速发展,本地化部署的大模型参数将达到千亿,然而目前基于SRAM/DRAM缓存的GPU或者NPU方案,都面临存储容量受限或者成本过高的巨大挑战。而存内计算不但可以有效减小计算过程中的缓存需求,还可以探索基于低成本大容量的Flash介质比如VNAND研制更加低成本的存内计算芯片,这将是一个重要的市场发展机遇。

关于存内计算2024 ISSCC最新论文解析访问链接 https://github.com/witmem/Witmem-CIM-Papers-Collection 

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415371.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于RK3568平台移植ffmpeg3.4.5及ffmpeg验证

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、移植流程3.1 编译x2643.2 编译mpp3.3 编译ffmpeg四、ffmpeg验证4.1 ffmpeg配置说明4.2 ffmpeg推流/拉流使用说明4.2.1 使用http方式推流/拉流4.2.1.1 先执行ffmpeg服务4.2.1.2 再执行ffmpeg进行推流4.2.1.3 最后执行vlc进…

linux中最简单方式使用crontab打印当前时间

因特殊需求,需要在linux的某个文件中每分钟打印出当前时间。 先手动试一下命令: echo $(date) 打印出: Mon Sep 1 09:28:06 AM CST 2024 而我需要达到的效果是: 2024-09-01 09:28:06 于是命令改成了: echo $(date &quo…

《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-03-移动通信网网络架构

文章目录 1. 5GS与DN互连1.1 5GS概述1.2 5GS 与DN网络的连接关系1.3 UE连接DN的两种模式1.3.1 透明模式1.3.2 非透明模式 2. 5G 网络边缘计算 1. 5GS与DN互连 1.1 5GS概述 5GS:5G SystemDN:Data NetworkIMS:IP Media Subsystem(一…

并发集合:ConcurrentHashMap解析

1、ConcurrentHashMap 介绍 1.1、ConcurrentHashMap 概述 ConcurrentHashMap 是线程安全的HashMap,但最早的线程安全的HashMap 是 HashTable ,HashTable 现在已经弃用,因为它是使用synchronized 来保证线程安全,性能比较低&#…

安卓(Android)平台上的MVVM架构:关键知识点、优劣分析及实践示例

​ 一、安卓MVVM架构核心知识点 1.1、架构组成 1.1.1、Model层 承载业务逻辑与数据实体,独立于UI并与ViewModel进行交互,实现数据获取与处理功能。 1.1.2、View层 负责用户界面展示,借助Android XML布局文件及Activity/Fragment等组件&a…

Golang | Leetcode Golang题解之第384题打乱数组

题目: 题解: type Solution struct {nums, original []int }func Constructor(nums []int) Solution {return Solution{nums, append([]int(nil), nums...)} }func (s *Solution) Reset() []int {copy(s.nums, s.original)return s.nums }func (s *Solu…

【从问题中去学习k8s】k8s中的常见面试题(夯实理论基础)(二十二)

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…

前端bug:v-show嵌套组件外层,页面扩大后,组件被遮挡

在外层套上v-show 页面扩大到125%后,页码栏被压缩到窗口底部,被遮挡了 把v-show放到每个内部组件上 解决了被遮挡的问题 虽然问题解决了,但是不清楚原理是什么,麻烦路过的大佬指点一下,感谢!&#x…

Java学习中易错点——忘记加分号

在Java编程中,忘记加分号是新手程序员经常会遇到的问题。虽然这个错误看似简单,但它往往会导致代码无法正常编译或运行,并且在查找问题的过程中可能耗费大量时间。 下面说一下Java中的分号问题,解释其重要性、常见错误场景、错误…

巴西与马斯克商业帝国:科技监管与商业利益的激烈碰撞

巴西最高法院禁令引发连锁反应 巴西最高法院近期的一项决定,禁止社交网络X在巴西运营,迅速在科技界和商业领域引发连锁反应。这一决定不仅让X公司面临市场退出的风险,还意外地将埃隆马斯克的卫星宽带公司Starlink卷入风暴中心,加剧…

在K8s上运行GitHub Actions的自托管运行器

1:添加Actions Runner Controller的Helm仓库 helm repo add actions-runner-controller https://actions-runner-controller.github.io/actions-runner-controller helm repo update2:创建GitHub Personal Access Token (PAT) 登录到你的GitHub账户。访…

文献阅读(218)EHP

题目:A Research Retrospective on the AMD Exascale Computing Journey时间:2023会议:ISCA研究机构:AMD 题目:Realizing the AMD Exascale Heterogeneous Processor Vision时间:2024会议:ISCA研…

Ps:颜色模型、色彩空间及配置文件

颜色模型、色彩空间和配置文件是处理颜色的核心概念。它们虽然互相关联,但各自有不同的功能和作用。 通过理解这些概念及其关系,Photoshop 用户可以更好地管理和优化图像处理流程,确保颜色在不同设备和应用中的一致性和准确性。 颜色模型 Col…

LDR6023:革新手机转接器体验,快充与OTG并存的科技杰作

在智能设备日益普及的今天,手机已经成为我们日常生活中不可或缺的一部分。然而,随着功能的不断增加,手机对于电力和数据传输的需求也日益提升。为了应对这一挑战,深圳市乐得瑞科技有限公司凭借其深厚的科技积累和创新精神&#xf…

科研论文必须要了解的25个学术网址

各位同学大家好,我是Toby老师,今天介绍一下科研论文必须要了解的25个学术网站。下述论文网站收藏内容有差异,大家可以检索比较。 1.SCI SCI(Science Citation Index)是一个学术引文数据库,收录了全球多个学…

YOLOv5改进 | 模块缝合 | C3融合PKINet提升遥感图像的检测性能【完整代码】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录: 《YOLOv5入门 改…

【论文阅读】语义通信安全研究综述(2024)

摘要 语义通信系统架构 笔记 内容概述 引言:介绍了语义通信技术的背景、发展和重要性,以及它在无线通信系统中面临的安全挑战。 语义通信系统架构及安全攻击:描述了一个端到端的深度学习语义通信系统的基本架构,包括语义编解码…

VM Workstation虚拟机AlmaLinux 9.4操作系统安装(桌面版安装详细教程)(宝塔面板的安装),填补CentOS终止支持维护的空白

目录 AlmaLinux介绍 AlmaLinux操作系统的安装 1、下载镜像文件 2、新建虚拟机 (1)点击创建新的虚拟机 (2)打开虚拟机向导后,选择“自定义”安装,然后点击“下一步” (3)选择虚…

OpenCV颜色空间转换(1)颜色空间转换函数cvtColor()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 将图像从一个颜色空间转换到另一个颜色空间。 此函数将输入图像从一个颜色空间转换到另一个颜色空间。在进行 RGB 颜色空间之间的转换时&#x…

opencv车道偏离系统-代码+原理-人工智能-自动驾驶

车道偏离预警系统(Lane Departure Warning System, LDWS)是一种主动安全技术,旨在帮助驾驶员避免因无意中偏离车道而引发的事故。从原理到实战应用,其工作流程大致如下: 传感器采集 :系统通常配备有一个或…