『2023北京智源大会』视觉与多模态大模型

『2023北京智源大会』视觉与多模态大模型

文章目录

  • 一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学
    • 1. Image Manipulation(图像编辑)背景
    • 2. Drag Your GAN
  • 二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家
    • 1. 整个背景介绍
    • 2. 通用 3D 生成Pipeine
    • 3. 我们的工作
    • 4. 总结与展望
  • 三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员
  • 四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家
  • 参考文章

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学

1. Image Manipulation(图像编辑)背景

  • 拖动你的 GAN:生成图像流形上基于关键点的交互式操作(编辑)
  • 图像的拖拽式编辑

在这里插入图片描述

  • Image Manipulation(图像编辑)

在这里插入图片描述
在这里插入图片描述

  • Photoshop - 液化

在这里插入图片描述

  • 形状变形

在这里插入图片描述
在这里插入图片描述

2. Drag Your GAN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 初步尝试:光流指导的运动监督

在这里插入图片描述

  • 最终的方法

在这里插入图片描述

  • 从视频演示上看效果很不错

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 匹配图像重建

在这里插入图片描述

  • 点跟踪

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 局限:
  • 1) 训练数据分布之外的一些编辑,当分布范围超出过大范围,产生失真的效果
  • 2)关键点的选取有讲究,无纹理手柄点
  • 3)最重要的一点,对真实图像的编辑,如果非常多物体,背景非常复杂效果损坏挺大

在这里插入图片描述

  • 总结:

在这里插入图片描述

二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家

1. 整个背景介绍

  • 大模型在三维内容生成的场景:

在这里插入图片描述

  • 我们可以用 3D 内容创作做什么?元宇宙(Metaverse)、自动驾驶(Autonomous Driving)

在这里插入图片描述

  • 3D 内容创建的可扩展性,数量(Quantity)、多样性(Diversity)、质量(Quality)

在这里插入图片描述

  • 在工业界的一些常见的三维创建流程,专业人、费时、费力

在这里插入图片描述

  • 语言领域,chatgpt和GPT4取得了很大的成功

在这里插入图片描述

  • 2D图像生成领域

在这里插入图片描述

  • 那么3D图像内容生成呢?

在这里插入图片描述

  • 机器学习如何做3D图像内容生成呢?

在这里插入图片描述

2. 通用 3D 生成Pipeine

在这里插入图片描述

  • 挑战:①如何表示生成的3D物体;②如何搭建1个高效的三维生成模型;③数据有点少相比于2D。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 可微等值面遇到可微渲染

在这里插入图片描述
在这里插入图片描述

3. 我们的工作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 关键思想:
  • 从预训练的 2D 图像扩散模型中利用知识!
    评分功能以指导图像生成
  • 使用可微分渲染将 3D 与 2D 连接起来

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 总结与展望

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员

  • 追求通用视觉智能
  • 视觉表征:抽象视觉信号并学习通用表示
  • 视觉通才:训练在野外解决各种任务的视觉通才模型

在这里插入图片描述

  • 这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
  • EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
  • 十亿规模的最佳预训练模型
  • 代码EVA: Visual Representation Fantasies from BAAI:https://github.com/baaivision/EVA
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale:https://blog.csdn.net/YoooooL_/article/details/129044031

在这里插入图片描述

四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家

参考文章

  • 北京智源大会:https://2023.baai.ac.cn/schedule

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23574.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT出现后是否还建议读计算机专业?

前言 首先,在多模态大模型落地应用之后,产业领域会迎来一次全面的技术升级,很多传统的人力资源岗位会被替代,但是同样也会增加一些新的就业岗位,而对于计算机专业的同学来说,这也是一个新的发展机会。 在…

chatgpt赋能python:Python配置Anaconda

Python配置Anaconda Python作为一个传统和流行的编程语言,在科学领域得到了广泛的应用。Anaconda是Python的一个流行的开源发行版,它提供了Python和其他相关工具的全套解决方案,使得科学计算和数据分析变得更为容易。在本文中,我…

关于图灵测试和中文屋Chinese room的理解

图灵测试与中文屋 这篇文章想分享关于人工智能的“中文屋论证”(也叫汉字屋,Chinese room)。什么是中文屋论证呢,我们知道图灵测试是判断是机器否是人工智能的公认标准。我先说图灵测试,知道了图灵测试就很好理解汉子屋…

彩票的两种分析方法

概率均值二分K线图分析法: 算法是取当前元素的数学平均值为基本,当本值大于均值则在上期数上加超过值,小于则在上期数上减不足值,即大于则阳线,小于则阴线。这样连线后就是K线了。 如对数进行K线方法:33个…

ChatGPT 飙升到搜索引擎第二梯队后,增长放缓

整理 | 陈静琳 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的爆火,是昙花一现,还是未来可期? 近日,网站流量分析工具 Similarweb 针对 ChatGPT 目前的数据流量现状进行了一次深度的调研…

去年精准预言AIGC爆发!今年百度又看好这十大科技趋势

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 2023年,我们还会见证新的AI突破吗? 过去一年里,我们围观了ChatGPT的崛起,看见国内外多模态大模型同台竞技,察觉到自动驾驶公司的商业化加速落地,也发现以AI制药为核…

使用chatgpt画一个流程图

是的&#xff0c;ChatGPT可以直接写代码&#xff01; ChatGPT支持许多编程语言&#xff0c;包括Python&#xff0c;JavaScript和C 等。您可以在消息框中键入您的代码&#xff0c;并使用/code命令将其格式化为代码块&#xff0c;以便ChatGPT更好地理解您的请求。 <!DOCTYPE h…

快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

参考&#xff1a; 李宏毅2021/2022春机器学习课程王树森 RNN & Transformer 教程Transformer 详解 文章目录 0. 背景&#xff1a;序列数据及相关任务1. 早期序列模型1.1 循环神经网络 RNN1.2 长短期记忆网络 LSTM1.3 改善 RNN/LSTM 的三个技巧1.3.1 通过堆叠扩展为深度模型…

国产开源50亿参数新模型,合成可控性、质量实现飞跃

关注并星标 从此不迷路 计算机视觉研究院 公众号ID&#xff5c;ComputerVisionGzq 学习群&#xff5c;扫码在主页获取加入方式 计算机视觉研究院专栏 作者&#xff1a;Edison_G 在 AI 绘画领域&#xff0c;很多研究者都在致力于提升 AI 绘画模型的可控性&#xff0c;即让模型生…

多模态大模型技术演进及研究框架

一、多模态预训练概述 多模态表示包含两个或两个以上事物表现形式 模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息…

MySQL索引为什么要用B+树实现?

首先&#xff0c;得先了解什么是B树什么是B树 什么是B树 自平衡二叉树虽然能保持查询操作的时间复杂度在O(logn)&#xff0c;但是因为它本质上是一个二叉树&#xff0c;每个节点只能有 2 个子节点&#xff0c;那么当节点个数越多的时候&#xff0c;树的高度也会相应变高&…

Altman:巨型AI模型时代结束;马斯克TruthGPT曝光|每日创新观察

今日看点&#xff1a; OpenAI CEO&#xff1a;巨型AI模型时代已结束Stable Diffusion-XL开启公测马斯克TruthGPT曝光Adobe Premiere Pro 将引入新 AI 工具OpenAI CEO&#xff1a;巨型AI模型时代已结束 参考链接 OpenAI的首席执行官山姆奥特曼&#xff08;Sam Altman&#xff…

RWKV:在Transformer时代重新定义循环神经网络

论文地址&#xff1a;https://arxiv.org/abs/2305.13048 参考&#xff1a;https://www.zhihu.com/question/602564718/answer/3041307432 RWKV: Reinventing RNNs for the Transformer Era RWKV&#xff1a;在Transformer时代重新定义循环神经网络 Abstract 摘要 Transformer已…

2023 4月份 华为硬件开发岗位实习生机考回忆

2023 4月份 华为硬件开发岗位实习生机考回忆 Proscribe &#xff01;本帖只用作学习之意&#xff0c;若违反任何要求或侵权将立马删除&#xff0c;其中答案也可能错误&#xff0c;实际的工程应用和理论也有所区别&#xff0c;仅收录部分题目和答案等&#xff0c;仅供参考。&a…

那些Edge浏览器的神仙插件

浏览器插件选的好&#xff0c;网上冲浪没烦恼 文章目录 浏览器下载插件解除网页下载限制清理浏览器缓存标签自动刷新视频速度控制广告拦截器图片助手护眼模式超级复制翻译插件音乐插件喵喵折智能AI浮图秀油猴 早在五月份的时候就发过一张关于插件的动态&#xff0c;今天再来仔细…

复试常见问题

复试常见问题 语言相关操作系统组成原理计算机网络数据结构算法设计与分析深度学习梯度消失与梯度爆炸过拟合与欠拟合---退化神经网络中有哪些正则化技术&#xff1f;激活函数的作用&#xff1f;学习率太大(太小)时会发生什么&#xff1f;如何设置学习率&#xff1f;‍什么是数…

GPT之战,谷歌真的要输了?越来越多顶尖研究员跳槽OpenAI

来源&#xff1a;新智元 近期一场大讨论&#xff1a;为什么越来越多Google顶尖研究员跳槽OpenAI&#xff1f;这场LLM战役它还能打赢吗&#xff1f; 知友回复 莱斯大学博士、知友「一堆废纸」表示&#xff0c;其实谷歌和OpenAI的差距&#xff0c;是数据的差距。 「OpenAI对LLM有…

html+css实现星系图

往期内容&#xff1a; 01-htmlcssjs实现时钟 02-htmlcssjs实现骰子 03-htmlcssjs实现点名系统 文章目录 01-htmlcssjs实现时钟02-htmlcssjs实现骰子03-htmlcssjs实现点名系统前言一、整体效果二、代码实现1.背景图2.主体星系3.添加文字效果4.整体代码 总结 前言 本文通过ht…

涌html编写星空图,canvas实现十二星座星空图

效果如下&#xff1a; 代码如下&#xff1a;canvas星座 * { margin: 0; padding: 0; } #box{ margin:10px 0 0 10px;; } input{ outline: none; font-size:16px; } p{ margin-bottom: 10px } input[typedate]{ height:36px; text-indent:10px; } input[typebutton]{ background…

联邦计算在百度观星盘的实践

导读&#xff1a;本文简短综述联邦计算领域的核心技术点&#xff0c;随着联邦计算在产业界的应用及普及&#xff0c;保护数据隐私与解决数据孤岛&#xff0c;二者可以兼得&#xff0c;为数字广告营销等领域提供了一个全新思路。 全文4761字&#xff0c;预计阅读时间12分钟。 …