VALSE2023-快速总结

会议快速总结

  • 1. 前言
  • 2. 热点词
    • 2.1 自监督预训练
    • 2.2 MIM(Masked Image Modeling)
    • 2.3 MAE(Masked Autoencoders)
    • 2.4 clip(Contrastive Language-Image Pre-Training)模型
    • 2.5 对比学习
    • 2.6 扩散模型(diffustion model)
    • 2.7 Nerf(Neural Radiance Fields)的各种变形
  • 3. 报告记录
    • 3.1 主题:视觉自监督学习-胡瀚-微软亚洲研究院
    • 3.2 主题:大规模复杂场景三维重建与理解-申抒含-自动化所
    • 3.3 主题:三维智能处理与重建-刘玉身-清华大学

1. 前言

今年借着学校的由头继续参加了2023届视觉与学习青年学者研讨会(VALSE)。本次会议在江苏无锡,持续时间是6月10日至6月12日,共三天。由于工作不太好请假,所以我只听了6月10日下午,6月11日全天和6月12日上午的报告,涉及到的Workshop有:目标检测与分割、混合现实中的视觉与学习技术、三维视觉技术前沿以及一些大会特邀报告和年度进展评述。

我参与此次会议的目的就是了解一些大佬的前沿工作,避免自己的知识滞后。因此,趁着还有点印象,赶紧将本次会议的收获快速总结一下。(emmm,懒癌患者拖到了10月,有些都忘记了我直接粘图吧…)

由于该会议涉及的视觉方向很广,很多领域我都是听个概念,所以本篇文章仅是会议内容速记,不涉及知识的介绍,各位读者如果感兴趣可以查看相关大佬的主页或者论文工作。基于此,我将本篇文章分为2个部分,其简介如下:

  • 第一部分为热点词:主要记录会议中大佬经常提到的高频词。
  • 第二部分为报告记录:主要简介大佬的工作和论文。

可参考的博客:
[1] CV预训练MAE(Masked AutoEncoder)
[2] 自监督学习系列(一):基于 Pretext Task
[3] 【NLP预训练】深入理解“预训练”语言模型
[4] 对比学习(Contrastive Learning),必知必会
[5] 深度对比学习综述
[6] 理解扩散模型Diffusion Models(一)

2. 热点词

热点词是在我听的报告中出现频率很高的词,这应该是最近这段时间大佬们都在做的工作。下面的热点词几乎我都没了解过(捂脸),因此我就不过多介绍了,仅简单说明并引出相关论文。方便读者朋友进一步学习(包括我)。

话说,感觉最近的会议全是关于大模型的。大模型太火了~

2.1 自监督预训练

在本次会议中提到了很多次自监督预训练,即使用没有标签的数据进行预训练。尽管自监督预训练在17年transformer提出后,就成为了NLP领域主流的研究方向。但是,随着大模型的发展,对于数据的需求与之俱增,目前已经标注的数据无法满足大模型的需求,因此需要使用数据自监督预训练。

自监督学习的核心就是来合理构造有利于模型学习的任务。目前来说构造这些任务的方法大致可以划分为三个方面:

  • 基于 pretext task ( 代理任务 )
  • 基于 contrastive learning ( 对比学习 )
  • 基于 mask image modeling ( 掩码图像模型 )
    引用自参考博客[2]

2.2 MIM(Masked Image Modeling)

在这次会议中,大部分提及的是掩码图建模(MIM)对比语言-图像预训练(clip)

知识点相关论文:On Data Scaling in Masked Image Modeling

2.3 MAE(Masked Autoencoders)

知识点相关论文:He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” arXiv preprint arXiv:2111.06377 (2021).

2.4 clip(Contrastive Language-Image Pre-Training)模型

知识点相关论文:Learning Transferable Visual Models From Natural Language Supervision

2.5 对比学习

可以看看这个博客对比学习(Contrastive Learning),必知必会和自动化学报中的论文深度对比学习综述。

简单介绍就是:

对比学习的思想有两个起源, 一个是同类数据对比的思想 另一个是自监督学习中的实例判别任务. 文献[1]最早提出了使用两幅图像进行对比学习的思想, 主要使用孪生神经网络进行训练, 旨在拉近同类图像的特征之间的距离、推远不同类图像之间的距离, 以获得更好的特征提取模型. 而自监督学习中的实例判别任务, 将同一批次中的每个样本视作一个独立的类, 故类别的数量与该批次的样本数量相同. 通过该设计, 将无监督学习任务转化为分类任务 (实例判别任务, 寻找图像集中与输入图像特征相似度最高的图像). SimCLR和MoCo是最早结合上述两个思想的方法, 它们通过同一幅图像分别增广后的图像对之间的特征比对计算, 增强神经网络模型的特征提取能力, 再应用于下游任务中.

文献[1] Hadsell R, Chopra S, LeCun Y. Dimensionality reduction by learning an invariant mapping. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2006. 1735−1742

2.6 扩散模型(diffustion model)

参考理解扩散模型Diffusion Models(一)

2.7 Nerf(Neural Radiance Fields)的各种变形

相关知识点论文:
[1] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[2] NeRF及其发展
[3] “Fast learning radiance fields by shooting much fewer rays,” IEEE Transactions on Image Processing (TIP), 2023. https://github.com/zParquet/Fast-Learning

3. 报告记录

3.1 主题:视觉自监督学习-胡瀚-微软亚洲研究院

首先,胡瀚老师总结了关于自监督学习的年度进展,分成了5个技术进展趋势,分别是:

  • 掩码图像建模的改进。
  • 发现掩码图像建模对大模型比较友好。
  • 针对小模型的掩码图像建模训练。
  • 挖掘掩码图像建模的好性质。
  • 拓展到其它模态。
    请添加图片描述
    技术进展1:掩码图像建模的改进。
网络1N-1Ktop-1
BEiT83.2
MAE/SimMIM83.6/83.8
MaskFeat84.0
MVP84.4
BEiTv2/MILAN85.5,/85.6

请添加图片描述
请添加图片描述
请添加图片描述
技术进展2:掩码图像建模的改进。
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
技术进展3:针对小模型的掩码图像建模训练。请添加图片描述
技术进展4和5,没照到。。。

3.2 主题:大规模复杂场景三维重建与理解-申抒含-自动化所

这个是我听的比较认真的一个主题。申老师在三维重建相关讲解的非常好。我进行简单总结一下:
请添加图片描述
首先,讲到三维视觉可以简单概括为针对场景,目标,人类等目标进行重建,理解和生成。
请添加图片描述
申老师的主要汇报内容为针对场景目标的重建和理解。
请添加图片描述

在大规模场景三维重建与理解中,共性需求是低成本,高精度,全自动,高强度。
请添加图片描述
大规模场景三维重建与理解可以拆分成七个部分,分别是:

  • 自主式场景数据获取
  • 高精度联合位姿解算
  • 完整化三维几何重建
  • 细粒度三维语义分割
  • 结构化三维矢量表达
  • 全天候长时定位位姿
  • 高时效地图增量更新

请添加图片描述
首先讲“高精度联合位姿解算”,这个部分我个人理解就是用来获取相机不同帧下的相机位姿和稀疏点云数据。
请添加图片描述
这是一种求解方法,称为运动推断结构 (Structure from motion)。

节选自ChatGPT:
“Structure from motion”(SfM),又称为"运动估计与三维重建",是一种计算机视觉技术,用于从二维图像序列中重建三维结构。它是计算机图形和三维计算机视觉领域的基本过程,用于从照片或视频镜头中创建三维模型。SfM旨在恢复场景或物体的三维几何结构以及捕获图像的相机的运动。
以下是结构从动的工作原理概述:

  • 图像获取:该过程始于使用摄像机捕获图像序列或帧,摄像机可以在场景中移动。这些图像可以来自一个移动的摄像机,也可以来自多个摄像机从不同的视角捕获相同的场景。
  • 特征检测:SfM算法分析每一张图像,检测并提取独特的视觉特征或关键点。这些特征可以包括在图像中能够可靠匹配的点、边缘或角点。
  • 特征匹配:接下来,算法会尝试在不同图像之间匹配相同的特征点。这通常涉及到计算这些特征点之间的相似性或距离,以确定它们是否来自于同一物体的不同视角。
  • 相机运动估计:通过比较不同图像中的特征点的位置以及相机的内外参数,SfM算法可以估计相机的运动。这包括相机的平移和旋转。
  • 三维重建:一旦估计出相机的运动,算法可以使用三角测量等技术来重建场景中的三维点。这些三维点表示场景中的实际物体或结构。
  • 稠密重建:有时候,SfM还可以进一步生成稠密的三维重建,而不仅仅是稀疏的特征点。
  • 应用领域:SfM广泛应用于许多领域,包括地图制作、建筑文化遗产保护、虚拟现实、增强现实、无人机导航、电影制作等。它为这些领域提供了一种以低成本和非侵入性的方式获取三维信息的手段

请添加图片描述
高精度联合位姿解算可以划分为2种方式:一种是增量式,另一种是全局式。
请添加图片描述
全局式的文章推荐:
[1] Gao, X., Zhu, L., Xie, Z. et al. Incremental Rotation Averaging. Int J Comput Vis 129, 1202–1216 (2021). https://doi.org/10.1007/s11263-020-01427-7
[2] X. Gao, L. Zhu, B. Fan, H. Liu and S. Shen, “Incremental Translation Averaging,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 11, pp. 7783-7795, Nov. 2022, doi: 10.1109/TCSVT.2022.3183631.
[3] X. Gao, L. Zhu, H. Cui, Z. Xie and S. Shen, “IRA++: Distributed Incremental Rotation Averaging,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 7, pp. 4885-4892, July 2022, doi: 10.1109/TCSVT.2021.3118883.
[4] X. Gao, H. Cui, M. Li, Z. Xie and S. Shen, “IRAv3: Hierarchical Incremental Rotation Averaging on the Fly,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 33, no. 4, pp. 2001-2006, April 2023, doi: 10.1109/TCSVT.2022.3217151.
[5] X. Gao, H. Cui, W. Huang, M. Li and S. Shen, “IRAv3+: Hierarchical Incremental Rotation Averaging via Multiple Connected Dominating Sets,” in IEEE Transactions on Circuits and Systems for Video Technology, doi: 10.1109/TCSVT.2023.3309661.
[6] Cui, H., & Shen, S. (2022). MMA: Multi-Camera Based Global Motion Averaging. Proceedings of the AAAI Conference on Artificial Intelligence, 36(1), 490-498. https://doi.org/10.1609/aaai.v36i1.19927
请添加图片描述
请添加图片描述

请添加图片描述
请添加图片描述
增量式的文章推荐:
[1] H. Cui, D. Tu, F. Tang, P. Xu, H. Liu and S. Shen, “VidSfM: Robust and Accurate Structure-From-Motion for Monocular Videos,” in IEEE Transactions on Image Processing, vol. 31, pp. 2449-2462, 2022, doi: 10.1109/TIP.2022.3156375.

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

请添加图片描述
然后,开始讲第二部分“完整化三维几何重建”。
请添加图片描述

下面是三维几何重建的几个示例:
请添加图片描述
请添加图片描述
请添加图片描述接着,开始讲第三部分“细粒度三维语义分割”。
请添加图片描述
三维语义分割可以分为两种:一种是直接对点云数据进行语义分割,另一种是先对dom(正射影像图)进行2d的语义分割,然后以二维语义分割的结果来分割三维点云数据。
请添加图片描述
语义分割文章推荐:
[1] M. Rong, H. Cui, Z. Hu, H. Jiang, H. Liu and S. Shen, “Active Learning Based 3D Semantic Labeling From Images and Videos,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 12, pp. 8101-8115, Dec. 2022, doi: 10.1109/TCSVT.2021.3079991.
[2] M. Rong, H. Cui and S. Shen, “Efficient 3D Scene Semantic Segmentation via Active Learning on Rendered 2D Images,” in IEEE Transactions on Image Processing, vol. 32, pp. 3521-3535, 2023, doi: 10.1109/TIP.2023.3286708.
[3] M. Rong and S. Shen, “3D Semantic Segmentation of Aerial Photogrammetry Models Based on Orthographic Projection,” in IEEE Transactions on Circuits and Systems for Video Technology, doi: 10.1109/TCSVT.2023.3273224.

请添加图片描述
请添加图片描述
请添加图片描述
紧接着,就是第四部分“结构化三维矢量表达”。
请添加图片描述
请添加图片描述
请添加图片描述
文章推荐:
[1] J. Han et al., “Urban Scene LOD Vectorized Modeling From Photogrammetry Meshes,” in IEEE Transactions on Image Processing, vol. 30, pp. 7458-7471, 2021, doi: 10.1109/TIP.2021.3106811.
[2] J Han, M Rong, H Jiang, H Liu, S Shen,Vectorized indoor surface reconstruction from 3D point cloud with multistep 2D optimization, ISPRS Journal of Photogrammetry and Remote Sensing,Volume 177,2021,Pages 57-74,ISSN 0924-2716, https://doi.org/10.1016/j.isprsjprs.2021.04.019.
请添加图片描述
第五部分“全天候长时定位位姿”,第六部分“高时效地图增量更新”,第七部分“自主式场景数据获取”则是没有细讲。
请添加图片描述
最后,申老师进行简单总结。
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
至此讲解结束,最后附上申老师的联系方式。
请添加图片描述

3.3 主题:三维智能处理与重建-刘玉身-清华大学

首先,附上刘老师的联系方式:
请添加图片描述
开头的一些背景介绍:
请添加图片描述
请添加图片描述请添加图片描述
此刻,开始正式内容讲解。刘老师的内容分为三部分:

  • 三维表示与识别
    • 特征表示学习
    • 大规模三维细粒度数据集
  • 三位处理与理解
    • 三维补全
    • 三维上采样
    • 三维分割
  • 三维重建
    • 基于视图的三维重建
    • 基于点云的三维重建

请添加图片描述
三维表示方面,可以分为三种有监督,无监督和细粒度。
请添加图片描述

请添加图片描述请添加图片描述
请添加图片描述
在三位处理与理解中,分为补全,上采样和分割。
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
在三维重建中,分为基于视图、基于点云和场景。
在这里插入图片描述
请添加图片描述
请添加图片描述
请添加图片描述

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/154709.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧工地:助力数字建造、智慧建造、安全建造、绿色建造

智慧工地管理系统融合计算机技术、物联网、视频处理、大数据、云计算等,为工程项目管理提供先进的技术手段,构建施工现场智能监控系统,有效弥补传统监理中的缺陷,对人、机、料、法、环境的管理由原来的被动监督变成全方位的主动管…

Unity 设置Inspect上问号的跳转链接

设置Inspect上问号的跳转链接 只需要在Class上添加特性:HelpURL即可!

STM32使用HAL库驱动TA6932数码管驱动芯片

TA6932介绍 8段16位,支持共阴共阳LED数码管。 2、STM32CUBEMX配置引脚 推挽配置即可。 3、头文件 /******************************************************************************************** * TA6932:8段16位数码管驱动 *******************…

计算机竞赛 题目:基于机器视觉opencv的手势检测 手势识别 算法 - 深度学习 卷积神经网络 opencv python

文章目录 1 简介2 传统机器视觉的手势检测2.1 轮廓检测法2.2 算法结果2.3 整体代码实现2.3.1 算法流程 3 深度学习方法做手势识别3.1 经典的卷积神经网络3.2 YOLO系列3.3 SSD3.4 实现步骤3.4.1 数据集3.4.2 图像预处理3.4.3 构建卷积神经网络结构3.4.4 实验训练过程及结果 3.5 …

git多分支、git远程仓库、ssh方式连接远程仓库、协同开发(避免冲突)、解决协同冲突(多人在同一分支开发、 合并分支)

1 git多分支 2 git远程仓库 2.1 普通开发者,使用流程 3 ssh方式连接远程仓库 4 协同开发 4.1 避免冲突 4.2 协同开发 5 解决协同冲突 5.1 多人在同一分支开发 5.2 合并分支 1 git多分支 ## 命令操作分支-1 创建分支git branch dev-2 查看分支git branch-3 分…

uni-app:文本超出部分用省略号表示

效果 前 后 核心代码 white-space: nowrap; /* 强制不换行 */ text-overflow: ellipsis; /* 超过部分省略号代替 */ overflow: hidden; /* 必须同时设置overflow:hidden才能生效 */ 完整代码 <template><view><view class"all_style"><view c…

Maven 自动化构建

自动化构建定义了这样一种场景: 在一个项目成功构建完成后&#xff0c;其相关的依赖工程即开始构建&#xff0c;这样可以保证其依赖项目的稳定。 比如一个团队正在开发一个项目 bus-core-api&#xff0c; 并且有其他两个项目 app-web-ui 和 app-desktop-ui 依赖于这个项目。 …

云剪辑解决方案,支持云端剪辑私有化部署

在当今的商业环境中&#xff0c;视频已经成为了企业宣传和品牌推广的重要工具。然而&#xff0c;视频制作技术开发部署的成本和复杂性却让许多企业望而却步。为了解决这个问题&#xff0c;美摄科技推出了云剪辑解决方案&#xff0c;这是一款专为企业设计的高效视频剪辑技术服务…

SQL:left join、right join 究竟什么区别?

1、SQL join 分三种 1&#xff09;inner join&#xff08;内连接&#xff0c;也叫等值连接&#xff09; 显示两个表中有联系的所有数据&#xff0c;是默认方式。 2&#xff09;cross join&#xff08;交叉连接&#xff09; 两个表格做笛卡尔积&#xff0c;显示的数据行数是…

发行版兴趣小组季度动态:Anolis OS 支持大热 AI 软件栈,引入社区合作安全修复流程

发行版兴趣小组&#xff08;Special Interest Group&#xff09; &#xff1a;旨在为龙蜥社区构建、发布和维护一个稳定的操作系统发行版。 秋天的季节&#xff0c;发行版兴趣小组在 AI、安全、国产 OS 领域同样也是硕果累累。一起来看一下第三季度发行版兴趣小组的成果总结有…

CrossOver2024中文免费版虚拟机软件

苹果笔记本不能用windows吗&#xff0c;让苹果电脑支持win系统&#xff0c;是很多苹果用户关心的问题。苹果笔记本是指使用macOS操作系统的苹果公司生产的笔记本电脑&#xff0c;而windows是微软公司开发的另一种操作系统。两者有什么区别&#xff0c;如何在苹果笔记本上安装和…

项目进展(十)-解决ADS1285在调试时出现的问题

一、解决大坑 在项目进展&#xff08;九&#xff09;-完善ADS1285代码这边博客中&#xff0c;看似解决了问题&#xff0c;可以去读数据&#xff0c;但是其实是给自己挖大坑&#xff0c;这边博客就是来填坑的。   首先呢&#xff0c;上篇博客说的是用0x12指令来读取数据&#…

生产环境中常用Linux命令

太简单的我就不讲解啦,浪费时间,直接将生产中常用的 文章目录 1.总纲2.整机 top3.CPU vmstat3. 内存 free4. 硬盘: df5. 磁盘IO iostat6. 网络IO ifstat7: 内存过高的情景排查 1.总纲 整机:topcpu:vmstat内存:free硬盘:df磁盘io: iostat网络io:ifstat 2.整机 top 首先们要查…

vue自定义防抖指令

main.js中 Vue.directive(throttle, {bind: (el, binding) > {let throttleTime binding.value; // 防抖时间if (!throttleTime) { // 用户若不设置防抖时间&#xff0c;则默认2sthrottleTime 2000;}let cbFun;el.addEventListener(click, event > {if (!cbFun) { // …

apifox的使用以及和idea集成

apifox 简介 Apifox 是 API 文档、API 调试、API Mock、API 自动化测试一体化协作平台&#xff0c;定位 Postman Swagger Mock JMeter&#xff0c;由此可见apifox集功能于一身&#xff0c;极大的提升了我们开发的效率&#xff0c;不用再为postman网络连接失败而发愁&…

节能减排 | AIRIOT智慧工厂节能管理解决方案

工厂作为高能耗的生产型企业&#xff0c;降低能耗和提升资源利用率方面就显得很重要&#xff0c;对实施国家倡导的节能降耗、绿色发展有着很大程度上的必要性。然而&#xff0c;工厂能源管理从传统手段向智能化升级转型的过程中&#xff0c;企业也不可避免的面临一些痛点和挑战…

优思学院|八大浪费深度剖析

在工作流程中消除浪费是精益思想的目标。在深入探讨八大浪费之前&#xff0c;了解浪费的定义至关重要。浪费是指工作流程中的任何行动或步骤&#xff0c;这些行动或步骤不为客户增加价值。换句话说&#xff0c;浪费是客户不愿意为其付费的任何过程。 最初的七大浪费&#xff0…

Gradle基础

文章目录 Gradle 项目目录结构Gradle 创建第一个项目Gradle 中的常用指令修改maven 下载源Wrapper 包装器GradleWrapper 的执行流程&#xff1a; 在 idea 中创建普通java 工程 Gradle 项目目录结构 radle 项目默认目录结构和Maven 项目的目录结构一致,都是基于约定大于配置【C…

js的BoM事件(二)

js的BoM事件&#xff08;二&#xff09;&#xff0c;上一篇的补充 一.alert,confirm二.prompt三.open四.close 一.alert,confirm 实例&#xff1a; alert(hi); confirm(message);二.prompt <body><button ></button><script>var btndocument.querySe…

git基础

Git 版本控制 什么是版本控制 版本控制是一种记录一个或若干文件内容变化&#xff0c;以便将来查阅特定版本修订情况的系统。 除了项目源代码&#xff0c;你可以对任何类型的文件进行版本控制。 为什么要版本控制 有了它你就可以将某个文件回溯到之前的状态&#xff0c;甚…