代季峰教授:超大规模视觉通用模型最新研究成果分享

ad6ec7dcb872d64c5ee077ed22c07932.png

追踪社会热点,解读 AI 前沿,用开源的算法,促进 AI 知识渗透,以超算/高性能计算为原点,开启人工智能前沿应用视角。OpenMMLab 开源社区联合北京超级云计算中心,共同发布直播栏目【AI 奇妙夜】,每月一期周四晚八点,陪大家一同打开 AI 领域的奇妙之门。

本期精彩

随着深度学习技术的演进,超大规模通用模型技术正在快速的发展,一个模型广泛应用于各种任务并具有某些通用智能特性的时代正在到来。虽然相关技术在自然语言处理领域取得了巨大的进展,如 ChatGPT。但是在计算机视觉领域中,还面临很多的困难和问题。本次分享将介绍清华大学博士生导师代季峰教授和他的团队在这个方向上的努力和进展。

偷偷剧透,在直播过程中,会抽取幸运观众发放 500 元卡时计算资源,还有超多精美周边礼品等你来拿哦!本次课程将在OpenMMLab和北京超级云计算中心的视频号联合播出,欢迎关注与预约。

分享内容

  • 超大规模视觉通用感知模型的发展现状

  • 多模态多任务统一预训练研究进展

  • 超大规模图像主干网络研究进展

  • Uni-Perceiver 通用视觉任务表征研究进展

  • BEV 环视自动驾驶感知研究进展

分享时间

北京时间

2023 年 5 月 4日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)

分享嘉宾

9293092ee1a06e598f1e6a34cfccb906.jpeg

代季峰

清华大学电子工程系副教授

博士生导师

OpenGVLab 核心成员

在 2009 年和 2014 年于清华大学自动化系分别获得工学学士和博士学位,博士导师周杰教授。2014 年至 2019 年在微软亚洲研究院视觉组工作,担任首席研究员、研究经理。2019 年至 2022 年在商汤科技研究院工作,担任执行研究总监,二级部门长。2022 年 7 月全职加入清华大学电子工程系。

他的研究兴趣包括计算机视觉、深度学习等。他在相关领域发表国际期刊、会议文章 50 余篇,论文总引用 2 万 6 千余次。多篇论文成为物体识别领域里程碑式的成果,被编入世界一流大学视觉课程讲义,被选入深度学习权威框架 PyTorch 成为标准算子。

他连续两年获得物体识别领域权威的 COCO 比赛冠军,之后历届冠军系统也使用了他提出的算法。他提出的算法获得自动驾驶感知领域权威的 Waymo 2022 竞赛冠军。他是顶刊 IJCV 的编委,顶会 NeurIPS 2023, ICCV 2023,CVPR 2023,CVPR 2021,ECCV 2020 的领域主席,ICCV 2019 的宣传主席。

主持人

8828502e09df27d36af7b107a059cae1.png

李亦宁

上海人工智能实验室青年研究员

OpenMMLab 多个框架负责人,香港中文大学博士。主要研究方向为 Human-Centric 机器视觉,包括属性、姿态识别,图像生成,度量学习等。

内容详情

通用感知模型引领着通用人工智能进步,其由 NLP 发源,正在往更多模态发展。多模态技术拓宽了 AIGC 技术的应用广度。多模态技术将不同模态(图像、声 音、语言等)融合在预训练模型中,使得预训练模型从单一的 NLP、CV 发展成音视频、语言文字、文本图像等多模态、跨模态模型。

0699fcf4ec28f3b3a57fdf9bafd90756.png

同时,通用感知模型也存在许多挑战和困难,比如:

  1. 网络参数量庞大(超十亿参数 vs 不到千万参数):训练稳定性、收敛性、过拟合等问题较小网络挑战大很多;

  2. 训练流程复杂(数十亿异质低质量图片、图文对 vs 千万同质精细标注图片):多步训练以利用异质的多模态多任务数据,流程复杂,灾难性遗忘,难以定位精度问题;

  3. 实验成本高(上千块GPU 并行训练数周 vs 8 块 GPU 训练数小时):需要研究者有敏锐的分析能力和扎实的知识功底;

  4. 工程挑战多:海量数据的吞吐,大型 GPU集群上的并行算法,超大参数量模型的内存管理。

6e7d6cc1297285c81fa9db4a0e97da8d.png

针对以上这些问题,接下来将介绍我们四个近期的研究成果,希望能带给研究者们好的启发。

研究进展一:多模态多任务统一预训练

为了能够高效地在互联网尺度图像、图文对上训练超大规模视觉模型,我们提出了“最大化互信息统一预训练”, 首次将现有各种预训练算法统一在一个框架中,首次实现多模态多任务统一预训练,一步完成多数据源的多模态多任务预训练,训练流程简洁高效,训练过程易于监控排除故障。解决了已有多模态多任务训练时训练流程复杂不鲁棒,难以分析定位训练问题,灾难性遗忘,犯错成本高的问题。

0085026e603d2c599499bfd0dfa37bf5.png

Code:https://github.com/OpenGVLab/M3I-Pretraining

研究进展二:超大规模图像主干网络

为了获得高质量的图像主干网络,使其能够适用于各种异质的视觉任务,我们提出了 InternImage大模型,以可变形卷积的方式取得了图像领域标杆任务的最优性能,打破了 Vision Transformer 对视觉大模型的垄断,超越包括微软、Meta、谷歌等机构的视觉大模型。在超大规模图像主干网络的研究中,我们需要多方面的问题:

  1. 大模型设计的范式:考虑网络深度/宽度/分辨率/分组计算数量的 scaling up 策略、针对大网络收敛不稳定的特征及梯度调整策略、针对大模型收敛慢的初始化策略、针对大模型容易过拟合的训练策略等;

  2. 大规模加速训练框架:PyTorch DDP、FSDP、DeepSpeed ZeROs、混合精度计算、融合算子、kernel 级别加速、梯度累加、梯度 checkpointing、高效数据读取、数据切分、集群文件和计算系统排疑、训练异常自动监控推送及重启、profiler等;

  3. 多任务模型训练框架:支持多网络/多任务/多数据集/多模态的联合训练(设计实现高自由度模块化的 Meta Dataloader & Sampler 和 Meta Training & inference Pipeline)、数十个任务-数据集对同时高效读取及预处理、多任务多数据集采样、基于代理任务的自动超参搜索、多任务梯度/Loss/Acc 等统计量对比监控等。

76581a83d21e69d411379fc11c802505.png

1c3204826fd682568734fed00ac87452.png

我们提出的 InternImage 模型在数十个视觉任务数据集全面领先,并于 2023 年 3 月初开源,GitHub Star 总数已达到 1K+,正快速增长中。

4a6784668ef53064a46b05e7ede8d271.png

Code:https://github.com/opengvlab/internimage

研究进展三:Uni-Perceiver 通用视觉任务表征

在计算机视觉领域,不同任务的表征差异巨大。为构建视觉任务通用的解码器网络,实现任务级别的泛化的目标,我们提出了Uni-Perceiver系列,该方法是通用视觉任务表征模型研究的先驱,首次将数十种视觉任务统一在一个表征框架下。其中Uni-Perceiver v2 已在在物体检测、实例分割等视觉核心问题上取得和专有模型相当的性能。

98f99dd6756a73739fad6ff6e97358cc.png

Code:https://github.com/fundamentalvision/Uni-Perceiver

研究进展四:BEV 环视自动驾驶感知

cab11f207eba2538b2ecc1fbdb6f49ce.png

当前,工业界对相机 3D 感知有不同的探索路径,大体上可以分为 Image-view 和 BEV 方法两种。Image-view 方案使用不同网络完成感知子任务,最后通过以规则为主的融合方法对不同网络的感知结果进行融合。区别于 Image view 方案,BEV 方案通常采用 Transformer 将 Image feature 转换至 BEV 视角进行相关感知任务。针对现阶段基于视觉的 3D 目标检测方法并没有充分利用时序信息的问题,BEVFormer 提出了基于可变形注意力机制(Deformable Attention)实现的一种融合多视角相机(multi-camera)和时序特征的端到端框架,适用于多种自动驾驶感知任务,检测算法具有鲁棒性。BEVFormer入选了“Top-10 most influential papers of ECCV 2022“,也在Waymo 纯视觉 3D 检测挑战赛中斩获第一。

Code:https://github.com/fundamentalvision/BEVFormer

相关资料

Paper:

Su et. al., Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information. CVPR 2023.

Wang et. al., InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. CVPR 2023.

Zhu et. al., Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks. CVPR 2022.

Zhu et. al., Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs. NeurIPS 2022.

Li et. al., Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks. CVPR 2023.

Li et. al., BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. ECCV 2022.

Yang et. al., BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision. CVPR 2023.

互动有奖

1. 观看直播即可参与抽奖互动,免费领取 500 元卡时计算资源。

6a5ce9f9a046559522c3536e1598041c.png

2. 直播期间,在 OpenMMLab 视频号、B 站或北京超算视频号、B 站参与弹幕讨论,小助手将在各平台抽取 2 名同学送出 OpenMMLab 精美周边 1 份【添加小助手:OpenMMLabwx,领取奖品】。

d6ad1bca32931957a6d6b72472f8dbec.jpeg

交流群

同时为了方便大家交流沟通,我们还建立了以【AI 奇妙夜】为主题的社群,直播相关的所有资料都将在群里分享,还能与大佬 1v1,赶紧扫码加入我们吧~

b02f368b37d79ef723f67b51b256c19a.png

活动组织方

指导单位:中国计算机学会高性能计算专业委员会、北京市科学技术协会

主办单位:OpenMMLab、北京超级云计算中心

协办单位:北京图象图形学学会、OpenGVLab、TechBeat 人工智能社区

OpenMMLab

OpenMMLab 开源社区具备深度学习时代最完整的计算机视觉开源算法体系,是产学研用四位一体的开放开源算法平台。

OpenMMLab 专注于视觉深度学习领域,涵盖 30+ 计算机视觉方向,支持 300+ 算法,提供 2,300+ 预训练模型。所有的工具箱都基于统一架构,提供代码工程组织架构优秀、拥有大量高质量算法内容的代码库,与提供模型训练能力的 PyTorch 等深度学习框架协同互补。

OpenMMLab 可以帮助使用者降低算法复现难度,方便复现算法基准并与之比较。与此同时,还可以帮助使用者避免重复踩坑,解决算法落地过程产生的多样化版本问题,提升人工智能算法的应用和部署效率。

北京超级云计算中心

北京超级云计算中心(简称“北京超算”),成立于 2011 年,是由北京市人民政府主导、院市共建的“北京超级云计算和国家重要信息化基础平台”,现坐落于北京市怀柔综合性国家科学中心 -- 怀柔科学城。自 2019 年起,北京超算在北京、宁夏、内蒙古等地布局了三个主算力枢纽,以构建跨域资源协同调度体系,优化算力之间的统筹联动,提高科研生产效率,降低企业研发成本,为国家“东数西算”工程的实施做出了有力的响应。

2020 年、2021 年、2022 年,北京超算连续三年入围中国 HPC TOP 前 100,连续三次获得“通用 CPU 算力性能第一名”。同时在 2021 年 AIPerf 500 榜单中, 北京超算 10 套 AI 算力系统上榜,获得总量份额第一名。 

c661a0dbca832867891dfd5ebfb2b006.jpeg

(扫码添加喵喵小助手微信)

0c6b4282f8e964a65e5c31cd0ecd0ed1.jpeg

整理不易,请点赞和在看db9df4f50649fc1dc7644c7a506bc99a.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59841.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最全语言模型领域知识评估Benchmark——獬豸:包含了516门学科、13学科门类、240w条数据

论文链接:https://arxiv.org/abs/2306.05783 代码链接:https://github.com/MikeGu721/XiezhiBenchmark 复旦大学肖仰华团队——獬豸(Xiezhi)是一套针对语言模型(LM)的领域评估Benchmark。它由249587道多选…

第3期大模型前沿讲习班报名中,顶尖专家面授,多角度系统培训

人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮。作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高效的学习方式&#…

ChatGPT安卓版正式发布,附安装包,但有款手机无法使用

ChatGPT安卓版如约而至,OpenAI正式宣布该应用已在谷歌应用商店上架,用户可以免费下载,对话不限次数。 但是安卓版ChatGPT目前仅在美国、印度、孟加拉国和巴西提供下载,下周将会推广至更多国家。 网页端下载链接: http…

Langchain+本地大语言模型进行数据库操作的实战代码

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

NC 财务相关问题

一、NC 银行对账查询不到单位日记账? 答:检查对账账户关联的会计科目辅助的组合在银行对账的查询期间是否有凭证,如对账账户初始化未勾选包含未记账,还需凭证记账后才可以查询出来。 二、有借款未清的人员要离职,如何…

音视频技术开发周刊 | 294

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 五问「ChatGPT医学影像」:新一代的 AI 能否成为放射科医生的一把利器? 在医学等专业性较强的领域内,ChatGPT的表现还不够好&#xff0c…

2022年最值得安装的4款PC软件,每一款都是精品

1.鲸鱼办公网 这是一个PPT模板资源网站,不仅提供了免费实用的PPT模板,还提供了简历模板、字体字库、办公教程、平面设计等,1200多个全套视频课件。对设计感兴趣的朋友可以到里面看看,说不定会有另外收获哦! 2.AirMore …

新买了台笔记本电脑,分享些实用的Windows软件

苏生不惑第263 篇原创文章,将本公众号设为星标,第一时间看最新文章。 前几天618的时候在京东新买了台联想笔记本电脑thinkbook,就是这台:当时价格5499,系统配置如图,话说Windows11都来了,有人开…

基于股票信息的数据分析与可视化

基于股票信息的数据分析与可视化 项目简介:采用皮尔逊相关系数研究A股开盘前十分钟成交量变化与当日收盘价变化的相关性,最后将数据导入到Excel中做可视化分析。 结论:大部分都没有很强的相关性。 import baostock as bs import pandas as p…

「太阁干货」华为模拟器eNSP安装教程

最近小伙伴们在观看太阁6IE讲师 闫辉老师的直播课中,会使用到华为模拟器eNSP,今天给大家分享一下如何对华为eNSP模拟器进行初始化安装。 今天分享的内容主要有以下几个板块: step 1:文件下载: 所需要的文件如下 一共需要5个文件…

网络链路不稳定的排查问题方法

概述 当客户端访问目标服务器出现ping丢包或ping不通时,可以通过tracert或mtr等工具进行链路测试来判断问题根源。本文介绍如何通过工具进行链路测试和分析。 详细信息 本文分别介绍如下链路测试方法。 链路测试工具测试结果的简要分析常见的链路异常场景链路测试…

计算机网络波动大,网络不稳定是什么原因?

当我们的电脑网络不稳定,网络波动大,网络卡顿不顺畅时,我们应该怎么办呢?今天就和大家一起聊聊网络不稳定是什么原因,我们可以怎么解决! 一、设备问题引发网速不稳定现象 1.【网线故障问题】由于网线水晶头…

pdf打开口令破解

PDF文件设置打开口令,有可能是自己设置的打开密码时间久了忘记了,也有可能是在网上下载的pdf资源打开的时候需要输入打开密码,那么遇到这种不知道破地方打开口令或者忘记打开口令的情况,并且文件内容对你很重要的话,可…

【口令破解】远程口令破解和本地口令破解(crunch 字典工具和hydra工具)

目录 1 口令安全威胁1.1 口令安全概述1.2 口令安全现状1.2.1 弱口令1.2.2 默认口令1.2.3 明文传输 2 口令破解2.1 暴力破解2.2 字典破解2.2.1 弱口令字典2.2.2 社工字典2.2.3 字符集字典crunch的**用法**如下:crunch生成密码字典实例:简单介绍字典 3 远程…

弱口令及其防御

常见的弱口令分为默认型弱口令和社工型弱口令。 一.默认型弱口令 1.系统服务弱口令 sshftptelnetsnmp 2.应用组件弱口令 tomcatweblogicredismysqlmongoDBrsyncmemcache 3.设备弱口令 (1)路由器弱口令 tp-linkTendaD-linkMERCURY (2)安全设备弱口令 绿盟(weboper/nsfoc…

弱口令扫描工具mysql ftp_超级弱口令检查工具

超级弱口令检查工具是一款Windows平台的弱口令审计工具,支持批量多线程检查,可快速发现弱密码、弱口令账号,密码支持和用户名结合进行检查,大大提高成功率,支持自定义服务端口和字典。 介绍 工具采用C#开发&#xff0c…

万能命令

在日常工作生活中下载文档资料、网上购物、看电影追剧,早已成为生活的中的一部分,在面对这些生活工作必要内容你是是怎么办的呢?还在花钱下载文档?追剧开会员吗?今天就教你无需任何工具,只需要几个简单的命…

9月1日5G商用,你的4G变慢了吗?

近日,据运营商财经网报道,相关人士透露,三大运营商即将于9月1日对5G商用,也就是一个星期之后,中国正式进入5G时代。 这与6月5G牌照发放时三大运营商表示将在今年9月底前在40城提供5G服务的计划一致。 此外,…

项立刚:乔布斯展现了人类无尽的创造力

北京时间10月6日消息&#xff0c;苹果董事会、联合创始人史蒂夫乔布斯周三辞世&#xff0c;享年56岁。乔布斯的辞世&#xff0c;引起了IT界名人的关注。 知名电信专家、飞象网创始人<!--keyword--><!--/keyword-->项立刚<!--keyword-->(微博)<!--/keywor…

有了5G,Wi-Fi还有用武之地吗?

没有Wi-Fi的日子&#xff0c;总是让我们如坐针毡。有人甚至调侃道&#xff0c;在马斯洛需求层次理论中&#xff0c;Wi-Fi已成为新衍生出来的底层需求。 不久前&#xff0c;国际Wi-Fi联盟组织&#xff08;以下简称Wi-Fi联盟&#xff09;表示&#xff0c;他们将在今年第3季度推出…