2022年最值得关注的十篇论文,你都看了吗?来卷来学习

2023

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

4c2bd735a54fdb17f55a6a9b230f9a60.gif

4ce0f4d6600928ec8744954f35180173.gif

计算机视觉研究院专栏

作者:Edison_G

年关将至,威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大论文。

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

2022 年 1 月,扩散模型第一次吸引了我的眼球。当时我判断到将会有某些大事发生,然而却未曾预料到几个月后会出现什么:DALLE-2、Imagen、Stable Diffusion 以及其它许多模型。

对于大型语言模型来说,2022 也是非常重要的一年,最近面世的 ChatGPT 更是锦上添花,抢尽了风头。

在回顾今年发表的十篇值得关注的论文前,我们可以先看看 12 月的 AI 要闻以及麦肯锡的一份人工智能全景报告和行业调查综述。

昨天,今天,明天

简单来说,有两篇论文引起了我的注意。

第一篇:视觉 Transformer(ViT)学习什么?

0e55068c98c624244997bd1e01e4d9c2.png

论文链接:https://arxiv.org/pdf/2212.06727.pdf

关于视觉的探索显示,ViT 学习的归纳偏置或特征与卷积神经网络(CNN)学习的那些相似。例如,ViT 的 early layers 捕捉边缘和纹理,而 later layers 学习更复杂的表征以捕捉更广泛的概念。

500c3722e4d7dd220a5bf52d1ecef3d1.png

视觉 Transformer 从 early layers(左)到 deeper layers(右)的可视化特征过程。

关于生成建模,ViT 倾向于生成比 CNN 更高质量的背景,这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时,ViT 似乎比 CNN 更善于预测目标类别,并且在前景被消除时它们也依然表现得更好。这表明,ViT 在依赖基于其存在的某些特征时可能更具选择性,或者说,总体更为鲁棒。

第二篇:一种生成蛋白质的扩散模型

753749474e53687d4cc6b100fc6e736c.png

论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1

在图像生成领域,扩散模型已经带来了突破性的性能,那么生成蛋白质结构呢?研究人员开发了一种新的蛋白质合成扩散模型,称为 RoseTTAFold Diffusion(RFDiffusion),这种蛋白质是从零开始创造的,而非来自于自然界中早已存在的蛋白质。

b52a97c8c1d95f7b644848f80f192f9e.png

区分 de novo 蛋白质(在实验室中使用没有进化历史的氨基酸序列合成)与诸如 AlphaFold、 AlphaFold2 等系统(使用现有氨基酸序列数据预测蛋白质 3D 结构)十分重要。但值得注意的是,AlphaFold2 曾被用于验证 RDiffusion 研究的结果。

然后再谈谈最近的行业趋势。今天,在产业中实际使用的技术是什么?根据麦肯锡最近的 AI 全景报告 —— 并不是大型语言模型(Transformer)。特别说明,由于样本规模和代表性的限制,该报告中的调查结果可能无法准确反映所有公司的经验。

803a8ef1da8b1e182791ecd0dd791d91.png

图源:麦肯锡 2022 年全景报告。

自然语言处理在行业内一直受到追捧,但其受欢迎程度经常被计算机视觉应用超越。但现在,我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起。

与此同时,自然语言文本理解(可能指文本分类)的受欢迎程度几乎是自然语言「生成」的两倍。请注意,自然语言生成的新闻通常会占据热点首页:如 GPT-3、Galactica、ChatGPT 等。(文本理解可能包括摘要,摘要也是「生成」的,所以我假设它在这里主要指的是类似分类的任务。那么反过来说,类别(categories)也是可以重叠的。)

值得注意的是,Transformer 的排名垫底。

似乎许多公司尚未采用类似 BERT 的语言模型编码器来进行文本理解和分类。相反,他们可能仍在使用基于词袋模型( bag-of-word-based)的分类器或递归神经网络。同样,类似 GPT 的模型解码器似乎还没有广泛应用于语言生成,因而文本生成可能仍严重依赖循环神经网络和其他传统方法。

基于下图,我发现了一些有趣的其他见解:

0fb0819df916c3918bc24cac6253ec50.png

6b55236677252a48cb2e3017e6de29aa.png

图源:2022 年麦肯锡 AI 全景报告。

  • 能够利用「小数据」非常重要。当数据不可用时,生成合成数据的能力非常有用。

  • 尽快将数据集成到 AI 模型中的能力是在竞争中脱颖而出的关键。那么,良好的软件框架和基础设备设置可能起到举足轻重的作用。

  • 不幸的是,大多数高绩效公司迄今仍不关心模型的可解释性。

十大年度论文

以下将介绍我在 2022 年阅读到的排名前三的论文。当然,今年发表的论文中还有很多其他主题是更令人兴奋、永恒且具有影响力的。

2022 年,保持前三名的成绩显然具有挑战性,因而下面还附了一个扩展列表,列出了我排名前十榜单中的其余七篇论文

一、ConvNeXt

534d6fb679362be199f552e81c78ef78.png

论文链接:https://arxiv.org/pdf/2201.03545.pdf

《A ConvNet  for  the  2020s》这篇论文我愿称之为全年最佳,因为作者们能够设计出一种纯卷积架构,其性能优于诸如 Swin Transformer 等流行的视觉 Transformer(当然,也优于在它之前出现的所有卷积神经网络)。

6343a78cafc4ab3995089b1b3de60c28.png

当卷积神经网络不仅应用于分类,还用于目标检测和实例分割时,这种所提到的 ConvNeXt 架构很可能成为新的默认架构 —— 例如,它可以用作 Mask R-CNN 的骨干网络(backbone)。

正如作者们在论文中所述,他们受到了当前视觉 Transformer 训练机制以及 Swin Transformer 混合架构表明卷积层仍然相关的事实启发。这均是因为纯视觉 Transformer 架构缺乏有用的归纳偏置,例如平移同变性和参数共享(即卷积中的「滑动窗口」)。

为了开发 ConvNeXt,作者们从 ResNet-50 基础架构出发,并采用了从现代 ViT 训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景,这些本来也没什么新奇。然而,新颖之处却在于作者们有效地使用、分析和组合了这些技术。

他们采用了哪些技术?这可以列一个很长的清单,包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm 技术等等,具体的汇总你可以在下图中找到。此外,作者还使用了数据增强技术,如 Mixup、Cutmix 等。

145318dbfbef7542bc5cbb24c05b1914.png

二、MaxViT

尽管随着上述的 ConvNext 出世,卷积神经网络再度受到欢迎,但目前来说 ViT 仍然抢尽风头(并非刻意双关)。

MaxViT:多轴视觉 Transformer 突出显示了近年来视觉 Transformer 的发展。虽然早期的视觉 Transformer 具有二次复杂度,但已经可以通过许多手段来将视觉 Transformer 应用于具有线性缩放复杂度的更大图像中。

d90c004bc46f5fb772ed2c813bfba35a.png

2022 年 9 月发布的 MaxViT,目前是 ImageNet 基准测试中的 SOTA 模型。

在 MaxViT 中,这是通过将注意力块(attention block)分解为具有局部 - 全局交互的两个部分来实现的:

  • 局部注意力(「块注意力」);

  • 全局注意力(「网格注意力」)。

值得一提的是,MaxViT 是一种也具备卷积层特征的卷积 Transformer 混合模型。它可以用于预测建模(包括分类、目标检测和实例分割)以及生成建模。

d57f8c6125da0c30153ad39bba4ed50f.png

顺便提一句,在谷歌学术上搜索「视觉 Transformer」,仅 2022 年就产出了 5000 多个结果。这个结果虽然可能包括误报,但仍可表明人们对于视觉 Transformer 的广泛欢迎程度和感兴趣程度。

fd3bbc2bdd4dcd823cda1352ad039a6e.png

不过不用担心,视觉 Transformer 不会完全取代我们喜爱的卷积神经网络。相反,正如 MaxViT 所强调的,当前的趋势是将视觉 Transformer 和卷积网络一起整合到混合架构中。

三、Stable Diffusion

在 ChatGPT 成为最先进的模型之前,Stable Diffusion 早已在互联网和社交媒体上普及。这个概念其实最早来源于 2021 年 12 月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。

由于这篇论文在 2022 年 CVPR 会议上发表,并在 2022 年 8 月凭借 Stable Diffusion 受到高度关注,我认为将其列入 2022 年的 TOP3 论文名单是公平合理的。

扩散模型是一种概率模型,被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为 T 的固定的马尔可夫链(Markov Chain)的逆过程。

3c599605e600de57305fabb121797917.png

扩散模型的图示。

与使用生成器 (Generator) 和鉴别器 (Discriminator) 之间的极大极小博弈(minimax game)训练的 GAN 不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。

扩散模型已经存在了一段时间,但众所周知,在训练和推理过程中,从中取样仍非常昂贵。上述 2022 年论文的作者提到过,5 天的运行时间仅能采样 50k 张图像。

《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散,而非直接使用原始图像的全分辨率原始像素输入空间。

ac16be3498b5fa0e1a51b92b0384224a.png

上文提到的训练过程可以分为两个阶段:首先,对自编码器进行预处理,将输入图像编码到较低维度的潜在空间中,以降低复杂性。第二,在预训练的自动编码器隐层表征上训练扩散模型。

在潜在空间中进行运算,降低了用于训练和推理的扩散模型的计算成本和复杂性,并可以生成高质量的结果。

本文的另一个贡献是一般条件下的交叉注意力机制( cross-attention mechanism)。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 闻名的原因。

接下来介绍我的排名榜前十论文中后七篇论文的概述

四、《「通才」智能体》(A Generalist Agent)。在本文中,研究人员介绍了 Gato,它能够执行从玩游戏到控制机器人等 600 多种不同任务。

495bd833a32d8dd82599e44f0530ba05.png

论文链接:https://arxiv.org/abs/2205.06175

五、《训练最优计算的大型语言模型》(Training Compute-Optimal Large Language Models)。为了在训练期间实现最优计算,研究人员认为通过相同的因子来缩放模型大小和训练 token 的数量都很有必要。他们创建了一个名为 Chinchilla 的模型,例如,该模型的性能优于 Gopher,可以使用比 Gopher 四分之一的参数输出四倍之多的数据。

803ca806ed43aae2b17e5b6780bc61e9.png

论文链接:https://arxiv.org/abs/2203.15556

六、《PaLM:使用 Pathways 缩放语言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各种 BIG-bench 任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上,它甚至能识别出因果关系。

4ce3b3238550fb02220e7098ca4e6304.png

论文链接:https://arxiv.org/abs/2204.02311

七、《基于大规模弱监督方法的鲁棒语音识别》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介绍了 Whisper 模型,该模型在多语言任务上接受了 68 万小时的训练,并表现出了对各种基准数据集(benchmarks)的鲁棒泛化性。本文介绍的 Whisper 模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础 —— 运用现代开源栈学习深度学习以及深度学习引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。

53fc3eba272342cd5a343d895e070bf6.png

论文链接:https://arxiv.org/abs/2212.04356

八、《再论表格深度学习的预训练目标》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜欢阅读大量有关 Tabular 数据的深度学习论文。但我尤其钟爱这篇论文,因为它强调并提醒我们在附加(通常未标记)数据上进行模型预训练是多么重要。(使用如 XGBoost 等基于树模型无法轻松做到这一点。)

893a11bb1eff3317a1891e578b189031.png

论文链接:https://arxiv.org/abs/2207.03208

九、《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》 (Why do tree-based models still outperform deep learning on tabular data?)。该文的主要收获是基于树的模型(随机森林和 XGBoost)的性能优于在中型数据集(10k 训练示例)上应用表格数据的深度学习方法。但是随着数据集大小的增加(这里:10k → 50k),基于树的模型和深度学习之间的差距变得越来越小。遗憾的是,这篇论文没有包含特别多最先进的深度表格网络,不过它进行了鲁棒性分析和有趣的讨论,绝对值得一读。

69e1854ec497effc5e0b4ccc0435858e.png

论文链接:https://arxiv.org/abs/2207.08815

十、《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型,它也比以前的方法运算更快,同时还保持着同样的准确性。该模型创建了 ESM 宏基因组图谱,是宏基因组蛋白质的第一个大规模结构表征,具有超过 6.17 亿个蛋白质结构。

2b61cc7f67c530c736db685cf2118fba.png

论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3

原文链接:https://magazine.sebastianraschka.com/p/ahead-of-ai-4-a-big-year-for-ai

© THE END 

转载请联系本公众号获得授权

7e1e24a636c7a188493dbe1cbfa01637.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

3818ca696bbc5c147ddf063a9a53d974.jpeg

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

🔗

  • CVPR21最佳检测:不再是方方正正的目标检测输出(附源码)

  • Sparse R-CNN:稀疏框架,端到端的目标检测(附源码)

  • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)

  • 细粒度特征提取和定位用于目标检测(附论文下载)

  • 特别小的目标检测识别(附论文下载)

  • 目标检测 | 基于统计自适应线性回归的目标尺寸预测

  • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)

  • SSD7-FFAM | 对嵌入式友好的目标检测网络,为幼儿园儿童的安全保驾护航

  • 目标检测新方式 | class-agnostic检测器用于目标检测(附论文下载链接)

  • 干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测(致敬袁老)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022年盘点:最值得关注的十篇机器学习论文

来源:机器之心 计算机视觉与机器学习 本文约4000字,建议阅读8分钟 威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大论文。 2022 年 1 月,扩散模型第一次吸引了我的眼球。当时我判断到将会有某些大事发生,然…

pycharm 黄色(黄字)高亮警告 Default argument value is mutable 原因及解决办法(mutable 可变对象与 immutable不可变对象)

示例 解决方案 按照参考文章的意思,classesread_class_names(cfg.YOLO.CLASSES)在函数调用时就会创建对象并赋初始值,如果在函数中修改了classes的值,则函数在下一次调用时,就会不会重新初始化值,而以上一…

平面设计之条幅篇

我的博客,我的原创,希望大家能够喜欢 我不是一个真正的美工,但我在社团组织干的是美工的任务; 我不是一个真正的UI,但我在实验室干的是UI的任务; 我不是一个真正的视频制作者,但我在工作室干的是…

做word计算机海报图片,怎么用word制作海报 海报制作方法

一般情况下我们制作海报肯定是使用专业的工具来做了,像photoshop或CoreldRAW来做,但对于我们来讲有时并不需要这么专业的工具来做,我们可以使用word简单制作出漂亮的海报哦。 1.我们先打开要制作海报的word文档之后我们再点击“页面设置”——…

初识pygame

一.pygame介绍 Pygame是被设计用来写游戏的python模块集合,Pygame免费,开源,使用python可以导入pygame模块,Pygame是极度轻便的并且可以运行在众多平台和操作系统上。Pygame包已经被下载过成千上万次,并且也被访问过成千上万次了。 二.pygame安装方法 1.win +R 键出现运…

Could not install packages due to an EnvironmentError: [WinError 5] pip 更新版本解 ———安装pygame遇到的问题

总结过程: 输入pip install pygame发现红字提示使用--user选项 pip install pygame --user 更新pip版本的话把单引号(内容可能不一样)里的复制下来就好了,如果提示使用--user选项再加就好了 python -m pip install --upgrade …

深入浅出Spring Boot(一) ——创建一个Spring Boot项目

使用Idea创建一个Spring Boot项目 首先点击File->New->Project 然后选择左侧的Spring Initializr,右侧选择自己的jdk版本,点击Next进入下一步 输入Group和Artifact,以及其它信息,点击Next进入下一步 选择Web->Spring …

降本增效工具系列(一):移动端调试利器 vConsole

文章目录 一、前言二、vConsole 简介三、使用方法3.1 引用 JS 文件方式3.2 npm 依赖包方式3.3 第三方插件 四、注意事项五、vConsole 遮挡问题解决六、拓展阅读 一、前言 痛点:移动 web开发时,在手机上,如果是要看控制台信息,都需…

关于Python及库安装的一些问题

三个小问题 Python安装注意事项pip按指示更新后失效管理员身份运行 Python安装注意事项 1)建议在python官网https://www.python.org/下载最新版本(官网默认是下载32-bit,64-bit的下载须自行在Downloads版块选择)根据你的操作系统来,64位的就…

发布坐标转换软件OpenCoord的使用第二集-椭球转换

博主自制软件OpenCoord的使用的第二集,主要内容是椭球转换,布尔沙的三参数、七参数法。 OpenCoord的下载地址为:http://www.xiaokcehui.com/?post93,点击第一行的黄字下载 椭球三参数和七参数坐标转换只适用于椭球小角度转换&am…

Python学习笔记(三)——安装第三方模块

再来回顾一下本次学习的终极目标:根据导入的txt文本生成词云。所以我简单浏览了一下相关的语法,直接开始根据需求 (写) 抄代码 一、git clone 词云项目 打开github搜索关键词 python 词云,克隆了一个项目 作者说需要安…

c语言将26个字母显示在屏幕上,汇编语言在屏幕上输出A-Z26个字母,要求红底,黄字,闪烁...

满意答案 lbdtez5718 2015.11.27 采纳率:52% 等级:12 已帮助:23749人 1234567891011121314151617181920212223242526272829303132333435363738394041在windows的dos窗口中,闪烁未实现 !stack segment stack …

处理七日杀开服EOS错误黄字错误红字错误,开服出现房间无法被搜索的问题

如题,本问题建立在你的服务器已经正常启动的情况下。 如果你的服务器根本做不到正常启动,那么这个方案可能并不适合你。 这里只提供windows端的配套过程,如果你的os是linux,那么需要自行bing一下证书导入方法。 本文默认你的serve…

chatgpt赋能python:Python编程实现九九乘法表教程

Python编程实现九九乘法表教程 作为一种高效、易于入门的编程语言,Python在教育领域和工业界都受到了广泛的应用。本篇文章将向大家介绍如何使用Python编写九九乘法表,帮助读者更加深入地学习Python编程语言。 什么是九九乘法表? 九九乘法…

吴恩达|chatgpt 提示词工程师学习笔记。

目录 一、提示指南 写提示词的2大原则: 模型的限制 二、迭代 三、总结 四、推断 五、转换 六、扩展 七、对话机器人 吴恩达和openai团队共同开发了一款免费的课程,课程是教大家如何更有效地使用prompt来调用chatgpt,整个课程时长1个…

摩尔线程宣布完成15亿B轮融资 中移数字新经济产业基金领投

雷递网 乐天 12月27日 摩尔线程今日宣布完成15亿元B轮融资,并已完成交割。本轮融资由中移数字新经济产业基金、和谐健康保险领投,典实资本跟投。 摩尔线程称,融资资金将持续用于摩尔线程多功能GPU的快速迭代,MUSA架构创新及相关IP…

基于C语言的学生试卷分数统计程序设计及实现

📃 基于C语言的学生试卷分数统计程序设计及实现 🧈 前言 ​ 最近有个朋友找我帮做C语言作业,话不多说,直接上代码,一定注意看清要求是否差不多。 🥪 程序要求 程序运行时,首先必须接收总评成绩的…

2023年03月机器人技术等级考试试卷(三级理论) 试题解析

【单选题】(每题4分) 1、Arduino UNO/Nano主控板,电位器连接到A0引脚,下图程序运行时,变量potVal值的范围是?( ) A、0~1 B、0~255 C、0~1023 D、255~1023 正确答案:…

一文整理GPT-3 + RL 全流程训练开源项目

来自:AI算法小喵 公众号 进NLP群—>加入NLP交流群 写在前面 最近正好在关注ChatGPT,所以对目前开源的包括ChatGPT全流程训练代码的项目做了一个整理。文章包括三部分内容: ChatGPT 开源项目汇总表格介绍 ChatGPT 训练的思路介绍每一个开源…