发一个合集 总结一些2022年的 一些论文
视觉 Transformer(ViT)学习什么?
论文链接:https://arxiv.org/pdf/2212.06727.pdf
关于视觉的探索显示,ViT 学习的归纳偏置或特征与卷积神经网络(CNN)学习的那些相似。例如,ViT 的 early layers 捕捉边缘和纹理,而 later layers 学习更复杂的表征以捕捉更广泛的概念。
视觉 Transformer 从 early layers(左)到 deeper layers(右)的可视化特征过程。
关于生成建模,ViT 倾向于生成比 CNN 更高质量的背景,这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时,ViT 似乎比 CNN 更善于预测目标类别,并且在前景被消除时它们也依然表现得更好。这表明,ViT 在依赖基于其存在的某些特征时可能更具选择性,或者说,总体更为鲁棒。
一种生成蛋白质的扩散模型
论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1
在图像生成领域,扩散模型已经带来了突破性的性能,那么生成蛋白质结构呢?研究人员开发了一种新的蛋白质合成扩散模型,称为 RoseTTAFold Diffusion(RFDiffusion),这种蛋白质是从零开始创造的,而非来自于自然界中早已存在的蛋白质。
区分 de novo 蛋白质(在实验室中使用没有进化历史的氨基酸序列合成)与诸如 AlphaFold、 AlphaFold2 等系统(使用现有氨基酸序列数据预测蛋白质 3D 结构)十分重要。但值得注意的是,AlphaFold2 曾被用于验证 RDiffusion 研究的结果。
然后再谈谈最近的行业趋势。今天,在产业中实际使用的技术是什么?根据麦肯锡最近的 AI 全景报告 —— 并不是大型语言模型(Transformer)。特别说明,由于样本规模和代表性的限制,该报告中的调查结果可能无法准确反映所有公司的经验。
图源:麦肯锡 2022 年全景报告。
自然语言处理在行业内一直受到追捧,但其受欢迎程度经常被计算机视觉应用超越。但现在,我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起。
与此同时,自然语言文本理解(可能指文本分类)的受欢迎程度几乎是自然语言「生成」的两倍。请注意,自然语言生成的新闻通常会占据热点首页:如 GPT-3、Galactica、ChatGPT 等。(文本理解可能包括摘要,摘要也是「生成」的,所以我假设它在这里主要指的是类似分类的任务。那么反过来说,类别(categories)也是可以重叠的。)
值得注意的是,Transformer 的排名垫底。
似乎许多公司尚未采用类似 BERT 的语言模型编码器来进行文本理解和分类。相反,他们可能仍在使用基于词袋模型( bag-of-word-based)的分类器或递归神经网络。同样,类似 GPT 的模型解码器似乎还没有广泛应用于语言生成,因而文本生成可能仍严重依赖循环神经网络和其他传统方法。
基于下图,我发现了一些有趣的其他见解:
图源:2022 年麦肯锡 AI 全景报告。
-
能够利用「小数据」非常重要。当数据不可用时,生成合成数据的能力非常有用。
-
尽快将数据集成到 AI 模型中的能力是在竞争中脱颖而出的关键。那么,良好的软件框架和基础设备设置可能起到举足轻重的作用。
-
不幸的是,大多数高绩效公司迄今仍不关心模型的可解释性。
ConvNeXt
论文链接:https://arxiv.org/pdf/2201.03545.pdf
《A ConvNet for the 2020s》《A ConvNet for the 2020s》这篇论文我愿称之为全年最佳,因为作者们能够设计出一种纯卷积架构,其性能优于诸如 Swin Transformer 等流行的视觉 Transformer(当然,也优于在它之前出现的所有卷积神经网络)。
当卷积神经网络不仅应用于分类,还用于目标检测和实例分割时,这种所提到的 ConvNeXt 架构很可能成为新的默认架构 —— 例如,它可以用作 Mask R-CNN 的骨干网络(backbone)。
正如作者们在论文中所述,他们受到了当前视觉 Transformer 训练机制以及 Swin Transformer 混合架构表明卷积层仍然相关的事实启发。这均是因为纯视觉 Transformer 架构缺乏有用的归纳偏置,例如平移同变性和参数共享(即卷积中的「滑动窗口」)。
为了开发 ConvNeXt,作者们从 ResNet-50 基础架构出发,并采用了从现代 ViT 训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景,这些本来也没什么新奇。然而,新颖之处却在于作者们有效地使用、分析和组合了这些技术。
他们采用了哪些技术?这可以列一个很长的清单,包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm 技术等等,具体的汇总你可以在下图中找到。此外,作者还使用了数据增强技术,如 Mixup、Cutmix 等。
MaxViT
尽管随着上述的 ConvNext 出世,卷积神经网络再度受到欢迎,但目前来说 ViT 仍然抢尽风头(并非刻意双关)。
MaxViT:多轴视觉 Transformer 突出显示了近年来视觉 Transformer 的发展。虽然早期的视觉 Transformer 具有二次复杂度,但已经可以通过许多手段来将视觉 Transformer 应用于具有线性缩放复杂度的更大图像中。
2022 年 9 月发布的 MaxViT,目前是 ImageNet 基准测试中的 SOTA 模型。
在 MaxViT 中,这是通过将注意力块(attention block)分解为具有局部 - 全局交互的两个部分来实现的:
-
局部注意力(「块注意力」);
-
全局注意力(「网格注意力」)。
值得一提的是,MaxViT 是一种也具备卷积层特征的卷积 Transformer 混合模型。它可以用于预测建模(包括分类、目标检测和实例分割)以及生成建模。
顺便提一句,在谷歌学术上搜索「视觉 Transformer」,仅 2022 年就产出了 5000 多个结果。这个结果虽然可能包括误报,但仍可表明人们对于视觉 Transformer 的广泛欢迎程度和感兴趣程度。
不过不用担心,视觉 Transformer 不会完全取代我们喜爱的卷积神经网络。相反,正如 MaxViT 所强调的,当前的趋势是将视觉 Transformer 和卷积网络一起整合到混合架构中。
Stable Diffusion
在 ChatGPT 成为最先进的模型之前,Stable Diffusion 早已在互联网和社交媒体上普及。这个概念其实最早来源于 2021 年 12 月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。
由于这篇论文在 2022 年 CVPR 会议上发表,并在 2022 年 8 月凭借 Stable Diffusion 受到高度关注,我认为将其列入 2022 年的 TOP3 论文名单是公平合理的。
扩散模型是一种概率模型,被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为 T 的固定的马尔可夫链(Markov Chain)的逆过程。
扩散模型的图示。
与使用生成器 (Generator) 和鉴别器 (Discriminator) 之间的极大极小博弈(minimax game)训练的 GAN 不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。
扩散模型已经存在了一段时间,但众所周知,在训练和推理过程中,从中取样仍非常昂贵。上述 2022 年论文的作者提到过,5 天的运行时间仅能采样 50k 张图像。
《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散,而非直接使用原始图像的全分辨率原始像素输入空间。
上文提到的训练过程可以分为两个阶段:首先,对自编码器进行预处理,将输入图像编码到较低维度的潜在空间中,以降低复杂性。第二,在预训练的自动编码器隐层表征上训练扩散模型。
在潜在空间中进行运算,降低了用于训练和推理的扩散模型的计算成本和复杂性,并可以生成高质量的结果。
本文的另一个贡献是一般条件下的交叉注意力机制( cross-attention mechanism)。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 闻名的原因。
《「通才」智能体》(A Generalist Agent) 。在本文中,研究人员介绍了 Gato,它能够执行从玩游戏到控制机器人等 600 多种不同任务。
论文链接:https://arxiv.org/abs/2205.06175
《训练最优计算的大型语言模型》(Training Compute-Optimal Large Language Models)。为了在训练期间实现最优计算,研究人员认为通过相同的因子来缩放模型大小和训练 token 的数量都很有必要。他们创建了一个名为 Chinchilla 的模型,例如,该模型的性能优于 Gopher,可以使用比 Gopher 四分之一的参数输出四倍之多的数据。
论文链接:https://arxiv.org/abs/2203.15556
《PaLM:使用 Pathways 缩放语言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各种 BIG-bench 任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上,它甚至能识别出因果关系。
论文链接:https://arxiv.org/abs/2204.02311
《基于大规模弱监督方法的鲁棒语音识别》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介绍了 Whisper 模型,该模型在多语言任务上接受了 68 万小时的训练,并表现出了对各种基准数据集(benchmarks)的鲁棒泛化性。本文介绍的 Whisper 模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础 —— 运用现代开源栈学习深度学习以及深度学习引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。
论文链接:https://arxiv.org/abs/2212.04356
《再论表格深度学习的预训练目标》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜欢阅读大量有关 Tabular 数据的深度学习论文。但我尤其钟爱这篇论文,因为它强调并提醒我们在附加(通常未标记)数据上进行模型预训练是多么重要。(使用如 XGBoost 等基于树模型无法轻松做到这一点。)
论文链接:https://arxiv.org/abs/2207.03208
《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》 (
Why do tree-based models still outperform deep learning on tabular data?)。该文的主要收获是基于树的模型(随机森林和 XGBoost)的性能优于在中型数据集(10k 训练示例)上应用表格数据的深度学习方法。但是随着数据集大小的增加(这里:10k → 50k),基于树的模型和深度学习之间的差距变得越来越小。遗憾的是,这篇论文没有包含特别多最先进的深度表格网络,不过它进行了鲁棒性分析和有趣的讨论,绝对值得一读。
论文链接:https://arxiv.org/abs/2207.08815
《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型,它也比以前的方法运算更快,同时还保持着同样的准确性。该模型创建了 ESM 宏基因组图谱,是宏基因组蛋白质的第一个大规模结构表征,具有超过 6.17 亿个蛋白质结构。
论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3
One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
-
作者:Yiming Zhu 、 Hongyu Liu 等
-
论文地址:https://arxiv.org/pdf/2210.07883.pdf
摘要:本文首先利用已有的编码器将需要编辑的图像转换到 StyleGAN 的 W^+ 语义空间中的潜在编码 w,再通过提出的语义调制模块对该隐编码进行自适应的调制。该语义调制模块包括语义对齐和语义注入模块,首先通过注意力机制对齐文本编码和 GAN 的隐编码之间的语义,再将文本信息注入到对齐后的隐编码中,从而保证该隐编码拥有文本信息从而达到利用文本编辑图像能力。
不同于经典的 StyleCLIP 模型,我们的模型无需对每个文本单独训练一个模型,一个模型就可以响应多个文本从而对图像做有效的编辑,所以我们的模型成为 FFCLIP-Free Form Text-Driven Image Manipulation。同时我们的模型在经典的教堂,人脸以及汽车数据集上都取得了非常不错的效果。
图 1:整体框架图
推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。
Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources
-
作者:Mayuran Saravanapavanantham、Jeremiah Mwaura 等
-
论文地址:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202200940
摘要:麻省理工学院的研究人员已经开发出一种可扩展的制造技术,可以生产超薄、轻质的太阳能电池,这种电池可以铺设在任何表面上。
MIT 的研究人员制造出了比人类头发还薄的太阳能电池板,该电池板每公斤提供的能量是目前玻璃和硅基太阳能电池板的 18 倍。这些太阳能电池板的重量只有传统光电电池的百分之一。
这种超薄太阳能板也可以安装到船帆、无人机机翼和帐篷上。它们在偏远地区和救灾行动中尤其有用。
推荐:MIT 造出薄如纸的太阳能电池板。
A Survey of Deep Learning for Mathematical Reasoning
-
作者:Pan Lu、 Liang Qiu 等
-
论文地址:https://arxiv.org/pdf/2212.10535.pdf
摘要:在近期发布的一篇报告中,来自 UCLA 等机构的研究者系统回顾了深度学习在数学推理方面的进展。
具体而言,本文讨论了各种任务和数据集(第 2 节),并研究了神经网络(第 3 节)和预训练语言模型(第 4 节)在数学领域的进展。此外还探讨了大型语言模型的上下文学习在数学推理中的快速发展(第 5 节)。文章进一步分析了现有的基准,发现对多模态和低资源环境的关注较少(第 6.1 节)。基于循证的研究表明,目前的计算能力表征是不充分的,深度学习方法在数学推理方面也是不一致的(第 6.2 节)。随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。
推荐:深度学习如何慢慢推开数学推理的门。
Muse: Text-To-Image Generation via Masked Generative Transformers
-
作者:Huiwen Chang 、 Han Zhang 等
-
论文地址:https://arxiv.org/pdf/2301.00704v1.pdf
摘要:该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。
与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。
基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。
模型体系架构概述。
推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。
Positive-Incentive Noise
-
作者:李学龙
-
论文地址:https://ieeexplore.ieee.org/document/10003114
摘要:在各式各样的科学研究的方方面面中,噪声大量存在,如仪器精度不足导致的仪器误差、人为操作中的失误导致的偏差、极端环境等外界干扰导致的信息失真等。研究者普遍认为噪声通常会对执行的任务产生不良影响,这已成为一个约定俗成的假设。因此,围绕着 “降噪” 这一核心任务产生了大量的研究工作。然而,西北工业大学李学龙教授团队在执行信号探测和处理任务时通过实验观察验证,对这一假设产生了质疑:科学研究中的噪声真的总是有害的吗?
恰如图 1 所示,在一个图像智能分类系统中,对图像加入适量的噪声后再训练,识别准确率反而上升了。这给我们带来一点启发:图像中加入一些噪声,而不是去除,再执行图像分类任务,可能效果会更好。只要噪声对目标的影响远小于噪声对背景的影响,产生 “伤敌(背景噪声)一千,自(目标信号)损八百” 的效果就有意义,因为任务追求的是高信噪比。从本质上来说,面对传统分类问题,在特征后随机加上适度的噪声,相当于升高了特征维度,某种意义上说,类似是给特征增加了一个核函数,实际上完成了一种低维空间到高维空间的映射,使数据更可分,从而提高了分类效果。
图 1 图像识别准确率随图像噪声强度的增大而 “反直觉” 地呈现出 “先增后减” 的关系。
推荐:西工大李学龙教授提出基于任务熵的数学分析框架。
ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo
-
作者:Biwen Lei 、 Xiefan Guo 等
-
论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf
摘要:来自达摩院的研究者以实现专业级的智能美肤为出发点,研发了一套高清图像的超精细局部修图算法 ABPN,在超清图像中的美肤与服饰去皱任务中都实现了很好的效果与应用。
如上图所示,网络结构主要由两个部分组成:上下文感知的局部修饰层(LRL)和自适应混合金字塔层(BPL)。其中 LRL 的目的是对降采样后的低分辨率图像进行局部修饰,生成低分辨率的修饰结果图,充分考虑全局的上下文信息以及局部的纹理信息。进一步,BPL 用于将 LRL 中生成的低分辨率结果逐步向上拓展到高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合图层 Bi,可实现原图与结果图之间的自适应转换以及向上拓展,展现了强大的可拓展性和细节保真能力。我们在脸部修饰及服饰修饰两个数据集中进行了大量实验,结果表明我们的方法在效果和效率上都大幅度地领先了现有方法。值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。
推荐:一键抹去瑕疵、褶皱。
Image-and-Language Understanding from Pixels Only
-
作者:Michael Tschannen、Basil Mustafa 等
-
论文地址:https://arxiv.org/pdf/2212.08045.pdf
摘要:开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。
本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。该模型仅用一个任务训练:对比学习,正如 CLIP 和 ALIGN 所推广的那样。因此模型被称作 CLIP-Pixels Only(CLIPPO)。
推荐:参数减半、与 CLIP 一样好,视觉 Transformer 从像素入手实现图像文本统一。
whaosoft aiot http://143ai.com